La croissance rapide d'Internet et des médias sociaux a entraîné une augmentation de la taille du trafic Internet et de la complexité de l'analyse du comportement du trafic, en particulier dans les réseaux à grande échelle tels que les plateformes de médias sociaux. Les méthodologies traditionnelles basées sur des règles sont remplacées par des approches automatisées basées sur l'apprentissage automatique, grâce à la disponibilité de grands ensembles de données qui permettent d'utiliser des modèles d'IA très performants. Cet ouvrage passe en revue les recherches récentes sur l'analyse du cybertrafic sur les réseaux sociaux et l'internet, en se concentrant sur les concepts de similarité, de corrélation et d'indication collective, et en soulignant l'importance des objectifs de sécurité dans la classification des hôtes, des applications, des utilisateurs et des tweets du réseau. Pour relever ces défis, ce document présente une nouvelle méthodologie de recherche appelée cybersécurité pilotée par les données (DDCS) et son application à l'analyse du trafic social et Internet. La méthodologie DDCS se compose de trois éléments principaux : le traitement des données de cybersécurité, l'ingénierie des caractéristiques de cybersécurité et la modélisation de la cybersécurité.