Utilisation de l'analyse des vulnérabilités informatiques (CTI) pour prédire l'exploitabilité des vulnérabilités

le 30 avril 2024
Fond bleu dégradé. Un ovale orange clair contient le texte blanc « BLOG ». En dessous, on peut lire en blanc : « Utiliser CTI pour prédire les vulnérabilités », accompagné d’une flèche orange clair pointant vers le bas.

Dans un monde où l'analyse des données est de plus en plus performante, les chercheurs en sécurité continuent de développer de nouvelles applications pour l'intelligence artificielle (IA) et l'apprentissage automatique (AA). En matière de sécurité, l'analyse prédictive permet de mieux comprendre comment une entreprise doit prioriser ses activités. Face à la multiplication quotidienne des vulnérabilités détectées, les équipes de gestion des vulnérabilités sont submergées et incapables de corriger l'ensemble des failles simultanément. 

En prédisant les vulnérabilités que les acteurs malveillants sont les plus susceptibles d'exploiter, les équipes de sécurité peuvent prioriser leurs actions correctives et se concentrer sur les vulnérabilités potentiellement les plus critiques. À mesure que les chercheurs perfectionnent l'utilisation de l'analyse prédictive, ils comblent les lacunes laissées par leurs prédécesseurs. 

Dans « Threat Class Predictor : un cadre explicable pour prédire les menaces de vulnérabilité à l'aide de la modélisation des sujets et des tendances », François Labrèche et Serge-Olivier Paquette entraînent un modèle de traitement du langage naturel (NLP) sur un ensemble de données robuste, puis exploitent les médias sociaux du web clair et du dark web pour prédire l'exploitabilité. 

Les chercheurs ont utilisé l'API de Flare pour observer les activités cybercriminelles sur le web classique et le dark web dans le cadre de leurs recherches. 

Continuez à lire pour les faits saillants et assurez-vous de lire Prédicteur de classes de menaces : un cadre explicable pour la prédiction des menaces de vulnérabilité à l’aide de la modélisation thématique et de tendance pour en savoir plus sur la recherche.

Limites des recherches précédentes : déséquilibre des classes et manque d’interprétabilité

Des chercheurs ont tenté de prédire les vulnérabilités que les acteurs malveillants sont susceptibles d'exploiter au fil des ans. Voici quelques exemples de ces recherches :

  • Utilisation de réseaux neuronaux entraînés sur la base de données nationale des vulnérabilités (NVD) et les données de la base de données d'exploitation
  • Combiner les modèles de traitement automatique du langage naturel avec les publications Twitter
  • Analyse des listes de spam et des activités de correction afin de déterminer si celles-ci ont permis de répondre adéquatement aux exploitations de vulnérabilités réelles.

Bien qu'utiles, la plupart des recherches précédentes présentaient des problèmes avec leurs ensembles de données qui ont conduit à un déséquilibre des classes (défini comme une distribution inégale des classes, ce qui peut entraîner un biais dans le modèle), compromettant finalement la validité et la praticité des modèles analytiques. 

Pour comprendre le déséquilibre des classes, on peut considérer les ensembles de données utilisés comme un tableau. Dans le graphique ci-dessous, les chercheurs hypothétiques ont construit un modèle basé sur la réponse à la saturation des couleurs :

CouleurSaturationPartitions
BleuLégerBon
RoseMoyenneMédiocre
VertSombreExcellent
VioletMoyenneMédiocre
JauneMoyenneMédiocre

Dans la colonne « Scores », les réponses « Mauvais » sont largement majoritaires par rapport aux réponses « Bon » ou « Excellent ». En analyse de données, on parle alors d’un « ensemble de données déséquilibré », car un type de résultat est largement surreprésenté. 

Dans ce cas, la taille de l'ensemble de données doit être ajustée. Dans le graphique ci-dessus, l'ensemble de données ne comporte pas suffisamment de classes « Bon » et « Excellent ». De plus, il ne contient qu'un seul point de données pour la saturation claire et un seul pour la saturation foncée. Les chercheurs pourraient ajuster leur ensemble de données en y ajoutant une plus grande variété de points de données, comme le vert clair ou le bleu foncé. 

En réponse au déséquilibre des classes des recherches précédentes, les travaux de Labrèche et Paquette ont combiné un modèle d'analyse NLP avec un ensemble de données élargi qui inclut non seulement des bases de données d'exploits divulguées publiquement, mais aussi d'autres sources telles que Github, ClamAV, PacketStorm et les flux de renseignements sur les menaces. 

Construction d'un nouveau modèle prédictif

Le modèle d'analyse prédictive de Labrèche et Paquette est plus fiable et interprétable que les modèles précédents pour plusieurs raisons. 

Données étendues sur les menaces

À l'instar des recherches précédentes, Labrèche et Paquette ont entraîné leur système de traitement automatique du langage naturel (TALN) avec les données de la base de données NVD, en utilisant les descriptions de 152 585 vulnérabilités publiées entre le 1er janvier 2008 et le 1er août 2022. Les chercheurs ont ensuite intégré toutes ces descriptions dans un modèle thématique fonctionnant comme un générateur de nuages ​​de mots. Ce modèle a permis de dégager les groupes de mots les plus pertinents utilisés pour décrire les vulnérabilités, aboutissant à 30 types de vulnérabilités de base, dont six sont présentés ci-dessous. 

Après avoir établi ces trente types de vulnérabilités, ils ont procédé à l'identification des fonctionnalités auxiliaires associées en analysant :

  • La longueur de la description
  • Le nombre de références disponibles pour la vulnérabilité au moment de la publication,
  • Le nombre de configurations logicielles affectées par cette vulnérabilité
  • Le score CVSSv2
  • Les métriques CVSSv2

Cet ensemble de données élargi sur les vulnérabilités leur a permis de construire un modèle de prédiction des classes de menaces robuste.

Renseignement en sources ouvertes étendu (OSINT) : données du Dark Web

Les recherches antérieures se sont concentrées sur deux méthodes d'identification des exploits des acteurs malveillants. Les chercheurs ont utilisé des bases de données d'exploits pour identifier les vulnérabilités exploitées par les acteurs malveillants existants et l'API Twitter pour collecter facilement les conversations réelles concernant ces exploits. Cependant, les bases de données d'exploits ne fournissaient de visibilité que sur les logiciels malveillants déjà disponibles, et ne permettaient donc pas d'obtenir des données en temps réel. Si les tweets offraient cette information en temps réel, ils ciblaient principalement les chercheurs en sécurité plutôt que les acteurs malveillants.

Pour enrichir leur ensemble de données de discussions en ligne en temps réel, Labrèche et Paquette ont ajouté une importante source OSINT : l’API Flare. Cette API leur a permis d’explorer 90 forums du web classique et du dark web, parmi lesquels :

  • Exploiter.dans
  • xss.is 
  • pédiy 
  • annulé.à 
  • Forums Raid

Sur le web classique et le dark web, Labrèche et Paquette ont recherché les mentions de vulnérabilités et d'expositions communes (CVE) allant de CVE-2013 à CVE-2022. Sur Twitter, l'équipe a suivi les hashtags suivants, seuls et par paires :

  • #infosec 
  • #vulnérabilité 
  • #infosec 
  • #exploiter

De ces recherches, ils ont identifié les éléments suivants :

  • 13 114 messages sur les forums du dark web
  • 36 598 publications sur Reddit
  • Tweets 512,347

Labrèche et Paquette ont appliqué leur modèle NLP aux données OSINT collectées, ce qui leur a permis d'identifier les vulnérabilités dont discutaient la communauté de la sécurité de l'information et les acteurs de la menace, créant ainsi un modèle qui prédit les schémas de communication associés à la divulgation des vulnérabilités. 

Combiner les aspects techniques et humains pour une meilleure analyse prédictive

En analysant les discussions en ligne combinées aux données de vulnérabilité, le modèle de Labrèche et Paquette pouvait prédire les vulnérabilités que les attaquants étaient les plus susceptibles d'exploiter et celles que les analystes étaient les plus susceptibles de négliger. 

Les chercheurs ont analysé deux types de menaces : la publication d’exploits et l’inclusion de logiciels malveillants. Bien que certaines vulnérabilités se recoupent, ils ont pu isoler celles propres à chacune. 

Exploit Publication

Pour prédire si des acteurs malveillants exploiteraient une vulnérabilité, le modèle analytique a constaté que la combinaison de discussions et de caractéristiques techniques incluait :

  • Injections de paramètres, de plugins et de SQL
  • Vulnérabilités de Google et d'OAuth
  • Vulnérabilités Cross-Site Scripting (XSS)
  • vulnérabilités de type déni de service (DoS)
  • Vulnérabilités Web
  • Vulnérabilités centrées sur les attaques réseau

Étant donné que ces exploits visent à obtenir un accès non autorisé à des applications Web, les faiblesses du code et du Web, comme les vulnérabilités d'injection de commandes, sont logiques. 

Inclusion de logiciels malveillants

Par ailleurs, lorsqu'il s'agissait de prédire si des attaquants exploiteraient une vulnérabilité de leur logiciel malveillant, les principales caractéristiques étaient les suivantes :

  • Vulnérabilités, notamment l'utilisation de descripteurs Windows
  • vulnérabilités des fichiers PDF
  • vulnérabilités liées aux dépassements de mémoire (heap et buffer)

Étant donné que les logiciels malveillants s'installent généralement sur les appareils, les vulnérabilités liées aux appareils et aux logiciels sont pertinentes dans ce cas. 

Les modèles prédictifs de score de menace permettent de prioriser les mesures correctives

Au moment de la publication, les modèles prédictifs de Labrèche et Paquettte avaient correctement identifié que les attaquants publieraient des exploits les utilisant :

  • CVE-2022-34265 
  • CVE-2022-34918 
  • CVE-2022-31795

De plus, leurs modèles ont correctement identifié que les vulnérabilités suivantes seraient exploitées dans les logiciels malveillants :

  • CVE-2022-22047

En intégrant les données des forums du dark web à l'évaluation des menaces, les modèles prédictifs gagnent en précision et en pertinence contextuelle. Grâce aux données relatives aux vulnérabilités qui intéressent les acteurs malveillants, ces modèles peuvent combiner la dimension humaine de l'attaquant et la dimension technique de l'attaque. En enrichissant ces modèles de données prédictifs par la surveillance du dark web, les chercheurs en sécurité peuvent explorer une ou plusieurs vulnérabilités susceptibles d'être exploitées lors d'attaques réelles, et qui passeraient autrement inaperçues auprès de la communauté de la sécurité informatique. 

CTI et Flare

La fusée Gestion de l'exposition aux menaces (TEM) La solution permet aux organisations de détecter, hiérarchiser et atténuer de manière proactive les types d’expositions couramment exploitées par les acteurs de la menace. Notre plateforme analyse automatiquement le Clear & Dark Web et les canaux Telegram illicites 24h/7 et XNUMXj/XNUMX pour découvrir des événements inconnus, hiérarchiser les risques et fournir des informations exploitables que vous pouvez utiliser instantanément pour améliorer la sécurité.

Flare s'intègre à votre programme de sécurité en 30 minutes et remplace souvent plusieurs outils SaaS et open source. Apprenez-en davantage en vous inscrivant à notre essai gratuit.

Partager l'article

Publications connexes

Tout voir
06.04.2026

L'économie souterraine du streaming illégal de la Coupe du Monde de la FIFA 2026

06.03.2026

Un voleur d'informations KeyCat démasqué : au cœur d'un système de vol d'informations multiplateforme à 40 $ utilisant Telegram C2 et une infrastructure de test active

06.02.2026

Les dossiers de vos patients valent bien plus que leurs numéros de compte bancaire.