Comment les cybercriminels exploitent le Machine Learning

  Posted On   By Fabrice LE PAGE   Cybersécurité pour les entreprises

Peu importe la discipline à laquelle on s’intéresse au sein de l’univers de la cybersécurité, le Machine Learning et l’Intelligence Artificielle (IA) changent la façon dont les données de sécurité sont analysées, les outils de sécurité déployés et les menaces identifiées. Il existe des différences entre le « langage machine » et l’intelligence artificielle, mais beaucoup utilisent ces termes indifféremment, si bien que les différences entre eux s’estompent dans l’esprit de beaucoup.

Il existe de nombreuses façons dont le Machine Learning promet d’améliorer la sécurité, notamment à l’aide des outils d’analyse apportés par les solutions de SIEM, l’analyse des logiciels malveillants, les renseignements sur les menaces, etc. Mais tout ce qui peut être utilisé pour aider les « défenseurs » peut aussi être exploiter pour les attaquer. Et c’est là l’une des problématiques des nouvelles technologies : elles sont utilisées de différentes manières et à différentes fins.

Essentiellement, le Machine Learning, ou apprentissage machine/apprentissage automatique, est la reconnaissance de modèles et la « théorie de l’apprentissage », qui permettent aux systèmes d’apprendre par eux-mêmes, comme la capacité de déterminer des tendances dans les données que les humains ont du mal à analyser, de fournir des analyses prédictives ou de détecter des malwares à partir d’activités précédemment non identifiées. Le blog du Carnegie Mellon University Software Engineering Institute, Machine Learning in Cybersecurity, donne un excellent aperçu du fonctionnement du Machine Learning dans l’univers de la cybersécurité.

Le processus est le même que pour la plupart des analyses de données et nécessite la collecte d’informations, le nettoyage, la construction de modèles, la validation, le déploiement et la surveillance du système de Machine Learning.

Le Machine Learning prend de l’importance dans toutes les disciplines. Mark Hurd, PDG d’Oracle, a récemment déclaré : “Je ne pense pas que l’IA deviendra une chose, je pense que l’IA deviendra une fonctionnalité intégrée dans tout, ce qui la rend stratégiquement très différente”.

Mark Hurd a jouté que 90% de toutes les applications d’entreprise seraient dotées de capacités d’IA d’ici 2020. Dans le même temps, plus de 50 % des données d’entreprise seraient gérées de manière autonome.

Assurément, les applications de sécurité de Machine Learning ne seront pas différentes. Mais les progrès du Machine Learning ne bénéficieront pas uniquement aux entreprises qui s’efforcent de se protéger – en effet, les cybercriminels exploiteront aussi ces outils :

Amélioration du footprinting. Les attaquants exploiteront des outils de Machine Learning pour améliorer la reconnaissance de leurs cibles potentielles. Généralement, lorsque des attaquants réalisent du footprinting, ils recueillent de l’information sur les systèmes informatiques et les personnes de l’entreprise ciblée. Ils utiliseront des outils tels que Nmap ou NeoTrace et réaliseront des scans de ports via des robots d’indexation. Les « meilleurs » d’entre eux essaieront aussi d’en apprendre plus sur les employés grâce aux médias sociaux comme LinkedIn et Facebook. Ce type de tâches prend beaucoup de temps et exige des efforts considérables afin de dresser un plan d’attaque. Le Machine Learning sera en mesure de recueillir ces informations, d’identifier des faiblesses, des tendances et des éléments clés parmi le personnel et d’aider les cybercriminels à planifier des attaques beaucoup plus rapidement qu’avec des méthodes manuelles traditionnelles.

Machine Learning vs. Machine Learning.  Les systèmes de Machine Learning apprennent avec des données d’entrainement, ce qui n’est pas gage de réussite. Un attaquant peut altérer les données d’un système de Machine Learning afin de les rendre inutilisables et affaiblir les modèles au point que l’analyse n’est plus fiable. Si vous êtes intéressé par ce sujet en particulier, nous vous recommandons l’article BadNets : Identifying Vulnerabilities in the Machine Learning Model Supply Chain, qui couvre comment l’externalisation de l’entrainement des modèles de Machine Learning, ou l’achat de ces modèles à partir de « model zoos » en ligne, et qui explique comment les réseaux neuronaux entrainés de façon malicieuses contiennent des backdoors.

Amélioration des malwares. Les attaquants ayant accès à des systèmes de Machine Learning peuvent utiliser le processus d’écriture des malwares et l’associer à des outils d’automatisation. Ils seront ainsi mieux à même de contourner les outils de protection et potentiellement, si le système a accès à un modèle de Machine Learning centralisé, le malware pourra récupérer des données en temps réel sur l’environnement et être codé et modifié en temps quasi réel jusqu’à ce qu’il trouve un moyen de contourner la sécurité. Bien entendu, les systèmes défensifs de Machine Learning sont mis à jour régulièrement mais il s’agit d’une « course à l’armement » et la bataille des modèles de Machine Learning ne sera malheureusement pas toujours gagnée par les défenseurs.

Cassage d’algorithmes. Les cybercriminels peuvent aussi attaquer directement les systèmes de Machine Learning, ce qui peut inclure l’altération des données d’entraînement fournies à l’algorithme de Machine Learning – ce qui rend son analyse sans valeur (GIGO – garbage in, garbage out). Les attaquants peuvent aussi potentiellement alimenter en mauvaises données un système de Machine Learning en production, de sorte que ses prédictions deviennent inutiles. Voici à ce sujet un très bon article sur les défenses potentielles du Machine Learning.

Est-ce que cela signifie que le Machine Learning ne sera pas utile aux professionnels de la sécurité et aux entreprises qu’ils essaient de protéger ? Certainement pas. En fait, cela signifie au contraire que les défenseurs auront plus que jamais besoin de modèles de Machine Learning s’ils espèrent pouvoir faire face aux cyberattaques. Le Machine Learning s’étend à de nombreux domaines d’intérêt pour les défenseurs, dont la protection contre les malwares et la défense des infrastructures IT, notamment pour protéger contre les menaces internes et améliorer la sécurisation des codes.

Quel que soit votre avis aujourd’hui sur le Machine Learning, que l’on s’intéresse à l’analyse statistique en mode big data ou de la réalité, le fait est que tôt ou tard, l’utilisation du Machine Learning sera un enjeu majeur, s’il ne l’est pas déjà.