Machine learning et cybersécurité : un destin commun
L’apprentissage automatique, ou machine learning (ML), a aujourd’hui investi la quasi-totalité des domaines de l’informatique. Si son usage dans le Big Data aide les entreprises à interpréter des masses de données, à faire des prévisions et à améliorer leurs performances et processus, le ML joue également un rôle inestimable dans d’autres domaines tels que la cybersécurité. Cet article vous invite à découvrir pourquoi le ML s’est imposé dans la sécurité des réseaux et des systèmes IT, à identifier les principaux enjeux de son implémentation et à jeter un regard prospectif sur son avenir dans la cybersécurité.
Machine learning : une arme devenue indispensable dans l’arsenal défensif
Le déploiement d’une solution de machine learning se justifie par la nécessité de réduire la complexité. Aujourd’hui, les entreprises possèdent un nombre croissant d’ objets connectés (IoT) inconnus ou non gérés par le département informatique. De même, l’essor du multicloud, des environnements hybrides et du télétravail signifie qu’une bonne partie des données et des applications s’exécutent désormais hors du périmètre traditionnel de l’entreprise
Il n’y a pas si longtemps, les organisations pouvaient encore s’appuyer sur des signatures pour détecter les malwares, des règles de pare-feu statiques pour protéger le trafic réseau et des listes de contrôle d’accès (ACL) pour définir les politiques de sécurité. Mais à l’heure où le nombre d’équipements et de sites à protéger n’a jamais été aussi élevé, les méthodes traditionnelles sont devenues inadaptées à l’échelle, à l’ampleur et à la complexité des nouveaux environnements IT.
Le machine learning consiste à entraîner des modèles à partir d’énormes volumes de données, le but étant d’assimiler automatiquement de nouvelles connaissances qui permettront ensuite d’identifier des tendances, de repérer des anomalies, de proposer des recommandations et de mettre des actions à exécution. Cette technologie est aujourd’hui devenue indispensable pour répondre aux nouveaux défis de cybersécurité, car seul le machine learning permet aux solutions de sécurité de monter en puissance et de détecter des attaques inconnues et avancées – y compris les malwares polymorphes – qui échappent aux mécanismes de surveillance classiques. En résumé, le ML s’impose désormais comme une arme incontournable pour barrer la route aux menaces.
Les spécificités du ML appliqué à la cybersécurité
Le machine learning est un concept bien compris et présent dans de nombreuses disciplines. On le retrouve notamment dans le traitement de l’image pour la reconnaissance des expressions faciales, ou encore dans le traitement automatique du langage naturel (NLP) pour la reconnaissance textuelle ou vocale.
Cependant, le ML appliqué à la cybersécurité présente ses propres problématiques et exigences. Nous avons recensé, d’une part, trois défis uniques à l’implémentation du machine learning dans une stratégie de cybersécurité et, de l’autre, trois problématiques courantes mais potentiellement plus impactantes dans un contexte cybersécuritaire.
Trois défis uniques du ML pour la cybersécurité
Défi n° 1 : un besoin de précision beaucoup plus pointu. Dans certains domaines, les erreurs d’interprétation du ML revêtent une importance plus ou moins relative. Par exemple, si un outil de traitement d’images confond un chien pour un chat, cette faute a peu de chances d’aboutir à des conséquences tragiques. Mais lorsqu’un système ML prend pour légitime un paquet de données malveillant, cette erreur peut conduire à l’attaque d’un hôpital et de ses équipements médicaux, avec une incidence potentiellement bien plus grave pour la vie des patients.
Chaque jour, de larges volumes de données traversent les pare-feu des entreprises. Or, il suffirait que le ML bloque à tort ne serait-ce que 0,1 % de ces données pour que l’activité s’en retrouve lourdement impactée. À la naissance de cette technologie, beaucoup craignaient qu’elle ne soit pas assez précise dans son application. L’entraînement d’un modèle ML requiert en effet beaucoup de temps et de données avant de pouvoir atteindre le niveau d’excellence d’un professionnel qualifié. Mais le fait est que l’humain n’a pas les capacités pour traiter des informations à très grande échelle, sans parler de la pénurie de talents dont souffre le secteur informatique actuellement. Grâce au machine learning, les solutions de cybersécurité peuvent monter en charge beaucoup plus rapidement. Un des autres avantages du ML est qu’il permet d’établir des bases de référence qui repèrent les écarts comportementaux difficilement perceptibles par le cerveau humain. Un atout indispensable pour la détection d’attaques inconnues.
Défi n° 2 : l’accès à de larges volumes de données d’entraînement, notamment les données étiquetées. La précision des modèles et des prédictions de machine learning passe par l’assimilation d’une masse considérable d’informations. Or, il est bien plus difficile de se procurer des échantillons de malware que des données de traitement de l’image ou du langage. En cause : une documentation insuffisante des attaques, mais aussi le caractère sensible des informations de sécurité et leur manque de disponibilité par souci de confidentialité.
Défi n° 3 : la réalité de terrain. Contrairement au domaine de l’image, les données de terrain ne sont pas toujours disponibles ni même définitives dans le contexte dynamique et éphémère de la cybersécurité. Aucune base de données ne peut prétendre couvrir l’étendue complète des malwares présents dans le monde, d’autant plus que leur nombre ne cesse de croître. Dès lors, à quel référentiel doit-on se fier pour évaluer la précision des détections ?
Trois problématiques encore plus impactantes dans un contexte de cybersécurité
Le machine learning présente certains challenges communs à tous ses domaines d’applications, mais dont l’incidence est encore plus marquée dans le domaine de la cybersécurité.
Enjeu n° 1 : l’explicabilité des modèles ML. Les résultats fournis par le machine learning doivent être parfaitement compréhensibles pour pouvoir former la base d’action décisive.
Enjeu n° 2 : la pénurie de talents. Le ML n’est efficace que s’il est adossé à une connaissance experte du secteur auquel il est appliqué. Problème : le machine learning et la cybersécurité sont deux domaines souffrant d’une pénurie chronique de talents. Il est donc extrêmement difficile de trouver des professionnels maîtrisant les deux compétences. D’où le besoin de créer des binômes data scientists / chercheurs en sécurité. Bien qu’ils ne parlent pas le même langage, n’utilisent pas les mêmes méthodologies et abordent certains concepts sous différents angles, ces métiers doivent impérativement apprendre à travailler efficacement ensemble. Le succès de votre implémentation ML et, à travers elle, de votre cybersécurité, en dépend.
Enjeu n° 3 : la sécurité du ML. Devant l’importance critique qu’endosse la cybersécurité dans toutes les branches d’activité, il est vital que les outils de machine learning soient eux-mêmes parfaitement sécurisés. Des travaux de recherche universitaires étudient cette question, et nous sommes fiers de contribuer aux initiatives du secteur visant à renforcer la protection des données et des modèles ML. En tant que force d’innovation, Palo Alto Networks travaille sans relâche à la sécurité de ses solutions ML.
Le but du machine learning est de rendre la sécurité à la fois plus efficace et plus évolutive pour faciliter le travail des équipes et neutraliser les attaques inconnues. Cette technologie permet d’accomplir des tâches qui seraient humainement difficiles, voire impossibles, notamment lorsqu’elles concernent des millions, voire des milliards, d’équipements. C’est pourquoi le ML s’impose de plus en plus comme un outil indispensable pour détecter les menaces au sein des infrastructures les plus critiques, où une seule offensive peut avoir des conséquences dévastatrices.
Un pilier pour l’avenir de la cybersécurité
Le machine learning intègre des fonctionnalités qui permettent d’optimiser l’efficacité des solutions de cybersécurité. Ensemble, elles forment un arsenal redoutable pour renforcer la posture de sécurité des entreprises face à un champ des menaces en mutation constante.
Identification et profilage : les départements IT peinent à contrôler le nombre exponentiel d’équipements connectés aux réseaux des entreprises. C’est pourquoi le machine learning peut les aider à identifier et profiler les dispositifs présents dans l’infrastructure. Cette approche permet de dresser un tableau des différentes fonctionnalités et des différents comportements de référence d’un équipement donné.
Détection automatique des anomalies : le machine learning permet d’identifier rapidement les mauvais comportements connus. Après avoir profilé les équipements et cerné la nature de leurs activités courantes, le ML est en mesure de discerner ce qui est normal de ce qui ne l’est pas. Un cas d’usage idéal pour la cybersécurité.
Détection des exploits zero-day : avec les solutions de sécurité traditionnelles, une mauvaise action doit être observée au moins une fois afin d’être identifiée comme telle. C’est sur ce modèle que reposent les mécanismes de détection basés sur les signatures. Le machine learning, lui, peut identifier les formes encore inconnues de malwares et d’attaques afin de protéger les entreprises contre d’éventuels exploits zero-day.
Analyse et décryptage à grande échelle : à l’heure où les données et les applications transitent au sein d’environnements de plus en plus distribués, il est humainement impossible d’identifier des tendances sur des volumes massifs d’équipements. Grâce à l’automatisation, le machine learning est capable de fournir des analyses et des décryptages à grande échelle.
Recommandations de politiques : la définition de politiques de sécurité est une tâche souvent fastidieuse, qui confronte les équipes à de nombreux défis. En identifiant les équipements connectés au réseau ainsi que leur comportement normal, le machine learning peut fournir des recommandations de politiques propres aux différents dispositifs de protection, y compris les pare-feu. Plutôt que d’éplucher manuellement des listes ACL parfois contradictoires émanant de tous les appareils et segments réseau, le machine learning émet des recommandations spécifiques dans le cadre d’une approche automatisée.
Face à la multiplication des équipements connectés, à l’apparition constante de nouvelles menaces et à la pénurie de compétences en cybersécurité, le machine learning s’impose comme une solution incontournable pour réduire la complexité et répondre efficacement aux besoins des entreprises sur le long terme.