Cybersécurité dans la nouvelle ère de l’IA – Nos prédictions pour 2024
Si l’intelligence artificielle (IA) joue un rôle important dans la cybersécurité depuis quelques années déjà, l’année 2023 a marqué un véritable tournant avec l’adoption massive des grands modèles de langage (ou LLM). Les LLM transforment aujourd’hui le paysage de la cybersécurité. Mais ils apportent aussi leur lot de défis majeurs.
Les LLM présentent l’avantage de simplifier le traitement de volumes massifs d’informations tout en démocratisant l’usage de l’IA. Ces modèles offrent une efficacité, une intelligence et une évolutivité exceptionnelles, tant dans la gestion des vulnérabilités que dans la prévention des attaques, le traitement des alertes et la réponse aux incidents.
Revers de la médaille, les cybercriminels ont aussi su s’en emparer pour optimiser l’efficacité de leurs attaques et exploiter de nouvelles vulnérabilités introduites par les LLM eux-mêmes. De plus, l’utilisation malveillante de ces modèles peut générer de nouveaux problèmes de sécurité, à l’image des fuites de données involontaires résultant de l’utilisation toujours plus répandue de l’IA.
Les LLM imposent une nouvelle approche de la cybersécurité dans un environnement toujours plus dynamique, interactif et personnalisé. Autrefois, le renouvellement des équipements matériels n’intervenait qu’avec leur remplacement par des produits de nouvelle génération. L’arrivée du cloud a ensuite permis d’effectuer des mises à jour itératives des logiciels, notamment sur la base de l’analyse des retours d’expérience des clients. Toutefois, ces améliorations n’intervenaient qu’à chaque sortie d’un nouveau patch ou d’une nouvelle version.
Aujourd’hui, à l’ère de l’IA, le modèle utilisé par les clients possède sa propre intelligence. Il continue à apprendre et évolue en fonction de son utilisation – en bien, mais parfois aussi en mal. Voilà pourquoi nous devons intégrer la sécurité en amont, en concevant des modèles de sécurité et en empêchant l’empoisonnement des données d’entraînement de l’IA. De même, pour des raisons de sécurité et d’éthique, il nous faut aussi évaluer et surveiller en permanence les systèmes LLM après leur déploiement.
Mais surtout, nous devons intégrer l’intelligence dans nos systèmes de sécurité, à la manière dont on inculquerait des valeurs morales à des enfants au lieu de seulement les discipliner. Ces systèmes pourront ainsi développer des capacités de jugement robustes et intègres, sans risque de détournement par des données malveillantes.
Doit-on se réjouir ou, au contraire, s’alarmer de l’arrivée des LLM dans l’univers de la cybersécurité ? Pour y voir plus clair, je vous invite à dresser un bilan de l’année écoulée, avant de jeter un regard prospectif sur ce que nous réserve 2024.
Retour sur 2023
Dans mon article L’avenir du Machine Learning dans la cybersécurité, rédigé il y a un an (avant l’ère des LLM, donc), j’avais mis en exergue trois défis propres à l’IA dans le domaine de la cybersécurité : la précision, la pénurie de données et le manque de réalité de terrain. J’y soulignais également à quel point trois problématiques courantes de l’IA sont exacerbées dans le monde de la cybersécurité : l’explicabilité, la pénurie de talents et la sécurité de l’IA.
Aujourd’hui, après un an de recherches approfondies, nous constatons les apports positifs des LLM dans quatre de ces six domaines : la pénurie de données, le manque de réalité de terrain, l’explicabilité et la pénurie de talents. Les deux autres enjeux (la précision et la sécurité de l’IA), très critiques par essence, représentent encore un véritable défi.
L’utilisation des LLM dans la cybersécurité procure des avantages à deux niveaux :
1. Données
Données étiquetées
L’utilisation des LLM nous a permis de relever le défi lié au manque de « données étiquetées ».
En matière de cybersécurité, les modèles et prévisions IA doivent être extrêmement précis et adaptés, ce qui passe par des données étiquetées de haute qualité. Or celles-ci sont compliquées à obtenir. Il est par exemple difficile de trouver des échantillons de malware capable de nous en dire plus sur le mode opératoire des attaquants. Et pour cause : les entreprises victimes d’une attaque sont généralement peu enclines à l’ébruiter.
Les LLM permettent de collecter et de synthétiser des données en se basant sur des informations réelles, mais aussi d’utiliser ces données pour en générer de nouvelles sur les différents aspects des attaques (origines; vecteurs, méthodes et intentions). Ces informations servent ensuite à détecter de nouvelles menaces, sans être contraint par les seules données de terrain.
Réalité de terrain
Dans le domaine de la cybersécurité, nous ne disposons pas toujours de la réalité de terrain, comme je l’évoquais déjà dans mon article paru l’an passé. L’utilisation des LLM peut nous aider à améliorer cette réalité en identifiant les failles dans la détection et les bases de données de malwares, contribuant ainsi à réduire les taux de faux négatifs et à réentraîner fréquemment les modèles.
2. Outils
Les LLM contribuent grandement à rendre les opérations de sécurité (SecOps) plus simples, plus intuitives et plus actionnables. C’est d’ailleurs au niveau des centres des opérations de sécurité (SOC) que leurs effets sont les plus palpables.
Les LLM jouent déjà un rôle clé dans l’automatisation des SOC. Ils s’appuient notamment sur l’appel de fonction, une fonctionnalité qui permet de traduire les instructions en langage naturel en appels d’API, lesquels peuvent alors piloter directement les SOC. Les LLM peuvent également aider les analystes sécurité à gérer les alertes et réponses à incident de manière plus intelligente et rapide. Ils permettent d’intégrer des outils de cybersécurité avancés en prenant leurs ordres directement auprès des utilisateurs, en langage naturel.
Explicabilité
Les modèles de Machine Learning précédents affichaient déjà de bonnes performances. Mais le pourquoi des choses leur échappait. Les LLM changent la donne. Leur capacité à expliquer clairement les raisons d’une attaque est appelée à transformer en profondeur la détection des menaces et l’évaluation des risques.
Leur capacité à analyser rapidement d’énormes volumes d’informations se révèle essentielle pour corréler des données de différents outils : événements, journaux, noms des familles de malwares, informations sur les vulnérabilités (CVE) et bases de données internes et externes. Ces fonctionnalités permettent non seulement de remontrer directement à la cause racine d’une alerte ou d’un incident, mais aussi de réduire drastiquement le temps moyen de résolution (MTTR) des incidents.
Pénurie de talents
Le secteur de la cybersécurité souffre d’une pénurie chronique de talents. Le peu d’experts dont nous disposons sont totalement dépassés par le déferlement d’alertes qui s’abat sur eux. En agissant en renfort des analystes sécurité, les LLM réduisent considérablement leur charge de travail : ils assemblent et digèrent rapidement de gros volumes d’informations, comprennent les commandes en langage naturel, les compartimentent en différentes étapes et identifient les outils nécessaires à l’exécution des tâches.
De l’acquisition de connaissances dans des domaines particuliers à la dissection de nouveaux échantillons de malware, les LLM permettent d’accélérer et d’optimiser la création de nouveaux outils de détection capables d’automatiser les tâches – de l’identification et de l’analyse de nouveaux malwares à l’attribution de l’attaque à un groupe cybercriminel spécifique.
Parallèlement, la création d’outils adaptés aux infrastructures d’IA permettra de rendre les IA de cybersécurité accessibles au plus grand nombre, et pas seulement aux experts en cybersécurité ou en IA.
Trois prédictions pour 2024
L’IA est encore balbutiante dans le monde de la cybersécurité. Mais nous devrions bientôt connaître une courbe de croissance exponentielle – au sens littéral du terme. Plus nous nous intéresserons aux possibilités des LLM pour renforcer notre posture de sécurité, plus nous nous donnerons les moyens d’exploiter le plein potentiel de l’IA pour garder une longueur d’avance sur les attaquants.
Si de nombreux domaines de la cybersécurité se prêtent à une utilisation croissante de l’IA pour réduire la complexité et mieux lutter contre l’élargissement des vecteurs d’attaques, j’insisterai ici sur trois points en particulier :
1. Modèles
Les modèles d’IA feront d’énormes progrès dans la création d’un pool de savoirs très pointus, si indispensables à la cybersécurité.
L’an passé, les efforts se sont concentrés sur l’amélioration des LLM généralistes. Les chercheurs ont travaillé d’arrache-pied pour rendre ces modèles plus intelligents, rapides et abordables. Mais il existe un véritable fossé entre les fonctionnalités de ces modèles généralistes et les besoins réels de la cybersécurité.
Dans notre secteur, nous n’avons pas à proprement parler besoin de modèles qui soient capables de répondre à des questions du type « Comment préparer une omelette norvégienne ? » ou « Qui a découvert l’Amérique ? ». Ce qu’il nous faut, ce sont des modèles ultra précis s’appuyant sur des connaissances approfondies des menaces, des processus et de tout ce qui a trait à la cybersécurité.
Dans la cybersécurité, la précision est le nerf de la guerre. Prenons un exemple. Chez Palo Alto Networks, nous traitons chaque jour plus de 75 To de données dans des SOC sur tous les continents. Face à un tel volume, même un taux d’erreur de détection de 0,01 % peut avoir des conséquences catastrophiques. Pour proposer des services personnalisés en phase avec les exigences de sécurité de nos clients, nous devons donc pouvoir compter sur une IA extrêmement précise, dotée d’une mine de connaissances spécialisées en sécurité. En d’autres termes, il nous faut des modèles capables d’effectuer moins de types de tâches, mais avec beaucoup plus de précision.
Nos ingénieurs avancent à grands pas dans la création de modèles spécifiques à différents secteurs et domaines de connaissances, et je suis convaincue que 2024 verra l’émergence d’un modèle LLM centré sur les problématiques de cybersécurité.
2. Cas d’usage
De nouveaux cas d’usage des LLM vont émerger et ils promettent de s’imposer rapidement comme une composante indispensable de la cybersécurité.
En 2023, les capacités époustouflantes des LLM ont suscité un enthousiasme général. Certains y ont même vu une sorte de remède universel à tous les problèmes.
Un an plus tard, l’effet de nouveauté est retombé, et force est de constater que tous les cas d’usage ne sont pas forcément adaptés aux LLM. Des produits de sécurité pilotés par les LLM vont apparaître sur le marché. Ils capitaliseront sur les forces de cette IA générative sur des segments très spécifiques. Efficacité, productivité, ergonomie, résolution de problèmes concrets, résolution des coûts pour les clients… les améliorations devraient se faire sentir à tous les niveaux.
C’est un peu comme si vous pouviez lire des milliers de playbooks traitant de toutes sortes de problèmes de sécurité : configuration des dispositifs de sécurité des terminaux, résolution des problèmes de performance, intégration des nouveaux utilisateurs avec des habilitations et des privilèges de sécurité adaptés, structuration des architectures de sécurité fournisseur par fournisseur, etc.
La capacité des LLM à utiliser, résumer, analyser et produire rapidement les bonnes informations à grand échelle transformera les centres d’opérations de sécurité (SOC), redéfinissant au passage les missions auxquelles les équipes de sécurité seront affectées.
3. Sécurité de l’IA
Nous avons vu le rôle que l’IA est appelée à jouer dans la cybersécurité. Mais comment sécuriser l’IA et son usage sans mettre en danger l’intelligence de ses modèles sous-jacents ? Ce sujet essentiel a fait l’objet de nombreux travaux de réflexion et de recherche en ce sens. En 2024, des solutions certes embryonnaires, mais néanmoins concrètes, verront le jour. Ce qui est déjà un bon début. Parallèlement, un cadre d’évaluation intelligent devra être mis en place pour évaluer dynamiquement la sécurité des systèmes d’IA.
Car il ne faut pas l’oublier : les cybercriminels aussi peuvent accéder aux LLM. Ceux-ci leur permettent par exemple de générer facilement de gros volumes d’emails de phishing de bien meilleure qualité qu’auparavant. Ils leur offrent également la possibilité de créer de tout nouveaux malwares. Heureusement, les acteurs de la cybersécurité resserrent les rangs et collaborent à l’usage défensif des LLM pour maintenir une longueur d’avance sur les cybercriminels.
Le 30 octobre 2023, le président américain Joseph Biden a promulgué un décret imposant une utilisation responsable et appropriée des technologies, des produits et des outils d’IA. Objectif : inciter les fournisseurs d’IA à prendre toutes les mesures nécessaires pour éviter tout détournement malveillant de leurs solutions.
La sécurité de l’IA est un problème à prendre très au sérieux, en partant du principe que les cyberattaquants sont déjà à l’œuvre pour en faire une arme offensive redoutable. Surtout qu’à elle seule, l’utilisation généralisée des modèles d’IA a considérablement élargi la surface d’attaque et multiplié les vecteurs de menaces.
Dans un environnement en mutation permanente, les modèles d’IA ne restent jamais statiques. Ils évoluent constamment, même après le déploiement des solutions d’IA. D’où l’importance d’une évaluation, d’une surveillance, d’une protection et d’une amélioration continues.
Sachant que de plus en plus d’attaques passeront par l’IA, nous n’avons pas d’autres choix que de développer des cadres d’IA parfaitement sécurisés. Cela représente un chantier majeur qui devra rassembler tous les acteurs concernés : fournisseurs, entreprises, universités, décideurs et régulateurs. Bref, toutes les composantes de l’écosystème technologique actuel. Le défi est de taille, mais l’enjeu est trop important pour ne pas le relever.
Conclusion : le meilleur reste à venir
Le succès des modèles d’IA généralistes tels que ChatGPT a suscité de grands espoirs dans l’industrie de la sécurité. D’un coup, nous pourrions élaborer, tester, déployer et continuellement améliorer nos LLM pour répondre à nos besoins de sécurité… Mais très vite, la réalité s’est imposée : la cybersécurité est un domaine très spécifique pour lequel l’utilisation de l’IA reste complexe. Pour capitaliser sur les LLM, nous devons trouver le bon dosage entre quatre éléments essentiels : les données, les outils, les modèles et les cas d’usage.
La bonne nouvelle, c’est que nous pouvons compter sur un vivier de talents compétents et déterminés, tous conscients de la nécessité de développer des systèmes plus précis combinant puissance, intelligence, simplicité d’utilisation et, dernier point et non des moindres, un parfait cadrage sur les spécificités de la cybersécurité.
Depuis le temps que j’évolue dans ce domaine, je reste plus que jamais une fervente admiratrice de tout ce que mes collègues chez Palo Alto Networks et, plus globalement, tous nos pairs réalisent jour après jour.
Pour conclure, je ne m’aventurerai pas à prédire l’avenir dans ses détails… Mais je pense pouvoir affirmer deux choses sans risquer de me tromper :
- 2024 sera une année charnière pour l’utilisation de l’IA dans la cybersécurité.
- Mais 2024 ne sera rien par rapport à ce qui se profile à l’horizon.
May Wang est CTO d’IoT Security chez Palo Alto Networks.