Le Machine Learning en cybersécurité : back to basics  

0

Comme nous le rappelions ces derniers mois, les notions d’Intelligence Artificielle (aussi appelée IA), de Big Data ou encore de Machine Learning ont le vent en poupe, faisant une entrée fracassante dans le milieu industriel, la cybersécurité ne faisant pas exception.

Des centaines d’entreprises partagent aujourd’hui cet engouement général et y ont aujourd’hui recourt, employant IA et Machine Learning au sein de leur sécurité informatique. Mais si ces termes sont si souvent employés, en connait-on vraiment les bases, la signification et le fonctionnement ? Nous nous intéresserons aujourd’hui tout particulièrement au Machine Learning, champ d’études de l’Intelligence Artificielle, et tenterons de comprendre ce qu’il est, pourquoi ce domaine est aujourd’hui en plein développement, quels sont ses principaux domaines d’applications et la manière dont il s’applique à la cybersécurité. 

  • Mais alors, qu’est-ce que le Machine Learning ?

Commençons par une définition globale du Machine Learning : aussi appelé « apprentissage automatique », le ML est un champ d’étude de l’Intelligence Artificielle.

Il concerne « la conception, l’analyse, le développement et l’implémentation de méthodes permettant à une machine d’évoluer par un processus dit systématique, et ainsi de remplir des tâches difficiles par des moyens algorithmiques ». En somme, le Machine Learning désigne le concept selon lequel un algorithme peut apprendre à partir de données récoltées, puis prendre des décisions stratégiques suite à leur analyse et leur modélisation.

L’algorithme construit, tout seul, une représentation interne afin de pouvoir effectuer la tâche qui lui est demandée (prédiction, identification, etc). Pour cela, il va d’abord falloir lui entrer un jeu de données d’exemples afin qu’il puisse s’entraîner et s’améliorer, d’où le mot apprentissage. On peut appeler une entrée dans le jeu de données une instance ou une observation.

Les données récoltées vont être infiniment nombreuses : d’ailleurs, bien que le Machine Learning ne soit pas récent, il a pris tout son sens avec l’arrivée du Big Data, et permet d’optimiser l’identification et l’adaptation aux risques rencontrés, par exemple, en sécurité informatique. Le Machine Learning permet alors d’effectuer plus rapidement des tâches auparavant chronophages et difficiles à exécuter en continu par un humain (traitement de milliards de données), permettant ainsi d’optimiser son temps et son efficacité.

Une vraie symbiose entre l’Intelligence Artificielle et l’humain est donc en train de naître aujourd’hui.

Aussi, depuis quelques années, beaucoup d’industries s’intéressent au Machine Learning pour améliorer leurs performances, mieux comprendre les tendances et marchés : analyses prédictives d’un panier d’achat d’un consommateur lambda dans le secteur commercial et marketing, par exemple, ou même dans le secteur bancaire avec la prévention de fraudes et de non-remboursements.

  • Machine Learning et Cybersécurité :

 Dans un environnement en constante évolution et où les menaces sont de plus en plus complexes, la quantité de données à traiter par les analystes sécurité devient immense. La mutation d’attaques connues ou encore de nombreuses menaces inconnues telles que les zero-days, soulignent les limites des outils traditionnels et de la détection basée sur des règles.

Si le Machine Learning était déjà présent dans nos solutions d’hier (méthodes historiques comme les antivirus se basant sur des signatures, par exemple), il était donc nécessaire de développer de nouveaux outils où le Machine Learning deviendrait une vraie valeur ajoutée pour y faire face.

En effet, aujourd’hui, le plus gros challenge rencontré par l’ensemble du secteur de la sécurité est de trouver comment détecter et faire face aux attaques de demain. S’il est, de nos jours, presque courant de faire face aux attaques déjà identifiées et d’éviter qu’elles se produisent à nouveau, comment faire de même face à des menaces qui n’existent pas encore ? Comment pouvoir prédire la façon avec laquelle ces attaques, toujours plus fréquentes et complexes, seront menées, et sous quelles formes elles seront amenées ?

La réponse alors amenée par le Machine Learning, et plus globalement l’Intelligence Artificielle, parait comme simple et efficace : si nous analysons les attaques menées jusqu’à aujourd’hui à l’aide de machines (de leur construction à la façon dont l’humain les a pensées), et que nous en analysons les symptômes d’infection « initiale », il y a 99% de chances de pouvoir prédire les attaques qui seront menées demain. Cette prédiction sera basée sur la seule partie de l’équation que ces attaques ont en commun : elles ont été menées par un hacker, dont le comportement humain devient alors prédictible grâce aux procédés du Machine Learning.

Des solutions implémentées de Machine Learning et d’Intelligence Artificielle ont donc été mises au point, telles que Reveelium, solution développée par Itrust, qui analyse en temps réel les milliards de données du système et les journaux d’événements. Celle-ci identifie les anomalies dans le comportement du système et détermine quels sont ceux qui sont susceptibles de constituer une menace de sécurité.

Les algorithmes mathématiques de Reveelium combinent des analyses statistiques poussées. L’apprentissage machine et les règles de corrélation vont permettre de mettre à jour continuellement le profil d’un comportement normal pour les entités, y compris pour les utilisateurs, les périphériques et les applications. Détecter et évaluer les écarts par rapport à ces profils permet de révéler les attaques inconnues et de diminuer les faux positifs.

La cybersécurité est donc en train de muer vers des affrontements de type « machine contre machine ». Dans un tel environnement, les entreprises doivent s’assurer que les IA peuvent apprendre à se défendre plus rapidement qu’elles n’assimilent les techniques d’attaques.

Le Machine Learning, comme nous avons pu le voir, est capable de répondre en partie à la problématique rencontrée par ces entreprises, qui cherchent une meilleure protection à toutes les menaces, qu’elles soient déjà connues, ou non. « En partie » car il est à rappeler que le Machine Learning est plus un moyen de détection complémentaire à d’autres solutions et surveillances qu’une fin en soi.

En résumé, utilisée conjointement à une équipe qualifiée, le Machine Learning a le potentiel pour remplir la lacune qu’emmène le trop important volume de données à traiter. La solution est donc de donner un coup de main aux équipes d’analystes en les rendant plus agiles, et non de remplacer leurs actions, pour leur permettre de répondre plus efficacement et plus rapidement aux menaces.

About Author

Jean-Nicolas Piotrowski

Fondateur et Président d’ITrust. Diplômé de l’IUP STRI, ingénieur en télécommunications et réseaux informatiques, il a été successivement Responsable Sécurité de la salle de marché BNP Paribas, consultant sécurité pour la Banque Postale et le Crédit Lyonnais. En 2007, il fonde ITrust et dirige la société.

Leave A Reply