Début du message réexpédié :
De: Pierre Parrend <pierre.parrend(a)epita.fr>
Objet: TR: Offre de thèse CIFRE en Cyber Sécurité / Intelligence Artificielle à APL Data Center et LRE-EPITA (Paris)
Date: 16 mai 2023 à 22:26:06 UTC+2
À: Nicolas Boutry <nicolas.boutry(a)epita.fr>
Cc: Nidà Meddouri <nida.meddouri(a)epita.fr>
Bonjour Nicolas,
Tu trouveras ci-dessous une offre de thèse CIFRE avec le LRE qui pourra intéresser les SCIA diplômés cette année (ING3), s’ils s’intéressent à la sécu.
Peux-tu s’il te plait leur relayer ?
Cdt,
Pierre
---
Titre : Prédiction des intrusions réseaux par apprentissage fédéré et explicable des anomalies dans un environnement distribué.
Mots Clés : Data center, Intelligence Artificielle, Cyber Sécurité, Détection d’Intrusions Réseaux, Machine Learning, Federated Learning, Explicabilité et Interprétabilité.
Contexte :
Les systèmes de détection d’intrusion par anomalies (IDSA) sont chargés de détecter automatiquement les comportements anormaux grâce à des techniques d’apprentissage automatique (Machine Learning). Ces IDSA se déroulent en deux phases : (1) la phase d’apprentissage, durant laquelle le système étudie/apprend le comportement des flux normaux du réseau et génère un modèle d’apprentissage. (2) La phase de détection au cours de laquelle le système analyse le trafic et tente d’identifier les événements anormaux (des comportements anormaux annotés/étiquetés) sur la base du modèle d’apprentissage généré durant la première phase (une connaissance apprise). Cette méthode de détection se fonde sur de nombreuses techniques d’apprentissage supervisé, comme les réseaux de neurones, les SVM, ou les HMM…
L’Apprentissage Fédéré (FL : Federated Learning) est une approche ou un paradigme qui consiste à entraîner un algorithme d’apprentissage sur des sites différents d’une même organisation, ou entre différentes organisations, et à agréger les apprentissages réalisés sur la machine de chaque utilisateur. Cette approche s’oppose à l’apprentissage centralisé où l’apprentissage se fait sur les serveurs du fournisseur de service. Elle permet notamment un meilleur respect de la vie privée des utilisateurs [1]. L’apprentissage fédéré permet de créer un modèle d’apprentissage automatique commun et robuste sans partage de données, ce qui permet de résoudre des problèmes critiques pour l’exploitation partagée des résultats de l’apprentissage automatique tels que (1) la confidentialité des données, (2) la sécurité des données, (3) les droits d’accès aux données et (4) l’accès à des données hétérogènes.
Beaucoup de modèles d’apprentissage automatique sont souvent considérés comme une boîte noire opaque. Ils regroupent des caractéristiques/attributs et des objets/instances à utiliser comme données d’entrée et génèrent des prédictions. Après la phase d’apprentissage, une question courante se pose : Est-ce que le modèle d’apprentissage généré est assez interprétable pour comprendre le comportement de ce modèle dans le futur ? Par conséquent, l’explicabilité du modèle s’avère importante dans l’apprentissage automatique. Les renseignements obtenus à partir de ces méthodes d’intelligibilité sont utiles pour éclairer la prise de décision humaine et instaurer la confiance, mais également pour guider l’ingénierie des caractéristiques, orienter les futures collectes des données et effectuer le débogage du modèle. Pour être plus précis, distinguons deux idées essentielles dans l’apprentissage automatique : l’intelligibilité et l’explicabilité. En d’autres termes, c’est la capacité d’expliquer ce qui se passe.
Objectifs : Étant donné que les attaques sur les réseaux impactant les systèmes informatiques, ainsi que les infrastructures techniques connectées dans les datacenters, nous souhaitons apprendre et prédire les anomalies (de type intrusions réseau et fuites de données) dans un environnement distribué et à large échelle (selon l’architecture Coordinateur/Collaborateurs). Pour cela, et afin de garantir le meilleur respect de la vie privée des utilisateurs dans cet environnement, nous nous orientons vers l’apprentissage fédéré [2, 3, 4] en abordant ainsi des problèmes critiques tels que la confidentialité et la sécurité des données des utilisateurs et les droits d’accès aux données hétérogènes. Nous rappelons que détecter une intrusion dans un réseau, revient à identifier des relations dans des données de natures très hétérogènes. Des publications seront réalisées en ciblant les communautés d’apprentissage automatique et de la cybersécurité.
Profil :
La doctorante ou le doctorant devra avoir
* Une bonne connaissance en cybersécurité.
* Des connaissances en apprentissage machine sont un réel plus.
* Des compétences en programmation sont indispensables : maîtrise d’un langage de programmation orienté objet.
* Des connaissances en architecture Coordinateur/Collaborateurs (Haddop ou Spark) est aussi un réel plus.
* Une forte motivation, des capacités de synthèse, à bien rédiger et présenter les travaux (anglais) et à s'intégrer dans une équipe sont également demandées
* Une expérience sous la forme d’un stage de recherche dans le domaine cybersécurité / apprentissage machine.
Le profil souhaité est BAC + 5, école d'ingénieur ou Master Recherche cyber sécurité et/ou data sciences
Comment candidater ?
Contacter Pierre Parrend (pierre.parrend(a)epita.fr<mailto:pierre.parrend@epita.fr>) et Nida Meddouri (nida.meddouri(a)epita.fr<mailto:nida.meddouri@epita.fr>) en envoyant les documents ci-dessous :
* Un CV de deux pages.
* Une lettre de motivation d'une page détaillant les compétences, connaissances et expériences appropriées pour la thèse.
* Les derniers relevés de notes.
* Les coordonnées d'une ou deux personnes référentes ; pas de lettres de référents.
La date limite pour candidater est fixée au 31/05/2023
Lieu : APL Data Center et laboratoire LRE-EPITA (Paris)
Références :
[1] H. B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, “Communication-efficient learning of deep networks from decentralized data,” International Conference on Artificial Intelligence and Statistics (2016).
[2] Liu, P., Xu, X. & Wang, W. « Threats, attacks and defenses to federated learning: issues, taxonomy and perspectives ». Cybersecurity 5, 4 (2022).
[3] B. Ghimire and D. B. Rawat. “Recent Advances on Federated Learning for Cybersecurity and Cybersecurity for Federated Learning for Internet of Things” in IEEE Internet of Things Journal, vol. 9, no. 11, pp. 8229–8249 (2022).
[4] Alazab, Mamoun & Priya, Swarna & M, Parimala & Reddy, Praveen & Gadekallu, Thippa & Pham, Viet. “Federated Learning for Cybersecurity: Concepts, Challenges and Future Directions”. IEEE Transactions on Industrial Informatics (2021).
Greatly looking forward to hearing from you soon.
Nidà Meddouri, Pierre Parrend