Des chercheurs du MIT ont mis au point un cadre innovant pour protéger les données sensibles utilisées dans l’entraînement des modèles d’intelligence artificielle, tout en maintenant leur précision. Cette avancée permet d’éviter que des attaquants n’exploitent des informations secrètes, telles que des images médicales ou des données financières.
La protection de la vie privée des données entraîne souvent une diminution de la performance des modèles, mais la nouvelle approche, fondée sur un nouveau critère de confidentialité appelé PAC Privacy, s’efforce de surmonter ce compromis. Les chercheurs ont amélioré l’efficacité de leur technique, permettant ainsi une meilleure balance entre précision et sécurité, tout en créant un modèle formel applicable à presque tous les algorithmes sans nécessité d’accès à leur fonctionnement interne.
Avec cette version optimisée de PAC Privacy, l’équipe a réussi à privatiser plusieurs algorithmes classiques pour l’analyse de données et les tâches d’apprentissage automatique. Ils ont également constaté que les algorithmes plus “stables”, dont les prédictions restent cohérentes même en cas de modifications mineures des données d’entraînement, sont plus faciles à privatiser.
Mayuri Sridhar, étudiante diplômée au MIT et auteur principal de l’étude, souligne que cette nouvelle méthode pourrait révolutionner l’approche traditionnelle qui considère la robustesse et la confidentialité comme des éléments souvent en conflit. “En améliorant la performance de l’algorithme dans divers contextes, nous pouvons essentially obtenir la confidentialité sans coût supplémentaire”, affirme-t-elle.
La recherche, qui sera présentée au Symposium IEEE sur la Sécurité et la Confidentialité, détaille également comment les chercheurs ont estimé le bruit nécessaire à ajouter pour protéger les données. Leur nouvelle variante de PAC Privacy nécessite moins de ressources computationnelles, ce qui la rend plus rapide et adaptable à des ensembles de données plus volumineux.
Les implications de cette recherche sont significatives. En effet, la capacité de réduire la quantité de bruit ajoutée tout en préservant la confidentialité pourrait permettre d’améliorer la précision des résultats des algorithmes privatisés. Sridhar envisage des “scénarios gagnant-gagnant” où la stabilité des algorithmes et la confidentialité coexistent harmonieusement.
Les chercheurs souhaitent également explorer comment intégrer PAC Privacy dès la conception des algorithmes, garantissant ainsi qu’ils soient plus stables, sécurisés et robustes dès le départ. En poursuivant leurs travaux, ils espèrent déterminer les conditions qui favorisent ces situations avantageuses.
Cette recherche a reçu le soutien de plusieurs organisations, dont Cisco Systems, Capital One, le Département de la Défense des États-Unis et une bourse MathWorks.