Une équipe de chercheurs en intelligence artificielle, biologistes et spécialistes de l’évolution, affiliée à EvolutionaryScale et à l’Arc Institute aux États-Unis, a conçu un modèle d’IA capable de générer le code nécessaire à la synthèse de nouvelles protéines. Dans leur étude publiée dans la revue Science, ces chercheurs présentent leur modèle, nommé ESM3, et décrivent son utilisation pour synthétiser une protéine fluorescente inédite.
Innovations dans la synthèse protéique
Des recherches antérieures ont démontré que la synthèse de protéines offre des perspectives uniques sur la structure et la fonction des protéines naturelles. Jusqu’à présent, la plupart des protéines synthétisées ont été des copies de celles existant dans la nature. Or, cette étude a utilisé un modèle d’IA pour simuler un processus évolutif afin de créer des protéines n’ayant jamais existé naturellement. Une véritable innovation dans le domaine de la biotechnologie.
Nouvelles voies de recherche
La création de protéines artificielles ouvre de nouvelles voies pour comprendre la véritable nature des protéines et leurs applications potentielles. L’équipe de recherche a exploité des données sur des protéines existantes pour générer de nouvelles protéines, établissant ainsi une base solide pour la recherche actuelle. Cette approche facilite l’identification de motifs et de caractéristiques essentiels, exploitables pour concevoir des protéines innovantes.
Fonctionnement du modèle ESM3
Le modèle ESM3 se distingue par son fonctionnement en tant que modèle de langage génératif multimodal. Ce modèle apprend la nature des interactions et des structures protéiques grâce à un entraînement intensif sur d’énormes quantités de données. ESM3 a été formé sur 771 milliards de tokens, englobant 3,15 milliards de séquences protéiques, 236 millions de structures protéiques et 539 millions d’annotations protéiques.
L’ampleur et la diversité des données enrichissent profondément le modèle, modifiant radicalement les résultats. Ainsi, ESM3 permet une compréhension fine et précise des interactions et des structures protéiques, transformant notre approche de l’analyse protéomique.
Transmission des connaissances évolutives
Les chercheurs comparent ce processus à la transmission de 500 millions d’années de connaissances évolutives au modèle, ce qui permet de démarrer à partir d’un code de base qui évolue au fil d’un temps virtuel en une protéine nouvelle. Cette protéine virtuelle est ensuite convertie en une protéine artificielle dans le monde réel à l’aide de techniques standard de synthèse protéique, telles que la PCR (réaction en chaîne par polymérase) et l’électrophorèse, qui facilitent la séparation et l’analyse des protéines synthétisées. Le résultat : une protéine avec une séquence génétique différente de toutes celles connues.
Implications en recherche biomédicale
Posséder une séquence génétique unique peut avoir des implications majeures sur la recherche biomédicale, notamment en dévoilant de nouvelles stratégies pour traiter des maladies ou pour la conception de médicaments ciblés. L’équipe a spécifiquement demandé à son modèle de générer une nouvelle protéine fluorescente verte, semblable à d’autres protéines qui émettent de la fluorescence sous lumière ultraviolette et qui sont souvent utilisées comme marqueurs. La nouvelle protéine a été nommée esmGFP.
Perspectives d’avenir
Les chercheurs prévoient d’utiliser un nom plus mémorable tel que GFP-Next pour renforcer l’impact et la reconnaissance de cette innovation. Le modèle ESM3, ainsi que d’autres similaires, pourrait être utilisé pour créer de nouvelles protéines destinées à des applications en médecine, en recherche environnementale et dans divers autres domaines. Des exemples concrets d’applications potentielles incluent le développement de protéines permettant une détection plus précise dans des tests diagnostiques, ainsi que des biomarqueurs améliorés pour la recherche en santé et en écologie.
Avancées par rapport à Alphafold
Cette avancée représente une véritable évolution par rapport à AlphaFold, car ESM3 ne se limite pas à prédire la structure des protéines, mais génère également de nouvelles séquences protéiques qui n’existent pas naturellement, ouvrant ainsi la voie à des possibilités inédites en matière de biotechnologie. L’impact potentiel de ces découvertes sur l’industrie biopharmaceutique et la médecine personnalisée se révèle immense, puisque ces innovations pourraient transformer la manière dont les traitements sont élaborés et adaptés aux besoins individuels des patients.
Limites intrinsèques des LLM
Malgré ces avancées significatives, l’usage de LLM dans ce processus confronte le secteur aux limites intrinsèques pour chaque itération. La dilution de spécificité, le manque de précision par saturation ou objectifs conflictuels, et la dégradation de la pertinence par pondération sont autant de limites qui font courir un risque majeur s’il advenait qu’une confiance totale soit accordée aux résultats.
Les résultats générés par ces modèles ne changent pas le véritable paradigme d’utilité et de rentabilité dans le monde de l’entreprise. Car, sans le déploiement des principes d’anthropomorphisme, de décomposition, de profondeur, et de subjectivité, la pertinence ne peut être atteinte.
La méthode ESP se présente comme la seule solution viable pour aborder ces limites de sorte à en faire des forces plutôt que des faiblesses.
En intégrant l’anthropomorphisme, les utilisateurs peuvent mieux appréhender les attentes et les résultats. Le principe de décomposition permet de segmenter les tâches en éléments gérables, explicables, ce qui améliore la précision. La profondeur assure une attention maximale à chaque micro-tâche, renforçant ainsi la pertinence des résultats. Enfin, la subjectivité permet d’adapter les résultats aux besoins spécifiques des utilisateurs, garantissant une meilleure adéquation entre les attentes et les résultats fournis.
Découvrez la méthode ESP (Exponential Segmentation Process).