Comment l’apprentissage automatique peut accreiser les solutions aux défis de conception de protéines

Au cours des deux dernières années, l’apprentissage automatique a révolutionné la prédiction de la structure des protéines. Maintenant, trois articles dans La science développée une révolution similaire dans la conception des protéines.

Dans les nouveaux articles, des biologistes de la faculté de médecine de l’Université de Washington montrent que l’apprentissage automatique peut être utilisé pour créer des molécules de protéines beaucoup plus précisément et rapidement qu’auparavant. Les scientifiques espèrent que cette avancée débouchera sur de nouveaux vaccins, traitements, outils de capture du carbone et biomatériaux durables.

« Les protéines sont fondamentales dans toute biologie, mais on sait que toutes les protéines présentes dans chaque plante, animal et microbe représentent bien moins d’un pour cent de ce qui est possible. Grâce à ces nouveaux outils logiciels, les chercheurs devraient pouvoir trouver des solutions aux défis de longue date de la médecine, de l’énergie et de la technologie », a déclaré l’auteur principal David Baker, professeur de biochimie à la Faculté de médecine de l’Université de Washington et récipiendaire d’un prix Breakthrough 2021 en sciences de la vie.

Les protéines sont souvent qualifiées de “blocs de construction de la vie” car elles sont essentielles à la structure et au fonctionnement de tous les êtres vivants. Ils sont impliqués dans pratiquement tous les processus qui se déroulent à l’intérieur des cellules, y compris la croissance, la division et la réparation. Les protéines sont constituées de longues chaînes de substances chimiques appelées acides aminés. La séquence d’acides aminés dans une protéine détermine sa forme tridimensionnelle. Cette forme complexe est cruciale pour le fonctionnement de la protéine.

Récemment, de puissants algorithmes d’apprentissage automatique, notamment AlphaFold et RoseTTAFold, ont été développés pour prédire les formes détaillées de protéines naturelles basées uniquement sur des séquences d’acides aminés. L’apprentissage automatique est un type d’intelligence artificielle qui permet aux ordinateurs d’apprendre à partir de données sans être explicitement programmés. L’apprentissage automatique peut être utilisé pour modéliser des problèmes scientifiques complexes qui sont trop difficiles à comprendre pour les humains.

Pour aller au-delà des protéines présentes dans la nature, les membres de l’équipe de Baker ont divisé le défi de la conception des protéines en trois parties et ont utilisé de nouvelles solutions logicielles pour chacune.

Tout d’abord, une nouvelle forme de proteine ​​doit être generée. Dans un article publié le 21 juillet dans la revue La science, l’équipe a montré que l’intelligence artificielle peut générer de nouvelles formes de protéines de deux manières. Le premier, surnommé « hallucination », s’apparente à DALL-E ou à d’autres outils d’IA génératifs qui produisent une sortie basée sur de simples invitations. La seconde, appelée « inpainting », est analogue à la fonction de saisie semi-automatique que l’on trouve dans les barres de recherche modernes.

Deuxièmement, pour accélérer le processus, l’équipe a conçu un nouvel algorithme pour générer des séquences d’acides aminés. Décrit dans le numéro du 15 septembre de La science, cet outil logiciel, appelé ProteinMPNN, s’exécute en une seconde environ. C’est plus de 200 fois plus rapide que le logiciel précédent. Ces résultats sont supérieurs aux outils précédents et le logiciel ne nécessite aucune personnalisation par un expert pour fonctionner.

« Les réseaux de neurones sont faciles à former si vous possédez une tonne de données, mais avec les protéines, nous n’avons pas autant d’exemples que nous les conservons. Nous avons dû saisir et identifier les caractéristiques de ces molécules qui sont les plus importantes. était un peu d’essais et d’erreurs », a déclaré le scientifique du projet Justas Dauparas, chercheur postdoctoral à l’Institute for Protein Design

Troisièmement, l’équipe a utilisé AlphaFold, un outil développé par Alphabet’s DeepMind, pour évaluer indépendamment les séquences d’acides aminés qu’ils ont trouvées susceptibles de se replier dans les formes attendues.

“Les logiciels de prédiction des structures des protéines font partie de la solution, mais ils ne peuvent rien apporter de nouveau à eux seuls”, a expliqué Dauparas.

« ProteinMPNN est à la conception de protéines ce qu’AlphaFold était à la prédiction de la structure des protéines », a ajouté Baker.

Dans un autre article paru dans La science Le 15 septembre, une équipe du laboratoire Baker a confirmé que la combinaison de nouveaux outils d’apprentissage automatique pouvait générer de manière fiable de nouvelles protéines fonctionnant en laboratoire.

“Nous avons constaté que les protéines fabriquées à l’aide de ProteinMPNN étaient beaucoup plus susceptibles de se répliquer comme prévu, et nous pouvions créer des assemblages de protéines très complexes en utilisant ces méthodes”, a déclaré le scientifique du projet Basile Wicky, chercheur postdoctoral à l’Institute for Protein Design.

Parmi les nouvelles protéines fabriquées, il y avait des anneaux à l’échelle nanométrique qui, selon les chercheurs, pourraient devenir des pièces pour des nanomachines personnalisées. Des microscopes électroniques ont été utilisés pour observer les anneaux, dont le diamètre était environ un milliard de fois supérieur à celui d’une graine de pavot.

« C’est le tout début de l’apprentissage automatique dans la conception de protéines. Dans les mois à venir, nous travaillerons à améliorer ces outils pour créer des protéines encore plus dynamiques et fonctionnelles », a déclaré Baker.

Les ressources informatiques pour ce travail ont été données par Microsoft et Amazon Web Services.

Le financement a été fourni par le projet Audacious de l’Institute for Protein Design; Microsoft ; Eric et Wendy Schmidt sur recommandation du Schmidt Futures ; le projet DARPA Synergistic Discovery and Design (contrat HR001117S0003 FA8750-17-C-0219) ; le projet DARPA Harnessing Enzymatic Activity for Lifesaving Remedies (contrat HR001120S0052 HR0011-21-2-0012) ; Fondation de recherche de Washington ; Open Philanthropy Project Improving Protein Design Fund ; Amgen ; Subvention du programme Matter-to-Life de la Fondation Alfred P. Sloan (G-2021-16899); Don Donald et Jo Anne Petersen pour l’accélération des progrès de la recherche sur la maladie d’Alzheimer; Bourse interdisciplinaire du programme scientifique de la frontière humaine (LT000395/2020-C); Organisation européenne de biologie moléculaire (ALTF 139-2018), y compris une bourse EMBO non rémunérée (ALTF 1047-2019) et une bourse EMBO à long terme (ALTF 191-2021); Fondation « la Caixa » ; Howard Hughes Medical Institute, y compris une bourse Hanna Gray (GT11817); Fondation nationale des sciences (MCB 2032259, CHE-1629214, DBI 1937533, DGE-2140004) ; Instituts nationaux de la santé (DP5OD026389) ; l’Institut national des allergies et des maladies infectieuses (HHSN272201700059C); Institut national sur le vieillissement (5U19AG065156) ; Institut national des sciences médicales générales (P30 GM124169-01, P41 GM 103533-24) ; Institut national du cancer (R01CA240339) ; Fonds national suisse de la recherche scientifique; Centre de compétence national suisse pour l’ingénierie des systèmes moléculaires ; Pôle national suisse de compétence en biologie chimique; et le Conseil européen de la recherche (716058).

Leave a Comment