Les secrets cellulaires révélés par l’intelligence artificielle

Souleïmen Jmii

Candidat au doctorat en biochimie

Les secrets cellulaires révélés par l’intelligence artificielle

Souleïmen Jmii

Candidat au doctorat en biochimie

Depuis trois ans, AlphaFold ne cesse de surprendre la communauté scientifique par la fiabilité de ses prédictions. Cette intelligence artificielle prédit la structure tridimensionnelle des protéines*. Ceci est une véritable révolution qui permet aux personnes chercheuses d’identifier concrètement l’origine des maladies comme les infections virales, la mucoviscidose ou la maladie d’Alzheimer et ainsi envisager des traitements.

Saviez-vous que le papillon monarque et sa chenille partagent la même information génétique, le même ADN* ? Ce qui change entre ces deux états de développement, c’est la manière dont cette information génétique s’active et s’exprime. À l’origine de ces différences, on retrouve les protéines. Celles-ci sont des groupes de molécules fascinantes qui interagissent entre elles pour donner une vie et une fonction à chacune de nos cellules.

Pas de temps à perdre grâce à AlphaFold

AlphaFold est une intelligence artificielle développée par DeepMind, une filiale de Google, dans le cadre d’un concours afin de résoudre le problème complexe de la structure tridimensionnelle des protéines. Trois ans, c’est la durée qu’il aura fallu à AlphaFold pour prédire la structure de 23 391 protéines humaines, ainsi que l’ensemble des protéines des espèces les plus utilisées en recherche. On parle ainsi de 21 615 protéines de souris, 13 458 protéines de mouche ou encore, 27 434 protéines végétales. Des milliers de modèles de protéine que les personnes chercheuses peuvent valider par des méthodes biochimiques usuelles.

 

D’ailleurs, en 2020, l’intelligence artificielle a prédit en quelques heures seulement un modèle structural de la protéine S, responsable de l’infection des cellules respiratoires par le virus SRAS-COV2, à l’origine de la pandémie de la COVID-19. À titre de comparaison, il a fallu un an à la communauté scientifique pour élucider cette même structure avec les méthodes habituelles. Une telle information a permis par la suite de localiser, d’identifier et de comprendre l’apparition de mutations à l’origine des nouveaux variants plus infectieux et de comprendre pourquoi l’immunité acquise ne suffit plus pour lutter contre ces nouveaux variants.

La structure d’une protéine c’est sa carte d’identité

Même en sachant que certains gènes* sont à l’origine d’une maladie, c’est en comprenant les protéines que nous pouvons trouver un traitement. Identifier sur l’ADN le gène responsable de la maladie de la mucoviscidose par exemple ne suffit pas à comprendre les conséquences d’un dysfonctionnement du gène. Ces informations sont trop abstraites, mais permettent d’identifier la protéine responsable. On arrive alors à faire le lien entre le symptôme (problème de fluidification du mucus pulmonaire) et la mutation au niveau du gène qui impacte la structure et donc la fonction normale de la protéine. Les gènes sont lus dans le noyau et vont être traduits en chaînes d’acides aminés qui ressemblent à des colliers de perles linéaires, qui se replient sur elles-mêmes. C’est alors qu’une protéine est née. Une modification du gène ou un problème dans le processus de traduction de celui-ci peuvent se répercuter sur l’expression de la protéine ou bien sur la structure du collier de perles. Le repliement des perles dicte une fonction à la protéine et lui donne un rôle bien précis dans la cellule. Certaines vont former des canaux et sont capables de transporter des molécules à travers la membrane. D’autres perçoivent des signaux venant de l’intérieur ou de l’extérieur de la cellule. D’autres synthétisent, détruisent, lisent, recopient ou charpentent la cellule. En somme, elles ont une activité qui provient et dépend de leur structure. Il suffit qu’une seule perle du collier ne soit pas la bonne, ou qu’elle soit mal placée, et la protéine s’inactive. C’est comme déformer une serrure et ne plus pouvoir utiliser sa clé. La génétique n’est toutefois pas la seule responsable. L’environnement et l’hygiène de vie sont aussi à l’origine de certaines modifications irréversibles des protéines (maladie d’Alzheimer, diabète de type II).

La révolution d’AlphaFold dans la compréhension des maladies

Comprendre la structure tridimensionnelle d’une protéine, c’est comprendre sa fonction. Cela correspond au Saint Graal pour la communauté scientifique en biologie structurale. Pendant des décennies, celle-ci a mis au point des techniques expérimentales telles que la cristallographie ou la résonance magnétique nucléaire pour élucider les structures des protéines. Apportant la possibilité d’obtenir une photo et de visualiser concrètement le responsable d’une maladie, ces techniques permettent de développer des traitements qui pourront réparer ces protéines. Ces méthodes classiques ont conçu une grande bibliothèque qui regroupe toutes les structures connues. La seule information dont l’intelligence artificielle a besoin pour faire sa prédiction, c’est la séquence linéaire des acides aminés d’une protéine. Alphafold consulte la bibliothèque des structures expérimentales, compare les séquences linéaires et propose une position pour chacun des acides aminés en se basant sur les points communs avec les structures validées. Alors que la communauté scientifique avançait à l’aveugle pendant des années pour élucider une seule structure, AlphaFold propose un modèle en quelques heures sur lequel s’appuyer pour identifier quelle perle est défaillante. Ceci permet ainsi de proposer des pistes de thérapie pour de nombreuses maladies. Aujourd’hui, l’intelligence artificielle est utilisée afin de cartographier et caractériser les protéines responsables de l’infection de notre organisme par des virus émergents, et ainsi élaborer des vaccins efficaces pour tuer dans l’œuf la prochaine pandémie.

 

AlphaFold constitue une grande avancée technologique dans le monde de la biologie structurale en créant un répertoire des structures des protéines. Elle informe sur leurs rôles, leur évolution, et identifie les régions clés de leur structure impliquées dans la régulation de la vie des cellules. Plus fiables que les prédictions de Nostradamus, ces capacités ne représentent qu’une infime partie des possibilités pouvant être accomplies par une intelligence artificielle entrainée à prédire les secrets de la vie.

Figure 1. De l’ADN à la protéine.

Figure 2. Comparaison entre la structure obtenue expérimentalement (en bleue) et prédite par AlphaFold (en vert) de la protéine Fimbrin D-mannose d’Escerichia coli

Lexique

 

L’ADN : L’ADN c’est le premier langage de la cellule, composé d’un alphabet à 4 lettres A,T,G,C, il renferme la totalité des informations génétiques héritées de la mère et du père. 

Gène : Unité localisée sur l’ADN, directement hérité des parents et qui donne naissance à une protéine une fois lue dans la cellule. 

Protéine : C’est le deuxième langage de la cellule, composé d’acides aminés, qui forme de longues chaînes. Les protéines représentent le moyen par lequel les gènes s’expriment pour donner vie à la cellule.

Découvre l'auteur

Souleïmen Jmii

Souleïmen est candidat au doctorat en biochimie à l’Université du Québec à Montréal. Il s’intéresse à la structure des protéines végétales et étudie au niveau moléculaire la manière dont les plantes s’adaptent aux stress environnementaux (sécheresse, froid, carences...) afin de sélectionner des variétés plus résilientes pour l’agriculture.

(Visited 3 times, 1 visits today)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *