Article paru dans notre lettre d'information du 15 octobre 2019

Le défi numérique de la médecine génomique

J’ai eu l’occasion de rencontrer cette semaine, lors de l’Assemblée Générale de Teratec, Jean-Marc Grognet, le directeur de Genopole, premier biocluster français dédié à la recherche en génétique et aux biotechnologies appliquées à la santé et à l’environnement. Il nous a notamment expliqué pourquoi et comment le numérique est devenu indispensable dans ces domaines.

Lors de l’Assemblée Générale de Teratec, Jean-Marc Grognet, le directeur de Genopole, nous a expliqué ce qu’est le Groupement d’intérêt public Genopole et le renouveau actuel du besoin du numérique dans l’exploration de la génomique.

Biologiste de formation, Jean-Marc Grognet a fait à partir de 1985 l'essentiel de sa carrière au CEA. Il a pris la direction de Genopole en février 2017. Doc : CEA
(cliquer sur l'image pour l'agrandir)

« Le Genopole est une vision qui a été portée il y a 20 ans pour créer un biocluster, c’est-à-dire un campus d’innovation qui rassemble sur un territoire le plus resserré possible (Evry, Corbeil, Courcouronnes) autour d’une thématique focalisée de grande importance (la génomique), le triangle de la connaissance (l’enseignement supérieur, des acteurs de recherche académique, des industriels). Et nous avons mis en plus quelque chose d’essentiel au milieu du triangle, le patient.

La première raison est historique parce que l'AFM-Téléthon, qui lutte contre les maladies neuromusculaires, a eu ses premiers laboratoires sur le site d’Evry. La seconde raison est que le Centre Hospitalier Sud-Francilien (CHSF), le plus important en Ile-de-France hors Paris avec 1 000 lits et 3 000 soignants, est au cœur de notre territoire », explique Jean-Marc Grognet.

5 600 personnes autour de la Génomique

Genopole en chiffres :

- Créé en 1998

- 5 600 personnes

- 2 400 emplois directs

- 5 campus

- 16 laboratoires académiques

- 3 grandes écoles

- 96 entreprises labellisées

- 29 plates-formes technologiques

Et la réussite a été au rendez-vous, puisque 20 ans après le campus d’innovation Genopole c’est 5 600 personnes dont 2 400 emplois directs. Elles se répartissent dans 16 laboratoires académiques sous tutelle de l’INSERM, du CNRS, du CEA, des Universités d’Evry Paris Saclay et de Paris-Sud (1 000 personnes), ainsi que dans 96 entreprises labellisées (1 500 personnes) et 29 plates-formes technologiques de pointe.

Celles-ci permettent de doter un laboratoire ou une entreprise, qui ont les compétences techniques, d’un matériel de pointe qu’elles n’auraient pas forcément les moyens de financer, et de les aider à l’opérer et à l’ouvrir à l’ensemble des acteurs du site, pour faciliter la mutualisation des savoirs. Par exemple, l’Ecole des Mines de Paris a sur Evry un laboratoire travaillant sur les matériaux qui a été doté d’un microscope électronique, aujourd’hui accessible aux applications de biologie des laboratoires et entreprises membres du Genopole.

Ce sont aussi de grandes écoles : École Nationale Supérieure d'Informatique pour l'Industrie et l'Entreprise (ENSIIE) ; Telecom Sud Paris ; Institut Mines-Télécom Business School (IMT BS).

Enfin, c’est une réussite économique puisque les entreprises du Genopole lèvent en moyenne 70 à 80 millions d’Euro par an. Dernière opération en date, Ynsect, spécialiste des protéines d'insectes, créé il y a 5 ans au Genopole, vient de lever 125 M$.

Aujourd’hui le Genopole c’est 5 campus, qui devraient être rapidement complétés par 2 autres, qui, outre des laboratoires, hébergeront aussi des unités de production.

L’ADN de Genopole c’est l’ADN

« La génomique est depuis un siècle une façon de répondre à la question très simple du caractère héréditaire de certaines choses et aux exceptions constatées. Pourquoi l’enfant d’un couple aux yeux bleus n’a-t-il pas les yeux bleus ? On savait aussi qu’une partie des maladies avait une composante génétique que la génomique essayait d’expliquer. La réponse s’est trouvée dans l’ADN, c’est-à-dire cette molécule qui est dans le noyau de nos cellules ».

L’hélice de l’ADN et ses quatre bases. Doc : Genopole
(cliquer sur l'image pour l'agrandir)

L’ADN est une longue chaine qui mesure en moyenne 2 m, ce qui a un impact sur la quantité d’informations portée par cette molécule. Le noyau de chaque cellule est structuré en 23 paires de chromosomes chez l’homme. Des protéines associées à l’ADN sont présentes dans ces chromosomes. Cette molécule d’ADN est formée d’un enchainement de 4 types de motifs moléculaires (les bases) qui représente toute l’information portée par la cellule, soit 3 milliards de paires de bases !

« L’ADN total d’un organisme représente son génome. La quasi-totalité des 70 000 milliards de cellules qui constituent le corps humain possèdent le même ADN. Décrypter le génome, c’est donc acquérir ces 3 milliards d’informations, soit 3x109 ».

Il suffit que l’enchainement de la molécule d’ADN comporte des erreurs au niveau de l’une des bases pour que les capacités des protéines produites soient modifiées, entrainant des anomalies héréditaires ou des maladies génétiques.

Séquencer le génome

Jusque dans les années 90, on a essayé de comprendre ces mécanismes, restait à séquencer le génome. Si l’on essayait de prendre la molécule et d’en lire chaque fragment d’ADN, à raison de 1 seconde pour chaque base, cela prendrait environ 100 ans pour lire le génome entier d’un individu !

D’où le recours au calcul massivement parallèle en découpant l’ADN en une multitude de fragments monobrins. Des séquenceurs à haut débit exécutant des protocoles complexes lisent la suite de bases de chaque fragment. Les fragments d’ADN lus sont ensuite réassemblés par analyse informatique. L’ordinateur reconstitue les génomes et les stocke dans de grandes bases de données.

Pour effectuer le premier séquençage du génome humain, le Human Genome Project a été mis en place en 1990. Une dizaine de laboratoires dans le monde se sont consacrés chacun au séquençage d’un chromosome. Pour la France, la séquence du chromosome 14 a été révélée en 2001 par Genoscope (laboratoire du CEA situé sur le Genopole). Le séquençage du génome humain complet fut achevé en 2003.

Reste à trouver la signification de ce message en essayant de retrouver dans le génome les gènes, des séquences spécifiques de bases, environ 22 000 pour l’être humain.

De 100 M$ à 100 $ en 20 ans

Ce séquençage a un coût. Si celui du premier séquençage par le Human Genome Project a pu être estimé à 100 M$, on a ensuite suivi la Loi de Moore en gagnant un facteur 2 environ tous les 18 mois jusqu’en 2007. Un séquençage coutait alors environ 10 M$. « C’est alors que la société américaine Illumina a trouvé une méthode fracassante pour paralléliser massivement le séquençage, ce qui a fait chuter drastiquement les coûts pour arriver aujourd’hui à 1 000 $ par séquençage ».

« Cela veut dire qu’on est capable aujourd’hui d’avoir un séquençage de génome pour un prix similaire à une analyse biologique complexe. Ce qui devient acceptable dans une pratique médicale classique. La question maintenant n’est plus de savoir si l’on va arriver à 100 $ un jour, mais de savoir dans combien de temps, 3 ans, 6 ans ? »

Mais outre la chute du coût, le délai a lui aussi chuté drastiquement. Les dernières machines de séquençage traitent 48 génomes humains en parallèle en 44 heures. « Avec les technologies moléculaires, la robotique, l’informatique, l’intelligence artificielle, la biologie vit une révolution méthodologique. Nous entrons dans l’ère du Big Data et du séquençage pour tous ». Ce qui permet d’envisager de multiples applications nouvelles.

Tout d’abord explorer la diversité du monde vivant en connaissant mieux les espèces vivantes, c’est la génomique. Mais aussi de découvrir des écosystèmes complexes formés de toute une communauté d’organismes grâce à leur ADN, c’est la métagénomique. Cela va aussi aider à comprendre les mécanismes du vivant, en déterminant la fonction des gènes repérés dans les génomes, c’est la génomique fonctionnelle. Enfin, on va mieux comprendre l’humain et sa santé, c’est la génomique médicale.

La génomique annonce le retour des grands explorateurs

La génomique permet aussi de voir ce que l’on ne savait pas voir avant. Par exemple, l’expédition Tara Oceans, grâce à ses centaines de milliers de prélèvements d’eau effectués dans toutes les mers du monde et aux séquençages effectués dessus, a recensé 117 millions de gènes dont plus de la moitié étaient jusque là inconnus. On repère ainsi des espèces que l’on n’avait jamais vues ! De même, le séquençage a totalement changé la vision du microbiote intestinal. De quelques espèces de bactéries identifiées il ya 40 ans, on est passé à plusieurs centaines aujourd’hui et il en reste encore à découvrir !

Personnaliser l’approche médicale

Le séquençage du génome de chaque individu va révolutionner les pratiques médicales en personnalisant le diagnostique et les traitements. Mais pour que cela soit efficace, il va falloir pouvoir connaitre et interpréter en temps réel les informations contenues dans le génome, d’où un besoin grandissant en puissance et performances de calcul. « L’idée est de pouvoir traiter de plus en plus rapidement des flots de données hétérogènes grâce à des algorithmes, notamment d’intelligence artificielle, et des outils bio-informatiques dans un contexte d’interdisciplinarité médicale croissante pour poser le bon diagnostique ».

Connaitre le réarrangement génomique d’une tumeur peut, par analyse de ses caractéristiques génétiques, donner des informations précieuses aux médecins pour orienter les traitements. Pour cela, il va falloir faire en amont un travail d’acquisition, d’interprétation, de digestion et de présentation des données, pour ne pas les submerger sous une masse d’information.

Cette médecine génomique ou personnalisée se divise en deux grandes branches. L’analyse du génome va permettre de détecter précisément les prédispositions d’un individu à des pathologies en fonction de sa carte d’identité génétique et de faire de la médecine préventive en lui donnant des conseils de comportement, voire en lui prescrivant des traitements préventifs pour diminuer les risques.

L’analyse du génome va aussi permettre de détecter des pathologies rares en posant le bon diagnostique du premier coup. Dans le cas de maladie avérée, l’analyse du génome va permettre d’évaluer différents traitements et de choisir du premier coup celui qui sera le plus efficace et le plus rapide, avec le moins d’effets secondaires. « Depuis environ deux ans en cancérologie, il est devenu possible non plus de traiter une pathologie rénale ou digestive, mais une mutation génétique avec un médicament dédié quelque soit la localisation de la tumeur. C’est un changement radical de la vision du traitement ».

Tout cela est au cœur du grand plan France Médecine Génomique 2025, né en partie au Genopole, qui vise à doter la France d’un grand nombre de plates-formes dédiées au séquençage qui enverront les informations obtenues à un Collecteur Analyseur de Données (CAD) qui en assurera le traitement et l’interprétation pour chaque patient et alimentera un centre de recherche, le Crefix, qui validera les procédures et les appareils.

Génomique et Big Data

Contrairement à beaucoup d’applications de Big Data où l’on traite quelques informations sur un très grand nombre d’individus, en médecine génomique on traite un très grand nombre de descripteurs (code génétique, mutations…) sur un très faible nombre d’individus.

« On estime que l’on va avoir 1021 bytes d’information à traiter par individu à multiplier par plusieurs centaines de milliers de patients par an. Ce qui, outre la puissance de traitement, va aussi nécessiter de très gros moyens de stockage, environ 10 ExaBytes par an ».

Cela pose aussi des questions car si l’acquisition n’est plus un problème, les données restent confidentielles, mais l’on doit être capable de les rattacher à un dossier médical pour qu’elles aient un intérêt. Comment fait-on pour garantir cette confidentialité ? A qui appartiennent ces données, au patient, au médecin qui a fait la prescription, au centre de séquençage, à la collectivité donc l’état ? Qui va être chargé de les conserver et avec quelle pérennité, car les informations d’aujourd’hui pourront être utiles pour traiter une pathologie dans 30 ans ? Qui les interprétera et qui les réinterprétera au fil des évolutions de la science ?

Pas de génomique sans numérique

« La médecine du futur sera basée sur la génomique et pour cela nous avons besoin d’une informatique de calcul toujours plus performante pour le traitement sécurisé de très gros volumes de données, tout en garantissant leur pérennité sur le long très terme. Nous avons d’ailleurs envisagé de créer le premier institut de ‘‘génomique numérique’’ au monde, pour répondre à ces besoins, car nous avons sur notre territoire les centres de séquençage parmi les plus puissants d’Europe et des structures ayant de très fortes compétences en calcul numérique haute performance (HPC) », conclut Jean-Marc Grognet.

Jean-François Prevéraud

Pour en savoir plus : http://www.genopole.fr

Ingénieur de formation (ENIM) et journaliste professionnel depuis 1981, Jean-François Prevéraud a participé à de nombreux journaux et lettres d'information (Bureau d'Etudes, CFAO Synthèse, SIT, Industrie & Technologies, Usine Nouvelle...) comme journaliste, rédacteur en chef adjoint ou rédacteur en chef.

En retraite depuis février 2017, Jean-François veut que celle-ci soit active. C’est pour cette raison qu’il reste informé de ce qui bouge dans le PLM dans son sens le plus large (CFAO, Simulation Numérique, Impression 3D, Usine du futur, Réalité virtuelle et augmentée…). Il contribue désormais à notre lettre d’information pour commenter l’actualité que nous publions ou celle qu’il a pu glaner dans les évènements qu’il continue à suivre.

Vous pouvez accéder ci-dessous à ses derniers articles.