Génomique analytique

Nos problématiques sont liées au fonctionnement et à l’évolution des systèmes biologiques.

Nous combinons des approches mathématiques, algorithmiques et de la physique moléculaire pour établir les principes fondamentaux du fonctionnement cellulaire à partir de données génomiques.

Annotation de domaines et métagénomique. Nous développons une nouvelle méthode pour l’annotation des domaines protéiques et l’identification des homologies lointaines. Elle est en cours d'adaptation aux données métagénomiques.

Transcriptomique et analyse de séquence. Nous développons des méthodes d’analyse statistique pour les différentes étapes d’une expérience de séquençage du transcriptome

Evolution des protéines et interactions. Nous avons entrepris une cartographie à large échelle des interactions protéine-protéine. Nos méthodes utilisent l’information de séquence et de structure pour prédire les sites de fixation et les conformations des protéines, et discriminer les partenaires.

Dynamique conformationnelle. Nous étudions le comportement dynamique des protéines pour comprendre et contrôler leurs fonctions et interactions, et pour caractériser des conformations alternatives comme cibles thérapeutiques potentielles.

En savoir plus...

Nous concevons des méthodes d’analyse bioinformatique et de modélisation moléculaire et nous les appliquons ensuite pour répondre à des questions biologiques :

Annotation de domaines. Nous utilisons l’apprentissage automatique et l’optimisationcombinatoire pour la détection d’homologie lointaine de protéines, et adaptons cette méthodologie pour l’annotation de métagénomes.

Périodicité dans les génomes et structure 3D des chromosomes dans les organismes unicellulaires. Nous appliquons l’analyse spectrale pour détecter les périodicités dans les génomes à partir de données haut débit, et dégager le lien existant avec la structure 3D des chromosomes.

Méthodes pour le séquençage haut débit. Nous sommes impliqués dans deux efforts méthodologiques : correction d’erreurs de séquençage et alignement de séquences avec larges indels.

Détection et analyse fonctionnelle. Nous avons développé des algorithmes pour prédire de nouveaux miRNAs et nous avons analysé leurs clusters structuraux le long des chromosomes.

Analyse du transcriptomes. Nous développons des méthodes statistiques pour l’analyse de données de séquençage du transcriptome : annotation d’événements d’épissage alternatifs (ASEs) et reconstruction du paysage transcriptionnel.

Modelage de l’espace des repliements protéiques par les ASEs. Nous cherchons à inférer des modèles quantitatifs pour décrire l’impact des ASEs sur la stabilité conformationnelle des protéines.

Prédiction d’interactions protéine-protéine. Nous sommes en train de créer une cartographie à large échelle des PPIs, dans le but d’identifier les partenaires dans la cellule et de prédire leurs conformations. Nous utilisons des outils que nous avons développés pour la prédiction de site de liaison à partir d’information évolutionnaire et structurale, et pour la détection de signaux de co-évolution.

Réseaux de résidus fonctionnels. Nous combinons la détection de signaux de co-évolution et de communication allostérique pour reconstruire une carte à large échelle des sites de mutations protéiques associés à des maladies.

Résultats importants

Nos résultats les plus remarquables de ces 5 dernières années sont :

  • Nous avons démontré que les gènes à fort biais de codon chez E.coli K12 sont périodiquement distribués le long des arcs chromosomiques, ce qui suggère une organisation 3D encodée qui aiderait des activités enzymatiques distinctes.
  • Nous avons développé un outil prédictif très spécifique pour la prédiction de miRNA à partir de séquences ou de données de séquençage. Il a été évalué de manière indépendante comme l’un des meilleurs choix pour la recherche de miRNA chez l’Homme, les mammifères et les plantes.
  • Nous avons proposé une stratégie novatrice pour l’annotation de génome, qui permet la construction d’architectures de domaines très probables et la ré-annotation dugénome de P. falciparum, connu pour être difficile à annoter.
  • Nous avons développé des méthodes pour reconstruire des réseaux de résidus co-évolués pour des familles de protéines très conservées ou avec très peu de séquences. Nous avons aussi développé une méthode très spécifique pour la prédiction de sites d’interaction protéiques.
  • Nous avons développé une méthode pour la classification hiérarchique de données biologiques. La méthode est conçue pour être très performante sur des données contenant un petit nombre de points définis dans des espaces à haute dimensions.
  • Nous avons développé des méthodes générales pour reconstruire des génomes ancestraux et l’histoire des réarrangements. Nous les avons appliquées à la levure et aux vertébrés.

Collaborations

University of Milano Bicocca (Italy), University of Udine (Italy), Frei Universität Berlin (Germany), Max-Planck Institut for Molecular Genetics (Berlin-Germany), Ecole Normale Supérieure de Cachan, Institut Pasteur, INSA Lyon, Max-Planck Institut for Informatics (Saarbrücken, Germany), Computational Biology Research Center (Tokyo, Japan).

  • Involvement of the team in large scale structures:

- Labex CALSIMLAB: Labex for Scientific Modeling and Simulation in Research, 2012-2020, Coordinator: Pascal Frey, Institut du Calcul et de la Simulation, UPMC.

- Réseaux de Coordination Scientifique internationale “Physics of living systems” - (GDRi PoLS), 2012-2016. Coordinator: Catherine Royer.

- FANTOM5 (Functional Annotation of the Mammalian Genome) as collaborator with RIKEN, Japan.

 - Groupement De Recherche (GDR) Bioinformatique Moléculaire.