Magazine

A Franc

Description
Apport du calcul intensif au traitements de donn´ees NGS: exemple du m´etabarcoding J.-M. Frigerio, P. Blanchard, E. Chancerel, P. Chaumeil, F. Salin, S. Th´erond…
Categories
Published
of 23
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Related Documents
Share
Transcript
Apport du calcul intensif au traitements de donn´ees NGS: exemple du m´etabarcoding J.-M. Frigerio, P. Blanchard, E. Chancerel, P. Chaumeil, F. Salin, S. Th´erond & A. Franc INRA BioGeCo /INRIA Pleiade, Bordeaux; CNRS, IDRIS, Orsa June 30, 2017 Quels outils pour la diversit´e mol´eculaire? Une typologie des approches bien ´etablies Phylog´enies mol´eculaires Distances entre s´equences parcimonie distance d’´edition maximum de vraisemblance (Levenstein) inf´erence bay´esienne alignement global (Needleman-Wunsch) alignement local (Smith-Waterman) Deux remarques classiques 1 la distance g´en´etique n’est pas la distance ´evolutive 2 un arbre est ´equivalent `a l’existence d’une distance ultram´etrique L’immense diversit´e des Eucaryotes ! 2 Une chaˆıne de traitement Tout commence par une distance ... Calcul des Affichage distances deux MDS du nuage `a deux (SW) (premiers axes) Graphe par seuillage Affichage du des graphe (cc) distances Concr`etement ... Multidimensional Scaling Graphe Etant donn´e Dij = d(i, j) Etant donn´e Dij = d(i, j) r <n α>0 trouver X = (x1 , . . . , xn ) Construire G = (V , E ) tel que xi ∈ Rr tel que V = {1, n} kxi − xj k ' d(i, j) i ∼ j ⇔ d(i, j) ≤ α Multidimensional scaling Donn´ees: arbres de Guyane, base R-Syst Multidimensional scaling Donn´ees: arbres de Guyane, base R-Syst Multidimensional scaling Donn´ees: arbres de Guyane, base R-Syst Quelles sont les limites du calcul ? Notion de complexit´e des algorithmes : un petit tour guid´e Deux limites Des grandes familles d’algorithmes 1 le temps de calcul lin´eaire : ∝ n 2 la m´emoire n´ecessaire polynomial : ∝ nα exponentiel : ∝ k n Quelles sont les limites du calcul ? Notion de complexit´e des algorithmes : un petit tour guid´e Deux limites Des grandes familles d’algorithmes 1 le temps de calcul lin´eaire : ∝ n 2 la m´emoire n´ecessaire polynomial : ∝ nα exponentiel : ∝ k n Exemples Algorithme type n=1 n = 10 n = 100 n = 1000 distance SW `2 1s 1mn40s 2h47mn 11j14h Tableau des distances n2 − − − − Calcul des axes propres n3 − 16mn40s 11j14mn > 31ans ! Combinatoire, souvent 2n − 17mn4s 4.1013 Gy +∞ Comment franchir ces limites ? Franchir ... ou contourner ... Parall´elisation Limite Heuristiques de temps Changer d’algorithme Algorithme de traitement des donn´ees NGS Ecrits en C ou en python (numpy, matplotlib) 1 Calcul des distances d’´edition pour chaque paire de s´equences i Programme disseq en C pour calcul efficace ii Parall´elisation en MPI (collaboration IDRIS) iii Production sur machine Turing (IDRIS), sur 16 386 cœurs iv ' 70 000 h de calcul pour un run de 100k reads 2 Multidimensional Scaling de ces matrices 100k × 100k i Pr´etraitement ii calcul des axes et valeurs propres (algorithme dit de ”projection al´eatoire”, Vempala, 2004) iii O(n3 ) −→ O(n2 r ) si r axes (r = 2 ⇒ ÷50 000!) iv calcul sur Plafrim, plateforme de d´eveloppement INRIA/LaBRI/IMB Bordeaux 3 Affichage du nuage de points i Rapatriement des coordonn´ees sur portable local ii Affichage sur portable local (matplotlib) MDS sur un m´etag´enome complet (ou presque) Diatom´ees d’eau douce, un ´echantillon du Lac L´eman – 100k reads MDS sur un m´etag´enome complet (ou presque) Diatom´ees d’eau douce, un ´echantillon du Lac L´eman – 100k reads MDS sur un m´etag´enome complet (ou presque) Diatom´ees d’eau douce, un ´echantillon du Lac L´eman – 100k reads MDS sur un m´etag´enome complet (ou presque) Diatom´ees d’eau douce, un ´echantillon du Lac L´eman – 100k reads R´esultats Rappel : information trait´ee Aucune information taxonomique dans les donn´ees Simplement des distances entre reads, deux `a deux Rien de plus, rien de moins R´esultats Rappel : information trait´ee Aucune information taxonomique dans les donn´ees Simplement des distances entre reads, deux `a deux Rien de plus, rien de moins Traitement agnostique vis `a vis de la taxonomie R´esultats Rappel : information trait´ee Aucune information taxonomique dans les donn´ees Simplement des distances entre reads, deux `a deux Rien de plus, rien de moins Traitement agnostique vis `a vis de la taxonomie Observations 1 Le nuage de points est organis´e: il a une forme R´esultats Rappel : information trait´ee Aucune information taxonomique dans les donn´ees Simplement des distances entre reads, deux `a deux Rien de plus, rien de moins Traitement agnostique vis `a vis de la taxonomie Observations 1 Le nuage de points est organis´e: il a une forme 2 ∃ une grande concentration des reads autour de quelques points : c’est une struture en clusters R´esultats Rappel : information trait´ee Aucune information taxonomique dans les donn´ees Simplement des distances entre reads, deux `a deux Rien de plus, rien de moins Traitement agnostique vis `a vis de la taxonomie Observations 1 Le nuage de points est organis´e: il a une forme 2 ∃ une grande concentration des reads autour de quelques points : c’est une struture en clusters 3 Les distances au sein d’un cluster sont du mˆeme ordre de grandeur que la variabilit´e au sein d’une esp`ece Sommes toutes ... une combinaison de disciplines ... Syst´ ematique Biologie mol´ eculaire Techniques de Biologie s´ equen¸cage M´ethodes spectrales Analyse Math´ematiques de ap- Nuage de points donn´ ees pliqu´ ees NGS Distance Architecture: Turing Informatique Parall´ elisation Code du code: MPI ... et de talents ... Fred Maria Agn` es Biologie Franck Alain Analyse de Math´ematiques appliqu´ees donn´ ees NGS Pierre Sylvie Informatique Jean- Philou Marc Alain
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks