-
Notifications
You must be signed in to change notification settings - Fork 3
MGL804 Ete 2015
Votre cliente, Béatriz, est une bioinformaticienne spécialisée dans l'exécution de logiciels spécialisés en génomique pour étudier les liens de parenté dans des groupes d'individus. Dernièrement elle éprouve des problèmes de performance quand elle exécute les fonctions IBS et MDS du logiciel libre Plink, créé par l'Université Harvard, sur de grandes cohortes de patients.
Pour ce TP vous devez comprendre le code source des fonctions IBS (qui sert à trouver le lien de parenté dans un groupe de personnes) et MDS (qui sert à visualiser ces données) avec l'objectif de le migrer sur une plateforme qui permet l'exécution distribué sur plus d'une machine avec la plateforme Spark. Pour ce faire, un dépôt GitHub qui contiens tous les composants nécessaires vous a été préparé.
Béatriz s'attend que vous fassiez le travaux de maintenance suivants:
- Semaine 1: Recette de compilation Plink avec un éditeur C/C++ cross-platform (+familiariser avec Docker, +tutoriel)
- Semaine 2: Identification des fonctions C/C++ à migrer (liste fichiers + noms des fonctions)
- Semaine 3: (Code) Importation d'un dataset génomique au format text (PED/BED/FAM) dans Spark (RDD)
- Semaine 4: (Algo) Plan algorithmic pour implanter la fonctionnalité de clustering dans Spark
- Semaine 5: (Code) Calcul de la matrice "pairwise IBS metrics"
- Semaine 6: (Code) Pouvoir sauvegarder et charger la matrice entre plusieurs exécutions
- Semaine 7: (Code) Analyse de clustering sur la matrice + pouvoir utiliser diverses contraintes
- Semaine 8: (Code) Génération d'une matrice mds-plot
- Semaine 9: (Code) T.B.D.
- Semaine 10: (Code) T.B.D.
- Semaine 12: Présentation finale