[-back-]

university Rennes1

[ posted on September, 19th, 2018 ]

Proposition de stage de Master 2 : janvier-juin 2019

Nom du laboratoire
IGDR-CNRS, université Rennes1, Rennes.

Adresse ou se déroulera le stage :
IGDR-CNRS, équipe Génétique du chien, 2 av Pr. Léon Bernard, campus Villejean, Rennes

Responsable du stage (personnes a contacter par les candidats):
- HITTE Christophe / DERRIEN Thomas
- Statut : Ingénieur de Recherche / Chargé de Recherche
- Coordonnées (mél, tél) : hitte@univ-rennes1.fr - thomas.derrien@univ-rennes1.fr 02.23.23.47.77

Titre du stage : Machine Learning pour la caractérisation et la classification génétique des cancers

Mots clés résumant les méthodes et techniques à utiliser au cours du stage :
- Machine Learning, Biologie intégrative, Cancer, TCGA, Génomique comparée

Résumé du projet de stage

Le degré élevé d'hétérogénéité observé dans les échantillons tumoraux rend difficile l'identification et la classification des individus en sous-groupes cliniques distincts et limite par conséquent la capacité à concevoir des stratégies thérapeutiques efficaces. Cependant, les analyses intégratives démontrent que les profils de mutation des gènes et leurs profils d’expression peuvent être utilisés efficacement avec des méthodes d'apprentissage automatique (machine learning) pour identifier des sous-groupes de patients cancéreux pouvant être distingués cliniquement [1]. Chez l’Homme, les données génétiques des cancers sont centralisées et disponibles sur le site du TCGA (The Cancer Genome Atlas) [2]. Nous avons extrait les données d’expression pour 9 cancers différents, comportant 976 échantillons (488 tumeurs+488 contrôles) pour plus de 33000 gènes (20000 codant et 13000 ARN longs non-codant). Dans ce projet, nous exploiterons les données de profils d'altérations génétiques (mutations) et les profils d'expression des gènes (RNA-Seq), pour caractériser, classifier et prédire les sous-groupes de cancers à partir des données du TCGA. Sur le plan méthodologique, nous explorerons les approches d'apprentissage automatique (Random Forest, deep learning, auto-encodeurs) qui abordent le problème de la découverte de la structure dans des ensembles de données non caractérisées (clustering) avec les objectifs de mieux classifier et prédire les sous-groupes de cancers. Enfin, nous testerons si les méthodes mises en place chez l'Homme peuvent être transposées à d'autres espèces dont le chien (données disponibles au laboratoire) via des approches de transfer learning dans un objectif de bénéfice double pour la médecine humaine et vétérinaire. Les principales étapes du stage sont : Analyse des données d’expression (RNAseq), extractions des données d’altérations génétiques (SNV, CNA). Identification des gènes différentiellement exprimés entre échantillons. Développement de méthodes d’apprentissage (machine learning).

Montant des indemnités de stage :
568,76 euros / mois

Références
1. Ching T, Himmelstein DS, Beaulieu-Jones BK, Kalinin AA, Do BT, Way GP, et al. Opportunities and obstacles for deep learning in biology and medicine. J R Soc Interface. 2018;15:20170387.
2. Chang K, Creighton CJ, Davis C, Donehower L, Drummond J, Wheeler D, et al. The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet [Internet]. Nature Publishing Group; 2013;45:1113–20. Available from: http://www.nature.com/doifinder/10.1038/ng.2764