Table des matières

Moteur de recherche pour séquençage ADN

L’ÉQUIPE DE RECHERCHE ET SON PROJET

• Porteur du projet

Laurent Troxler, bioinformaticien à l'UPR9022 du CNRS, Institut de Biologie Moléculaire et Cellulaire (IBMC)

• Membres de l'équipe de recherche et/ou projet

L'équipe de recherche de l'UPR9022 du CNRS, IBMC

• Le projet de recherche

L’Unité Propre de Recherche 9022 du CNRS (UPR 9022), « Réponse immunitaire et développement chez les Insectes », est l’un des trois laboratoires de l’Institut de Biologie Moléculaire et Cellulaire, Institut Fédératif du CNRS localisé sur le campus central de l’Université de Strasbourg.

La recherche de l’UPR 9022 se concentre sur l’étude des bases moléculaires et cellulaires de la défense antimicrobienne (bactéries, champignons et virus) des invertébrés en utilisant comme modèles, la mouche du vinaigre, Drosophila melanogaster et le moustique Anopheles gambiae.

Depuis une vingtaine d’années, ces modèles ont été développés pour l’étude du système immunitaire inné et des mécanismes de lutte contre les pathogènes ou les parasites, comme Plasmodium, responsable de la malaria1). Les données analysées cherchent à mettre en rapport les génomes de la mouche, des virus, des bactéries selon le type de recherche effectuée.

• Objectifs du projet

L'équipe de l'UPR9022 a besoin d'un moteur de recherche adossé à leurs données de séquençage ADN et de microarrays afin de tester et comparer des séquences ADN de la drosophile à des génomes d'organismes connus (drosophile, virus, bactéries, champignons, etc.)

• Financement du projet

CNRS

• Type(s) et volume du corpus étudié

Génome de la drosophile

LES DONNÉES DE LA RECHERCHE

• Types de données

Les données brutes sont réalisées par l'IGBMC et mises sur serveur pour un mois.

Microarrays (puces à ADN)

Le principe des puces à ADN repose sur les interactions de deux brins complémentaires de la double hélice d'ADN qui peuvent s'apparier (un peu comme une fermeture-éclair). Une des chaînes (la sonde) est fixée sur une surface par une de ses extrémités. La chaîne complémentaire (cible) peut s'y apparier pour former un composé stable (hybridation). Si on fixe sur un support des simples brins d'une séquence donnée, on peut détecter l'existence dans une solution à analyser des brins complémentaires. Tous les brins de la solution cible sont liés à une molécule fluorescente.

Quand la puce a été mise en contact avec la solution cible, les brins hybridés deviennent fluorescents et peuvent être identifiés. La lecture des puces à ADN ou à protéines utilise en général un microscope de fluorescence adapté (biochip reader)2).

« Les fichiers d'origine sont des fichiers binaires .CEL. Ensuite, après normalisation, ce sont des fichiers Excel ou texte .TAB d'une taille pouvant aller jusqu'à plusieurs dizaines de Mo.3) »

Séquençage ADN

Le séquençage de l'ADN consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné. Un fichier de séquences ADN est une liste de séquences ou de bouts de séquences de même taille au format FASTQ (données brutes). Il est composé d'un entête, d'une séquence et d'une séquence qualité codée qui donne une idée de la qualité de la séquence. Ce « triplet » se répète dans le fichier. Les données brutes sont filtrées, puis un bout de séquence ADN est aligné en vis à vis d'un génome connu ou de familles de génomes pour le situer, pour savoir à quel endroit on le retrouve et pour savoir combien de séquences s'alignent sur ce gène. On cherche à trouver des homologies avec des familles de bactéries, par exemple.

Quand il n'y a pas d'alignement possible, on procède à un assemblage des bouts de séquences qui se répètent pour reconstituer des enchaînements plus grands et on aligne à nouveau ces séquences sur la base de génomes connus.

Il y a donc plusieurs niveaux de données (brutes, filtrées, traitées). Après analyse, on obtient une vue synthétique consultable sur tableur. « Les données traitées sont au format SAM ou BAM (version compressée de SAM) ou des fichiers texte tabulés ou CSV lisibles par Excel.4) »

• Périodicité actuelle de la mise à jour de la base

/

• Volumétrie des données

Il y a plusieurs copies de ces données à différents stades, après filtrage, sans filtrage, analysées, etc. Il faudrait garder toutes les versions des données, parce que les méthodes d'analyse évoluent et que la reproductibilité exacte est impossible. Entre 2009 et aujourd'hui, il y a eu des changements techniques et, pour un même séquençage, on produit beaucoup plus de données pour un même coût. La taille d'une séquence est d'une centaine de nucléotides, avant c'était une trentaine. Certaines techniques permettent d'atteindre de 200 à 500 nucléotides, ce qui rend les fichiers 5 fois plus lourds.

Microarrays :

De 10 à 15 go en tout, plusieurs Mo par fichier.

Séquençage ADN :

« Actuellement, un fichier FASTQ brut de séquençage fait de 1,8Go à 4,2Go, 2,7Go en moyenne (compressé par gzip, soit 4x plus décompressé). Selon la taille du génome de référence, le fichier SAM peut lui aussi faire plusieurs Go. Un séquençage est en un seul fichier. Un manip rassemble plusieurs séquençages, 12 par exemple pour le dernier (rarement moins de 4).

Pour information, le volume des séquençages réalisés depuis 2009 :

Génomes de référence :

Les bases de données de génomes utilisées de type GenBank sont rapatriées en local. Actuellement, l'ensemble de ces bases de données sur lesquelles Laurent Troxler travaille constitue un dossier de 27 Go.

• Stockage actuel des données

Stockage local

Données de la recherche :

Les données de la recherche sont stockées sur un disque dur de 5 to + un backup (en local). Actuellement, 2 to de données sont stockées sur ces disques. Une sauvegarde Time Capsule est effectuée toutes les heures. Les données initiales sont copiées par l'équipe sur d'autres disques durs. Les tableaux finals sont renvoyés à l'équipe par Laurent Troxler. Il y a quelques années l'Institut a mis en place une politique de sauvegarde des données de chaque ordinateur sur un serveur commun. Mais des problèmes de sauvegarde, de lenteur du réseau, de manque de fiabilité du système ont poussé l'UPR9022 à se retirer et depuis, chaque chercheur gère sa sauvegarde sur disque dur externe avec Time Machine (mac). Les utilisateurs temporaires peuvent sauvegarder leurs données sur un disque dur commun relié en wifi. Certains chercheurs gardent une copie sur disque dur chez eux.

Autres types de données :

Un disque dur de 500 go sert de serveur de fichiers partagés pour les échange entre chercheurs (tout type de documents). C'est un espace où tout le monde a les mêmes droits de dépôt, de modification et de suppression de fichiers. Une sauvegarde est réalisée par TimeCapsule (mac) sur un backup.

Stockage en ligne

Pour la publication d'articles, il est obligatoire de mettre les données brutes en ligne dans un entrepôt de données spécialisé. Array Express est le premier entrepôt pour microarrays à avoir été utilisé par l'unité, puis celle-ci a travaillé sur le séquençage ADN et s'est donc mise à déposer sur Gene Expression Omnibus (GEO) qui accepte à la fois les microarrays et les séquences ADN. L'équipe dépose désormais tout sur ce site. Lors de la soumission de la publication, il faut fournir le numéro GEO attribué aux données brutes et seuls les peer reviewers y ont accès. Les données brutes doivent être rendues publiques (au bout de trois ans maximum), mais aussi les données traitées si elles sont disponibles.

• Logiciels et sites utilisés / à disposition pour créer / gérer les données de la recherche

Environnement MAC, sauvegarde via Time Machine et Time Capsule

BLAST ( basic local alignment search tool )

Disponible en ligne, BLAST est une méthode de recherche heuristique utilisée en bio-informatique permettant de trouver les régions similaires entre deux ou plusieurs séquences de nucléotides ou d'acides aminés et de réaliser un alignement de ces régions homologues. Ce programme permet de retrouver rapidement dans des bases de données, les séquences ayant des zones de similitude avec une séquence donnée (introduite par l'utilisateur). BLAST est utilisé pour trouver des relations fonctionnelles ou évolutives entre les séquences et peut aider à identifier les membres d'une même famille de gènes.

TABLET

Logiciel JAVA créé par le James Hutton Institute qui permet de visualiser les assemblements et les alignements de séquences ADN.

Mobyle@Pasteur

Plateforme web développée conjointement par l'Institut Pasteur et la Ressource Parisienne en Bioinformatique Structurale (RPBS) qui regroupe un ensemble d'outils en ligne dédiés à l'analyse bioinformatique. Elle utilise notamment la suite open source European Molecular Biology Open Software Suite (EMBOSS).

FLYBASE

Base de données en ligne du génome de la drosophile. Propose un jeu d'outils en ligne qui permet de comparer des séquences avec la base en ligne, permet également le téléchargement du génome pour le placer en local.

FastQC

Logiciel qui vise à fournir un moyen simple de faire des vérifications de contrôle de qualité sur les données brutes de séquençage haut débit en provenance de pipelines de séquençage. Il importe des fichiers au format FastQ et exporte les résultats (« report ») au format HTML. Il fournit des graphiques et des tableaux qui permettent d'évaluer rapidement les données.

KRONA

Outil open source utilisé en bio-informatique pour visualiser des données issues de l'alignement de séquences ADN sous forme de « camemberts ». Il est utilisé à travers un pipeline mis en place par une thésarde de l'unité. Il produit un fichier au format HTML5 zoomable, lisible par tous les navigateurs internet modernes.

LES DÉMARCHES EFFECTUÉES AVANT AOC

Le moteur de recherche actuel, construit par Laurent Troxler en PHP/MySQL, se trouve encore sur le vieux serveur général de l'institut, derrière un firewall. Il faut s'inscrire via un formulaire pour y accéder (ajout automatique dans la base de données, sans intervention humaine).

La base de données ne contient que des microarrays traités, pas de données brutes. Les données sont de type texte et numérique. « L'actuelle version ne fait qu'interroger la base de données à partir d'un identifiant (plusieurs types d'identifiants sont possibles) ou d'une liste d'identifiants de gènes pour en afficher les données concernant un ou plusieurs microarrays sélectionnés. Cette interrogation peut également être faites en entrant non plus une liste de gènes mais les coordonnées d'un fragment de génome (chromosome:numéro de première base-numéro de dernière base). Le serveur alors recherche les probes du microarrays présents dans ce fragment.

Les résultats peuvent être affichés de deux manières:

Il n'y a pas de statistiques d'utilisation. Cependant, les problèmes d'accès au serveur et de fichiers déplacés font que l'outil n'est plus vraiment utilisé.

LE CONTEXTE JURIDIQUE

• Conventions de partenariat

/

• Licences (degré d'ouverture des données, restrictions éventuelles)

Le futur moteur de recherche devra être librement consultable par la communauté scientifique. On doit pouvoir choisir quelles données sont accessibles à tous et quelles autres sont d'accès restreint. Quel périmètre ? A définir (CNRS ? Strasbourg?) Voir stratégie au niveau du CNRS, qu'est ce qui est possible de faire ?

• Droit d'exploitation et de reproduction d'images, sons, vidéos, etc.

/

LA DÉFINITION DES BESOINS

• Ressources techniques (logiciels, stockage, visualisation de données, etc.)

Stockage des données

Laurent Troxler souhaite que le moteur de recherche et ses données soient hébergés en externe, à la DI par exemple. Actuellement, l'hébergement du site web Wordpress de l'unité est hébergé par le CNRS.

Moteur de recherche et base de données

L'équipe a besoin d'une base de données de recherche pour les microarrays et surtout pour le séquençage ADN. Le futur instrument de recherche doit être le plus simple possible et permettre une certaine liberté au chercheur. Il doit comporter une partie privée pour permettre l'alimentation de la base de données.

Les fonctionnalités nécessaires :

3) , 4) , 5) Les citations de Laurent Troxler sont issues d'échange de courriels