Une vision stratégique de l'actualité scientifique et technologique du secteur des biotechnologies.

La Donnée : l’ADN des sciences de la vie

Gabriel Chaher,

Gabriel Chaher, Vice-Président Global Market Development chez Quantum

 

La donnée joue désormais un rôle essentiel  en matière de recherche dans les sciences de la vie, c’est un fait. Nous entendons par là les données numériques stockées, transmises et analysées sur du matériel informatique. Les nouvelles technologies utilisées dans la recherche accélèrent la mutation du processus de découverte en provoquant une augmentation considérable du volume de données numériques et la réduction des temps de cycle. Ces avancées pèsent sur l’infrastructure informatique actuelle. Les changements en laboratoire sont si rapides que l’infrastructure doit à la fois être capable de répondre aux besoins actuels, et offrir la souplesse suffisante pour couvrir les incertitudes futures.

Le problème du volume des données

Vous avez certainement entendu parler du rapport de l’Institut américain de recherche sur le génome humain, le NHGRI, qui démontre que les coûts du séquençage génomique baissent à un rythme encore plus soutenu que celui calculé par le biais de la loi de Moore. Il s’agit d’un des nombreux exemples illustrant le poids de l’évolution des recherches en sciences de la vie sur les ressources informatiques. Le coût de production des données baisse brutalement, mais ce n’est pas tout : l’analyse des données progresse grâce à de meilleurs outils analytiques, notamment l’utilisation accrue de l’intelligence artificielle.

Tandis que le rythme des découvertes scientifiques s’accélère, les résultats génèrent une valeur ajoutée considérable. La difficulté consiste dès lors à gérer la croissance exponentielle du volume des données à l’aide d’une infrastructure de stockage complémentaire et accélératrice du processus de découverte, et permettant d’étendre la capacité facilement et économiquement. L’exemple qui suit illustre bien cette problématique. Récemment, l’Institut australien de recherche sur le génome, l’AGRF, faisait face à l’explosion de son volume de données, qui avait triplé en deux ans et demi. Cette situation critique l’avait contraint à supprimer des données ayant moins d’un an pour pouvoir stocker des jeux de données plus récents. De nombreux instituts de recherche sont actuellement confrontés au même problème, ou le seront bientôt, et devront supprimer des données pour en stocker des nouvelles.

Stockage multiniveau

La meilleure solution consiste à se pencher sur la vie de la donnée tout au long du processus de découverte. On peut généralement dégager trois étapes essentielles :

 

Bien sûr, ce schéma est quelque peu simpliste. En réalité, plusieurs équipements se chargent vraisemblablement d’ingérer les données, avec plusieurs processus analytiques en parallèle ou en séquence, et les données archivées peuvent être de nouveau exploitées ultérieurement pour une analyse supplémentaire, puis réarchivées.

Les besoins de stockage étant différents à chaque étape du processus, une solution de stockage multiniveau constitue la réponse optimale. Par exemple, il est important d’ingérer les données rapidement afin d’éviter d’en perdre certaines lors de la capture ou de la création, et d’offrir un accès rapide aux chercheurs. C’est pourquoi il n’est pas rare que les données soient écrites directement sur des disques SSD pour l’ingestion. Le travail d’analyse s’effectue souvent sur des systèmes de calcul hautes performances (HPC), qui nécessitent un accès haut débit des données. À cette étape, on emploie souvent des stockages hybrides, associant des disques SSD et hautes performances ; avec des performances et une capacité ajustées en fonction de la charge de travail. Cette charge de travail dépend du système analytique (besoins de HPC et d’analyse), multiplié par le nombre de systèmes utilisés. Enfin, le système d’archivage prend la forme d’un référentiel à long terme nécessitant un stockage de grande capacité, capable d’évoluer à moindre coût. Selon la fréquence de récupération des archives, le volume de données archivées et l’emplacement de l’équipe de recherche, les instituts utiliseront un stockage objets, le cloud ou du stockage sur bandes, voire un mélange des trois.

En adoptant une approche multiniveau, les chercheurs peuvent considérablement réduire leurs dépenses de stockage et bénéficier de performances supérieures si nécessaire. Étant donné que seul un sous-ensemble restreint du volume total de données est réellement actif à un instant « t », il est essentiel que les données passives soient stockées dans un système de grande capacité à moindre coût.

Gestion des données

Avec des volumes de données si conséquents, il faut mettre en place un processus de gestion des données facile à déployer et à gérer à grande échelle. Les programmes de gestion adéquats prévoient le transfert automatique des données entre les différents niveaux de stockage, intégré à une protection automatique des données. Il est par exemple recommandé d’appliquer des règles pour créer des copies rapidement après l’ingestion et conserver une copie dans le stockage actif, et une autre dans le stockage d’archivage. Une fois la copie du stockage actif supprimée, une règle peut créer une seconde copie d’archivage, en fonction de la durabilité du niveau de stockage d’archivage.

 

Accès aux données

Un programme de stockage et de gestion des données, si performant soit-il, est inutile si les scientifiques ne peuvent accéder aux données. Cet accès doit être constant et indépendant de considérations informatiques comme le système d’exploitation (Windows, Mac, Linux ou UNIX), le protocole (LAN, SAN ou IP) ou encore l’emplacement de stockage (primaire, archive ou cloud). Outre l’accès à la demande, les recherches modernes s’appuient sur la collaboration ; un accès partagé est donc nécessaire. Par ailleurs, pour bénéficier de tous les avantages d’un workflow véritablement collaboratif et parallèle, plusieurs chercheurs doivent pouvoir accéder simultanément au même fichier. Ce niveau d’accès impose un système de fichiers unique pour toutes les données gérées, avec une prise en charge multi plate-forme et multi protocole, et une arborescence de répertoires et de fichiers persistante – permettant aux chercheurs et aux applications d’accéder aux fichiers sans changer d’arborescence, quel que soit l’emplacement physique sur le stockage (primaire, bande ou cloud).

 

Perspective

L’évolution des recherches en sciences de la vie est si rapide qu’il est vital que le stockage informatique soit capable de tenir le rythme et de garantir une certaine pérennité. Compte tenu de la vitesse de croissance actuelle, les silos de stockage monolithique finiront tôt ou tard par exploser, du fait des coûts de matériel et du temps de gestion qu’ils impliquent. Une approche multiniveau, aux performances et aux capacités d’archivage évoluant de manière indépendante, et permettant une gestion des données basée sur des règles, est donc nécessaire, de même qu’un accès partagé aux données pour les workflows collaboratifs. Alors que de nouvelles alliances se forment et que de nouvelles technologies émergent, l’infrastructure de stockage doit offrir la souplesse suffisante pour s’adapter à ces changements, afin de faciliter les processus dynamiques de la recherche et surtout de ne pas ralentir les progrès de la science.

Tribune libre de Gabriel Chaher, Vice-Président Global Market Development chez Quantum

 

Quantum est un expert mondial en solutions de stockage multiniveau « scale-out », d’archivage et de protection des données, qui permettent de capturer, de partager et de protéger les contenus numériques tout au long du cycle de vie des données. L’infrastructure de stockage multiniveau « end-to-end » de Quantum aide les clients -plus de 100 000 entreprises- à optimiser la valeur de leurs données en les rendant accessibles à tout moment et en tout lieu, et en les conservant pendant une durée illimitée, tout en réduisant le coût total et la complexité du stockage.

 

Articles qui pourraient vous intéresser

Similar posts
  • Les lauréats du Challenge 4 Cancer   Epidemium est un Challenge coopératif de données en open data qui a été réalisé en partenariat avec Roche. Objectif : réinventer une forme d’épidémiologie du cancer. N’importe qui pouvait participer. C’est un challenge citoyen. Il a débuté le 5 novembre 2015 et s’achève le 5 mai 2016. Né du partenariat entre le laboratoire communautaire La [...]

Aucun commentaire jusqu'à présent.

Laisser un commentaire

Dernière Lettre parue

Cliquez sur l'image pour accéder à la lecture via Calaméo (accès réservé aux abonnés)
Cliquez sur l'image pour accéder à la lecture via Calaméo (accès réservé aux abonnés)

Abonnement

(abonnement aux éditions de la Lettre et accès intégral au site)

Abonnez-vous à notre newsletter gratuite

InnovIn Med