Interpol lance une base de données mondiale d’ADN familial

Interpol lance une base de données mondiale d’ADN familial

« En 2004, la police croate découvrait le cadavre d’un homme dans l’Adriatique. L’état du corps ne permettant pas le recours aux techniques de comparaison des empreintes digitales ou à la reconnaissance faciale, l’identité de cet homme est demeurée inconnue pendant plus d’une décennie », écrit Interpol, l’organisation internationale de coopération policière, pour annoncer le lancement d’une nouvelle base de données qui permet d’identifier une personne disparue par la comparaison internationale de données génétiques familiales.

« En l’absence d’identifiants comme les empreintes digitales ou les radios dentaires, l’ADN est le seul moyen d’identification des personnes disparues qui peut être prélevé lors d’examens médicaux ou sur un objet personnel, comme une brosse à dents », rappelle dans un communiqué l’organisation sise à Lyon.

Ces prélèvements peuvent être comparés au profil ADN d’un cadavre ou de restes humains non identifiés, dans le but d’une recherche de concordance, comme le fait Interpol depuis 2004 avec sa base de données génétique. « Mais dans l’éventualité où il n’est pas possible d’obtenir directement de l’ADN de la personne disparue, celui des membres de sa famille (parents, enfants, fratries) peut être comparé », avec cette nouvelle base de données baptisée I-Familia, ajoute Interpol.

Consentement nécessaire des parents

Les parents « doivent donner leur consentement pour que leurs données puissent être utilisées à des fins de recherches internationales ». Leur profil ADN ne contient pas de données nominatives et il est communiqué sous forme de code alphanumérique.

S’il y a correspondance, des notifications seront envoyées aux pays qui ont fourni respectivement le matériel génétique provenant du cadavre non identifié et les profils ADN de la famille. Des vérifications complémentaires (comme avec des dossiers dentaires et des objets personnels) peuvent alors être effectuées pour confirmer la concordance.

« I-Familia est un outil humanitaire qui (…) ouvre de nombreuses possibilités nouvelles afin d’identifier les personnes disparues et pour fournir aux familles des réponses », s’est félicité le secrétaire général d’Interpol, Jürgen Stock.

En 2020, plus de 12 000 notices jaunes, relatives à la disparition de personnes à la suite de « crimes, de conflits, d’accidents ou de catastrophes naturelles », ont été diffusées par Interpol.

Comparer des profils ADN familiaux

En l’absence d’éléments tels que des empreintes digitales ou des dossiers dentaires, l’ADN se révèle parfois le seul moyen possible d’identifier des personnes disparues. Ce travail peut se faire par comparaison directe de profils ADN ou par comparaison de profils ADN familiaux. C’est dans cette seconde situation qu’I-Familia va réellement simplifier les recherches.

En effet, les proches biologiques ont en commun un certain pourcentage d’ADN qui dépend de leur degré de parenté. S’il n’est pas possible d’obtenir un échantillon d’ADN de la personne disparue afin de rechercher une concordance directe, il est possible d’effectuer une comparaison avec l’ADN de membres de la famille proche (parents, enfants, frères et sœurs).

Un logiciel pour effectuer des calculs statistiques

Dans le détail, I-Familia se compose de trois éléments : une base de données mondiale dans laquelle sont stockés les profils ADN, un logiciel de comparaison développé par SMART Research et des lignes directrices pour identifier et signaler efficacement les concordances possibles.

Le logiciel, baptisé « Bonaparte », repose sur des algorithmes statistiques pour calculer la probabilité d’une concordance par rapport à un tableau d’interprétation. Il est capable d’effectuer des millions de calculs « en peu de temps », affirme Interpol. Ces résultats sont ensuite analysés par des spécialistes de l’ADN des services de police scientifique du Secrétariat général de l’organisation situé à Lyon. En cas de concordance, une notification est envoyée au pays qui a transmis le profil ADN provenant du cadavre non identifié et à celui qui a transmis les profils génétiques familiaux.

Des mesures de protection des données biométriques

Etant des informations particulièrement sensibles, le traitement des données génétiques répond à des règles très strictes. Il s’effectue via des canaux de communication sécurisés, précise Interpol. De plus, les membres de la famille doivent donner leur consentement pour que les données puissent être utilisées à des fins de recherches internationales.

Vos données dans des tubes à essai

Le stockage de données dans l’ADN in vitro fonctionne le plus souvent de la manière suivante : les données à conserver – textes, images – sont converties en séquence de 0 et de 1, elles-mêmes transposées en séquences de nucléotides A, C, G et T. La molécule d’ADN est ensuite synthétisée par des appareils dédiés, qui ajoutent les nucléotides souhaités les uns à à la suite des autres pour former des brins d’ADN, le plus souvent longs de quelques dizaines à deux cents paires de bases – à titre de comparaison, les bactéries ont généralement un génome de quelques millions de paires de base, et les humains 3,2 milliards de bases par cellule. Une information assez volumineuse sera ainsi répartie sur plusieurs brins d’ADN, mais elle sera reconstituée à la lecture. Les molécules peuvent ensuite être stockées, souvent dans une solution aqueuse. L’accès à l’information se fait par séquençage et interprétation des séquences obtenues.

Le coût est l’une des limites principales du stockage in vitro : la synthèse de l’ADN, donc l’écriture des données, est chère. Pour contourner les coûts liés à cette synthèse, des méthodes alternatives sont explorées. Par exemple, il est envisagé d’utiliser un encodage fondé sur des structures physiques de l’ADN : ici, le repliement ou non de l’ADN correspond alors à un 0 ou à un 1. Autre option, l’encodage via des modifications épigénétiques : dans ce cas, les bits sont encodés grâce à la présence ou l’absence de modifications chimiques le long de la molécule l’ADN, et non via les bases.

Autre limitation à l’heure actuelle, l’étape de synthèse peut être longue et générer des erreurs, tout comme l’étape de séquençage nécessaire à la lecture des données. Pour pallier aux éventuelles erreurs, l’encodage des données doit inclure une redondance de l’information, et des codes correcteurs sont utilisés : ce sont des séquences ajoutées à la suite des données d’intérêt, permettant de reconstituer l’information en cas d’erreur ou d’effacement lors de l’écriture ou de la lecture. Ces codes de correction d’erreurs sont issus des travaux sur le codage de l’information. Des informations redondantes, c’est-à-dire déjà présentes dans le message, sont ajoutées autour de l’information à transmettre. Cela permet au système qui la décode de détecter et de remanier les erreurs. Un des codes de correction d’erreurs les plus utilisés, le code de Reed-Solomon, est d’ailleurs présent dans les CD et les QR codes pour y éviter les pertes d’informations.

Vos données dans des bactéries

Il est également possible de stocker des données in vivo, dans le génome d’organismes vivants. En 2017, un gif animé fut encodé dans le génome d’une bactérie, les bases constituant le code étant intégrées dans un endroit précis du génome. Un triplet de nucléotides codait alors pour une couleur de pixel, permettant une reconstitution en 21 niveaux de gris.

Plus récemment, en 2021, des chercheurs de l’université de Columbia ont mis en place un système permettant de transférer les données directement d’un format numérique à un stockage biologique.

Dans ce nouveau système, dit « enregistrement moléculaire électrobiologique », le format numérique, composé de 0 et de 1, est exprimé en signal électrique. Ainsi, pour coder un 0, il n’y a pas de signal électrique et une séquence issue du génome originel de la bactérie est intégrée dans le génome. En revanche, pour coder un 1, donc en présence d’un signal électrique, une séquence exogène – étrangère au génome de la bactérie – est intégrée dans le génome. Les chercheurs ont ainsi encodé le message « hello world » dans le génome de la bactérie. Si la quantité de données encodées est encore faible, c’est la première démonstration d’une écriture de données directement de l’ordinateur vers un organisme vivant – une sorte de magnétoscope cellulaire, capable d’enregistrer les données sur l’équivalent biologique de la bande magnétique : l’ADN.

Edmond