Proteger el anonimato de los datos genéticos disponibles públicamente, incluido el ADN donado a proyectos de investigación, puede ser imposible.

Alrededor del 60 por ciento de las personas de ascendencia europea que buscan en las bases de datos de genealogía genética encontrarán un emparejar con un pariente que sea un primo tercero o más cercano , encuentra un nuevo estudio. El resultado sugiere que con una base de datos de aproximadamente 3 millones de personas, la policía o cualquier otra persona con acceso a datos de ADN puede descubrir la identidad de prácticamente cualquier estadounidense de ascendencia europea, Yaniv Erlich y sus colegas informan en línea el 11 de octubre en Ciencia .

Erlich, el director científico de la compañía de pruebas genéticas para el consumidor MyHeritage, y sus colegas examinaron la base de datos de su compañía y la del sitio de genealogía pública GEDMatch, que contiene datos de aproximadamente 1.2 millones de personas. Mediante el uso de concordancias de ADN con familiares, junto con información sobre el árbol familiar y algunos datos demográficos básicos, los científicos estiman que podrían limitar la identidad de un propietario de ADN anónimo a solo una o dos personas.

Casos recientes que identifican a sospechosos en crímenes violentos a través de búsquedas en el ADN de GEDMatch, como el caso de Golden State Killer ( SN Online: 29/04/18 ), tener problemas de privacidad planteados ( SN Online: 6/7/18 ). Y el mismo proceso utilizado para encontrar sospechosos de violación y asesinato también puede identificar a las personas que han donado ADN anónimo para estudios de investigación médica y genética, dicen los científicos.

Los datos genéticos utilizados en la investigación carecen de información como nombres, edades y direcciones, y no se pueden usar para identificar a los individuos, han dicho funcionarios gubernamentales. Pero “eso es claramente falso”, como han demostrado Erlich y sus colegas, dice Rori Rohlfs, un genetista estadístico de la Universidad Estatal de San Francisco, que no participó en el estudio.

Usando técnicas de genealogía genética que reflejan búsquedas del asesino de Golden State y sospechosos en al menos otros 15 casos criminales, el equipo de Erlich identificó a una mujer que participó de forma anónima en el proyecto 1000 Genomes. Ese proyecto catalogó variantes genéticas en aproximadamente 2,500 personas de todo el mundo.

El equipo de Erlich extrajo la información anónima de la mujer de la base de datos 1000 Genomes disponible públicamente. Los investigadores crearon un perfil de ADN similar a los generados por empresas de pruebas genéticas de consumo como 23andMe y AncestryDNA ( SN: 6/23/18, p.14 ) y subí ese perfil a GEDMatch.

Una búsqueda encontró coincidencias con dos primos lejanos, uno de Dakota del Norte y uno de Wyoming. Los primos también compartieron el ADN, lo que indica que tenían un conjunto común de ancestros hace cuatro o seis generaciones. Sobre la base de la información sobre el árbol familiar que ya recogieron esos primos, los investigadores identificaron a la pareja ancestral y rellenaron a cientos de sus descendientes en busca de una mujer que coincidiera con la edad y otros datos demográficos disponibles públicamente del participante 1000 Genomes.

Le tomó un día encontrar a la persona adecuada.

Ese ejemplo sugiere a los científicos que deben reconsiderar si pueden garantizar el anonimato de los participantes de la investigación si los datos genéticos se comparten públicamente, dice Rohlfs.

Sin embargo, en realidad, identificar a una persona de un emparejamiento de ADN con un pariente lejano es mucho más difícil de lo que parece, y requiere mucha experiencia y mucho trabajo, dice Ellen Greytak. Ella es la directora de bioinformática de Parabon NanoLabs, una compañía en Reston, Virginia, que ha ayudado a cerrar al menos una docena de casos criminales desde mayo mediante búsquedas genealógicas genéticas. “El abismo entre un partido y la identificación es absolutamente masivo”, dice ella.

La compañía también descubrió que las personas de ascendencia europea a menudo tienen coincidencias de ADN con familiares en GEDMatch. Pero rastrear a un solo sospechoso de esos partidos a menudo se confunde con matrimonios mixtos, adopciones, alias, casos de parentesco o desconocidos y otros factores, dice CeCe Moore, un genealogista que encabeza el servicio de genealogía genética de Parabon.

“El estudio demuestra el poder de la genealogía genética de una manera teórica”, dice Moore, “pero no captura completamente los desafíos del trabajo en la práctica”. Por ejemplo, Erlich y sus colegas ya tenían información sobre el árbol genealógico del Genoma 1000. familiares de la mujer, “por lo que tuvieron una ventaja significativa”.

El ejemplo de Erlich podría ser una simplificación excesiva, dice Rohlfs. Los investigadores hicieron estimaciones aproximadas y suposiciones que no son perfectas, pero la conclusión es sólida, dice ella. “Su trabajo es aproximado, pero totalmente razonable”. Y esa conclusión de que casi cualquier persona puede identificarse a partir del ADN debería provocar una discusión pública sobre cómo se deben usar los datos de ADN para el cumplimiento de la ley y la investigación, dice.