Lorena González, Gradiant | 9 de Mayo de 2014
La secuenciación del ADN ha sufrido un desarrollo sin precedentes con la introducción en los últimos años de las denominadas tecnologías de secuenciación masiva (next-generation sequencing, NGS). A diferencia de los sistemas de secuenciación tradicionales, estas plataformas son capaces de generar paralelamente, y de forma masiva, millones de fragmentos de ADN en un único proceso de secuenciación a una velocidad mayor y con un coste cada vez más reducido. Su alto rendimiento está permitiendo el desarrollo de nuevas aplicaciones y pruebas biológicas que están potenciando el diagnóstico de las causas genéticas de las enfermedades raras y complejas.
Sin embargo, la enorme cantidad de lecturas generadas por estas plataformas plantea desafíos considerables relativos al manejo, análisis e interpretación de esta información. El cuello de botella actual de los proyectos basados en tecnologías de secuenciación masiva no es la secuenciación del ADN en sí, sino que reside en la gestión de los datos de forma estructurada y el análisis computacional que permita sintetizar e interpretar de forma fiable esta gran cantidad de datos en bruto producidos a través de estas nuevas plataformas.
Uno de los objetivos de la investigación genómica es el descubrimiento de mutaciones en la cadena genética y la determinación de las variantes que causan una enfermedad y están detrás de una determinada patología. Con los datos de NGS, esto no es una tarea trivial. Actualmente, la identificación de mutaciones a partir de datos NGS es a menudo una práctica compleja que implica múltiples etapas de análisis, depende de multitud de programas y bases de datos e implica el manejo de grandes cantidades de datos heterogéneos. Además, los análisis a gran escala de secuenciación identifican grandes cantidades de variantes genéticas, la mayoría de las cuales no están relacionadas con el riesgo de enfermedad. Por lo tanto, se necesitan principios y herramientas de priorización para identificar y clasificar las variantes de interés (aquellas que son potencialmente patogénicas) a partir de la gran lista de candidatas detectadas.