La asignatura de Procesamiento y Gestión de Datos Genómicos tiene un carácter aplicado y se orienta sobre tres ejes: conceptos básicos, datos biológicos y proceso de los mismos.
Contenido:
- Conceptos básicos de biología, bioquímica, bioinformática y secuenciación. Visión general de los flujos de proceso y tipos de datos y formatos de representación de los mismos. Genes, mutaciones, epistasia, etc.
- Bases de datos públicas. Ontologías y modelos conceptuales genómicos.
- Proceso de secuencias genómicas
o Calidad de los datos en bioinformática. Pre-proceso de secuencias, importancia de la calidad, factores relevantes, estadísticas y técnicas de filtrado y recorte.
o Alineamiento de secuencias. Alineamiento simple y múltiple. Técnicas como Smith-Waterman, BLAST, tablas Hash y la transformada de Burrows-Wheeler. Herramientas en el estado del arte (p.e. BLAST, Bowtie2, BLAT). Alineamiento múltiple con CLUSTAL.
o Predicción de secuencias. Predicción de secuencias y genes. Predicción de motivos en proteínas y en cADN. Predicción estructural en ARN y proteínas. Microarrays de ADN. Técnicas de expresión genética. Aproximaciones basadas en aprendizaje automático y clustering.
o Descubrimiento de mutaciones. Comparación de variantes, análisis estadístico, el formato Variant Call. Herramientas en el estado del arte (p.e. GATK).
o Filogenia. Árboles y redes filogenéticas. Predicción filogenética. Herramientas en el estado del arte (p.e. MrBayes, BEAST).
o Ensamblaje de secuencias. Ensablaje de-novo y uso de scaffolds.
- Técnicas y conceptos comunes en Redes biológicas y bioquímicas: Propiedades, centralidad, motivos y agrupamientos. Redes de Regulación Genética. Redes Metabólicas. Redes de interacción entre proteínas.