La asignatura de Procesamiento y Gestión de Datos Genómicos tiene un carácter aplicado y se orienta sobre tres ejes: conceptos básicos, datos biológicos y proceso de los mismos.

Contenido:

  • Conceptos básicos de biología, bioquímica, bioinformática y secuenciación. Visión general de los flujos de proceso y tipos de datos y formatos de representación de los mismos. Genes, mutaciones, epistasia, etc.
  • Bases de datos públicas. Ontologías y modelos conceptuales genómicos.
  • Proceso de secuencias genómicas

o    Calidad de los datos en bioinformática. Pre-proceso de secuencias, importancia de la calidad, factores relevantes, estadísticas y técnicas de filtrado y recorte.

o    Alineamiento de secuencias. Alineamiento simple y múltiple. Técnicas como Smith-Waterman, BLAST, tablas Hash y la transformada de Burrows-Wheeler. Herramientas en el estado del arte (p.e. BLAST, Bowtie2, BLAT). Alineamiento múltiple con CLUSTAL.

o    Predicción de secuencias. Predicción de secuencias y genes. Predicción de motivos en proteínas y en cADN. Predicción estructural en ARN y proteínas. Microarrays de ADN. Técnicas de expresión genética. Aproximaciones basadas en aprendizaje automático y clustering.

o    Descubrimiento de mutaciones. Comparación de variantes, análisis estadístico, el formato Variant Call. Herramientas en el estado del arte (p.e. GATK).

o    Filogenia. Árboles y redes filogenéticas. Predicción filogenética. Herramientas en el estado del arte (p.e. MrBayes, BEAST).

o    Ensamblaje de secuencias. Ensablaje de-novo y uso de scaffolds.

  • Técnicas y conceptos comunes en Redes biológicas y bioquímicas: Propiedades, centralidad, motivos y agrupamientos. Redes de Regulación Genética. Redes Metabólicas. Redes de interacción entre proteínas.