Pipeline Nextflow para análisis genómico en el TFM
Este repositorio contiene un pipeline de análisis bioinformático desarrollado como parte del Trabajo Final de Máster (TFM). Utiliza herramientas bioinformáticas modernas como Nextflow, FastQC, Cutadapt, y otras para realizar un análisis completo, desde el preprocesamiento de lecturas hasta la anotación y priorización de variantes genéticas.
- Preprocesamiento de lecturas: Incluye control de calidad, eliminación de adaptadores, deduplicación y normalización.
- Alineamiento: Lecturas alineadas al genoma de referencia (GRCh38).
- Llamado de variantes: Identificación de variantes genómicas con herramientas como GATK y BCFtools.
- Anotación funcional: Predicción del impacto funcional utilizando herramientas como ANNOVAR.
Para ejecutar este pipeline, necesitas las siguientes herramientas instaladas:
- Nextflow: Para orquestar y ejecutar el pipeline.
- FastQC: Para realizar el control de calidad de las lecturas.
- Cutadapt: Para la eliminación de adaptadores.
- Trimmomatic: Para mejorar la calidad de las lecturas.
- SAMtools: Para manipular archivos SAM y BAM.
- GATK: Para el llamado de variantes.
- ANNOVAR: Para la anotación funcional de variantes.
- BBMap: Herramienta de normalización y deduplicación.
- BCFtools: Análisis de variantes.
Para realizar el alineamiento y el llamado de variantes, necesitas el genoma humano de referencia. Se recomienda descargarlo desde ENSEMBL:
-
Descarga el genoma de referencia (GRCh38):
- URL: https://www.ensembl.org/info/data/ftp/index.html
- Archivo necesario:
Homo_sapiens.GRCh38.dna.primary_assembly.fa
-
Asegúrate de indexar el genoma con las herramientas adecuadas:
samtools faidx Homo_sapiens.GRCh38.dna.primary_assembly.fa bwa index Homo_sapiens.GRCh38.dna.primary_assembly.fa
- Clona este repositorio:
git clone https://github.com/julianv-12/genomics_pipeline_TFM.git cd genomics_pipeline_TFM
El proyecto está organizado de la siguiente manera:
genomics_pipeline_TFM/ ├── aligned_2/ # Archivos alineados ├── normalized_2/ # Lecturas normalizadas ├── fastqc_results_2/ # Resultados de FastQC ├── variants_2/ # Variantes detectadas ├── trimmomatic_results_2/ # Resultados de Trimmomatic ├── fastq_2/ # Lecturas preprocesadas ├── genomics_pipeline.nf # Pipeline principal ├── tools.sh # Script auxiliar de instalación de herramientas └── README.md # Documentación del proyecto
nextflow run genomics_pipeline.nf
- Cada carpeta contiene resultados generados por diferentes herramientas.
- El archivo
genomics_pipeline.nf
es el pipeline principal que puedes ejecutar con Nextflow. tools.sh
incluye comandos útiles para instalar las herramientas necesarias.