Fasta masking with either whole gene seq or exons

niekwit · niekwit · commit ec4862860729 · 2024-06-25T10:59:08.000+01:00
diff --git a/config/config.yaml b/config/config.yaml
@@ -1,9 +1,9 @@
 genome: dm6
 ensembl_genome_build: 110
-plasmid_fasta: none
-fusion_genes: FBgn0038542,FBgn0085506 # Genes from these proteins will be removed from the analysis
-bowtie2:
-  extra: ""
+plasmid_fasta: none # Path to plasmid fasta file with sequences to be removed
+fusion_genes: 
+  genes: FBgn0038542,FBgn0085506 # Genes from these proteins will be masked from the fasta file
+  feature_to_mask: "exon" # Gene feature to mask from the fasta file (exon or gene)
 damidseq_pipeline:
   normalization: kde # kde, rpm or rawbins
   binsize: 300
@@ -67,6 +67,7 @@ resources: # computing resources
   damid:
     cpu: 24
     time: 720
+    tmpdir: /tmp
   index:
     cpu: 40
     time: 60
diff --git a/workflow/rules/resources.smk b/workflow/rules/resources.smk
@@ -80,6 +80,7 @@ rule masked_fasta:
     params:
         g2m=maskedgenes,
         genome=resources.genome,
+        f2m=config["fusion_genes"]["feature_to_mask"]
     log:
         "logs/resources/masked_fasta.log"
     threads: config["resources"]["plotting"]["cpu"]
diff --git a/workflow/schemas/config.schema.yaml b/workflow/schemas/config.schema.yaml
@@ -16,9 +16,16 @@ properties:
     description: Ensembl genome build
  
   fusion_genes:
-    type: string
-    description: Genes from these proteins will be removed from the analysis
-  
+    type: object
+    properties:
+      genes:
+        type: string
+        description: Genes from these proteins will be masked from the fasta file
+      feature_to_mask:
+        type: string
+        enum: ["exon", "gene"]
+        description: Feature to mask from the fasta file (exon or gene)
+
   damidseq_pipeline:
     type: object
     properties:
diff --git a/workflow/scripts/general_functions.smk b/workflow/scripts/general_functions.smk
@@ -362,7 +362,7 @@ def masked_genes():
     """
     Returns string with genes that were masked in fasta file
     """
-    genes = config["fusion_genes"]
+    genes = config["fusion_genes"]["genes"]
 
     # If no genes are given, return no_genes
     if genes == "":
diff --git a/workflow/scripts/mask_fasta.py b/workflow/scripts/mask_fasta.py
@@ -1,20 +1,21 @@
 import sys
 import subprocess
-import re
 from Bio import SeqIO
 
 """
 Replaces gene sequences set in config:fusion_genes 
 in fasta file with Ns.
 
+TO DO: instead of whole gene sequence, mask only exonic regions
+
 Reason: plasmid expressing Dam fusion 
 genes can be methylated at very high levels
 """
 
 # Load Snakemake variables
 gtf = snakemake.input["gtf"]
 genes2mask = snakemake.params["g2m"]
-genome = snakemake.params["genome"]
+feature2mask = snakemake.params["f2m"]
 fasta = snakemake.input["fa"]
 masked_fasta = snakemake.output["out"]
 
@@ -39,29 +40,35 @@ def write_dict2fasta(d, out):
     write_dict2fasta(chr_seq, masked_fasta)
 else:
     for gene in genes2mask.split("_"):
-        print(f"Masking {gene} sequence from {fasta}...")
-        
-        # Get genomic coordinates of genes to mask from GTF file
-        cmd = f"""sed '1,4d' {gtf} | awk '{{if ($3 == "gene") {{print $0}} }}' | grep {gene}"""
+        print(f"Masking {gene} sequence from {fasta} (feature {feature2mask})...")
+                
+        # Get genomic coordinates of selected feature of gene to mask from GTF file
+        cmd = f"""sed '1,4d' {gtf} | awk '{{if ($3 == "{feature2mask}") {{print $0}} }}' | grep {gene}"""
         try:
-            line = subprocess.check_output(cmd, shell=True).decode()
+            lines = subprocess.check_output(cmd, shell=True).decode().split("\n")
         except subprocess.CalledProcessError:
             print(f"Gene {gene} not found in {gtf}...")
             sys.exit(1)
-        chr, db, t, start, end, *args = line.split("\t")
-        
-        # Load chromosome sequence where gene is located
-        seq = chr_seq[chr]
-        
-        # Correct start and end positions for 0-based indexing
-        start = int(start) - 1
-        end = int(end) - 1
-        
-        # Mask gene sequence with Ns
-        seq_masked = seq[:start] + "N" * (end - start) + seq[end:]
         
-        # Replace sequence in dict
-        chr_seq[chr] = seq_masked
+        # Mask each feature of gene with Ns
+        for line in lines:
+            try:
+                chr, db, t, start, end, *args = line.split("\t")
+            except ValueError:
+                continue # Skip empty line (last one)
+            
+            # Load chromosome sequence where gene is located
+            seq = chr_seq[chr]
+            
+            # Correct start and end positions for 0-based indexing
+            start = int(start) - 1
+            end = int(end) - 1
+            
+            # Mask gene sequence with Ns
+            seq_masked = seq[:start] + "N" * (end - start) + seq[end:]
+            
+            # Replace sequence in dict
+            chr_seq[chr] = seq_masked
 
     # Write masked fasta to file
     print(f"Writing masked sequence(s) to {masked_fasta}...")