bioinformatics-gao
diff --git a/‎PacBio-indel-script/blast2fasta.py
+24 b/‎PacBio-indel-script/blast2fasta.py
+24
diff --git a/‎PacBio-indel-script/blast2fasta_with_ref_and_hyphen.py
+46 b/‎PacBio-indel-script/blast2fasta_with_ref_and_hyphen.py
+46
diff --git a/‎PacBio-indel-script/get_complement_character.py
+68 b/‎PacBio-indel-script/get_complement_character.py
+68
diff --git a/‎PacBio-indel-script/get_del_statistics.py
+33 b/‎PacBio-indel-script/get_del_statistics.py
+33
diff --git a/‎PacBio-indel-script/get_insert_statistics.py
+32 b/‎PacBio-indel-script/get_insert_statistics.py
+32
diff --git a/‎PacBio-indel-script/get_insertion_with_hyphen.py
+55 b/‎PacBio-indel-script/get_insertion_with_hyphen.py
+55
diff --git a/‎PacBio-indel-script/keep_one_hit.py
+27 b/‎PacBio-indel-script/keep_one_hit.py
+27
diff --git a/‎PacBio-indel-script/rm_repeated_fasta.py
+22 b/‎PacBio-indel-script/rm_repeated_fasta.py
+22
diff --git a/‎PacBio-indel-script/separate_barcode_fastq.py
+49 b/‎PacBio-indel-script/separate_barcode_fastq.py
+49
@@ -0,0 +1,24 @@
+import re
+def main():
+    
+    sourcefile = open('Wt_remaining_with_hyphen.fasta') # source file 
+    data=sourcefile.read()
+    sourcefile.close()
+    data_blocks=data.split('>')
+    
+    fasta_file=open('Wt_remaining.fasta','w') 
+    block_name=['']*len(data_blocks)    
+
+    for i in range(1,len(data_blocks)):
+        paragraph=data_blocks[i]
+        lines=paragraph.split('\n')
+        block_name[i]=lines[0]
+        print('>'+ block_name[i]+'\n')
+	
+        lines[4]=lines[4].replace('-','') 
+        fasta_file.write('>'+ block_name[i]+'\n')
+        fasta_file.write(lines[4]+'\n\n')
+	
+    fasta_file.close()
+
+if __name__ == "__main__": main()
@@ -0,0 +1,46 @@
+import re
+def main():
+    
+    sourcefile = open('Wt_single_hit.blast') # source file 
+    data=sourcefile.read()
+    sourcefile.close()
+    data_blocks=data.split('>')
+    single_hit_fasta_file=open('Wt_single_hit_with_query_and_hyphen.fasta','w') 
+    block_name=['']*len(data_blocks)    
+
+    for i in range(1,len(data_blocks)):
+        paragraph=data_blocks[i]
+        lines=paragraph.split('\n')
+        block_name[i]=lines[0]
+        print('>'+ block_name[i]+'\n')
+	
+        queryparagraph=''
+        re_pattern=re.compile('C-*C-*A-*C-*T-*G-*C-*A-*T-*C-*C-*T-*G-*G-*G-*G-*A')
+        for k in range(5,len(lines)):
+            if  re.search('Query', lines[k]):
+                lines[k]=lines[k].strip('Query') 
+                lines[k]= ''.join(m for m in lines[k] if not m.isdigit())
+                lines[k]=lines[k].strip() 
+                queryparagraph+=(lines[k])
+        m= re.search(re_pattern, queryparagraph)
+        if m==None:
+ 	    continue
+
+        subparagraph=''
+        for j in range(5,len(lines)):
+            if  re.search('Sbjct', lines[j]):
+                lines[j]=lines[j].strip('Sbjct') 
+                lines[j]= ''.join(m for m in lines[j] if not m.isdigit())
+                lines[j]=lines[j].strip() 
+                subparagraph+=(lines[j])
+        print(subparagraph)
+        print(len(subparagraph))
+        single_hit_fasta_file.write('>'+ block_name[i]+'\n')
+        single_hit_fasta_file.write('Query Sequence \n')
+        single_hit_fasta_file.write(queryparagraph+'\n')
+        single_hit_fasta_file.write('Reads Sequencen \n')
+        single_hit_fasta_file.write(subparagraph+'\n\n')
+	
+    single_hit_fasta_file.close()
+
+if __name__ == "__main__": main()
@@ -0,0 +1,68 @@
+import re
+def main():
+    
+    sourcefile = open('Wt_remaining_with_hyphen.fasta') # source file 
+    data=sourcefile.read()
+    sourcefile.close()
+    data_blocks=data.split('>')
+    block_name=['']*len(data_blocks)    
+    del_count_file=open('Wt_del_count_file.fasta','w')
+
+    re_pattern=re.compile('C-*C-*A-*C-*T-*G-*C-*A-*T-*C-*C-*T-*G-*G-*G-*G-*A')
+
+    for i in range(1,len(data_blocks)):
+        paragraph=data_blocks[i]
+        lines=paragraph.split('\n')
+        block_name[i]=lines[0]
+
+        m= re.search(re_pattern, lines[2])
+        if m!=None:
+            target=m.group()
+            sub1= re.search( 'T-*C-*C-*T',  target)
+            sub2= re.search( 'C-*C-*T-*G',  target)
+            sub3= re.search( 'C-*T-*G-*G',  target)
+            sub4= re.search( 'T-*G-*G-*G',  target)
+            sub5= re.search( 'G-*G-*G-*G',  target)
+            sub6= re.search( 'G-*G-*G-*A',  target)
+            core_positions=[]
+            core_positions.append(m.start()+sub1.start())
+            core_positions.append(m.start()+sub2.start())
+            core_positions.append(m.start()+sub3.start())
+            core_positions.append(m.start()+sub4.start())
+            core_positions.append(m.start()+sub5.start())
+            core_positions.append(m.start()+sub6.start())
+            length_core_positions=len(core_positions)
+            deletion_length=[0]*length_core_positions
+            start_position=['']*length_core_positions
+
+	    for j in range(length_core_positions):
+                position=core_positions[j]  
+                if lines[4][position]=='-':
+	            print('There is an delection========================')
+                    deletion_length[j] += 1
+            	    start_position[j]=position
+                    for k in range(position-1,0,-1):
+                        if lines[4][k]!='-':
+                            break
+                        deletion_length[j] += 1
+            	        start_position[j] -= 1
+                    for m in range(position+1,len(lines[4])):
+                        if lines[4][m]!='-':
+                            break
+                        deletion_length[j] += 1
+            start_keys = start_position
+            length_values = deletion_length
+            start_length_dictionary = dict(zip(start_keys, length_values))
+            if '' in  start_length_dictionary:
+                del(start_length_dictionary[''])
+            print(start_length_dictionary)
+            total_del_length=str(sum(start_length_dictionary.values()))
+            print('The total indel length is : ' + total_del_length)
+            
+            del_count_file.write('>'+ block_name[i]+'\n')
+            del_count_file.write('The total delection length is : \n' + total_del_length + '\n')
+            del_count_file.write('The sequence is : \n'+lines[4]+'\n\n')
+            
+    del_count_file.close()    	
+
+if __name__ == "__main__": main()
@@ -0,0 +1,33 @@
+#!/bin/python
+
+import re
+
+def main():
+    
+    sourcefile = open('Wt_Specific_del_file.fasta') # source file 
+    data=sourcefile.read()
+    sourcefile.close()
+    data_blocks=data.split('>')
+    block_name=['']*len(data_blocks) 
+
+    accumulated_for_each_lenth={}
+     
+    for i in range(1,len(data_blocks)):
+        paragraph=data_blocks[i]
+        lines=paragraph.split('\n')
+        block_name[i]=lines[0]
+        gap_length=int(lines[2].strip())
+        print(gap_length)
+        #    Specific_del_file.write('>'+ data_blocks[i])    
+	if gap_length not in accumulated_for_each_lenth:
+	    accumulated_for_each_lenth[gap_length]=1
+	else:
+	    accumulated_for_each_lenth[gap_length]+=1
+    print(accumulated_for_each_lenth)    
+    outfile = open('Wt_specific_gap_length_and_count.txt', 'w' )
+    for key, value in  accumulated_for_each_lenth.items():
+        outfile.write( str(key) + '\t' + str(value) +'\n' )
+    outfile.close()
+
+if __name__ == "__main__": main()
+
@@ -0,0 +1,32 @@
+#!/bin/python
+
+import re
+
+def main():
+    
+    sourcefile = open('Wt_insert.fasta_with_hyphen') # source file 
+    data=sourcefile.read()
+    sourcefile.close()
+    data_blocks=data.split('>')
+    block_name=['']*len(data_blocks) 
+
+    accumulated_for_each_lenth={}
+     
+    for i in range(1,len(data_blocks)):
+        paragraph=data_blocks[i]
+        lines=paragraph.split('\n')
+        block_name[i]=lines[0]
+        gap_length=int(lines[4].strip())
+        print(gap_length)
+	if gap_length not in accumulated_for_each_lenth:
+	    accumulated_for_each_lenth[gap_length]=1
+	else:
+	    accumulated_for_each_lenth[gap_length]+=1
+    print(accumulated_for_each_lenth)    
+    outfile = open('Wt_specific_insert_length_and_count.txt', 'w' )
+    for key, value in  accumulated_for_each_lenth.items():
+        outfile.write( str(key) + '\t' + str(value) +'\n' )
+    outfile.close()
+
+if __name__ == "__main__": main()
+
@@ -0,0 +1,55 @@
+import re
+def main():
+    
+    sourcefile = open('Wt_single_hit_with_query_and_hyphen.fasta') # source file 
+    data=sourcefile.read()
+    sourcefile.close()
+    data_blocks=data.split('>')
+    
+    insert_file=open('Wt_insert.fasta_with_hyphen','w')
+    remaining_file=open('Wt_remaining_with_hyphen.fasta','w')	
+    other_file=open('Wt_other_with_hyphen.fasta','w') 
+    block_name=['']*len(data_blocks) 
+   
+    left_pattern=re.compile('C-*C-*A-*C-*T-*G-*C-*A')
+    right_pattern=re.compile('C-*C-*T-*G-*G-*G-*G-*A')
+   
+    for i in range(1,len(data_blocks)):
+        paragraph=data_blocks[i]
+        lines=paragraph.split('\n')
+        block_name[i]=lines[0]
+
+        m=re.search(left_pattern,lines[2])
+        if m!=None:
+            upstram_position=re.search(left_pattern,lines[2]).start()
+            shift=(len(m.group()))-1
+            left_end = upstram_position + shift
+
+        n=re.search(right_pattern,lines[2])
+        if n!=None:
+            downstram_position=re.search(right_pattern,lines[2]).start()
+
+        distance=downstram_position-left_end-1
+
+        between_string =lines[2][left_end+1:downstram_position]
+        hyphen_count= between_string.count('-')
+        print(hyphen_count)
+        
+        if hyphen_count >=1:
+	    insert_file.write('>'+ block_name[i]+'\n')
+            insert_file.write('The upstream ends at : '+ str(left_end+1) +'\n')
+            insert_file.write('The downstream  begins at : '+ str(downstram_position+1)+'\n')
+            insert_file.write('The insert length is :\n')
+            insert_file.write(str(hyphen_count) +'\n')
+            insert_file.write('The whole sequence is : \n'+ lines[4]+'\n\n')
+        
+	elif hyphen_count==0:
+            remaining_file.write('>'+ paragraph)
+	else:
+            other_file.write('>'+ paragraph)
+		
+    insert_file.close()
+    remaining_file.close()	
+    other_file.close() 
+           
+if __name__ == "__main__": main()
@@ -0,0 +1,27 @@
+import re
+def main():
+    
+    sourcefile = open('Wt_blast_pure.blast') # source file 
+    data=sourcefile.read()
+    sourcefile.close()
+    data_blocks=data.split('>')
+    
+    single_hit_file=open('Wt_single_hit.blast','w') 
+    block_name=['']*len(data_blocks)    
+
+    for i in range(1,len(data_blocks)):
+        paragraph=data_blocks[i]
+        lines=paragraph.split('\n')
+        block_name[i]=lines[1]
+        for k in range(5,len(lines)):
+            m= re.search('Identities', lines[k])
+            if m is not None:
+                subparagraph='\n'.join(lines[0:k-1])
+                single_hit_file.write('>'+subparagraph)
+		break
+        else:
+             single_hit_file.write('>'+ paragraph)
+
+    single_hit_file.close()
+
+if __name__ == "__main__": main()
@@ -0,0 +1,22 @@
+from Bio import SeqIO
+from Bio.SeqUtils.CheckSum import seguid
+
+def remove_dup_seqs(records):
+    """"SeqRecord iterator to removing duplicate sequences."""
+    checksums = set()
+    for record in records:
+        checksum = seguid(record.seq)
+        if checksum in checksums:
+            print "Ignoring %s" % record.id
+            continue
+        checksums.add(checksum)
+        yield record
+
+#records = remove_dup_seqs(SeqIO.parse("Sg2.fasta", "fasta"))
+#count = SeqIO.write(records, "Sg2_no_repeated_seq.fasta", "fasta")
+#records = remove_dup_seqs(SeqIO.parse("Sg5.fasta", "fasta"))
+#count = SeqIO.write(records, "Sg5_no_repeated_seq.fasta", "fasta")
+records = remove_dup_seqs(SeqIO.parse("Wt.fasta", "fasta"))
+count = SeqIO.write(records, "Wt_no_repeat.fasta", "fasta")
+print "Saved %i records" % count
+
@@ -0,0 +1,49 @@
+import re
+
+
+def main():
+    
+    barcodelist=['gacttcag', 'gcttcaga', 'attcaggc', 'tggactca', 'agactctg', 'gactctag']
+    reverse_complementary_barcodelist=['tgagtcca', 'cagagtct', 'ctagagtc', 'ctgaagtc', 'tctgaagc', 'gcctgaat']
+    sourcefile = open('reads_of_insert.fastq') # source file containing all fastq data 
+    barcode_Num=len(barcodelist) 
+    lines=sourcefile.readlines()
+    total_lines=len(lines)
+    remainlines=lines[:]
+    sourcefile.close()
+    remain_reads_file = open('remain_reads.fastq', 'w') # source file containing all fastq data 
+    name=['']*len(barcodelist)
+    num_bar_code=['']*len(barcodelist)
+    num_RC_bar_code_without_bar_code=['']*len(barcodelist)
+ 
+    
+    for k in range(0,barcode_Num):
+        name[k] = open(barcodelist[k]+'_'+'.fa','w') # the output file containing fastq data with certain barcode 
+        num_bar_code[k]=0
+        num_RC_bar_code_without_bar_code[k]=0
+    
+    for i in range(0,total_lines):
+        line=lines[i]
+#	lines=remainlines[:]
+        ends=line[-9:-1]
+	for k in range(0,barcode_Num):
+            if re.match(barcodelist[k], line, re.IGNORECASE):
+                name[k].writelines(lines[i-1:i+3])
+                num_bar_code[k]=num_bar_code[k]+1
+		remainlines[i-1:i+3]=["\n","\n","\n","\n"]
+            elif re.search(reverse_complementary_barcodelist[k], ends, re.IGNORECASE):
+                name[k].writelines(lines[i-1:i+3])
+		remainlines[i-1:i+3]=["\n","\n","\n","\n"]
+                num_RC_bar_code_without_bar_code[k]=num_RC_bar_code_without_bar_code[k]+1
+    for k in range(0,barcode_Num):
+	 name[k].close() 
+	 
+    remain_reads_file.writelines(remainlines)
+    remain_reads_file.close()
+	
+	
+    for k in range(0,barcode_Num):
+        print("The barcode----" + barcodelist[k] +" has total begin matching times: "+ str(num_bar_code[k]))	
+	print("The reverse complementary barcode----" + barcodelist[k] +" has total end matching times (without begin matching) : "+ str(num_RC_bar_code_without_bar_code[k]))	
+ 
+if __name__ == "__main__": main()