forked from karolinamaruszak/warsztat-programisty-
-
Notifications
You must be signed in to change notification settings - Fork 0
/
zadania.txt
73 lines (41 loc) · 2.31 KB
/
zadania.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
Rozpakuj katalog archiwum.tar.gz
tar -xvvzf archiwum.tar.gz
Sprawdź sumę kontrolną pliku genom.txt
md5sum -c suma.md5
=======================================
Zadanie 1
=======================================
1. Plik zawiera współrzędne ludzkiego genomu w transkrypcji RefSeq. Kolejne kolumny oznaczają
chrom strand txStart txEnd cdsStart cdsEnd exonCount exonStarts exonEnds proteinID alignID
4. - Spójrz na plik
-Ile jest pól? 756891 komenda: wc -w genom.txt
-Ile to jestlinii? komenda : wc -l genom.txt
5 - W jaki sposób są rozdzielone pola?
białymi znakami
6 - Ile transkryptów (NM_ *) jest reprezentowanych w pliku?
36090 komenda : grep -c 'NM_*' genom.txt
7 -Ile genów jest reprezentowanych w pliku?
36090 komenda: wc -l
8 - Czy jakiekolwiek transkrypty są reprezentowane więcej niż jeden raz?
Jeśli tak, które [Umieść listę w pliku "mult_transcripts.txt"]?
9 -Ile chromosomów jest reprezentowanych?
cat genom.txt | cut -f3 | uniq | wc -l
10 - Jakie geny znajdują się na chromosomie Y? Umieść je w pliku "chrY_genes.txt"
grep -b "chrY" genom.txt >>chrY_genes.txt
11 -Utwórz osobne pliki dla genów "+" i "-", o nazwach "genom_plus.txt" i "genom_neg.txt"
grep -b "+" genom.txt >>chrY_plus.txt
grep -b "-" genom.txt >>chrY_neg.txt
12- Posortuj wszystkie dane w genom_plus.txt, najpierw przez chromosom (rosnąco), a następnie przez pierwszą współrzędną (malejąco).
cat genom_plus.txt
sort -k3 --version-sort
13- Podziel równomiernie wszystkie dane na 4 pliki o nazwach "Part_1.txt", "Part_2.txt" itd. Użyj komendy split.
split -n4 -a1 --numeric-suffixes=1 genom.txt Part_
14- Jakie 5 genów pojawia się na "prawym końcu" (np. Mają najwyższe współrzędne) chr 19?
15- W oparciu o pole z genami, jaki jest najdłuższy chromosom? Jaka jest jego długość?
awk 'BEGIN{m=-1} {if ($6-$5) > m) m=$6-$5}END{print m}' genom.txt
16- Jakie geny zawierają litery "BMP"? Umieść je w pliku "BMPs_etc.txt"
awk '{if ($13 ~ "BMP") print}' genom.txt > BMPs_etc.txt
17- Które z tych "genów BMP" mają więcej niż jeden transkrypt?
18- Jaki gen ma najdłuższą długość genomu (odległość między początkiem i końcem transkrypcji)? Najkrótszy?
19- Zmień format pliku, tak aby zawierał dwa pola: RefSeq<tab>chr:start-end
ex: NM_001039886 chr19:57722720-57751115