Википедия про сплайсинг: https://en.wikipedia.org/wiki/RNA_splicing https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%BB%D0%B0%D0%B9%D1%81%D0%B8%D0%BD%D0%B3
Описать варианты сплайс сайтов среди референсных геномов эукариот.
- Создать список референсных геномов NCBI. Базовые данные: мышь и человек.
- Создать скрипт который на входе берет айди генома, на выходе выдает таблицу информации о сплайс сайтах.
- Реализивать функциональность конвертации генома и аннотации в набор сплайс сайтов и их фланков с сохранением информации о айди гена.
- Реализовать функциональность оценки случайности последовательности.
- Реализовать функциональность оценки фазы экзона.
- Реализовать функциональность аггрегации статистик по сплайс сайтам внутри генома.
- Реализовать функциональность аггрегации статистик по сплайс сайтам между геномами.
Датасет для разработки - геном человека и геном мыши.
Датасте дял анализа рефсек геномы и их аннотация с сайта NCBI.
- Сплайс сайты консервативны для ортологов. Классические сплайс сайты доминируют над остальными.
- Альтернативные сплайс сайты характерны только для опредленных семейств генов.
- Последовательности фланкирующие сплайс сайты не случайны.
- Фаза экзона связана с сплайс сайтами.
- Whereas U2-type introns have been found in virtually all eukaryotes (1) and comprise the vast majority of the splice sites found in any organism, U12-type introns have only been identified in vertebrates, insects, jellyfish and plants (8).
Comprehensive splice-site analysis using comparative genomics
BPP: a sequence-based algorithm for branch point prediction
Human branch point consensus sequence is yUnAy
https://docs.google.com/spreadsheets/d/1WRMZo9Lz_kHDb6NsyeRjyo2zAEBo9w5peZxB169Ref4/edit?usp=sharing