Add markov model #8

cant-access-rediska0123 · 2021-09-06T14:02:37Z

No description provided.

olga24912 · 2021-09-10T16:35:40Z

data/mibig.csv

@@ -0,0 +1,608 @@
+BGC,ORF,A-ID,M domain,L-/D- (E domain),PRED_TOP5,START_POS,END_POS,STRAND,STRUCTURE ID,rBan STRUCTURE,rBan VERTEX,rBan AA-ID,rBan STRUCT_CONFIGURATION,rBan AA,STRUCTURE,VERTEX,AA-ID,MODIFICATION,AA


А этот файл стоит в репозиторий добавлять. Мне кажется вопрос стоит ли добавлять этот файл в репозиторий нужно обсуждать отдельно, вне этого пул реквеста. Или у тебя дальнейший код как-то сильно на нем завязан?

У меня там дальше через этот файл оцениваются параметры, вот например в MaximumLikelihoodParametersEstimator

olga24912 · 2021-09-10T16:38:15Z

nerpa.py

+                                         help="number of Baum-Welch iterations")
+    alternative_model_group.add_argument("--log_alignments", type=bool, default=True,
+                                         help="pretty log alignments with marginal probabilities or not")
+    alternative_model_group.add_argument("--topk", type=list, default=[1, 3, 5, 10],


Мне кажется опять же, это скорее не кусок Нерпы, а отдельные скрипты должны быть, которые это всё считает. Но мне кажется это стоит отдельно обсудить, как это лучше сделать.

Можно обсудить. Но мне в любом случае для выполнения своего кода нужна папочка с результатами нерпы. Чтобы из них данные NRP и BGC парсить, и чтобы с ней результаты сравнивать)

olga24912 · 2021-09-10T16:38:46Z

nerpa.py

+                                         help="use Baum-Welch for parameters estimation or not")
+    alternative_model_group.add_argument("--bw_iters", type=int, default=10,
+                                         help="number of Baum-Welch iterations")
+    alternative_model_group.add_argument("--log_alignments", type=bool, default=True,


Этот аргумент я не очень понимаю что значит.

olga24912 · 2021-09-10T16:39:54Z

nerpa.py

@@ -321,6 +339,13 @@ def run(args, log):
               "--threads", str(args.threads)]
    log.info("\n======= Nerpa matching")
    nerpa_utils.sys_call(command, log, cwd=output_dir)
+    if args.use_alternative_model:


Мне кажется всё-таки логичнее запускать что-то одно из этих двух в зависимости от параметров а не то и другое сразу.

У меня просто в коде парсится файл с результатами нерпы, поэтому мне перед этим нужно ее запустить. Но вообще я могу сделать отдельный скрипт для своего кода, и в него передавать например папочку-результат работы нерпы?

olga24912 · 2021-09-10T16:40:40Z

requirements.txt

@@ -0,0 +1,6 @@
+pandas


Полезный файлик :) Спасибо, что добавила :)

olga24912 · 2021-09-10T16:45:59Z

nerpa.py

+        src.markov_probability_model.main.run(
+            data_dir=output_dir, prob_gen_filepath=os.path.join(nerpa_init.configs_dir, 'prob_gen.cfg'),
+            results_dir=os.path.join(output_dir, 'markov_probability_model_results'),
+            mibig_path=os.path.join(nerpa_init.nerpa_root_dir, 'data', 'mibig.csv'),


Вот возможно я бы этот файл передавала бы как парметр. Типа если вы хотите что бы веса обучались, передай-те файлик для обучения у которого такие-то такие требование. Мне кажется весьма логичный аргумент.

olga24912 · 2021-09-10T16:55:56Z

src/markov_probability_model/main.py

+def run(data_dir: str, prob_gen_filepath: str,
+        results_dir: str, mibig_path: str, pool_sz: int, algo: List[str],
+        use_bw: bool, bw_iters: int, log_alignments: bool, topk: List[int]):
+    print('Starting alignments generation using Hidden Markov Model...')


У нас логгирование происходит немного другим способом. С помощью определнного класса, где пишется log.info. Мне кажется имеет смысл всё логгировать единообразно. Но это мелочи.

olga24912 · 2021-09-10T16:56:24Z

src/markov_probability_model/main.py

+from typing import List, Dict
+
+
+def run(data_dir: str, prob_gen_filepath: str,


Ух ты! Типы у аргументов на питоне. Какая мило-та :))

olga24912 · 2021-09-10T16:59:21Z

src/markov_probability_model/main.py

+            os.makedirs(folder)
+
+    print(' Loading Mibig alignments...')
+    ground_truth_alignments: List[PairwiseAlignmentOutputWithLogs] = \


Ух ты, а это переменная с типом. Прикольно, не видела до этого такую конструкцию в Питоне.

olga24912 · 2021-09-10T17:01:27Z

src/markov_probability_model/main.py

+                                                          log_dir=res_parameters_folder).calculate_parameters()
+
+    if use_bw:
+        parameters = BaumWelchParametersEstimator(ground_truth_alignments, data, prob_gen_filepath,


Верно ли я понимаю, что если use_bw включено, тогда результат работы MaxLikelihoodParametersEstimatorWithModifications уже не нужен? Если да, то может в этом случае его и считать не стоит, зачем делать лишнюю работу?

Там parameters из MaxLikelihoodParametersEstimatorWithModifications используется как начальное приближение параметров для BaumWelchParametersEstimator (в его аргументах в этой строчке), так что тут вроде все норм)