- Feature set
- SSE-PSSM
- Database
- 全序列計算後拆分
- OK
- RF XGB CAT 霸榜
- 要 Normalization
- 以 AUC 評斷
- Model
- RF
- Windows size
- 21
- 55
- Ratio
- 1
- 整合建立 Feature 的 Code
- 主程式 (Connection)
- feature selection
- 單獨評斷
- 30 -> 5
- 組和計算
- 列出前 5 組合,進入 Experiment 3
- 單獨評斷
- feature selection
- Feature
- Brian
- PWM (P, N, P+N, P-N)
- 正負電
- 極性
- Ivern
- EAAC
- CKSAAP
- DPC (又是你,你最爛)
- DDE
- Other
- SSE-PSSM
- Brian
- 專案位置
~/local/connection/NYCU-2023-BioML
- 修改方式
cp {檔案原名} {修改人}_{檔案原名}
- 可用機器
- 240 Mothra (24 core)
- 主程式 (Connection)
- 完成 ID Test 的 Code
- 讀檔 : *.tsv
- 計算 Feature
- 完成分算運算 (等待確定)
- Prediction
- 主程式 (Connection) 尚未完成
- Model (s)
- RandomForest
- CatBoost
- XGBoost
- Windows size
- 40
- 80
- Ratio
- 1
- Feature
- ???
- Hyper parameter tuning
- ???
- 一台測一個 Model
- RandomForest : Mothra
- CatBoost : VR
- XGBoost : Sphinx
- 完成 code
- 待完成程式
- Method
- Seq -> k-mer -> feature
- Seq -> feature -> k-mer
- 理論
- 原因
- 發現 Positive 以及 Negative 內都具有相同序列
- 問題
- Positive 以及 Negative 內相同序列理論上會產生相同 Feature
- 假設
- 如果先計算 feature,再基於不同位置切 K-mer,Positive 以及 Negative 內相同序列理論上會產生不同 Feature
- 不同的 Feature 就可以分別出 Positive or Negative
- 驗證實驗
- 在 DB 中紀錄所有相同的序列位置,從 Methods 2 中撈出對應的 Feature matrix
- 已驗證
- 原因
- 驗證其中一個優化方式
- cd-hit-2d NR deduplication
- 確實有用,不過需要圖表佐證
- 大約平均 AUC +3%
- 驗證實驗
- 把Positive & Negative 倆倆之間做相似度比對
- 以 40 ~ 100 identity 挑出對應的 Seqs
- 計算對應向量
- 做成 Graph
- cd-hit-2d NR deduplication
- Data preparation and preprocessing
- Features investigation
- Model selection and performance evaluation
- Perspectives (bonus grading)