提取完整基因时seqkit未能正确过滤partial=00基因 #17

Danyang-Lin · 2024-12-23T03:14:21Z

您好！我正在进行基于组装的分析流程。

参考EasyMetagenome/1Pipeline.sh，在进行基因预测（Gene prediction）步骤时，由于数据量较大需要提取完整基因，我按照流程运行以下代码（第717-718行）：
grep 'partial=00' temp/prodigal/gene.fa | cut -f1 -d ' ' | sed 's/>//' > temp/prodigal/full_length.id
seqkit grep -f temp/prodigal/full_length.id temp/prodigal/gene.fa > temp/prodigal/full_length.fa
但在测试中发现生成的 full_length.fa 文件中仍包含一些 partial=01/10/11 的序列。我推测可能是因为 full_length.id 文件中的ID在 gene.fa 文件中存在不同 partial 的多个序列，而 seqkit grep -f 是基于序列id提取的，导致一对多的情况出现。

为解决该问题，我对代码进行了以下改动：
seqkit grep -n -r -p "partial=00" gene.fa > full_length.fa
经过检查，生成的 full_length.fa 文件只包含 partial=00 的基因序列。

我想请教：
我的理解是否正确？
上述改动是否合理，或者是否存在更优解？
谢谢！

baidefeng · 2025-01-13T02:08:01Z

谢谢您的反馈，已经根据建议提交了修改。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

提取完整基因时seqkit未能正确过滤partial=00基因 #17

提取完整基因时seqkit未能正确过滤partial=00基因 #17

Danyang-Lin commented Dec 23, 2024

baidefeng commented Jan 13, 2025

提取完整基因时seqkit未能正确过滤partial=00基因 #17

提取完整基因时seqkit未能正确过滤partial=00基因 #17

Comments

Danyang-Lin commented Dec 23, 2024

baidefeng commented Jan 13, 2025