Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

微调的时候,为什么gt对应的mel频谱会缺失一部分,导致loss一直降不下来 #12

Open
lhc991025 opened this issue Jun 20, 2024 · 10 comments

Comments

@lhc991025
Copy link

image

@yqzhishen
Copy link
Member

你自己数据就是缺频的

@KakaruHayate
Copy link

🤔你的GT有些缺频,但是hifigan又帮你弥补了缺失的部分,如果hifigan弥补的太多,会造成val loss难以下降的情况,这个时候建议清理你的数据集删除缺频的部分

@lhc991025
Copy link
Author

🤔你的GT有些缺频,但是hifigan又帮你弥补了缺失的部分,如果hifigan弥补的太多,会造成val loss难以下降的情况,这个时候建议清理你的数据集删除缺频的部分

感谢您,有建议的清理方案吗?如何从wav或者npz中判断是否缺频呢

@yqzhishen
Copy link
Member

用audition之类软件看频谱

如果是你自己或者朋友录的音,录制的时候音质方面就应该有数

@lhc991025
Copy link
Author

用audition之类软件看频谱

如果是你自己或者朋友录的音,录制的时候音质方面就应该有数
用audition看了频谱,感觉中间有一条线空了一点点,好像处理的时候刚好就从这里截断了。我这里是大批量的数据,出现这种情况的还挺多的,我现在在想有没有批量处理的方法。

image

@yqzhishen
Copy link
Member

没截断。tensorboard上面的线性谱是0-22.05kHz线性分布,你这个16kHz以上全是缺频的。

顺便问一下,数据是你自己的么?怎么来的?

@lhc991025
Copy link
Author

没截断。tensorboard上面的线性谱是0-22.05kHz线性分布,你这个16kHz以上全是缺频的。

顺便问一下,数据是你自己的么?怎么来的?

所以这种16khz以上缺频的数据是无法拿来进行微调的对吧?数据用的公司的(不敢公开)。

@yqzhishen
Copy link
Member

你自己愿意微调没人拦着啊,无非就是不一定会比微调前的好罢了,极端情况就是把模型也带成缺频的

@lhc991025
Copy link
Author

为什么我把缺频的数据都清理了,loss前面还是不下降,到了220k左右断崖式下降。我用的configs/ft_hifigan.yaml
image

@yqzhishen
Copy link
Member

loss就图一乐,还是靠耳朵听吧

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants