s

ascode · ascode · commit a9b473e89068 · 2024-09-19T17:58:28.000+08:00
diff --git a/docs/ai/tts.md b/docs/ai/tts.md
@@ -1,4 +1,4 @@
-# 文本转语音
+# 文本转语音行情和概述
 
 ## 免费工具
 
@@ -65,6 +65,8 @@ Magic Data技术有限公司的语料库，语料库包含755小时的语音数
 
 ChatTTS音色试听查找： https://www.modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker
 
+# 试验
+
 ## 第二次试验
 
 本次语音合成系列对比说明：
@@ -120,6 +122,8 @@ ChatTTS抽卡得到的Speaker音频处理：
 
 #### 本次试验主要调教参数参数：
 
+本次试验中GPT模型和VITS模型的微调训练参数，除了如下记录外，其余参数均采用默认参数。
+
 基于声学模型的语音切分：
 
 | 参数 | 值 |
@@ -157,6 +161,83 @@ GPT模型微调训练参数：
 | top_p | 1 |
 | temperature | 1 |
 
+相关参数：
+
+```
+{
+  "train": {
+    "log_interval": 100,
+    "eval_interval": 500,
+    "seed": 1234,
+    "epochs": 8,
+    "learning_rate": 0.0001,
+    "betas": [0.8, 0.99],
+    "eps": 1e-9,
+    "batch_size": 8,
+    "fp16_run": true,
+    "lr_decay": 0.999875,
+    "segment_size": 20480,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0,
+    "text_low_lr_rate": 0.4,
+    "pretrained_s2G": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth",
+    "pretrained_s2D": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth",
+    "if_save_latest": true,
+    "if_save_every_weights": true,
+    "save_every_epoch": 4,
+    "gpu_numbers": "0"
+  },
+  "data": {
+    "max_wav_value": 32768.0,
+    "sampling_rate": 32000,
+    "filter_length": 2048,
+    "hop_length": 640,
+    "win_length": 2048,
+    "n_mel_channels": 128,
+    "mel_fmin": 0.0,
+    "mel_fmax": null,
+    "add_blank": true,
+    "n_speakers": 300,
+    "cleaned_text": true,
+    "exp_dir": "logs/\u8046\u5c0f\u73ca_v1"
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3, 7, 11],
+    "resblock_dilation_sizes": [
+      [1, 3, 5],
+      [1, 3, 5],
+      [1, 3, 5]
+    ],
+    "upsample_rates": [10, 8, 2, 2, 2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16, 16, 8, 2, 2],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 512,
+    "semantic_frame_rate": "25hz",
+    "freeze_quantizer": true,
+    "version": "v2"
+  },
+  "s2_ckpt_dir": "logs/\u8046\u5c0f\u73ca_v1",
+  "content_module": "cnhubert",
+  "save_weight_dir": "SoVITS_weights_v2",
+  "name": "\u8046\u5c0f\u73ca_v1",
+  "version": "v2"
+}
+
+```
+
+
 
 ### 试验产出样本
 
@@ -174,6 +255,7 @@ GPT模型微调训练参数：
 | 中文报站-9 | GPT_weights_v2-guodegang_01-e15-zh_2 | 其实说一千道一万还是个节目，啊，这个每一个人在里边表现都是很真实的。 --vocal_不装郭德纲采访之我是个无趣的人  金句频出_01.wav.reformatted.wav_10.wav_0001765440_0001996800 |
 | 中文报站-10 | 讯飞语音-聆小珊-咨询讲解-zh |  |
 | 中文报站-11 | 讯飞语音-千雪-叙述品质-zh |  |
+| 中文报站-12 | 讯飞语音-聆小珊-咨询讲解-zh-1 |  |
 | 英语报站-1 | aoma-edge-江阳南路通南路-en |  |
 | 英语报站-2 | 合成-松发路逸仙路-en |  |
 | 英语报站-3 | 逸仙路何家弯路-en |  |
@@ -185,13 +267,44 @@ GPT模型微调训练参数：
 | 英语报站-9 | 讯飞语音-千雪-叙述品质-en |  |
 | 英语报站-10 | 讯飞语音-聆小珊-咨询讲解-en |  |
 | 上海报站-1 | 讯飞-上海阮灵-车辆进站请注意安全，一二八纪念路江杨南路到了，请配合从后门下车，开门请当心 |  |
+| 普通话英语混合-1 | 聆小珊-中英文一分钟多-1 |  |
 
 
 #### 评估结果：
 
 | 评估人 | 选择 |
 | --- | --- |
-| 朱总语音 | 朱总语音 |
-| 聆小珊语音 | 100 |
-| 郭德纲语音 | 100 |
-| ChatTTS语音 | 100 |
+| 喻斯进 | 英语报站-5.wav、中文报站-4.wav、英语报站-3.wav、中文报站-9.wav |
+| 殷剑 | 中文4和中文10、英文选  2、3 |
+| 朱总 |  |
+
+相关评价：
+
+1. 英文站名挺别扭
+2. 中文都还行吧，只是从报站角度有的不合适
+3. 口语话，其中一个还一股子北京味道
+4. 要洪亮，有朝气
+5. 语调不太对
+6. 中文8、中文9两个是郭德纲的声纹，中文9从声纹还原度和效果上 比较好，2nd中文选了中文9中文9的超参可以用来合成有需求的其它声纹
+7. 中文10的 音色可以。语速间隔有问题。路名要连读，不能过快。要让人听清楚。路名后稍微停顿一下  报送“到了”，路名报的一定调整语速，太慢了拖沓，快了听不清，报站语音要听清楚每一个字，特别是路名，所以有间隔和重音的
+8. 你听中文四，人语言训练的会有连读的问题，我们先说信息的清晰度，中文四最清楚，只是感觉像机器人
+9. 中文2、3 听的清楚，但是音色不行，你或者实时2、3可以换音色么，太低沉了，要洪亮。听上去很累的样子
+
+
+## 第二次试验后续剩余
+
+目的： 
+1. 解决第一次实验中，评估人员提出的评价问题。
+2. 语音合成上海方言
+
+目的1预计后续所需实验：
+
+1. 弄清VITS和SoVITS中支持的语气、语调、停顿符号
+2. 拿应用场景下的原话高质量语音制作训练数据集，单独训练GPT网络
+3. 微调训练GPTSoVITS模型
+
+目的2预计后续所需实验：
+
+1. 搜集到正确的上海话语音制作训练集，训练方言语音合成的VITS基座模型
+2. 拿应用场景下的原话高质量语音制作训练数据集，单独训练GPT网络
+3. 微调训练GPTSoVITS模型
diff --git a/publish/语音合成第二次试验记录.md b/publish/语音合成第二次试验记录.md
@@ -0,0 +1,220 @@
+## 第二次试验
+
+本次语音合成系列对比说明：
+
+1. 不训练语音合成基座模型，只做微调训练
+2. 开源模型自带的音色
+3. 以开源模型为基座，抽取样本音色的特征，训练自己的声学模型，基于声学模型，训练自己的语音合成模型
+4. 上海话采用讯飞语音的“上海阮灵”音色。
+
+### 试验过程
+
+#### 数据来源：
+
+1. 朱总给的在用公交车上报站语音文件
+2. 讯飞语音的聆小珊
+3. 郭德纲采访节目的视频
+4. ChatTTS抽卡得到的Speaker音频
+
+#### 数据集搜集整理：
+
+朱总给的在用公交车上报站语音文件处理：
+1. 通过人工手动剪辑分离出普通话、英语、上海话三种语音文件。
+2. 通过语音识别模型进行自动识别打标
+3. 人工核对打标结果，删除无效语音
+4. 剩余的语音文件，制作训练集
+
+讯飞语音的聆小珊处理：
+1. 在线生成聆小珊的语音文件并下载聆小珊的语音文件
+2. 通过语音识别模型进行自动识别打标
+3. 人工核对语音文件，删除无效语音
+4. 剩余的语音文件，制作训练集
+
+郭德纲采访节目的视频处理：
+1. 大量观看视频平台上郭德纲采访节目的视频，找到音质不错的视频并下载
+2. 通过人工手动剪辑分离出合适的视频片段，分离出视频中的语音
+3. 通过语音识别模型进行自动识别打标
+4. 人工核对语音文件，删除无效语音
+5. 剩余的语音文件，制作训练集
+
+ChatTTS抽卡得到的Speaker音频处理：
+1. 改变生成随机数种子，生成不同音色的语音文件，细听，选择合适的音色
+
+
+
+#### 模型和工具：
+1. GPT-SoVITS预训练模型
+2. G2PW
+3. UVR5
+4. funasr iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
+5. funasr iic/speech_fsmn_vad_zh-cn-16k-common-pytorch
+6. funasr iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch
+7. faster-whisper-large-v3
+
+#### 本次试验主要调教参数参数：
+
+本次试验中GPT模型和VITS模型的微调训练参数，除了如下记录外，其余参数均采用默认参数。
+
+基于声学模型的语音切分：
+
+| 参数 | 值 |
+| --- | --- |
+| threshold | -34 |
+| min_length | 4000 |
+| min_interval | 300 |
+| hop_size | 10 |
+| max | 0.9 |
+| alpha_mix | 0.25 |
+
+声学模型微调训练参数：
+
+| 参数 | 值 |
+| --- | --- |
+| batch_size | 8 |
+| total_epoch | 8 |
+| learning_rate | 0.4 |
+| save_every_epoch | 4 |
+
+GPT模型微调训练参数：
+
+| 参数 | 值 |
+| --- | --- |
+| batch_size | 8 |
+| total_epoch | 15 |
+| dpo | false |
+| save_every_epoch | 5 |
+
+推理参数：
+
+| 参数 | 值 |
+| --- | --- |
+| top_k | 15 |
+| top_p | 1 |
+| temperature | 1 |
+
+相关参数：
+
+```
+{
+  "train": {
+    "log_interval": 100,
+    "eval_interval": 500,
+    "seed": 1234,
+    "epochs": 8,
+    "learning_rate": 0.0001,
+    "betas": [0.8, 0.99],
+    "eps": 1e-9,
+    "batch_size": 8,
+    "fp16_run": true,
+    "lr_decay": 0.999875,
+    "segment_size": 20480,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0,
+    "text_low_lr_rate": 0.4,
+    "pretrained_s2G": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth",
+    "pretrained_s2D": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth",
+    "if_save_latest": true,
+    "if_save_every_weights": true,
+    "save_every_epoch": 4,
+    "gpu_numbers": "0"
+  },
+  "data": {
+    "max_wav_value": 32768.0,
+    "sampling_rate": 32000,
+    "filter_length": 2048,
+    "hop_length": 640,
+    "win_length": 2048,
+    "n_mel_channels": 128,
+    "mel_fmin": 0.0,
+    "mel_fmax": null,
+    "add_blank": true,
+    "n_speakers": 300,
+    "cleaned_text": true,
+    "exp_dir": "logs/\u8046\u5c0f\u73ca_v1"
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3, 7, 11],
+    "resblock_dilation_sizes": [
+      [1, 3, 5],
+      [1, 3, 5],
+      [1, 3, 5]
+    ],
+    "upsample_rates": [10, 8, 2, 2, 2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16, 16, 8, 2, 2],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 512,
+    "semantic_frame_rate": "25hz",
+    "freeze_quantizer": true,
+    "version": "v2"
+  },
+  "s2_ckpt_dir": "logs/\u8046\u5c0f\u73ca_v1",
+  "content_module": "cnhubert",
+  "save_weight_dir": "SoVITS_weights_v2",
+  "name": "\u8046\u5c0f\u73ca_v1",
+  "version": "v2"
+}
+
+```
+
+
+
+### 试验产出样本
+
+
+| 盲测名称 | 标准名称 | 参考音频 |
+| --- | --- | --- |
+| 中文报站-1 | aoma-edge-一二八纪念路江杨南路-zh |  |
+| 中文报站-2 | chatts-1528-车辆起步-zh |  |
+| 中文报站-3 | chattts-1528-一二八纪念路江杨南路-zh |  |
+| 中文报站-4 | 合成-车辆起步下一站，江阳南路通南路-zh |  |
+| 中文报站-5 | chattts-zh-0918-111017_8.0s-seed1528-temp0.1-top_p0.701-top_k20-len51-61860-merge |  |
+| 中文报站-6 | chattts-zh-0918-134216_9.0s-seed2-temp0.12427-top_p0.701-top_k20-len59-18714-merge |  |
+| 中文报站-7 | chattts-zh-0918-140651_8.1s-seed1509-temp0.10067-top_p0.701-top_k20-len58-74126-merge |  |
+| 中文报站-8 | GPT_weights_v2-guodegang_01-e15-zh_1 |  |
+| 中文报站-9 | GPT_weights_v2-guodegang_01-e15-zh_2 |  |
+| 中文报站-10 | 讯飞语音-聆小珊-咨询讲解-zh |  |
+| 中文报站-11 | 讯飞语音-千雪-叙述品质-zh |  |
+| 英语报站-1 | aoma-edge-江阳南路通南路-en |  |
+| 英语报站-2 | 合成-松发路逸仙路-en |  |
+| 英语报站-3 | 逸仙路何家弯路-en |  |
+| 英语报站-4 | 合成-128纪念路阳曲路-en |  |
+| 英语报站-5 | chatts-en-0918-112011_33.3s-seed1528-temp0.1-top_p0.701-top_k20-len73-98929-merge |  |
+| 英语报站-6 | chattts-en-0918-132112_31.5s-seed1244-temp0.1-top_p0.701-top_k20-len64-59882-merge |  |
+| 英语报站-7 | chattts-en-0918-135359_5.0s-seed2-temp0.12427-top_p0.701-top_k20-len47-34033-merge |  |
+| 英语报站-8 | chattts-zh-0918-141751_5.2s-seed1996-temp0.10067-top_p0.701-top_k20-len47-39130-merge |  |
+| 英语报站-9 | 讯飞语音-千雪-叙述品质-en |  |
+| 英语报站-10 | 讯飞语音-聆小珊-咨询讲解-en |  |
+| 上海报站-1 | 讯飞-上海阮灵-车辆进站请注意安全，一二八纪念路江杨南路到了，请配合从后门下车，开门请当心 |  |
+
+
+#### 评估结果：
+
+| 评估人 | 选择 |
+| --- | --- |
+| 喻斯进 | 英语报站-5.wav、中文报站-4.wav、英语报站-3.wav、中文报站-9.wav |
+| 殷剑 | 中文4和中文10、英文选  2、3 |
+| 朱总 |  |
+
+相关评价：
+
+1. 英文站名挺别扭
+2. 中文都还行吧，只是从报站角度有的不合适
+3. 口语话，其中一个还一股子北京味道
+4. 要洪亮，有朝气
+5. 语调不太对
+6. 中文8、中文9两个是郭德纲的声纹，中文9从声纹还原度和效果上 比较好，2nd中文选了中文9中文9的超参可以用来合成有需求的其它声纹
+7. 中文10的 音色可以。语速间隔有问题。路名要连读，不能过快。要让人听清楚。路名后稍微停顿一下  报送“到了”，路名报的一定调整语速，太慢了拖沓，快了听不清，报站语音要听清楚每一个字，特别是路名，所以有间隔和重音的
+8. 你听中文四，人语言训练的会有连读的问题，我们先说信息的清晰度，中文四最清楚，只是感觉像机器人
+9. 中文2、3 听的清楚，但是音色不行，你或者实时2、3可以换音色么，太低沉了，要洪亮。听上去很累的样子