Skip to content

Latest commit

 

History

History
145 lines (137 loc) · 11.5 KB

README.md

File metadata and controls

145 lines (137 loc) · 11.5 KB

aishell1

150 小时的数据不足以训练出稳定的结果,尝试加到 500/1000 小时的数据去训练

  • 当前的实现,韵母和声调放在一起组成建模单元,也增加了对数据量的需求。

Prepare Dataset

cd egs/aishell1

# Those stages are very time-consuming
bash prepare.sh --stage -1 --stop-stage 3

##  train
Cut statistics:
╒═══════════════════════════╤═══════════╕
│ Cuts count:               │ 120098    │
├───────────────────────────┼───────────┤
│ Total duration (hh:mm:ss) │ 150:51:08 │
├───────────────────────────┼───────────┤
│ mean                      │ 4.5       │
├───────────────────────────┼───────────┤
│ std                       │ 1.4       │
├───────────────────────────┼───────────┤
│ min                       │ 1.2       │
├───────────────────────────┼───────────┤
│ 25%                       │ 3.5       │
├───────────────────────────┼───────────┤
│ 50%                       │ 4.3       │
├───────────────────────────┼───────────┤
│ 75%                       │ 5.3       │
├───────────────────────────┼───────────┤
│ 99%                       │ 8.5       │
├───────────────────────────┼───────────┤
│ 99.5%                     │ 9.1       │
├───────────────────────────┼───────────┤
│ 99.9%                     │ 10.5      │
├───────────────────────────┼───────────┤
│ max                       │ 14.5      │
├───────────────────────────┼───────────┤
│ Recordings available:     │ 120098    │
├───────────────────────────┼───────────┤
│ Features available:       │ 120098    │
├───────────────────────────┼───────────┤
│ Supervisions available:   │ 120098    │
╘═══════════════════════════╧═══════════╛
SUPERVISION custom fields:
Speech duration statistics:
╒══════════════════════════════╤═══════════╤══════════════════════╕
│ Total speech duration        │ 150:51:08 │ 100.00% of recording │
├──────────────────────────────┼───────────┼──────────────────────┤
│ Total speaking time duration │ 150:51:08 │ 100.00% of recording │
├──────────────────────────────┼───────────┼──────────────────────┤
│ Total silence duration       │ 00:00:00  │ 0.00% of recording   │
╘══════════════════════════════╧═══════════╧══════════════════════╛


##  dev
Cut statistics:
╒═══════════════════════════╤══════════╕
│ Cuts count:               │ 400      │
├───────────────────────────┼──────────┤
│ Total duration (hh:mm:ss) │ 00:28:37 │
├───────────────────────────┼──────────┤
│ mean                      │ 4.3      │
├───────────────────────────┼──────────┤
│ std                       │ 1.1      │
├───────────────────────────┼──────────┤
│ min                       │ 2.3      │
├───────────────────────────┼──────────┤
│ 25%                       │ 3.5      │
├───────────────────────────┼──────────┤
│ 50%                       │ 4.0      │
├───────────────────────────┼──────────┤
│ 75%                       │ 5.0      │
├───────────────────────────┼──────────┤
│ 99%                       │ 7.4      │
├───────────────────────────┼──────────┤
│ 99.5%                     │ 7.5      │
├───────────────────────────┼──────────┤
│ 99.9%                     │ 8.0      │
├───────────────────────────┼──────────┤
│ max                       │ 8.0      │
├───────────────────────────┼──────────┤
│ Recordings available:     │ 400      │
├───────────────────────────┼──────────┤
│ Features available:       │ 400      │
├───────────────────────────┼──────────┤
│ Supervisions available:   │ 400      │
╘═══════════════════════════╧══════════╛
SUPERVISION custom fields:
Speech duration statistics:
╒══════════════════════════════╤══════════╤══════════════════════╕
│ Total speech duration        │ 00:28:37 │ 100.00% of recording │
├──────────────────────────────┼──────────┼──────────────────────┤
│ Total speaking time duration │ 00:28:37 │ 100.00% of recording │
├──────────────────────────────┼──────────┼──────────────────────┤
│ Total silence duration       │ 00:00:00 │ 0.00% of recording   │
╘══════════════════════════════╧══════════╧══════════════════════╛


##  test
Cut statistics:
╒═══════════════════════════╤══════════╕
│ Cuts count:               │ 7176     │
├───────────────────────────┼──────────┤
│ Total duration (hh:mm:ss) │ 10:01:49 │
├───────────────────────────┼──────────┤
│ mean                      │ 5.0      │
├───────────────────────────┼──────────┤
│ std                       │ 1.6      │
├───────────────────────────┼──────────┤
│ min                       │ 1.9      │
├───────────────────────────┼──────────┤
│ 25%                       │ 3.8      │
├───────────────────────────┼──────────┤
│ 50%                       │ 4.7      │
├───────────────────────────┼──────────┤
│ 75%                       │ 5.9      │
├───────────────────────────┼──────────┤
│ 99%                       │ 9.9      │
├───────────────────────────┼──────────┤
│ 99.5%                     │ 10.7     │
├───────────────────────────┼──────────┤
│ 99.9%                     │ 11.9     │
├───────────────────────────┼──────────┤
│ max                       │ 14.7     │
├───────────────────────────┼──────────┤
│ Recordings available:     │ 7176     │
├───────────────────────────┼──────────┤
│ Features available:       │ 7176     │
├───────────────────────────┼──────────┤
│ Supervisions available:   │ 7176     │
╘═══════════════════════════╧══════════╛
SUPERVISION custom fields:
Speech duration statistics:
╒══════════════════════════════╤══════════╤══════════════════════╕
│ Total speech duration        │ 10:01:49 │ 100.00% of recording │
├──────────────────────────────┼──────────┼──────────────────────┤
│ Total speaking time duration │ 10:01:49 │ 100.00% of recording │
├──────────────────────────────┼──────────┼──────────────────────┤
│ Total silence duration       │ 00:00:00 │ 0.00% of recording   │
╘══════════════════════════════╧══════════╧══════════════════════╛

Training & Inference

refer to Training