Skip to content

Commit

Permalink
update howto
Browse files Browse the repository at this point in the history
  • Loading branch information
tatHi committed Oct 9, 2023
1 parent 2707c39 commit e128f9f
Showing 1 changed file with 3 additions and 2 deletions.
5 changes: 3 additions & 2 deletions scripts/howToCreateModel_ver2.md
Original file line number Diff line number Diff line change
Expand Up @@ -23,6 +23,7 @@ NII-LLMで共有されているコーパス v1を利用.
$ mecab -Owakati -b 100000000 ja.txt.newline > ja.txt.newline.mecab
```
- 日本語,英語ともに記号の連続はスペース区切りに修正
- **ver2.2では不使用(トークン長が増大する原因となるため)**
漢字(含む中国語),平仮名,(半角・前核)片仮名,アルファベット以外はすべて区切っておく.
→これら以外の文字の連続は単語として認めない.
```
Expand Down Expand Up @@ -63,7 +64,7 @@ normalizationを行わない(`identity`設定)ことに注意.
train_extremely_large_corpus=True,
normalization_rule_name='identity',
user_defined_symbols=['\n'],
max_sentencepiece_length=8, # 英語・コードは最大長16
max_sentencepiece_length=16, # 英語・コードは最大長16
split_digits=True,
byte_fallback=True,
split_by_whitespace=True, # モデル作成時は空白で区切る
Expand All @@ -81,7 +82,7 @@ normalizationを行わない(`identity`設定)ことに注意.
train_extremely_large_corpus=True,
normalization_rule_name='identity',
user_defined_symbols=['\n'],
max_sentencepiece_length=8, # 英語・コードは最大長16
max_sentencepiece_length=16, # 英語・コードは最大長16
split_digits=True,
byte_fallback=True,
split_by_whitespace=True, # モデル作成時は空白で区切る
Expand Down

0 comments on commit e128f9f

Please sign in to comment.