From e128f9f7cb1d0aeabdb07bc907a2b2e0b5ae201a Mon Sep 17 00:00:00 2001 From: tathi Date: Mon, 9 Oct 2023 10:31:13 +0900 Subject: [PATCH] update howto --- scripts/howToCreateModel_ver2.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/scripts/howToCreateModel_ver2.md b/scripts/howToCreateModel_ver2.md index c8485dc..8737b88 100644 --- a/scripts/howToCreateModel_ver2.md +++ b/scripts/howToCreateModel_ver2.md @@ -23,6 +23,7 @@ NII-LLMで共有されているコーパス v1を利用. $ mecab -Owakati -b 100000000 ja.txt.newline > ja.txt.newline.mecab ``` - 日本語,英語ともに記号の連続はスペース区切りに修正 + - **ver2.2では不使用(トークン長が増大する原因となるため)** 漢字(含む中国語),平仮名,(半角・前核)片仮名,アルファベット以外はすべて区切っておく. →これら以外の文字の連続は単語として認めない. ``` @@ -63,7 +64,7 @@ normalizationを行わない(`identity`設定)ことに注意. train_extremely_large_corpus=True, normalization_rule_name='identity', user_defined_symbols=['\n'], - max_sentencepiece_length=8, # 英語・コードは最大長16 + max_sentencepiece_length=16, # 英語・コードは最大長16 split_digits=True, byte_fallback=True, split_by_whitespace=True, # モデル作成時は空白で区切る @@ -81,7 +82,7 @@ normalizationを行わない(`identity`設定)ことに注意. train_extremely_large_corpus=True, normalization_rule_name='identity', user_defined_symbols=['\n'], - max_sentencepiece_length=8, # 英語・コードは最大長16 + max_sentencepiece_length=16, # 英語・コードは最大長16 split_digits=True, byte_fallback=True, split_by_whitespace=True, # モデル作成時は空白で区切る