From d12a248ba629c92b5dbaa741bcbf752af96bb8bd Mon Sep 17 00:00:00 2001 From: Rover12421 Date: Thu, 16 May 2024 16:30:58 +0800 Subject: [PATCH] fixer: tokenizer.tokenize result MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 文本描述和代码输出结果对不上.代码输出可能是旧版本,文本描述是新版本结果. 最新代码输出结果已经纠正,可以和文本描述对应上. --- _c2/2021-12-11-transformers-note-2.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/_c2/2021-12-11-transformers-note-2.md b/_c2/2021-12-11-transformers-note-2.md index ed8b3c8..cfd242a 100644 --- a/_c2/2021-12-11-transformers-note-2.md +++ b/_c2/2021-12-11-transformers-note-2.md @@ -153,7 +153,7 @@ print(tokens) ``` ``` -['Using', 'a', 'Trans', '##former', 'network', 'is', 'simple'] +['using', 'a', 'transform', '##er', 'network', 'is', 'simple'] ``` 可以看到,BERT 分词器采用的是子词切分策略,它会不断切分词语直到获得词表中的 token,例如 “transformer” 会被切分为 “transform” 和 “##er”。