From d12a248ba629c92b5dbaa741bcbf752af96bb8bd Mon Sep 17 00:00:00 2001
From: Rover12421 <rover12421@163.com>
Date: Thu, 16 May 2024 16:30:58 +0800
Subject: [PATCH] fixer: tokenizer.tokenize result
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

文本描述和代码输出结果对不上.代码输出可能是旧版本,文本描述是新版本结果.
最新代码输出结果已经纠正,可以和文本描述对应上.
---
 _c2/2021-12-11-transformers-note-2.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/_c2/2021-12-11-transformers-note-2.md b/_c2/2021-12-11-transformers-note-2.md
index ed8b3c8..cfd242a 100644
--- a/_c2/2021-12-11-transformers-note-2.md
+++ b/_c2/2021-12-11-transformers-note-2.md
@@ -153,7 +153,7 @@ print(tokens)
 ```
 
 ```
-['Using', 'a', 'Trans', '##former', 'network', 'is', 'simple']
+['using', 'a', 'transform', '##er', 'network', 'is', 'simple']
 ```
 
 可以看到，BERT 分词器采用的是子词切分策略，它会不断切分词语直到获得词表中的 token，例如 “transformer” 会被切分为 “transform” 和 “##er”。