Skip to content

Commit

Permalink
add test case for doublequote string tokenizing
Browse files Browse the repository at this point in the history
  • Loading branch information
u8621011 committed Jan 16, 2019
1 parent f4206ec commit da55e0c
Showing 1 changed file with 3 additions and 1 deletion.
4 changes: 3 additions & 1 deletion pyVitk/test/TokenizerTest.py
Original file line number Diff line number Diff line change
Expand Up @@ -98,6 +98,7 @@ def test_tokenize_line(self):
'[Chân em đi]',
'{Chân em đi}',
'ABC(Chân em đi)',
'có một cái chén ăn và một "người hầu".'
]
expected = [
['là', 'ngôn ngữ', 'có', 'nguồn gốc', 'bản địa'],
Expand All @@ -115,6 +116,7 @@ def test_tokenize_line(self):
['[', 'Chân', 'em', 'đi', ']'],
['{', 'Chân', 'em', 'đi', '}'],
['ABC', '(', 'Chân', 'em', 'đi', ')'],
['có', 'một', 'cái', 'chén', 'ăn', 'và', 'một', '"', 'người', 'hầu', '".']
]

for s, e in zip(lines, expected):
Expand Down Expand Up @@ -152,7 +154,7 @@ def test_tokenize_line_concat(self):
['BÍCH', 'PHƯƠNG', '-', 'Bao', 'Giờ', 'Lấy', 'Chồng', '?', '[', 'OFFICIAL', 'M/V', ']', ],
['Kem', 'Xôi', 'TV', ':', 'Tập', '74', '-', 'Dài', 'bao_nhiêu', 'là', 'đủ', ','],
['km²', 'và', 'Öland', 'khoảng'],
['KM²', 'và', 'Öland', 'khoảng']
['KM²', 'và', 'Öland', 'khoảng'],
]

for s, e in zip(lines, expected):
Expand Down

0 comments on commit da55e0c

Please sign in to comment.