Skip to content

Commit

Permalink
[itn] fix Japanese ITN
Browse files Browse the repository at this point in the history
  • Loading branch information
LoganLiu66 committed Oct 28, 2024
1 parent c1264f3 commit db99bdd
Show file tree
Hide file tree
Showing 11 changed files with 51 additions and 14 deletions.
1 change: 0 additions & 1 deletion itn/chinese/test/data/money.txt
Original file line number Diff line number Diff line change
Expand Up @@ -7,5 +7,4 @@
四十五六新台币 => TWD45-6
七百三四十欧元 => €730-40
七百三四十马来西亚令吉 => RM730-40
三千三百八十元五角八分 => ¥3380.58
二十五元三毛 => ¥25.3
22 changes: 21 additions & 1 deletion itn/japanese/data/default/whitelist.tsv
Original file line number Diff line number Diff line change
@@ -1,3 +1,23 @@
十三湖
一月三舟
一日之長
一日之長
十八番
百人一首
二百十日
三度笠
千円札
二十面相
七つの海
四国八十八箇所
五箇山
千本鳥居
五月雨
六本木ヒルズ
七つの大罪
千本格子
二枚目俳優
六本木アートナイト
七人の侍
五月祭
七人の姉妹
十八番目の男
1 change: 1 addition & 0 deletions itn/japanese/data/math/operator.tsv
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
カケル ×
-
マイナス -
プラス +
イコール =
Expand Down
24 changes: 20 additions & 4 deletions itn/japanese/data/measure/unit_en.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -3,6 +3,24 @@
キロメートル km
千キロメートル km
メートル m
センチ cm
インチ インチ
リットル L
ジュール J
ワット W
アンペア A
ボルト V
オーム Ω
アンペア毎メートル A/m
ビット bit
バイト Byte
メガバイト MB
キロバイト KB
ギガバイト GB
立方センチメートル cm³
ドット dpi
ケルビン K
センチメートル cm
ミリメートル mm
ヘクタール ha
Expand Down Expand Up @@ -33,14 +51,12 @@
ミリボルト mv
メガワット mw
マイクロメータ μm
インチ "
テラバイト tb
c c cc
テラバイト TB
グラム g
ダルトン da
雰囲気 atm
オーム ω
デシベル db
デシベル dB
ペタ秒 ps
オンス oz
ヘクトリットル hl
Expand Down
1 change: 1 addition & 0 deletions itn/japanese/data/measure/unit_ja.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -8,6 +8,7 @@
Expand Down
2 changes: 0 additions & 2 deletions itn/japanese/data/money/symbol.tsv
Original file line number Diff line number Diff line change
@@ -1,8 +1,6 @@
ドル $
ポンド £
ポンド
¥
バーツ ฿
ユーロ
インドルピー
Expand Down
7 changes: 3 additions & 4 deletions itn/japanese/rules/cardinal.py
Original file line number Diff line number Diff line change
Expand Up @@ -131,23 +131,22 @@ def build_tagger(self):
| (ten_thousand_minus + accep("兆") +
(ten_thousand_minus + accep("億")).ques + ten_thousand_minus +
accep("万").ques + ten_thousand_minus.ques)))
number |= big_integer
self.big_integer = number
self.big_integer = number | big_integer

# cardinal string like 127.0.0.1, used in ID, IP, etc.
cardinal = digit.plus + (dot + digits.plus).plus
# float number like 1.11
cardinal |= decimal
# cardinal string like 110 or 12306 or 13125617878, used in phone
cardinal |= digits**3 | digits**5 | digits**10 | digits**11 | digits**12
cardinal |= (digits**2 + digits.plus)
# % like -27.00%
cardinal |= percent

# allow convert standalone number
if self.enable_standalone_number:
if self.enable_0_to_9:
# 一 => 1 四 => 4 一秒 => 1秒 一万二 => 12000 二十三 => 23
cardinal |= number
cardinal |= number | big_integer
else:
# 一 => 一 四 => 四 一秒 => 1秒 一万二 => 一万二 二三 => 23
number_two_plus = sign.ques + ((digits + digits.plus)
Expand Down
2 changes: 1 addition & 1 deletion itn/japanese/test/data/money.txt
Original file line number Diff line number Diff line change
@@ -1 +1 @@
三千三百八十点五八円 => ¥3380.58
三千三百八十点五八ドル => $3380.58
Original file line number Diff line number Diff line change
Expand Up @@ -55,6 +55,7 @@
二十兆百 => 二十兆百
一九二点一六八点零点一 => 192.168.0.1
一二三四五六七八九 => 123456789
マイナス五百六十七 => マイナス五百六十七
四十四平方メートル => 44m²
四十四キログラム => 44kg
四部 => 四部
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -55,10 +55,11 @@
二十兆百 => 二十兆百
一九二点一六八点零点一 => 192.168.0.1
一二三四五六七八九 => 123456789
マイナス五百六十七 => マイナス五百六十七
四十四平方メートル => 44m²
四十四キログラム => 44kg
四部 => 4部
四円 => ¥4
四円 => 4円
四十四部 => 44部
四十四匹 => 44匹
四分の三 => 3/4
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -55,6 +55,7 @@
二十兆百 => 20兆100
一九二点一六八点零点一 => 192.168.0.1
一二三四五六七八九 => 123456789
マイナス五百六十七 => -567
四十四平方メートル => 44m²
四十四キログラム => 44kg
四十四部 => 44部
Expand Down

0 comments on commit db99bdd

Please sign in to comment.