Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

專用於 OCR 修正的轉換器? #13

Open
n6333373 opened this issue Mar 11, 2018 · 1 comment
Open

專用於 OCR 修正的轉換器? #13

n6333373 opened this issue Mar 11, 2018 · 1 comment

Comments

@n6333373
Copy link
Contributor

n6333373 commented Mar 11, 2018

  • 最近發現有個簡體字幕裡把 打成了 ,應該是來自 OCR 的錯誤。
    由於 極度不常用,繁化時強行轉換為 不會時常造成問題。

  • 類似問題在繁體字幕中也有 被打成了 ,並且可能不容易被看出來。

上述兩者現歸類於 錯別字修正 模組中。


  • 英文中則有 i (小寫I) / l(小寫L) / I(大寫i) / 1(數字1) 混用。

例如:子音 + l(小寫L) + 子音 應可轉換為 子音 + i(小寫I) + 子音 ,英文因為發音的關係,不會三個子音(並且中間是小寫L)連在一起。

上述則未實裝。


我幾乎不做 OCR 的工作,因此不知道 OCR 有那些常見的錯誤,如果自動修正一些常見錯誤應該會很有用(?)

@n6333373 n6333373 changed the title 專用於 OCR 修正的詞語模組? 專用於 OCR 修正的轉換器? Mar 11, 2018
@n6333373
Copy link
Contributor Author

n6333373 commented May 14, 2018

https://zhconvert.org/#comment-3899694601

井非=並非
朱來=未來
恐泊=恐怕
環表=懷錶
父易=交易
農服=衣服 (非OCR?)
障藏=隱藏
事倩=事情
他門=他們
只身=單身 (非OCR?)
邪路=洩露 (非OCR?)
聽慬=聽懂
蚱蝦=炸蝦

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant