PyThaiNLP 2.1.dev8
Pre-release
Pre-release
ขอเชิญทุกท่านร่วมกันทดสอบ PyThaiNLP 2.1dev8
PyThaiNLP 2.1dev เป็นรุ่นสำหรับนักพัฒนาไว้ทดสอบ ก่อนปล่อยรุ่นจริงออกมา โดย PyThaiNLP 2.1 จะมีคุณสมบัติใหม่ดังนี้
ความสามารถใหม่
- เพิ่ม pythainlp.benchmarks สำหรับทดสอบการตัดคำภาษาไทย
- เพิ่ม pythainlp.util.thai_time สำหรับใช้แปลงเวลาให้เป็นภาษาไทย เช่น 8:17 เป็น แปดนาฬิกาสิบเจ็ดนาที (24 ชั่วโมง) หรือ แปดโมงสิบเจ็ดนาที (6 ชั่วโมง)
การตัดคำ
- เพิ่ม ssg เข้ามาเป็นส่วนหนึ่งในการตัดพยางค์ภาษาไทย
- เพิ่มตัวตัดคำ attacut ซึ่งเป็นตัวตัดคำที่ใช้ deep learning ที่ถูกสร้างขึ้นเพื่อแก้ไขปัญหาด้านความเร็วตัดคำภาษาไทย
- เพิ่ม "newmm-safe" เข้ามาเพื่อแก้ไขปัญหาเวลาเจอข้อความที่กำกวมหรือใช้เวลาตัดคำนานจนผิดปกติ เช่น "หน้าด้านหน้าด้านหน้าด้านหน้าด้านหน้าด้าน"
- ปรับปรุงพจนานุกรมที่ใช้ในการตัดคำ
Model updated
- thai2rom เวอร์ชั่นใหม่ใช้ PyTorch ทำงานแทน TF แถมกินแรมน้อยกว่าเดิมมาก
- ThaiNER 1.3 รุ่นใหม่ล่าสุด (ThaiNER) HTML -> SGML พร้อมสามารถส่ง output ออกมาเป็นแท็ก html ได้แล้ว เช่น 'วันที่ 15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น.'
Refactoring
- ลบ marisa-trie ออกจาก PyThaiNLP ต่อไปใช้ PyThaiNLP ไม่ต้องเจอกับปัญหาติดตั้ง PyThaiNLP แล้ว (@korakot เขียน Trie ใน Python)
- ลบ fastai ออกจาก dependencies ที่ถูกใช้ใน pythainlp.ulmfit
- ทำความสะอาดโค้ดและเพิ่มชุด Test โดยผ่าน coveralls กว่า 90%
- เพิ่ม MD5 checksum ให้กับโมเดลที่โหลดผ่าน pythainlp
- รองรับการเปลี่ยนตำแหน่งที่ตั้ง pythainlp-data ได้ง่าย ๆ โดยแก้ตัวแปร env var ชื่อ PYTHAINLP_DATA_DIR ใส่ path ที่ต้องการ
ดูการเปลี่ยนแปลง PyThaiNLP 2.1 ได้ที่ #181
สามารถทดลองโดยใช้คำสั่ง
pip install -U --pre pythainlp
ลิงก์ที่สำคัญ
- เอกสาร API ศึกษาได้ที่ https://www.thainlp.org/pythainlp/docs/dev/
- เอกสารสอนการใช้งานศึกษาได้ที่ https://thainlp.org/pythainlp/tutorials/
- แจ้ง Bug, สอบถามข้อมูลเกี่ยวกับ PyThaiNLP และรายงานปัญหาได้ที่ https://github.com/PyThaiNLP/pythainlp/issues
ขอขอบคุณผู้ร่วมพัฒนาในเวอร์ชั่นนี้ https://github.com/PyThaiNLP/pythainlp/graphs/contributors
We build Thai NLP.
PyThaiNLP
#ThaiNLP #NLP #PyThaiNLP