Skip to content

PyThaiNLP 2.1.dev8

Pre-release
Pre-release
Compare
Choose a tag to compare
@wannaphong wannaphong released this 16 Nov 10:03
· 2833 commits to dev since this release

ขอเชิญทุกท่านร่วมกันทดสอบ PyThaiNLP 2.1dev8
PyThaiNLP 2.1dev เป็นรุ่นสำหรับนักพัฒนาไว้ทดสอบ ก่อนปล่อยรุ่นจริงออกมา โดย PyThaiNLP 2.1 จะมีคุณสมบัติใหม่ดังนี้

ความสามารถใหม่

  • เพิ่ม pythainlp.benchmarks สำหรับทดสอบการตัดคำภาษาไทย
  • เพิ่ม pythainlp.util.thai_time สำหรับใช้แปลงเวลาให้เป็นภาษาไทย เช่น 8:17 เป็น แปดนาฬิกาสิบเจ็ดนาที (24 ชั่วโมง) หรือ แปดโมงสิบเจ็ดนาที (6 ชั่วโมง)

การตัดคำ

  • เพิ่ม ssg เข้ามาเป็นส่วนหนึ่งในการตัดพยางค์ภาษาไทย
  • เพิ่มตัวตัดคำ attacut ซึ่งเป็นตัวตัดคำที่ใช้ deep learning ที่ถูกสร้างขึ้นเพื่อแก้ไขปัญหาด้านความเร็วตัดคำภาษาไทย
  • เพิ่ม "newmm-safe" เข้ามาเพื่อแก้ไขปัญหาเวลาเจอข้อความที่กำกวมหรือใช้เวลาตัดคำนานจนผิดปกติ เช่น "หน้าด้านหน้าด้านหน้าด้านหน้าด้านหน้าด้าน"
  • ปรับปรุงพจนานุกรมที่ใช้ในการตัดคำ

Model updated

  • thai2rom เวอร์ชั่นใหม่ใช้ PyTorch ทำงานแทน TF แถมกินแรมน้อยกว่าเดิมมาก
  • ThaiNER 1.3 รุ่นใหม่ล่าสุด (ThaiNER) HTML -> SGML พร้อมสามารถส่ง output ออกมาเป็นแท็ก html ได้แล้ว เช่น 'วันที่ 15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น.'

Refactoring

  • ลบ marisa-trie ออกจาก PyThaiNLP ต่อไปใช้ PyThaiNLP ไม่ต้องเจอกับปัญหาติดตั้ง PyThaiNLP แล้ว (@korakot เขียน Trie ใน Python)
  • ลบ fastai ออกจาก dependencies ที่ถูกใช้ใน pythainlp.ulmfit
  • ทำความสะอาดโค้ดและเพิ่มชุด Test โดยผ่าน coveralls กว่า 90%
  • เพิ่ม MD5 checksum ให้กับโมเดลที่โหลดผ่าน pythainlp
  • รองรับการเปลี่ยนตำแหน่งที่ตั้ง pythainlp-data ได้ง่าย ๆ โดยแก้ตัวแปร env var ชื่อ PYTHAINLP_DATA_DIR ใส่ path ที่ต้องการ

ดูการเปลี่ยนแปลง PyThaiNLP 2.1 ได้ที่ #181

สามารถทดลองโดยใช้คำสั่ง

pip install -U --pre pythainlp

ลิงก์ที่สำคัญ

ขอขอบคุณผู้ร่วมพัฒนาในเวอร์ชั่นนี้ https://github.com/PyThaiNLP/pythainlp/graphs/contributors

We build Thai NLP.
PyThaiNLP
#ThaiNLP #NLP #PyThaiNLP