Releases: PyThaiNLP/pythainlp
PyThaiNLP 2.1.3
This release is a bug fix release.
numtoword
number to thai word (#350)
Installation
You can install or upgarde from pip install -U pythainlp
Change log: #181
Documentation: https://www.thainlp.org/pythainlp/docs/2.1/
Tutorials: https://thainlp.org/pythainlp/tutorials/
GitHub: https://github.com/PyThaiNLP/pythainlp
We build Thai NLP
PyThaiNLP Team
PyThaiNLP 2.1.2
This release is a bug fix release.
thainer
html-like output: Fixed output of the html-like is incorrect. (#346)
Installation
You can install or upgarde from pip install -U pythainlp
Change log: #181
Documentation: https://www.thainlp.org/pythainlp/docs/2.1/
Tutorials: https://thainlp.org/pythainlp/tutorials/
GitHub: https://github.com/PyThaiNLP/pythainlp
We build Thai NLP
PyThaiNLP Team
PyThaiNLP 2.1.1
This release is a bug fix release.
newmm
word tokenizer: Add graph size limit in_onecut()
to avoid long wait for ambiguous text (#333)
Installation
You can install or upgarde from pip install -U pythainlp
Change log: #181
Documentation: https://www.thainlp.org/pythainlp/docs/2.1/
Tutorials: https://thainlp.org/pythainlp/tutorials/
GitHub: https://github.com/PyThaiNLP/pythainlp
We build Thai NLP
PyThaiNLP Team
PyThaiNLP 2.1
English
Hello World. Today, we're happy to announce the availability of PyThaiNLP. Since the project moved to GitHub, we have recorded over 197,000 downloads -- thank you for using PyThaiNLP.
Summary – Release Highlights
New Features
Tokenizer
- AttaCut, a fast and accurate tokenizer, is now available through engine="attacut" in pythainlp.tokenize.word_tokenize(). Read more about AttaCut implementation at https://arxiv.org/abs/1911.07056, as presented at New in ML Workshop, NeurIPS 2019.
- ssg, a syllable segmentor, is now available through engine=”ssg” in pythainlp.tokenize.subword_tokenize()
- Tokenization benchmark
Corpus
- Add Thai female, male names corpus
- Add PYTHAINLP_DATA_DIR environment variable to set location of downloaded data
Named-Entity Tagger
- Add HTML-like tag in output
Localization
- New function: pythainlp.util.thai_time, time spell out to Thai words
Other improvements
- Removing and updating many dependencies
- Remove marisa-trie from pythainlp
- Updated tutorial notebooks and documentation
- Better command-line interface
Installation
You can install or upgarde from pip install -U pythainlp
Change log: #181
Documentation: https://www.thainlp.org/pythainlp/docs/2.1/
Tutorials: https://thainlp.org/pythainlp/tutorials/
GitHub: https://github.com/PyThaiNLP/pythainlp
We build Thai NLP
PyThaiNLP Team
ภาษาไทย
สวัสดีชาวโลก วันนี้ 10 ธันวาคม 2562 พวกเราได้ปล่อย PyThaiNLP 2.1 ตอนนี้ PyThaiNLP มียอดดาวน์โหลดมากกว่า 197,000 ครั้ง ขอบคุณที่ใช้ PyThaiNLP
สรุป – สิ่งที่สำคัญ
คุณลักษณะใหม่
ตัวตัดข้อความ
- เพิ่ม AttaCut ตัวตัดคำที่เร็วและแม่นยำ เรียกใช้ผ่าน engine="attacut" ใน pythainlp.tokenize.word_tokenize() อ่านวิธีการทำงานของ AttaCut ตามที่นำเสนอที่ New in ML Workshop, NeurIPS 2019 ได้ที่ https://arxiv.org/abs/1911.07056
- เพิ่ม ssg ตัวตัดพยางค์แบบ CRF เรียกใช้ผ่าน engine="ssg" ใน pythainlp.tokenize.subword_tokenize()
- ตัววัดประสิทธิภาพตัวตัดคำ
คลังข้อความ
- เพิ่มคลังข้อมูลชื่อผู้หญิงและผู้ชาย
- เพิ่ม PYTHAINLP_DATA_DIR environment variable สำหรับตั้งค่าการโหลดข้อมูลโมเดล
ตัวหาชื่อ
- เพิ่ม tag ทำนอง HTML ครอบข้อความที่มีชื่อ
การปรับเป็นท้องถิ่น
- เพิ่ม pythainlp.util.thai_time สำหรับแปลงเวลาเป็นคำอ่านภาษาไทย
การปรับปรุงอื่นๆ
- ลบและอัปเดตไลบรารีหลายอัน
- ลบ marisa-trie จาก pythainlp
- ปรับปรุง tutorial notebooks และเอกสาร
- ปรับปรุง command-line interface
การติดตั้ง
สามารถติดตั้งหรือปรับรุ่นได้ด้วยคำสั่ง pip install -U pythainlp
Change log: #181
Documentation: https://www.thainlp.org/pythainlp/docs/2.1/
Tutorials https://thainlp.org/pythainlp/tutorials/
GitHub: https://github.com/PyThaiNLP/pythainlp
พวกเราสร้าง Thai NLP
ทีม PyThaiNLP
PyThaiNLP 2.1.dev8
ขอเชิญทุกท่านร่วมกันทดสอบ PyThaiNLP 2.1dev8
PyThaiNLP 2.1dev เป็นรุ่นสำหรับนักพัฒนาไว้ทดสอบ ก่อนปล่อยรุ่นจริงออกมา โดย PyThaiNLP 2.1 จะมีคุณสมบัติใหม่ดังนี้
ความสามารถใหม่
- เพิ่ม pythainlp.benchmarks สำหรับทดสอบการตัดคำภาษาไทย
- เพิ่ม pythainlp.util.thai_time สำหรับใช้แปลงเวลาให้เป็นภาษาไทย เช่น 8:17 เป็น แปดนาฬิกาสิบเจ็ดนาที (24 ชั่วโมง) หรือ แปดโมงสิบเจ็ดนาที (6 ชั่วโมง)
การตัดคำ
- เพิ่ม ssg เข้ามาเป็นส่วนหนึ่งในการตัดพยางค์ภาษาไทย
- เพิ่มตัวตัดคำ attacut ซึ่งเป็นตัวตัดคำที่ใช้ deep learning ที่ถูกสร้างขึ้นเพื่อแก้ไขปัญหาด้านความเร็วตัดคำภาษาไทย
- เพิ่ม "newmm-safe" เข้ามาเพื่อแก้ไขปัญหาเวลาเจอข้อความที่กำกวมหรือใช้เวลาตัดคำนานจนผิดปกติ เช่น "หน้าด้านหน้าด้านหน้าด้านหน้าด้านหน้าด้าน"
- ปรับปรุงพจนานุกรมที่ใช้ในการตัดคำ
Model updated
- thai2rom เวอร์ชั่นใหม่ใช้ PyTorch ทำงานแทน TF แถมกินแรมน้อยกว่าเดิมมาก
- ThaiNER 1.3 รุ่นใหม่ล่าสุด (ThaiNER) HTML -> SGML พร้อมสามารถส่ง output ออกมาเป็นแท็ก html ได้แล้ว เช่น 'วันที่ 15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น.'
Refactoring
- ลบ marisa-trie ออกจาก PyThaiNLP ต่อไปใช้ PyThaiNLP ไม่ต้องเจอกับปัญหาติดตั้ง PyThaiNLP แล้ว (@korakot เขียน Trie ใน Python)
- ลบ fastai ออกจาก dependencies ที่ถูกใช้ใน pythainlp.ulmfit
- ทำความสะอาดโค้ดและเพิ่มชุด Test โดยผ่าน coveralls กว่า 90%
- เพิ่ม MD5 checksum ให้กับโมเดลที่โหลดผ่าน pythainlp
- รองรับการเปลี่ยนตำแหน่งที่ตั้ง pythainlp-data ได้ง่าย ๆ โดยแก้ตัวแปร env var ชื่อ PYTHAINLP_DATA_DIR ใส่ path ที่ต้องการ
ดูการเปลี่ยนแปลง PyThaiNLP 2.1 ได้ที่ #181
สามารถทดลองโดยใช้คำสั่ง
pip install -U --pre pythainlp
ลิงก์ที่สำคัญ
- เอกสาร API ศึกษาได้ที่ https://www.thainlp.org/pythainlp/docs/dev/
- เอกสารสอนการใช้งานศึกษาได้ที่ https://thainlp.org/pythainlp/tutorials/
- แจ้ง Bug, สอบถามข้อมูลเกี่ยวกับ PyThaiNLP และรายงานปัญหาได้ที่ https://github.com/PyThaiNLP/pythainlp/issues
ขอขอบคุณผู้ร่วมพัฒนาในเวอร์ชั่นนี้ https://github.com/PyThaiNLP/pythainlp/graphs/contributors
We build Thai NLP.
PyThaiNLP
#ThaiNLP #NLP #PyThaiNLP
PyThaiNLP 2.1.dev7
Update setup.py (build and deploy docs)
PyThaiNLP 2.1.dev6
Update setup.py
PyThaiNLP 2.1.dev5
- Change from
marisa-trie
to a Trie implementation written in python
PyThaiNLP 2.1.dev4
Merge pull request #273 from PyThaiNLP/ner-tag Add test cases for NER
PyThaiNLP 2.0.7
PyThaiNLP 2.0.7 Release
change log
- Bug fix: Include case THANTHAKHAT and SARA U, UU too (pythainlp.util.normalize) #244
Upgrade : pip install -U pythainlp
Docs : https://thainlp.org/pythainlp/docs/2.0/
User guide: https://github.com/PyThaiNLP/pythainlp/blob/dev/notebooks/pythainlp-get-started.ipynb