Skip to content

Releases: PyThaiNLP/pythainlp

PyThaiNLP 2.1.3

11 Jan 04:08
8922b91
Compare
Choose a tag to compare

This release is a bug fix release.

  • numtoword number to thai word (#350)

Installation

You can install or upgarde from pip install -U pythainlp

Change log: #181

Documentation: https://www.thainlp.org/pythainlp/docs/2.1/

Tutorials: https://thainlp.org/pythainlp/tutorials/

GitHub: https://github.com/PyThaiNLP/pythainlp

We build Thai NLP

PyThaiNLP Team

PyThaiNLP 2.1.2

31 Dec 11:41
c3f223c
Compare
Choose a tag to compare

This release is a bug fix release.

  • thainer html-like output: Fixed output of the html-like is incorrect. (#346)

Installation

You can install or upgarde from pip install -U pythainlp

Change log: #181

Documentation: https://www.thainlp.org/pythainlp/docs/2.1/

Tutorials: https://thainlp.org/pythainlp/tutorials/

GitHub: https://github.com/PyThaiNLP/pythainlp

We build Thai NLP

PyThaiNLP Team

PyThaiNLP 2.1.1

19 Dec 14:56
8369a21
Compare
Choose a tag to compare

This release is a bug fix release.

  • newmm word tokenizer: Add graph size limit in _onecut() to avoid long wait for ambiguous text (#333)

Installation

You can install or upgarde from pip install -U pythainlp

Change log: #181

Documentation: https://www.thainlp.org/pythainlp/docs/2.1/

Tutorials: https://thainlp.org/pythainlp/tutorials/

GitHub: https://github.com/PyThaiNLP/pythainlp

We build Thai NLP

PyThaiNLP Team

PyThaiNLP 2.1

10 Dec 09:16
c63e808
Compare
Choose a tag to compare

English

Hello World. Today, we're happy to announce the availability of PyThaiNLP. Since the project moved to GitHub, we have recorded over 197,000 downloads -- thank you for using PyThaiNLP.

Summary – Release Highlights

New Features

Tokenizer

  • AttaCut, a fast and accurate tokenizer, is now available through engine="attacut" in pythainlp.tokenize.word_tokenize(). Read more about AttaCut implementation at https://arxiv.org/abs/1911.07056, as presented at New in ML Workshop, NeurIPS 2019.
  • ssg, a syllable segmentor, is now available through engine=”ssg” in pythainlp.tokenize.subword_tokenize()
  • Tokenization benchmark

Corpus

  • Add Thai female, male names corpus
  • Add PYTHAINLP_DATA_DIR environment variable to set location of downloaded data

Named-Entity Tagger

  • Add HTML-like tag in output

Localization

  • New function: pythainlp.util.thai_time, time spell out to Thai words

Other improvements

  • Removing and updating many dependencies
  • Remove marisa-trie from pythainlp
  • Updated tutorial notebooks and documentation
  • Better command-line interface

Installation

You can install or upgarde from pip install -U pythainlp

Change log: #181

Documentation: https://www.thainlp.org/pythainlp/docs/2.1/

Tutorials: https://thainlp.org/pythainlp/tutorials/

GitHub: https://github.com/PyThaiNLP/pythainlp

We build Thai NLP

PyThaiNLP Team

ภาษาไทย

สวัสดีชาวโลก วันนี้ 10 ธันวาคม 2562 พวกเราได้ปล่อย PyThaiNLP 2.1 ตอนนี้ PyThaiNLP มียอดดาวน์โหลดมากกว่า 197,000 ครั้ง ขอบคุณที่ใช้ PyThaiNLP

สรุป – สิ่งที่สำคัญ

คุณลักษณะใหม่

ตัวตัดข้อความ

  • เพิ่ม AttaCut ตัวตัดคำที่เร็วและแม่นยำ เรียกใช้ผ่าน engine="attacut" ใน pythainlp.tokenize.word_tokenize() อ่านวิธีการทำงานของ AttaCut ตามที่นำเสนอที่ New in ML Workshop, NeurIPS 2019 ได้ที่ https://arxiv.org/abs/1911.07056
  • เพิ่ม ssg ตัวตัดพยางค์แบบ CRF เรียกใช้ผ่าน engine="ssg" ใน pythainlp.tokenize.subword_tokenize()
  • ตัววัดประสิทธิภาพตัวตัดคำ

คลังข้อความ

  • เพิ่มคลังข้อมูลชื่อผู้หญิงและผู้ชาย
  • เพิ่ม PYTHAINLP_DATA_DIR environment variable สำหรับตั้งค่าการโหลดข้อมูลโมเดล

ตัวหาชื่อ

  • เพิ่ม tag ทำนอง HTML ครอบข้อความที่มีชื่อ

การปรับเป็นท้องถิ่น

  • เพิ่ม pythainlp.util.thai_time สำหรับแปลงเวลาเป็นคำอ่านภาษาไทย

การปรับปรุงอื่นๆ

  • ลบและอัปเดตไลบรารีหลายอัน
  • ลบ marisa-trie จาก pythainlp
  • ปรับปรุง tutorial notebooks และเอกสาร
  • ปรับปรุง command-line interface

การติดตั้ง

สามารถติดตั้งหรือปรับรุ่นได้ด้วยคำสั่ง pip install -U pythainlp

Change log: #181

Documentation: https://www.thainlp.org/pythainlp/docs/2.1/

Tutorials https://thainlp.org/pythainlp/tutorials/

GitHub: https://github.com/PyThaiNLP/pythainlp

พวกเราสร้าง Thai NLP

ทีม PyThaiNLP

PyThaiNLP 2.1.dev8

16 Nov 10:03
Compare
Choose a tag to compare
PyThaiNLP 2.1.dev8 Pre-release
Pre-release

ขอเชิญทุกท่านร่วมกันทดสอบ PyThaiNLP 2.1dev8
PyThaiNLP 2.1dev เป็นรุ่นสำหรับนักพัฒนาไว้ทดสอบ ก่อนปล่อยรุ่นจริงออกมา โดย PyThaiNLP 2.1 จะมีคุณสมบัติใหม่ดังนี้

ความสามารถใหม่

  • เพิ่ม pythainlp.benchmarks สำหรับทดสอบการตัดคำภาษาไทย
  • เพิ่ม pythainlp.util.thai_time สำหรับใช้แปลงเวลาให้เป็นภาษาไทย เช่น 8:17 เป็น แปดนาฬิกาสิบเจ็ดนาที (24 ชั่วโมง) หรือ แปดโมงสิบเจ็ดนาที (6 ชั่วโมง)

การตัดคำ

  • เพิ่ม ssg เข้ามาเป็นส่วนหนึ่งในการตัดพยางค์ภาษาไทย
  • เพิ่มตัวตัดคำ attacut ซึ่งเป็นตัวตัดคำที่ใช้ deep learning ที่ถูกสร้างขึ้นเพื่อแก้ไขปัญหาด้านความเร็วตัดคำภาษาไทย
  • เพิ่ม "newmm-safe" เข้ามาเพื่อแก้ไขปัญหาเวลาเจอข้อความที่กำกวมหรือใช้เวลาตัดคำนานจนผิดปกติ เช่น "หน้าด้านหน้าด้านหน้าด้านหน้าด้านหน้าด้าน"
  • ปรับปรุงพจนานุกรมที่ใช้ในการตัดคำ

Model updated

  • thai2rom เวอร์ชั่นใหม่ใช้ PyTorch ทำงานแทน TF แถมกินแรมน้อยกว่าเดิมมาก
  • ThaiNER 1.3 รุ่นใหม่ล่าสุด (ThaiNER) HTML -> SGML พร้อมสามารถส่ง output ออกมาเป็นแท็ก html ได้แล้ว เช่น 'วันที่ 15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น.'

Refactoring

  • ลบ marisa-trie ออกจาก PyThaiNLP ต่อไปใช้ PyThaiNLP ไม่ต้องเจอกับปัญหาติดตั้ง PyThaiNLP แล้ว (@korakot เขียน Trie ใน Python)
  • ลบ fastai ออกจาก dependencies ที่ถูกใช้ใน pythainlp.ulmfit
  • ทำความสะอาดโค้ดและเพิ่มชุด Test โดยผ่าน coveralls กว่า 90%
  • เพิ่ม MD5 checksum ให้กับโมเดลที่โหลดผ่าน pythainlp
  • รองรับการเปลี่ยนตำแหน่งที่ตั้ง pythainlp-data ได้ง่าย ๆ โดยแก้ตัวแปร env var ชื่อ PYTHAINLP_DATA_DIR ใส่ path ที่ต้องการ

ดูการเปลี่ยนแปลง PyThaiNLP 2.1 ได้ที่ #181

สามารถทดลองโดยใช้คำสั่ง

pip install -U --pre pythainlp

ลิงก์ที่สำคัญ

ขอขอบคุณผู้ร่วมพัฒนาในเวอร์ชั่นนี้ https://github.com/PyThaiNLP/pythainlp/graphs/contributors

We build Thai NLP.
PyThaiNLP
#ThaiNLP #NLP #PyThaiNLP

PyThaiNLP 2.1.dev7

25 Oct 17:23
d67bba9
Compare
Choose a tag to compare
PyThaiNLP 2.1.dev7 Pre-release
Pre-release
Update setup.py (build and deploy docs)

PyThaiNLP 2.1.dev6

26 Sep 09:07
90e310a
Compare
Choose a tag to compare
PyThaiNLP 2.1.dev6 Pre-release
Pre-release
Update setup.py

PyThaiNLP 2.1.dev5

26 Sep 09:03
50a8e4e
Compare
Choose a tag to compare
PyThaiNLP 2.1.dev5 Pre-release
Pre-release
  • Change from marisa-trie to a Trie implementation written in python

PyThaiNLP 2.1.dev4

21 Sep 06:57
b9025aa
Compare
Choose a tag to compare
PyThaiNLP 2.1.dev4 Pre-release
Pre-release
Merge pull request #273 from PyThaiNLP/ner-tag

Add test cases for NER

PyThaiNLP 2.0.7

16 Aug 04:47
ac77e21
Compare
Choose a tag to compare

PyThaiNLP 2.0.7 Release
change log

  • Bug fix: Include case THANTHAKHAT and SARA U, UU too (pythainlp.util.normalize) #244

Upgrade : pip install -U pythainlp
Docs : https://thainlp.org/pythainlp/docs/2.0/
User guide: https://github.com/PyThaiNLP/pythainlp/blob/dev/notebooks/pythainlp-get-started.ipynb