Skip to content

History

bact edited this page Dec 14, 2019 · 14 revisions

PyThaiNLP Logo

วันที่ 10 กรกฎาคม พ.ศ.2559 เป็นวันที่ PyThaiNLP ถูกปล่อยขึ้น PyPI อย่างเป็นทางการ โดยรุ่นแรกคือ PyThaiNLP 0.0.4 โดยคุณสมบัติเช่น ตัดคำ, วิเคราะห์หน้าที่ของคำ (part-of-speech), แปลงตัวเลขเป็นคำอ่าน, เปลี่ยนข้อความกรณีลืมเปลี่ยนภาษาเวลาพิมพ์ และเรียงลำดับจำนวนข้อความ

ช่วงเริ่มต้นพัฒนานั้นผมอยู่ ม.6 หลังจากที่ผมเขียนบล็อก Python ทำ chatbot ง่าย ๆ มีโค้ดตัดคำ PyICU ที่แจกจ่ายทางอินเทอร์เน็ต, ชุดข้อมูล part-of-speech และอื่น ๆ ผมเลยเกิดความคิด ทำไมเราไม่รวมโค้ดนี้ทำเป็นโมดูลให้ใช้ง่าย ๆ เลยล่ะ ? ผมจึงลองทำโมดูลด้าน NLP ขึ้นมา เริ่มแรกมีแค่ตัดคำ ในวันที่ 23 มิถุนายน บน GitHub จนพัฒนามาระยะหนึ่ง ผมตัดสินใจอัปโหลดขึ้น PyPI รุ่นแรกที่ปล่อยคือ PyThaiNLP 0.0.4 ความตั้งใจในตอนนั้นคือ ต้องการสร้างโมดูล NLP ภาษาไทยอย่างเต็มรูปแบบ ไม่ใช่แค่ตัดคำ โดยประกาศข่าวโมดูลนี้ที่แรก ที่เพจ "สมาคม Python Dev แห่งประเทศไทย" และตามกลุ่มต่าง ๆ

รุ่นแรก ๆ API ยังไม่ได้คล้ายกับ NLTK ภายหลังปรับให้คล้ายกับ NLTK เพราะผมชื่นชอบ API ของ NLTK เป็นอย่างมากในตอนนั้น

พอผมมาทำ PyThaiNLP ผมเห็นปัญหาหนึ่ง คือ ภาษาไทยขาดแคลนทรัพยากรทางภาษา ในกระบวนการสร้าง NLP หลายอัน ถ้าเป็นแบบนี้ต่อไปจะมีผลต่อความอยู่รอดของภาษาไทยในอนาคตด้วย ส่วนตัวผมเห็นว่า NLP ภาษาไทย เป็นหลักประกันหนึ่งที่อาจจะช่วยให้ภาษาไทยไม่หายไปในอนาคตได้ ผมไม่อยากให้ภาษาไทยหายไปเพียงเพราะเทคโนโลยีไม่รองรับภาษาไทย และอยากให้สามารถนำไปใช้ในการงานวิจัยในสาย NLP ได้

ที่มาของชื่อ PyThaiNLP ช่วงนั้นผมสนใจ NLP มาก จนลองคิดหลายชื่อ ไม่ว่าจะเป็น Thai NLTK และหลาย ๆ ชื่อ จนมานึกถึงโมดูลตัวหนึ่งที่ชื่อ PyThai เป็นโมดูลตัดคำภาษาไทยใช้ libthai เป็นเบื้องหลัง ผมจึงลองเติม NLP ลงไปต่อท้าย ได้ชื่อที่พูดได้รื่นและจำได้ง่ายกว่าชื่ออื่น ๆ ผมจึงเลือกชื่อนี้นับจากนั้นเป็นต้นมา

ตราสัญลักษณ์

ออกแบบโดยคุณ วรุตม์ พสุธาดล จากการประกวดที่ https://www.facebook.com/groups/408004796247683/permalink/475864542795041/ และ https://www.facebook.com/groups/408004796247683/permalink/474262752955220/

TimeLine

2016

  • 23 มิถุนายน เริ่มต้นพัฒนา PyThaiNLP
  • 10 กรกฎาคม แจกจ่ายรุ่นแรก PyThaiNLP 0.0.4

2017

2018

  • ก่อตั้งทีม PyThaiNLP และย้าย GitHub จากเดิมที่อยู่ใน GitHub @wannaphongcom ออกมาเป็น @PyThaiNLP
  • @petetanru เข้ามาช่วยปรับปรุงเอกสาร
  • 12 กรกฎาคม Thai NLP Meetup #1
  • Thai NLP Meetup 1 - 5

2019

  • @bact พี่อาท เข้ามาช่วยปรับปรุงโมดูล PyThaiNLP และเข้ามาร่วมพัฒนาในทีม PyThaiNLP
  • @heytitle เข้ามาช่วยปรับปรุงโมดูล, ทำ benchmark ตัวตัดคำ, ทำตัวตัดคำ attacut และเข้ามาร่วมทีม PyThaiNLP
  • 1 เมษายน PyThaiNLP 2.0
  • 15 มิถุนายน How pyThaiNLP's thai2fit Outperforms Google's BERT: State-of-the-Art Thai Text Classification and Beyond - Charin
  • 9 ธันวาคม นำเสนอ AttaCut ที่ NeurIPS 2019 https://arxiv.org/abs/1911.07056
  • 10 ธันวาคม PyThaiNLP 2.1

กำลังรอเพิ่มเติมข้อมูล

ประวัติจากโพสต์บน Facebook

Clone this wiki locally