Skip to content

History

Arthit Suriyawongkul edited this page Jul 21, 2021 · 14 revisions

PyThaiNLP Logo

วันที่ 10 กรกฎาคม พ.ศ.2559 เป็นวันที่ PyThaiNLP ถูกปล่อยขึ้น PyPI อย่างเป็นทางการ โดยรุ่นแรกคือ PyThaiNLP 0.0.4 โดยคุณสมบัติเช่น ตัดคำ, วิเคราะห์หน้าที่ของคำ (part-of-speech), แปลงตัวเลขเป็นคำอ่าน, เปลี่ยนข้อความกรณีลืมเปลี่ยนภาษาเวลาพิมพ์ และเรียงลำดับจำนวนข้อความ

ช่วงเริ่มต้นพัฒนานั้นผมอยู่ ม.6 หลังจากที่ผมเขียนบล็อก Python ทำ chatbot ง่าย ๆ มีโค้ดตัดคำ PyICU ที่แจกจ่ายทางอินเทอร์เน็ต, ชุดข้อมูล part-of-speech และอื่น ๆ ผมเลยเกิดความคิด ทำไมเราไม่รวมโค้ดนี้ทำเป็นโมดูลให้ใช้ง่าย ๆ เลยล่ะ ? ผมจึงลองทำโมดูลด้าน NLP ขึ้นมา เริ่มแรกมีแค่ตัดคำ ในวันที่ 23 มิถุนายน บน GitHub จนพัฒนามาระยะหนึ่ง ผมตัดสินใจอัปโหลดขึ้น PyPI รุ่นแรกที่ปล่อยคือ PyThaiNLP 0.0.4 ความตั้งใจในตอนนั้นคือ ต้องการสร้างโมดูล NLP ภาษาไทยอย่างเต็มรูปแบบ ไม่ใช่แค่ตัดคำ โดยประกาศข่าวโมดูลนี้ที่แรก ที่เพจ "สมาคม Python Dev แห่งประเทศไทย" และตามกลุ่มต่าง ๆ

รุ่นแรก ๆ API ยังไม่ได้คล้ายกับ NLTK ภายหลังปรับให้คล้ายกับ NLTK เพราะผมชื่นชอบ API ของ NLTK เป็นอย่างมากในตอนนั้น

พอผมมาทำ PyThaiNLP ผมเห็นปัญหาหนึ่ง คือ ภาษาไทยขาดแคลนทรัพยากรทางภาษา ในกระบวนการสร้าง NLP หลายอัน ถ้าเป็นแบบนี้ต่อไปจะมีผลต่อความอยู่รอดของภาษาไทยในอนาคตด้วย ส่วนตัวผมเห็นว่า NLP ภาษาไทย เป็นหลักประกันหนึ่งที่อาจจะช่วยให้ภาษาไทยไม่หายไปในอนาคตได้ ผมไม่อยากให้ภาษาไทยหายไปเพียงเพราะเทคโนโลยีไม่รองรับภาษาไทย และอยากให้สามารถนำไปใช้ในการงานวิจัยในสาย NLP ได้

ที่มาของชื่อ PyThaiNLP ช่วงนั้นผมสนใจ NLP มาก จนลองคิดหลายชื่อ ไม่ว่าจะเป็น Thai NLTK และหลาย ๆ ชื่อ จนมานึกถึงโมดูลตัวหนึ่งที่ชื่อ PyThai เป็นโมดูลตัดคำภาษาไทยใช้ libthai เป็นเบื้องหลัง ผมจึงลองเติม NLP ลงไปต่อท้าย ได้ชื่อที่พูดได้รื่นและจำได้ง่ายกว่าชื่ออื่น ๆ ผมจึงเลือกชื่อนี้นับจากนั้นเป็นต้นมา

ตราสัญลักษณ์

ออกแบบโดยคุณ วรุตม์ พสุธาดล จากการประกวดที่ https://www.facebook.com/groups/408004796247683/permalink/475864542795041/ และ https://www.facebook.com/groups/408004796247683/permalink/474262752955220/

TimeLine

2016

  • 23 มิถุนายน เริ่มต้นพัฒนา PyThaiNLP
  • 10 กรกฎาคม แจกจ่ายรุ่นแรก PyThaiNLP 0.0.4

2017

2018

  • ก่อตั้งทีม PyThaiNLP และย้าย GitHub จาก @wannaphongcom มาที่ @PyThaiNLP
  • @petetanru เข้ามาช่วยปรับปรุงเอกสาร
  • 12 กรกฎาคม Thai NLP Meetup #1 @ SCB Abacus
  • 17 ส.ค. Thai NLP Meetup #2 @ สถาบันการจัดการปัญญาภิวัฒน์
    • Challenges of NLP for Social Media Monitoring - ปริญญา สงวนสัตย์
    • Google Speech-to-Text API and How to Make It Work - กรกฎ เชาวะวณิช
    • Deploying Speech Recognition for Consumers - Carl Goodier
  • 19 ก.ย. Thai NLP Meetup #3 @ อาคาร 100 ปี วิศวฯ จุฬา
    • การจัดการฐานข้อมูลและภาษาไทยของพันทิป.คอม - นที นิรนาทล้ำพงศ์, วิศวกร พันทิป.คอม
    • สร้างตัวรู้จำเสียงพูดอัตโนมัติ (ASR) ด้วยเครื่องมือโอเพนซอร์ส (Kaldi) - เอกพล ช่วงสุวนิช, อาจารย์คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
  • 25 ต.ค. Thai NLP Meetup #4 @ True Voice, CP Tower 2 – Mari and True Voice - ณัฏฐโพธ กุศลาไสยานนท์, True Voice – Regular Expression กับภาษาไทย - กรกฎ เชาวะวณิช, Senior Data Scientist at True
    • Scrapy - web scraping tools ดึงข้อมูลจากเว็บมาใช้เพื่อการศึกษา - พสธร สุวรรณศรี, Data Scientist at True
  • 22 พ.ย. Thai NLP Meetup #5 @ อาคารมหาจักรีสิรินธร อักษร จุฬา – Knowledge Graph Creation and Infrastructure - อรรถพล ธำรงรัตนฤทธิ์ แห่งภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย – Thai2fit: Lightning-fast ULMFit for Thai Using QRNN - ชารินทร์ พลภาณุมาศ, PyThaiNLP

2019

  • @bact พี่อาท เข้ามาช่วยปรับปรุงโมดูล PyThaiNLP และเข้ามาร่วมพัฒนาในทีม PyThaiNLP
  • @heytitle เข้ามาช่วยปรับปรุงโมดูล, ทำ benchmark ตัวตัดคำ, ทำตัวตัดคำ AttaCut และเข้ามาร่วมทีม PyThaiNLP
  • @artificiala เข้ามาร่วมทีม PyThaiNLP โดยได้รับการสนับสนุนจากทาง VISTEC-depa Thailand AI Research Institute
  • 1 เมษายน PyThaiNLP 2.0
  • 15 มิถุนายน How PyThaiNLP's thai2fit Outperforms Google's BERT: State-of-the-Art Thai Text Classification and Beyond - Charin
  • 25 ก.ค. Thai NLP Meetup #6 @ AIS Design Center, Emporium
    • Building the Internet of Minds - Michael Dyrvig, K2 Venture Capital
    • Speeding up Thai Word Segmentation with Syllable Embedding - Pattarawat Chormai
  • 9 ธันวาคม นำเสนอ AttaCut ที่ NeurIPS 2019 - AttaCut: A Fast and Accurate Neural Thai Word Segmenter
  • 10 ธันวาคม PyThaiNLP 2.1

2020

(กำลังรอข้อมูลเพิ่มเติม)

2021

  • 9 พ.ค. คุณ Thanathip Suntorntip @Gorlph ได้เข้าร่วมทีม PyThaiNLP โดยเป็นผู้ดูแล oxidized-thainlp

(กำลังรอข้อมูลเพิ่มเติม)

ประวัติจากโพสต์บน Facebook