Awesome Traditional Chinese Datasets: 我們收集有關繁體中文資料集資訊,將它們整理成清單,以利開源社群同好方便找尋及運用。
一些HF平台上的繁體中文資料集:
- Taiwan-LLaMa模型訓練資料集: (https://huggingface.co/datasets/yentinglin/TaiwanChat)
- Erhwen,Kuo個人整理,一些知名的語料集之繁體中文化:(https://huggingface.co/erhwenkuo)
- 網頁新聞,由簡體轉繁體(文化對齊問題請自行評估):(https://huggingface.co/datasets/jed351/Traditional-Chinese-Common-Crawl-Filtered)
- TAIDE計劃-訓練資料集: (https://taide.tw/public/trainData)
- TAIDE計畫-測試資料集:(https://huggingface.co/datasets/taide/TAIDE-14-tasks)
- iKala 開源 TMMLU+ 繁體中文 LLM 測試資料集:(https://huggingface.co/datasets/ikala/tmmluplus)
一些github平台上的繁體中文資料集:
- 聯發創新基地(MediaTek Research)(https://github.com/mtkresearch/MR-Models/tree/main)
- NCU-IISR X 臺灣事實查核中心(https://github.com/jason50706/CDDTC/tree/main)
- NTU-NLP Lab: Traditional-Chinese Alpaca (僅供研究使用) (https://github.com/ntunlplab/traditional-chinese-alpaca)
一些相關中文資料集:
- 北京智源人工智能研究院-BAAI DataHub(data.baai.ac.cn):(https://huggingface.co/datasets/BAAI/COIG-PC)
有關繁體中文資料集社群:
有關模型驗證的方法參考:
- MTK, TC-Eval is a Traditional Chinese evaluation suite for foundation models (https://github.com/mtkresearch/MR-Models/tree/main/TC-Eval)