Awesome Traditional Chinese Datasets

Awesome Traditional Chinese Datasets: 我們收集有關繁體中文資料集資訊，將它們整理成清單，以利開源社群同好方便找尋及運用。

繁體中文資料集

來源自-Hugging face 🤗

一些HF平台上的繁體中文資料集:

Taiwan-LLaMa模型訓練資料集: (https://huggingface.co/datasets/yentinglin/TaiwanChat)
Erhwen,Kuo個人整理,一些知名的語料集之繁體中文化:(https://huggingface.co/erhwenkuo)
網頁新聞,由簡體轉繁體(文化對齊問題請自行評估):(https://huggingface.co/datasets/jed351/Traditional-Chinese-Common-Crawl-Filtered)
TAIDE計劃-訓練資料集: (https://taide.tw/public/trainData)
TAIDE計畫-測試資料集:(https://huggingface.co/datasets/taide/TAIDE-14-tasks)
iKala 開源 TMMLU+ 繁體中文 LLM 測試資料集:(https://huggingface.co/datasets/ikala/tmmluplus)

來源自-Github

一些github平台上的繁體中文資料集:

聯發創新基地（MediaTek Research)(https://github.com/mtkresearch/MR-Models/tree/main)
NCU-IISR X 臺灣事實查核中心(https://github.com/jason50706/CDDTC/tree/main)
NTU-NLP Lab: Traditional-Chinese Alpaca (僅供研究使用) (https://github.com/ntunlplab/traditional-chinese-alpaca)

其它來源

一些相關中文資料集:

簡體中文資料集:

北京智源人工智能研究院-BAAI DataHub（data.baai.ac.cn）:(https://huggingface.co/datasets/BAAI/COIG-PC)

資料集社群

有關繁體中文資料集社群：

[FB] 中華民國台灣開源語言資料集_建立、收集、標註、監督、評鑑

模型驗證手法

有關模型驗證的方法參考:

MTK, TC-Eval is a Traditional Chinese evaluation suite for foundation models (https://github.com/mtkresearch/MR-Models/tree/main/TC-Eval)

Name		Name	Last commit message	Last commit date
Latest commit History 49 Commits
stylesheets		stylesheets
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
index.html		index.html
params.json		params.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Awesome Traditional Chinese Datasets

繁體中文資料集

來源自-Hugging face 🤗

來源自-Github

其它來源

簡體中文資料集:

資料集社群

模型驗證手法

About

Releases

Packages

Contributors 2

Languages

stuser/Awesome_TC_Datasets

Folders and files

Latest commit

History

Repository files navigation

Awesome Traditional Chinese Datasets

繁體中文資料集

來源自-Hugging face 🤗

來源自-Github

其它來源

簡體中文資料集:

資料集社群

模型驗證手法

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages