日语

Japanese Word Similarity(4851对词语，10个标记人)
JNC (Japanese News Corpus) (1. JNC数据集，193万对headline + 新闻开头三个句子 2. JAMUL数据集，1489行，每个新闻记事匹配>三个不同长度的headline) (还发布了一些实际的模型检测, 可)
JESC (最大的日英翻译数据库，由字幕制成)
KaoKore (日本前现代作品人脸数据集，contains 5552 RGB image files of size 256 x 256，每个图像有性别和阶级标签，标签有经过平衡优化。性别区分达到97%，阶级达到84%)
ASPEC (Asian Scientific Paper Excerpt Corpus) ( Japanese-English paper abstract corpus of 3M parallel sentences) (Jaanese-Chinese paper excerpt corpus of 680K parallel sentences)
STAIR Captions (164,062张图片，820,310个caption，35,642词汇总量)
wikisem (主要是评估单词相似度的一个数据集，日语和中文都有500组，然后需要从中辨认outlier) （但是这是用于单词embedding而不是句子。。。）
STAIR Actions Captions (视频caption) ( 79,822 Japanese videos and 399,233 caption)
JSUT (10-hour speech，日语语音识别)
Wikipedia Title (有日语也有中文，每个分类对应的title大概有好几万)
Kuzushiji-MNIST (手写汉字，手写假名，最大的一个数据集有3832个汉字字符，64x64 grayscale, 140,426 images)
Business Scene Dialogue（日英翻译用，商务对话）
PAWS-X （23,659 human translated PAWS evaluation pairs and 296,406 machine translated training pairs in six typologically distinct languages: French, Spanish, German, Chinese, Japanese, and Korean）（用于对抗识别机器翻译以及人手翻译）
NAIST COVID （多语言数据集，所有新冠有关的推特和微博）
MTNT （包含noisy信息的翻译用数据集）
PheMT （翻译用，但是分有口语体翻译之类的奇怪种类）
JParaCrawl （翻译用，8.7m句子对，不过JESC应该会更大，因为谷歌）
ALT (Asian Language Treebank) (翻译用，很多亚洲语言，2万条)
NLI-PT （区分葡萄牙人和外国人写的paper）
Manga109 （107部漫画，年代，作者，出版社，等等，就是个数据库）

NLP

Automatic Understanding of Image and Video Advertisements (6万4千张图片，每张有3到5个action-reason pair：我该做什么？为什么？) (2020 ACL的论文在这个任务上有SOTA)

RL

A Dataset for Developing and Benchmarking Active Vision (3D，行动像是棋盘，真实图片)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

数据集收集.md

数据集收集.md

日语

NLP

RL

Files

数据集收集.md

Latest commit

History

数据集收集.md

File metadata and controls

日语

NLP

RL