Skip to content

Latest commit

 

History

History
30 lines (25 loc) · 2.45 KB

数据集收集.md

File metadata and controls

30 lines (25 loc) · 2.45 KB

日语

  • Japanese Word Similarity(4851对词语,10个标记人)
  • JNC (Japanese News Corpus) (1. JNC数据集,193万对headline + 新闻开头三个句子 2. JAMUL数据集,1489行,每个新闻记事匹配>三个不同长度的headline) (还发布了一些实际的模型检测, 可)
  • JESC (最大的日英翻译数据库,由字幕制成)
  • KaoKore (日本前现代作品人脸数据集,contains 5552 RGB image files of size 256 x 256, 每个图像有性别和阶级标签, 标签有经过平衡优化。 性别区分达到97%, 阶级达到84%)
  • ASPEC (Asian Scientific Paper Excerpt Corpus) ( Japanese-English paper abstract corpus of 3M parallel sentences) (Jaanese-Chinese paper excerpt corpus of 680K parallel sentences)
  • STAIR Captions (164,062张图片,820,310个caption,35,642词汇总量)
  • wikisem (主要是评估单词相似度的一个数据集,日语和中文都有500组,然后需要从中辨认outlier) (但是这是用于单词embedding而不是句子。。。)
  • STAIR Actions Captions (视频caption) ( 79,822 Japanese videos and 399,233 caption)
  • JSUT (10-hour speech,日语语音识别)
  • Wikipedia Title (有日语也有中文,每个分类对应的title大概有好几万)
  • Kuzushiji-MNIST (手写汉字,手写假名,最大的一个数据集有3832个汉字字符,64x64 grayscale, 140,426 images)
  • Business Scene Dialogue(日英翻译用,商务对话)
  • PAWS-X (23,659 human translated PAWS evaluation pairs and 296,406 machine translated training pairs in six typologically distinct languages: French, Spanish, German, Chinese, Japanese, and Korean)(用于对抗识别机器翻译以及人手翻译)
  • NAIST COVID (多语言数据集,所有新冠有关的推特和微博)
  • MTNT (包含noisy信息的翻译用数据集)
  • PheMT (翻译用,但是分有口语体翻译之类的奇怪种类)
  • JParaCrawl (翻译用,8.7m句子对,不过JESC应该会更大,因为谷歌)
  • ALT (Asian Language Treebank) (翻译用,很多亚洲语言,2万条)
  • NLI-PT (区分葡萄牙人和外国人写的paper)
  • Manga109 (107部漫画,年代,作者,出版社,等等,就是个数据库)

NLP

  • Automatic Understanding of Image and Video Advertisements (6万4千张图片,每张有3到5个action-reason pair:我该做什么?为什么?) (2020 ACL的论文在这个任务上有SOTA)

RL

  • A Dataset for Developing and Benchmarking Active Vision (3D,行动像是棋盘,真实图片)