A Catalog of resources for Indian language NLP

Please suggest any other resources you may be aware of. Raise an issue to add more resources to the catalog. Put the proposed entry in the following format:

[Wikipedia Dumps](https://dumps.wikimedia.org/)

Add a small, informative description of the dataset and provide links to any paper/article/site documenting the resource.

Major Indic Language NLP Repositories
Text Corpora
Speech Corpora
OCR Corpora
Multimodal Corpora
Models
Libraries

Major Indic Language NLP Repositories

Text Corpora

Unicode Standard

Monolingual Corpus

Lexical Resources

IndoWordNet
IIIT-Hyderabad Word Similarity Database: 7 Indian languages
Facebook Hindi Analogy Dataset

NER Corpora

Parallel Translation Corpus

Parallel Transliteration Corpus

BrahmiNet Corpus: 110 language pairs
Xlit-Crowd: Hindi-English Transliteration Corpus
Xlit-IITB-Par: Hindi-English Transliteration Corpus

Textual Entailment

XNLI corpus: Hindi and Urdu test sets and machine translated training sets (from English MultiNLI).

Sentiment Analysis

POS Tagged corpus

Chunk Corpus

Indian Language Corpora Initiative

Dependency Parse Corpus

Dialog

a-mma Indic Casual Dialogs Datasets

Speech Corpora

Microsoft Speech Corpus: Speech corpus for Telugu, Tamil and Gujarati
IIT Madras TTS database
BABEL Speech Corpus: includes some Indian languages

OCR Corpora

Kannada MNIST

Multimodal Corpora

English-Hindi Visual Genome: Images captioned in both English and Hindi.

Models

Word Embeddings

Sentence Embeddings

BERT Multilingual

Multilingual Word Embeddings

SMT Models

Shata-Anuvaadak: 110 language pairs
LTRC Vanee

Libraries

Indic NLP Library: Python Library for various Indian language NLP tasks like tokenization, sentece splitting, normalization, script conversion, transliteration, etc
pyiwn: Python Interface to IndoWordNet
[Indic-OCR] (https://indic-ocr.github.io/) : OCR for Indic Scripts

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

A Catalog of resources for Indian language NLP

Major Indic Language NLP Repositories

Text Corpora

Unicode Standard

Monolingual Corpus

Lexical Resources

NER Corpora

Parallel Translation Corpus

Parallel Transliteration Corpus

Textual Entailment

Sentiment Analysis

POS Tagged corpus

Chunk Corpus

Dependency Parse Corpus

Dialog

Speech Corpora

OCR Corpora

Multimodal Corpora

Models

Word Embeddings

Sentence Embeddings

Multilingual Word Embeddings

SMT Models

Libraries

About

Releases

Packages

aoxolotl/indicnlp_catalog

Folders and files

Latest commit

History

Repository files navigation

A Catalog of resources for Indian language NLP

Major Indic Language NLP Repositories

Text Corpora

Unicode Standard

Monolingual Corpus

Lexical Resources

NER Corpora

Parallel Translation Corpus

Parallel Transliteration Corpus

Textual Entailment

Sentiment Analysis

POS Tagged corpus

Chunk Corpus

Dependency Parse Corpus

Dialog

Speech Corpora

OCR Corpora

Multimodal Corpora

Models

Word Embeddings

Sentence Embeddings

Multilingual Word Embeddings

SMT Models

Libraries

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages