Skip to content

Commit

Permalink
Merge pull request #111 from AkimParis/main
Browse files Browse the repository at this point in the history
Updated both English & French READme
  • Loading branch information
kaisugi authored Dec 7, 2023
2 parents be79ddf + 68e0b99 commit 840aa6c
Show file tree
Hide file tree
Showing 2 changed files with 25 additions and 25 deletions.
14 changes: 7 additions & 7 deletions README_en.md
Original file line number Diff line number Diff line change
Expand Up @@ -13,7 +13,7 @@ A list of publicly available LLMs trained with a focus on Japanese, maintained b
⚠ Caution:
1. We can't guarantee the accuracy or completeness of any information here.
2. Some information is based on conjecture and might not reflect your specific use case.
3. While many models are released under permissive licenses like MIT or Apache 2.0, some are subject to more restrictive terms including non-commercial use clauses (e.g CC BY‑NC‑SA) or other stipulations.
3. While many models are released under permissive licenses like MIT or Apache 2.0, **some are subject to more restrictive terms including non-commercial use clauses (e.g CC BY-NC-SA 4.0) or other stipulations.**

Please point out any errors on the [issues page](https://github.com/llm-jp/awesome-japanese-llm/issues). Feel free to contribute directly with a pull request.

Expand Down Expand Up @@ -246,9 +246,9 @@ Please point out any errors on the [issues page](https://github.com/llm-jp/aweso
- [Rakuda Benchmark](https://yuzuai.jp/benchmark) (YuzuAI)
- Ranking based on model answers to [40 open-ended questions](https://huggingface.co/datasets/yuzuai/rakuda-questions) on Japanese geography, history, politics, and society. Uses GPT-4 to judge model outputs pairwise, and then ranks models by fitting a Maximum Likelihood Elo/Bradley-Terry model to GPT-4's preferences. See [here](https://github.com/yuzu-ai/japanese-llm-ranking) for the data and code used to generate the ranking and [here](https://yuzuai.jp/blog/rakuda) for further explanation.
- [ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100) (ELYZA)
- Ranking based on model responses to [100 complex and diverse tasks](https://huggingface.co/datasets/elyza/ELYZA-tasks-100), including tasks testing summarization, correction, abstraction, induction, and other skills. Uses humans to score the model responses and then ranks models based on their mean scores. See [here](https://docs.google.com/spreadsheets/d/1mtoy4QAqDPk2f_B0vDogFoOrbA5G42DBEEHdqM4VmDI/edit#gid=1023787356) for the data used the generate the ranking and [here](https://zenn.dev/elyza/articles/5e7d9373c32a98) for further explanation.
- Ranking based on model responses to [100 complex and diverse tasks](https://huggingface.co/datasets/elyza/ELYZA-tasks-100), including tasks testing summarization, correction, abstraction, induction, and other skills. Uses humans to score the model responses and then ranks models based on their mean scores. See [here](https://docs.google.com/spreadsheets/d/1mtoy4QAqDPk2f_B0vDogFoOrbA5G42DBEEHdqM4VmDI/edit#gid=1023787356) for the data used to generate the ranking and [here](https://zenn.dev/elyza/articles/5e7d9373c32a98) for further explanation.
- [Japanese MT-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge) (Stability AI)
- Japanese version of [MT-bench](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge) that asks about multi-turn conversational ability. It includes 80 questions, 10 each, from 8 categories: Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities. Some questions have been modified to fit with Japanese culture during the production of the Japanese version. It also includes a script that performs a 10-level absolute evaluation by GPT-4. Evaluation results are detailed in the following summary article by shi3z: "[無償LLM 日本語能力ベンチマークまとめ](https://note.com/shi3zblog/n/n6b2ac5874021)"
- The Japanese version of [MT-bench](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge) asks about multi-turn conversational ability. It includes 80 questions, 10 each, from 8 categories: Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities. Some questions have been modified to fit with Japanese culture during the production of the Japanese version. It also includes a script that performs a 10-level absolute evaluation by GPT-4. Evaluation results are detailed in the following summary article by shi3z: "[無償LLM 日本語能力ベンチマークまとめ](https://note.com/shi3zblog/n/n6b2ac5874021)"
- [Japanese Vicuna QA Benchmark](https://github.com/hitoshizuku7/ja-vicuna-qa-benchmark) (Kyoto University Language Media Processing Lab)
- This is the Japanese version of [vicuna-blog-eval](https://github.com/lm-sys/vicuna-blog-eval), which is the predecessor of MT-Bench. It includes 80 questions on general knowledge, role-playing, common sense, Fermi estimation, counterfactual thinking, coding, mathematics, and writing. It also includes a script for automatic evaluation by GPT-4 (win-rate calculation).
- [Stockmark Business Questions](https://huggingface.co/datasets/stockmark/business-questions) (Stockmark)
Expand Down Expand Up @@ -312,20 +312,20 @@ We love contributors! Feel free to contribute to this project.

[^2]: Details have not been made public but the private dataset includes data from the EleutherAI Polyglot project's Japanese team and from members of Stable Community Japan.

[^3]: This project conducted research on using right-to-left generation instead of the usual left-to-right generation, releasing both left-to-right and right-to-left models.
[^3]: This project conducted evaluation research on using right-to-left generation instead of the usual left-to-right generation, releasing both left-to-right and right-to-left models.

[^4]: ○: The model is on the HuggingFace Model Hub and can be loaded in with the `AutoModel.from_pretrained()` command. △: The model is not on the Model Hub but can be loaded in manually with the HuggingFace transformers library. ✕: The model is not directly loadable with HuggingFace.

[^5]: Development conducted by [Hiroyuki Osone](https://soneo1127.github.io/) with the cooperation of [AI Buncho](https://bun-cho.work/).

[^6]: This project conducted research on pre-tokenization morphological analysis and released their best performing model, which used Juman++ and BPE.
[^6]: This project conducted evaluation research on pre-tokenization morphological analysis and released their best performing model, which used Juman++ and BPE.

[^7]: nlp-waseda/roberta-base-japanese and nlp-waseda/roberta-large-japanese trained using a 128 token context length, but nlp-waseda/roberta-large-japanese-seq512 expanded the context length to 512.

[^8]: Extended to a 1282 context length from the usual 512.

[^9]: small trains on Japanese Wikipedia and the Japanese Financial Corpus simultaneously, while base takes the TohokuUniversityBERT and conducts additional training on the Japanese Financial Corpus.
[^9]: The "small" model trains on Japanese Wikipedia and the Japanese Financial Corpus simultaneously, while the "base" model takes the TohokuUniversityBERT and conducts additional training on the Japanese Financial Corpus.

[^10]: ManbyoWordPiece conducts a pretokenization step using MeCab (IPA+Manbyo dictionaries) and uses WordPiece for subword tokenization, while the SentencePiece model tokenizes text directly using a unigram model.
[^10]: ManbyoWordPiece conducts a pre-tokenization step using MeCab (IPA+Manbyo dictionaries) and uses WordPiece for subword tokenization, while the SentencePiece model tokenizes text directly using a unigram model.

[^11]: See "[Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る](https://zenn.dev/rinna/articles/5fad41e3f2a401)" for further details. Note the article discusses using rinna/japanese-gpt-neox-3.6b as the LLM component rather than the rinna/bilingual-gpt-neox-4b model that MiniGPT-4 actually uses.
36 changes: 18 additions & 18 deletions README_fr.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,30 +2,30 @@
[ [**English**](./README_en.md) | Français | [**日本語**](./README.md) ]

<p align="center">
<img src="figures/parameter_size_overview.png" alt="Tailles des paramètres des LLMs en japonais et anglais au fil du temps" width="768px">
<img src="figures/parameter_size_overview.png" alt="LLMs en japonais et en anglais par taille de paramètres au fil du temps" width="768px">
</p>
<figcaption style="font-style: italic; font-size: 0.9em; color: #6b7280; text-align: center;">Tailles des paramètres des LLMs en japonais et anglais au fil du temps. Nous nous référerons à cet article pour plus d'informations sur les LLM japonais et <a href="https://lifearchitect.ai/models-table/">ce tableau des modèles</a> disponible sur LifeArchitect.ai pour plus d'informations sur les LLM anglais. Veuillez nous informer si des corrections ou des ajouts sont nécessaires.</figcaption>
<figcaption style="font-style: italic; font-size: 0.9em; color: #6b7280; text-align: center;">LLMs en japonais et en anglais par taille de paramètres au fil du temps. Nous nous référerons à cet article pour plus d'informations sur les LLMs en japonais et à ce <a href="https://lifearchitect.ai/models-table/">tableau des modèles</a> disponible sur LifeArchitect.ai pour plus d'informations sur les LLMs en anglais. Veuillez nous informer si des corrections ou des ajouts sont nécessaires.</figcaption>

---

Une liste de LLM accessibles au public avec un apprentissage pour la langue japonaise, maintenue par des bénévoles sur la base de données publiques.
Voici une liste pour les LLMs avec un apprentissage pour la langue japonaise pour le grand public. Cette liste est maintenue par des bénévoles sur les bases de données publiques.

⚠ Attention:
1. Nous ne pouvons garantir l’exactitude ou l’exhaustivité des informations présentées ici.
2. Certaines informations sont basées sur des conjectures et peuvent ne pas refléter votre cas d'utilisation spécifique.
3. Bien que de nombreux modèles soient publiés sous des licences permissives telles que MIT ou Apache 2.0, certains modèles sont soumis à des conditions plus restrictives, notamment des clauses d'utilisation non commerciale (exemple CC BY&#x2011;NC&#x2011;SA) ou d'autres stipulations.
3. Bien que de nombreux modèles soient publiés sous des licences permissives telles que MIT ou Apache 2.0, **certains modèles sont soumis à des conditions plus restrictives, notamment des clauses d'utilisation non commerciale (exemple CC BY-NC-SA 4.0) ou d'autres modalités légales et contractuelles**

N'hésitez pas à signaler les erreurs sur la page [issues](https://github.com/llm-jp/awesome-japanese-llm/issues). N'hésitez pas à contribuer directement avec une pull request.
N'hésitez pas à signaler les erreurs sur la page [issues](https://github.com/llm-jp/awesome-japanese-llm/issues). N'hésitez pas également à contribuer directement avec une pull request.

## Table des matières
- [Modèles IA génératives](#generative)
- [Modèles développés à partir de zéro](#full-scratch-models)
- [D'usage général](#generative-scratch-general)
- [Spécifique à un domaine](#generative-scratch-domain-specific)
- [Modèles développés à partir d'LLM en anglais (avec une formation continue en japonais)](#english-based-models)
- [Modèles développés à partir d'LLM en anglais (avec un apprentissage en continue en japonais)](#english-based-models)
- [D'usage général](#generative-continual-general)
- [Spécifique à un domaine](#generative-continual-domain-specific)
- [Modèles développés à partir d'LLM en anglais (avec ajustement des instructions en japonais)](#instruction-only-models)
- [Modèles développés à partir d'LLM en anglais (avec un affinement par instructions en japonais)](#instruction-only-models)
- [D'usage général](#generative-instruction-only-general)
- [Spécifique à un domaine](#generative-instruction-only-domain-specific)
- [Modèles encodeur](#autoencoding)
Expand Down Expand Up @@ -85,7 +85,7 @@ N'hésitez pas à signaler les erreurs sur la page [issues](https://github.com/l
| [AcademicBART](https://github.com/EhimeNLP/AcademicBART) | Science | BART ([base](https://huggingface.co/EhimeNLP/AcademicBART)) | CiNii Japanese Papers | Université d'Ehime AI Lab | Apache 2.0 |

<a id="english-based-models"></a>
### Modèles développés à partir d'LLM en anglais (avec une formation continue en japonais)
### Modèles développés à partir d'LLM en anglais (avec une apprentissage continue en japonais)

<a id="generative-continual-general"></a>
#### D'usage général
Expand All @@ -110,7 +110,7 @@ N'hésitez pas à signaler les erreurs sur la page [issues](https://github.com/l
| [ELYZA-japanese-CodeLlama-7b](https://note.com/elyza/n/n5bce23d7c9c8)<br>([7b](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b), [7b-instruct](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b-instruct)) | Codage | Code Llama<br>(**7b**) | ELYZA | Llama 2 Community License |

<a id="instruction-only-models"></a>
### Modèles développés à partir d'LLM en anglais (avec ajustement des instructions en japonais)
### Modèles développés à partir d'LLM en anglais (avec un affinement par instructions en japonais)

<a id="generative-instruction-only-general"></a>
#### D'usage général
Expand Down Expand Up @@ -174,7 +174,7 @@ N'hésitez pas à signaler les erreurs sur la page [issues](https://github.com/l
| | Architecture | Données d'entraînement | Développeur | Licence | HuggingFace? |
|:---|:---:|:---:|:---:|:---:|:---:|
| [JapaneseNewsBERT](https://qiita.com/mkt3/items/3c1278339ff1bcc0187f) | BERT (base) | Articles sur l'économie en japonais(3M articles) | Stockmark | CC BY 4.0 ||
| [JapaneseNewsXLNet](https://qiita.com/mkt3/items/4d0ae36f3f212aee8002) | XLNet (base) | Articles sur l'économie en japonais (3M articles) | Stockmark || [](https://huggingface.co/hajime9652/xlnet-japanese) <br> ※ Unofficial release |
| [JapaneseNewsXLNet](https://qiita.com/mkt3/items/4d0ae36f3f212aee8002) | XLNet (base) | Articles sur l'économie en japonais (3M articles) | Stockmark || [](https://huggingface.co/hajime9652/xlnet-japanese) <br> ※ Version non officielle |
| [JapaneseNewsALBERT](https://qiita.com/mkt3/items/b41dcf0185e5873f5f75) | ALBERT (base) | Articles sur l'économie en japonais (3M articles) | Stockmark |||
| [Laboro BERT](https://laboro.ai/activity/column/engineer/laboro-bert/) | BERT (base, large) | Corpus web en japonais <br> (Actualités, blogs, etc) (12GB) | Laboro.AI | CC BY&#x2011;NC 4.0 ||
| [Laboro DistilBERT](https://laboro.ai/activity/column/engineer/laboro-distilbert/) | DistilBERT | (Distillation of Laboro BERT(base)) | Laboro.AI | CC BY&#x2011;NC 4.0 | [](https://huggingface.co/laboro-ai/distilbert-base-japanese) |
Expand Down Expand Up @@ -310,22 +310,22 @@ Nous aimons les contributeurs ! N'hésitez pas à contribuer à ce projet.

[^1]: Certaines améliorations de performances ont été apportées au modèle Llama original. Voir [ici](https://tech.preferred.jp/ja/blog/llm-plamo/) pour plus détails.

[^2]: Les détails n'ont pas été rendus publics, mais l'ensemble de données privé comprend des jeu de données de l'équipe japonaise du projet EleutherAI Polyglot et des membres de Stable Community Japan.
[^2]: Les détails n'ont pas été rendus publics, mais l'ensemble de données privé comprend des jeux de données de l'équipe japonaise du projet EleutherAI Polyglot et des membres de Stable Community Japan.

[^3]: Ce projet a mené des recherches sur l'utilisation de la génération de droite à gauche au lieu de la génération habituelle de gauche à droite, en publiant des modèles de gauche à droite et de droite à gauche.
[^3]: Ce projet a mené des recherches d'évaluation sur l'utilisation de la génération de droite à gauche au lieu de la génération habituelle de gauche à droite, en publiant des modèles de gauche à droite et de droite à gauche.

[^4]: ○: Le modèle se trouve sur le Model Hub d'HuggingFace et peut être chargé avec la commande `AutoModel.from_pretrained()` . △: Le modèle ne se trouve pas sur le Model Hub mais peut être chargé manuellement avec la bibliothèque de transformateurs HuggingFace. ✕: Le modèle ne se charge pas avec HuggingFace.

[^5]: Développement réalisé par [Hiroyuki Osone](https://soneo1127.github.io/) avec la coopération de [AI Buncho](https://bun-cho.work/).

[^6]: Ce projet a mené des recherches sur l'analyse morphologique avant la tokenisation et a publié son modèle le plus performant, qui utilisait Juman++ et BPE.
[^6]: Ce projet a mené des recherches d'évaluation sur l'analyse morphologique avant la tokenisation et a publié son modèle le plus performant, qui utilisait Juman++ et BPE.

[^7]: nlp-waseda/roberta-base-japanese et nlp-waseda/roberta-large-japanese entrainé avec une longeur de context 128 token, mais nlp-waseda/roberta-large-japanese-seq512 étendu la longueur du contexte à 512.
[^7]: nlp-waseda/roberta-base-japanese et nlp-waseda/roberta-large-japanese entrainé avec une longueur de context 128 token, mais nlp-waseda/roberta-large-japanese-seq512 étendu la longueur du contexte à 512.

[^8]: Etendu la longueur du contexte de 128 à 512.
[^8]: Étendu la longueur du contexte de 128 à 512.

[^9]: Le modèle Small s'entraine sur Wikipédia japonais et le Corpus financier japonais simultanément, tandis que la Base prend le TohokuUniversityBERT et dispense un apprentissage supplémentaire sur le Corpus financier japonais.
[^9]: Le modèle "Small" s'entraîne sur Wikipédia japonais et le Corpus financier japonais simultanément, tandis que le modèle "Base" prend le TohokuUniversityBERT et dispense un apprentissage supplémentaire sur le Corpus financier japonais.

[^10]: ManbyoWordPiece lance une étape de pretokenization en utilisant MeCab (IPA+Manbyo dictionaries), puis utilise WordPiece pour la tokenization sous-mots, pendant que le modèle SentencePiece segmente le texte directement en utilisant un modèle unigram.
[^10]: ManbyoWordPiece lance une étape de prétokenization en utilisant MeCab (IPA+Manbyo dictionaries), puis utilise WordPiece pour la tokenization sous-mots, pendant que le modèle SentencePiece segmente le texte directement en utilisant un modèle unigram.

[^11]: Voir "[Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る](https://zenn.dev/rinna/articles/5fad41e3f2a401)" pour plus de détails. L'article parle de l'utilisation rinna/japanese-gpt-neox-3.6b comme un composant du LLM plutôt que du modèle rinna/bilingual-gpt-neox-4b comme MiniGPT-4 utilise réellement.
[^11]: Voir "[Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る](https://zenn.dev/rinna/articles/5fad41e3f2a401)" pour plus de détails. L'article parle de l'utilisation de rinna/japanese-gpt-neox-3.6b comme un composant du LLM plutôt que du modèle rinna/bilingual-gpt-neox-4b comme MiniGPT-4 réellement utilisé.

0 comments on commit 840aa6c

Please sign in to comment.