diff --git a/README.md b/README.md index 8be9e65..08a9a08 100644 --- a/README.md +++ b/README.md @@ -75,11 +75,11 @@ #### ドメイン特化型 -| | モデル | 学習テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? [^4] | +| | ドメイン | モデル | 学習テキスト | 開発元 | ライセンス | |:---|:---:|:---:|:---:|:---:|:---:| -| [日本語対話Transformer](https://group.ntt/jp/topics/2021/09/30/transformer.html) | Transformer | Twitter 上の日本語リプライのペア | NTT | [独自のライセンス](https://github.com/nttcslab/japanese-dialog-transformers/blob/main/LICENSE.md) | ✕ | -| [日本語ニュースBART](https://tech.stockmark.co.jp/blog/bart-japanese-base-news/) | BART (base) | 日本語ビジネスニュース記事(約2,100万記事 (2.9億文)) | ストックマーク | MIT | [◯](https://huggingface.co/stockmark/bart-base-japanese-news) | -| [AcademicBART](https://github.com/EhimeNLP/AcademicBART) | BART (base) | CiNii の日本語論文 | 愛媛大 人工知能研究室 | Apache 2.0 | [◯](https://huggingface.co/EhimeNLP/AcademicBART) | +| [日本語対話Transformer](https://group.ntt/jp/topics/2021/09/30/transformer.html) | 対話 |Transformer | Twitter 上の日本語リプライのペア | NTT | [独自のライセンス](https://github.com/nttcslab/japanese-dialog-transformers/blob/main/LICENSE.md) | +| [日本語ニュースBART](https://tech.stockmark.co.jp/blog/bart-japanese-base-news/) | ビジネス | BART ([base](https://huggingface.co/stockmark/bart-base-japanese-news)) | 日本語ビジネスニュース記事(約2,100万記事 (2.9億文)) | ストックマーク | MIT | +| [AcademicBART](https://github.com/EhimeNLP/AcademicBART) | 学術 | BART ([base](https://huggingface.co/EhimeNLP/AcademicBART)) | CiNii の日本語論文 | 愛媛大 人工知能研究室 | Apache 2.0 | ### 継続事前学習モデル @@ -111,10 +111,10 @@ #### ドメイン特化型 -| | ベースの英語LLM | 開発元 | ライセンス | -|:---|:---:|:---:|:---:| -| [ELYZA-japanese-CodeLlama-7b](https://note.com/elyza/n/n5bce23d7c9c8)
([7b](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b), [7b-instruct](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b-instruct)) | Code Llama
(**7b**) | ELYZA | Llama 2 Community License | -| [JMedLoRA](https://arxiv.org/pdf/2310.10083.pdf)
([llama2-jmedlora-6.89ep](https://huggingface.co/AIgroup-CVM-utokyohospital/llama2-jmedlora-6.89ep)) | Llama 2 (**70b**) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC 4.0 | +| | ドメイン | ベースの英語LLM | 開発元 | ライセンス | +|:---|:---:|:---:|:---:|:---:| +| [ELYZA-japanese-CodeLlama-7b](https://note.com/elyza/n/n5bce23d7c9c8)
([7b](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b), [7b-instruct](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b-instruct)) | コーディング | Code Llama
(**7b**) | ELYZA | Llama 2 Community License | +| [JMedLoRA](https://arxiv.org/pdf/2310.10083.pdf)
([llama2-jmedlora-6.89ep](https://huggingface.co/AIgroup-CVM-utokyohospital/llama2-jmedlora-6.89ep)) | 医療 | Llama 2 (**70b**) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC 4.0 | ## 入力テキストの処理に主に使うモデル @@ -122,7 +122,7 @@ ### 汎用 -| | モデル | 学習テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? | +| | モデル | 学習テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? [^4] | |:---|:---:|:---:|:---:|:---:|:---:| | [京大BERT](https://nlp.ist.i.kyoto-u.ac.jp/?ku_bert_japanese) | BERT (base, large) | 日本語 Wikipedia (約1,800万文) | 京大 言語メディア研究室 | Apache 2.0 | △ | | [東北大BERT](https://github.com/cl-tohoku/bert-japanese) | BERT (base, large) | base (v1):
日本語 Wikipedia 約1,700万文 (2.6GB)
base (v2) & large:
日本語 Wikipedia 約3,000万文 (4.0GB)
base (v3) & large (v2):
日本語 Wikipedia 約3,400万文 (4.9GB)
+ 日本語 CC-100 約3億9,200万文 (74.3GB) | 東北大
自然言語処理研究グループ | base (v1, v2) & large: CC BY-SA 3.0
base (v3) & large (v2): Apache 2.0 |◯ ([base (v1)](https://huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking), [base (v1, 文字レベル)](https://huggingface.co/cl-tohoku/bert-base-japanese-char-whole-word-masking), [base (v2)](https://huggingface.co/cl-tohoku/bert-base-japanese-v2), [base (v2, 文字レベル)](https://huggingface.co/cl-tohoku/bert-base-japanese-char-v2), [large](https://huggingface.co/cl-tohoku/bert-large-japanese), [large (文字レベル)](https://huggingface.co/cl-tohoku/bert-large-japanese-char), [base (v3)](https://huggingface.co/cl-tohoku/bert-base-japanese-v3), [base (v3, 文字レベル)](https://huggingface.co/cl-tohoku/bert-base-japanese-char-v3), [large (v2)](https://huggingface.co/cl-tohoku/bert-large-japanese-v2), [large (v2, 文字レベル)](https://huggingface.co/cl-tohoku/bert-large-japanese-char-v2)) | diff --git a/README_en.md b/README_en.md index fb978ea..64714a5 100644 --- a/README_en.md +++ b/README_en.md @@ -75,11 +75,11 @@ Please point out any errors on the [issues page](https://github.com/llm-jp/aweso #### Domain Specific -| | Architecture | Training Data | Developer | License | HuggingFace? [^4] | +| | Domain | Architecture | Training Data | Developer | License | |:---|:---:|:---:|:---:|:---:|:---:| -| [Japanese Dialog Transformer](https://group.ntt/jp/topics/2021/09/30/transformer.html) | Transformer | Twitter japanese reply pairs | NTT | [Evaluation Licence](https://github.com/nttcslab/japanese-dialog-transformers/blob/main/LICENSE.md) | ✕ | -| [Japanese News BART](https://tech.stockmark.co.jp/blog/bart-japanese-base-news/) | BART (base) | Japanese business news articles (21M articles) | Stockmark | MIT | [◯](https://huggingface.co/stockmark/bart-base-japanese-news) | -| [AcademicBART](https://github.com/EhimeNLP/AcademicBART) | BART (base) | CiNii Japanese Papers | Ehime University AI Lab | Apache 2.0 | [◯](https://huggingface.co/EhimeNLP/AcademicBART) | +| [Japanese Dialog Transformer](https://github.com/nttcslab/japanese-dialog-transformers) | Dialog | Transformer | Twitter japanese reply pairs | NTT | [Evaluation Licence](https://github.com/nttcslab/japanese-dialog-transformers/blob/main/LICENSE.md) | +| [Japanese News BART](https://tech.stockmark.co.jp/blog/bart-japanese-base-news/) | Business | BART ([base](https://huggingface.co/stockmark/bart-base-japanese-news)) | Japanese business news articles (21M articles) | Stockmark | MIT | +| [AcademicBART](https://github.com/EhimeNLP/AcademicBART) | Science | BART ([base](https://huggingface.co/EhimeNLP/AcademicBART)) | CiNii Japanese Papers | Ehime University AI Lab | Apache 2.0 | ### Models built off English LLMs @@ -111,10 +111,10 @@ Please point out any errors on the [issues page](https://github.com/llm-jp/aweso #### Domain specific -| | Base Model | Developer | License | -|:---|:---:|:---:|:---:| -| [ELYZA-japanese-CodeLlama-7b](https://note.com/elyza/n/n5bce23d7c9c8)
([7b](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b), [7b-instruct](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b-instruct)) | Code Llama
(**7b**) | ELYZA | Llama 2 Community License | -| [JMedLoRA](https://arxiv.org/pdf/2310.10083.pdf)
([llama2-jmedlora-6.89ep](https://huggingface.co/AIgroup-CVM-utokyohospital/llama2-jmedlora-6.89ep)) | Llama 2 (**70b**) | University of Tokyo Hospital Department of Cardiovascular Medicine AI Group | CC BY-NC 4.0 | +| | Domain | Base Model | Developer | License | +|:---|:---:|:---:|:---:|:---:| +| [ELYZA-japanese-CodeLlama-7b](https://note.com/elyza/n/n5bce23d7c9c8)
([7b](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b), [7b-instruct](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b-instruct)) | Coding | Code Llama
(**7b**) | ELYZA | Llama 2 Community License | +| [JMedLoRA](https://arxiv.org/pdf/2310.10083.pdf)
([llama2-jmedlora-6.89ep](https://huggingface.co/AIgroup-CVM-utokyohospital/llama2-jmedlora-6.89ep)) | Medicine | Llama 2 (**70b**) | University of Tokyo Hospital Department of Cardiovascular Medicine AI Group | CC BY-NC 4.0 | ## Encoder models @@ -122,7 +122,7 @@ Please point out any errors on the [issues page](https://github.com/llm-jp/aweso ### General purpose -| | Architecture | Training Data | Developer | License | HuggingFace? | +| | Architecture | Training Data | Developer | License | HuggingFace? [^4] | |:---|:---:|:---:|:---:|:---:|:---:| | [KyotoUniBERT](https://nlp.ist.i.kyoto-u.ac.jp/?ku_bert_japanese) | BERT (base, large) | Japanese Wikipedia (18M articles) | Kyoto University Language Media Processing Lab | Apache 2.0 | △ | | [TohokuUniversityBERT](https://github.com/cl-tohoku/bert-japanese) | BERT (base, large) | base (v1):
Japanese Wikipedia (17M articles / 2.6GB)
base (v2) & large:
Japanese Wikipedia 4.0GB
base (v3) & large (v2):
Japanese Wikipedia (4.9GB), Japanese CC‑100 (74.3GB) | Tohoku University NLP Group | base (v1, v2) & large: CC BY‑SA 3.0
base (v3) & large (v2): Apache 2.0 |◯
([base (v1)](https://huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking), [base (v1, char-level)](https://huggingface.co/cl-tohoku/bert-base-japanese-char-whole-word-masking), [base (v2)](https://huggingface.co/cl-tohoku/bert-base-japanese-v2), [base (v2, char-level)](https://huggingface.co/cl-tohoku/bert-base-japanese-char-v2), [large](https://huggingface.co/cl-tohoku/bert-large-japanese), [large (char-level)](https://huggingface.co/cl-tohoku/bert-large-japanese-char), [base (v3)](https://huggingface.co/cl-tohoku/bert-base-japanese-v3), [base (v3, char-level)](https://huggingface.co/cl-tohoku/bert-base-japanese-char-v3), [large (v2)](https://huggingface.co/cl-tohoku/bert-large-japanese-v2), [large (v2, char-level)](https://huggingface.co/cl-tohoku/bert-large-japanese-char-v2)) | diff --git a/README_fr.md b/README_fr.md index 34284a9..5584190 100644 --- a/README_fr.md +++ b/README_fr.md @@ -75,11 +75,11 @@ N'hésitez pas à signaler les erreurs sur la page [issues](https://github.com/l #### Spécifique à un domaine -| | Architecture | Données d'entraînement | Développeur | Licence | HuggingFace? [^4] | +| | Domaine | Architecture | Données d'entraînement | Développeur | Licence | |:---|:---:|:---:|:---:|:---:|:---:| -| [Japanese Dialog Transformer](https://group.ntt/jp/topics/2021/09/30/transformer.html) | Transformer | Pairs de réponses venant de Twitter | NTT | [License en évaluaiton](https://github.com/nttcslab/japanese-dialog-transformers/blob/main/LICENSE.md) | ✕ | -| [Japanese News BART](https://tech.stockmark.co.jp/blog/bart-japanese-base-news/) | BART (base) | Articles de l'actualité économique en japonais (21M articles) | Stockmark | MIT | [◯](https://huggingface.co/stockmark/bart-base-japanese-news) | -| [AcademicBART](https://github.com/EhimeNLP/AcademicBART) | BART (base) | CiNii Japanese Papers | Université d'Ehime AI Lab | Apache 2.0 | [◯](https://huggingface.co/EhimeNLP/AcademicBART) | +| [Japanese Dialog Transformer](https://github.com/nttcslab/japanese-dialog-transformers) | Dialogue | Transformer | Pairs de réponses venant de Twitter | NTT | [License en évaluaiton](https://github.com/nttcslab/japanese-dialog-transformers/blob/main/LICENSE.md) | +| [Japanese News BART](https://tech.stockmark.co.jp/blog/bart-japanese-base-news/) | Affaires | BART ([base](https://huggingface.co/stockmark/bart-base-japanese-news)) | Articles de l'actualité économique en japonais (21M articles) | Stockmark | MIT | +| [AcademicBART](https://github.com/EhimeNLP/AcademicBART) | Science | BART ([base](https://huggingface.co/EhimeNLP/AcademicBART)) | CiNii Japanese Papers | Université d'Ehime AI Lab | Apache 2.0 | ### Modèles développés à partir d'LLM en anglais @@ -111,10 +111,10 @@ N'hésitez pas à signaler les erreurs sur la page [issues](https://github.com/l #### Spécifique à un domaine -| | Base du Model | Développeur | Licence | -|:---|:---:|:---:|:---:| -| [ELYZA-japanese-CodeLlama-7b](https://note.com/elyza/n/n5bce23d7c9c8)
([7b](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b), [7b-instruct](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b-instruct)) | Code Llama
(**7b**) | ELYZA | Llama 2 Community License | -| [JMedLoRA](https://arxiv.org/pdf/2310.10083.pdf)
([llama2-jmedlora-6.89ep](https://huggingface.co/AIgroup-CVM-utokyohospital/llama2-jmedlora-6.89ep)) | Llama 2 (**70b**) | Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire | CC BY-NC 4.0 | +| | Domaine | Base du Model | Développeur | Licence | +|:---|:---:|:---:|:---:|:---:| +| [ELYZA-japanese-CodeLlama-7b](https://note.com/elyza/n/n5bce23d7c9c8)
([7b](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b), [7b-instruct](https://huggingface.co/elyza/ELYZA-japanese-CodeLlama-7b-instruct)) | Codage | Code Llama
(**7b**) | ELYZA | Llama 2 Community License | +| [JMedLoRA](https://arxiv.org/pdf/2310.10083.pdf)
([llama2-jmedlora-6.89ep](https://huggingface.co/AIgroup-CVM-utokyohospital/llama2-jmedlora-6.89ep)) | Médecine | Llama 2 (**70b**) | Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire | CC BY-NC 4.0 | ## Modèles encodeur @@ -122,7 +122,7 @@ N'hésitez pas à signaler les erreurs sur la page [issues](https://github.com/l ### D'usage général -| | Architecture | Données d'entraînement | Développeur | Licence | HuggingFace? | +| | Architecture | Données d'entraînement | Développeur | Licence | HuggingFace? [^4] | |:---|:---:|:---:|:---:|:---:|:---:| | [KyotoUniBERT](https://nlp.ist.i.kyoto-u.ac.jp/?ku_bert_japanese) | BERT (base, large) | Wikipédia en japonais (18M articles) | Université de Kyoto Laboratoire de traitement des langues et des médias | Apache 2.0 | △ | | [TohokuUniversityBERT](https://github.com/cl-tohoku/bert-japanese) | BERT (base, large) | base (v1):
Wikipédia en japonais (17M articles / 2.6GB)
base (v2) & large:
Wikipédia en japonais 4.0GB
base (v3) & large (v2):
Wikipédia en japonais (4.9GB), Japanese CC‑100 (74.3GB) | Université de Tohoku - Groupe TAL | base (v1, v2) & large: CC BY‑SA 3.0
base (v3) & large (v2): Apache 2.0 |◯
([base (v1)](https://huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking), [base (v1, char-level)](https://huggingface.co/cl-tohoku/bert-base-japanese-char-whole-word-masking), [base (v2)](https://huggingface.co/cl-tohoku/bert-base-japanese-v2), [base (v2, char-level)](https://huggingface.co/cl-tohoku/bert-base-japanese-char-v2), [large](https://huggingface.co/cl-tohoku/bert-large-japanese), [large (char-level)](https://huggingface.co/cl-tohoku/bert-large-japanese-char), [base (v3)](https://huggingface.co/cl-tohoku/bert-base-japanese-v3), [base (v3, char-level)](https://huggingface.co/cl-tohoku/bert-base-japanese-char-v3), [large (v2)](https://huggingface.co/cl-tohoku/bert-large-japanese-v2), [large (v2, char-level)](https://huggingface.co/cl-tohoku/bert-large-japanese-char-v2)) |