Skip to content

Commit

Permalink
Hcj+jp fusion besoins+us admin (#17)
Browse files Browse the repository at this point in the history
* Update 2_Deja_Fait_Admin.qmd

* Modification du 04102024

* Update

* MAJ 09102024

* add: text classification case

* Update cas d'usage

---------

Co-authored-by: HelCJ <[email protected]>
Co-authored-by: johnplt <[email protected]>
Co-authored-by: zhannasan <[email protected]>
Co-authored-by: Conrad THIOUNN <[email protected]>
  • Loading branch information
5 people authored Oct 22, 2024
1 parent 271fdc2 commit ed07d77
Show file tree
Hide file tree
Showing 4 changed files with 105 additions and 69 deletions.
56 changes: 0 additions & 56 deletions I-Accompagnement/1_Besoins.qmd

This file was deleted.

103 changes: 103 additions & 0 deletions I-Accompagnement/1_cas_usage.qmd
Original file line number Diff line number Diff line change
@@ -0,0 +1,103 @@
# Guide du LLM

## PARTIE I. Accompagnement au changement

Les cas d'usages des LLMs sont variés et avant de se lancer et innover grâce aux LLMs, il est nécessaire de bien identifier le besoin qui amène l'utilisation d'un LLM. Pour quoi faire ? Pour quels usages ? Est-ce pour de la génération de texte ? Pour de la classification ? ou pour des interactions conversationnelles ?
L'objectif de ce chapitre est d'accompagner la réflexion autour de l'identification du besoin et de la collecte des données, avec les différents types de cas d'usages impliquant des LLMs.

Au sein des administrations, les cas d'usage de LLM ci-dessous sont en cours d'expérimentation, soit en production.

### A. Cas d’usage
Des LLM peuvent être utilisés pour :

- **Labelliser / classifier les textes d’un corpus traitant d’un sujet, selon certaines catégories**.
Par exemple, des LLMS peuvent être utilisés pour labelliser des articles de presse traitant de décisions de politique monétaire, selon les catégories « décision attendue », « décision surprenante », « ne sait pas ». Ils peuvent également classer des documents de recherche clinique selon différentes thématiques et disciplines, tout en permettant une recherche sémantique avancée.

| Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche|
| -------- | ------- |------- |------- |
|Ministère en charge de la santé| SIRANo | [email protected] | Expérimentation |
|Banque de France |Étude de l’impact des surprises monétaires sur les taux de change|[email protected]| Recherche|
|Banque de France |Anticipation d’inflation |[email protected] <br>[email protected] <br> [email protected] |Recherche |


Par exemple, des LLMS peuvent être utilisés pour labellisés des articles de presse traitant de décisions de politique monétaire, selon les catégories « décision attendue », « décision surprenante », « ne sait pas ».

- **Identifier les thématiques traitées dans un corpus**.
Par exemple, des LLMs peuvent être utilisés pour identifier les thématiques développées dans le champ Commentaire d’une enquête.

| Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche|
| -------- | ------- |------- |------- |
|Banque de France | Enquête sur les Tendances régionales | [email protected] <br> [email protected] | Expérimentation |

- **Faire une analyse de sentiment d’un corpus traitant d’une thématique**.
Par exemple, des LLMs peuvent être utilisés pour faire une analyse de sentiment (ex : positif, négatif ou neutre) d’une thématique émergeant d’un champ « Commentaire » d’une enquête et traitant d’une perception du climat des affaires.

| Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche|
| -------- | ------- |------- |------- |
|Banque de France | Enquête sur les Tendances régionales | [email protected] <br> [email protected] | Expérimentation |

- **Interroger une base de documents textuels (pdf, code, etc…) (retrieval augmented generation)**.
Les documents sont découpés en paragraphes (chunks). Les réponses aux questions posées sont générées sur la base de paragraphes idoines existant dans la base. Les paragraphes qui ont servi à l’élaboration de la réponse sont indiqués en regard de celle-ci, et peuvent être consultés.

| Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche|
| -------- | ------- |------- |------- |
|Banque de France | Chatbdf | [email protected] <br> [email protected] <br> [email protected] | Passage en production prévu en décembre 2025 |
- **Requêter sur des bases de données codées en SQL : à une interrogation exprimée en langage naturel sur une base en SQL, un code en SQL servant à la requête est renvoyé**.
Par exemple, à l’interrogation « trouve-moi la date de naissance de l’individu I », un code SQL est renvoyé permettant d’effectuer la requête

| Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche|
| -------- | ------- |------- |------- |
|Banque de France | Text2SQL | [email protected] | Passage en production par la BCE en décembre 2024 |


- **Extraire des données à partir de documents textuels**
Par exemple, à partir de documents réglementaires extraire 15 informations-clés et stocker celles-ci dans une base de données

| Institution | Nom du Projet | Contact | Expérimentation/Production/Recherche|
| -------- | ------- |------- |------- |
|Banque de France | Veridic | [email protected] | Passage en production prévu fin 2025 |

### (Intégrer les cas d'usage ci-dessous au sein des catégories pré-citées ou en ajouter en faisant ressortir leur spécificité)

### Description cas d'usage

1. Utilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna)<br>
Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints.\
C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme [CamemBERT](https://arxiv.org/abs/1911.03894) un modèle en français ou encore [sBERT ou sentenceTransformers](https://sbert.net/) permettant un entraînement spécialisé pour une recherche sémantique.
<br>
**ici plus d'information sur les avantages des SLM (données, environement, spécialisation, travail en local, technique)
<br>
Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :

1. [camembert-bio-base](https://huggingface.co/almanach/camembert-bio-base) avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux.
Nous utiliserons les transformers de [HuggingFace](https://github.com/huggingface/transformers)
```python
from transformers import AutoTokenizer, AutoModelForMaskedLM
biotokenizer = AutoTokenizer.from_pretrained("almanach/camembert-bio-base")
biomodel = AutoModelForMaskedLM.from_pretrained("almanach/camembert-bio-base")
```

2. [all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)
```python
import requests

api_url = f"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}"
headers = {"Authorization": f"Bearer {hf_token}"}
```

# (à intéger dans les exemples de cas d'usage du fichier cas_usage.qmd et dans la partie IV-Exemples)

2. Classifier des accords d'entreprise


#### Classifier des accords d'entreprise

Les accords d'entreprise sont publiés sur [LégiFrance](https://www.legifrance.gouv.fr/liste/acco).
Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion).
Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail.
Le besoin est alors de détecter automatiquement les thématiques
à la lecture de l'accord.
Un jeu de données est disponible à l'adresse suivante : [accords_publics_xx_to_2022_themes_et_texte.parquet](https://minio.lab.sspcloud.fr/cthiounn2/Accords/accords_publics_xx_to_2022_themes_et_texte.parquet)
13 changes: 1 addition & 12 deletions I-Accompagnement/2_Deja_Fait_Admin.qmd
Original file line number Diff line number Diff line change
@@ -1,15 +1,4 @@
# Guide du LLM

## PARTIE I. Accompagnement au changement

### 2. Ce qui est déjà fait ou expérimenté dans l’administration (Johnny Hélène Thibault)

### A. Cas d’usage
* Dans une enquête incluant un champ « Commentaire », celui-ci peut être analysé par des LLMs afin d’identifier les thématiques saillantes exprimées dans ce champ. Ensuite, pour chacune de ces thématiques, les LLMs peuvent être utilisés pour dégager le sentiment prédominant (ex : positif, négatif, neutre) associé à chacune d’entre elles. In fine, grâce aux LLMs, le champ « Commentaire » peut ainsi être divisé en un nombre N de thématiques, et, pour chacune de ces thématiques, un contenu peut être généré afin de faire ressortir le sentiment majoritaire des répondants à l’enquête.
* Les LLMs peuvent être utilisés pour labelliser les textes d’un corpus (articles de presse, par exemple) traitant d’un sujet (ex : décision de politique monétaire), selon certaines catégories (ex : « décision attendue », « décision surprenante », « ne sait pas »).
* Interroger une base de documents en pdf (retrieval augmented generation). Les documents sont découpés en paragraphes (chunks). Les réponses aux questions posées sont générées sur la base de paragraphes idoines. Les paragraphes qui ont servi à l’élaboration de la réponse sont indiqués en regard de celle-ci, et peuvent être consultés.
* Requêter sur des bases en SQL : à une interrogation exprimée en langage naturel sur une base en SQL (exemple : « trouve-moi le ratio R »), un code en SQL servant à la requête est renvoyé.
* Chatcoder : sur la base d’une version de code fournie, une discussion en langage naturel est lancée afin soit de corriger une erreur, soit de développer une nouvelle fonction, etc…
### (à intéger dans la partie IV-Exemples)

1) [Albert - Dinum] : Projet mené par le LabIA de la DINUM

Expand Down
2 changes: 1 addition & 1 deletion I-Accompagnement/3_Acculturation.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,7 @@

## PARTIE I. Accompagnement au changement

### 3. Besoin d’Acculturation (Supports!) (Johnny Hélène CamilleB)
### 3. Besoin d’Acculturation (Supports!) (Johnny Hélène CamilleB) => Partie à replacer en 1 avec une dimension Introduction à l'IA de manière générale, les LLMs et autres d'IA

Comment embarquer les métiers/personnels moins techniques
Points d'attention à partager sur l'utilisation de tels outils

0 comments on commit ed07d77

Please sign in to comment.