Hcj+jp fusion besoins+us admin (#17)

* Update 2_Deja_Fait_Admin.qmd * Modification du 04102024 * Update * MAJ 09102024 * add: text classification case * Update cas d'usage --------- Co-authored-by: HelCJ <[email protected]> Co-authored-by: johnplt <[email protected]> Co-authored-by: zhannasan <[email protected]> Co-authored-by: Conrad THIOUNN <[email protected]>
etalab · Oct 22, 2024 · ed07d77 · ed07d77
1 parent 271fdc2
commit ed07d77
Show file tree

Hide file tree

Showing 4 changed files with 105 additions and 69 deletions.
diff --git a/I-Accompagnement/1_Besoins.qmd b/I-Accompagnement/1_Besoins.qmd
diff --git a/I-Accompagnement/1_cas_usage.qmd b/I-Accompagnement/1_cas_usage.qmd
@@ -0,0 +1,103 @@
+# Guide du LLM
+
+## PARTIE I. Accompagnement au changement
+
+Les cas d'usages des LLMs sont variés et avant de se lancer et innover grâce aux LLMs, il est nécessaire de bien identifier le besoin qui amène l'utilisation d'un LLM. Pour quoi faire ? Pour quels usages ? Est-ce pour de la génération de texte ? Pour de la classification ? ou pour des interactions conversationnelles ?
+L'objectif de ce chapitre est d'accompagner la réflexion autour de l'identification du besoin et de la collecte des données, avec les différents types de cas d'usages impliquant des LLMs. 
+
+Au sein des administrations, les cas d'usage de LLM ci-dessous sont en cours d'expérimentation, soit en production.
+
+### A. Cas d’usage
+Des LLM peuvent être utilisés pour :
+
+-	**Labelliser / classifier les textes d’un corpus traitant d’un sujet, selon certaines catégories**. 
+Par exemple, des LLMS peuvent être utilisés pour labelliser des articles de presse traitant de décisions de politique monétaire, selon les catégories « décision attendue », « décision surprenante », « ne sait pas ». Ils peuvent également classer des documents de recherche clinique selon différentes thématiques et disciplines, tout en permettant une recherche sémantique avancée. 
+
+| Institution	|	Nom du Projet	|	Contact | Expérimentation/Production/Recherche|
+| -------- | ------- |------- |------- |
+|Ministère en charge de la santé| SIRANo | [email protected] | Expérimentation  |
+|Banque de France |Étude de l’impact des surprises monétaires sur les taux de change|[email protected]| Recherche|
+|Banque de France  |Anticipation d’inflation |[email protected] <br>[email protected] <br> [email protected] |Recherche  |
+
+
+Par exemple, des LLMS peuvent être utilisés pour labellisés des articles de presse traitant de décisions de politique monétaire, selon les catégories « décision attendue », « décision surprenante », « ne sait pas ».
+
+-	**Identifier les thématiques traitées dans un corpus**.
+Par exemple, des LLMs peuvent être utilisés pour identifier les thématiques développées dans le champ Commentaire d’une enquête.
+
+| Institution	|	Nom du Projet	|	Contact | Expérimentation/Production/Recherche|
+| -------- | ------- |------- |------- |
+|Banque de France | Enquête sur les Tendances régionales | [email protected] <br> [email protected] | Expérimentation  |
+		
+
+-	**Faire une analyse de sentiment d’un corpus traitant d’une thématique**.
+Par exemple, des LLMs peuvent être utilisés pour faire une analyse de sentiment (ex : positif, négatif ou neutre) d’une thématique émergeant d’un champ « Commentaire » d’une enquête et traitant d’une perception du climat des affaires.
+
+| Institution	|	Nom du Projet	|	Contact | Expérimentation/Production/Recherche|
+| -------- | ------- |------- |------- |
+|Banque de France | Enquête sur les Tendances régionales | [email protected] <br> [email protected] | Expérimentation  |
+		
+
+-	**Interroger une base de documents textuels (pdf, code, etc…) (retrieval augmented generation)**. 
+Les documents sont découpés en paragraphes (chunks). Les réponses aux questions posées sont générées sur la base de paragraphes idoines existant dans la base. Les paragraphes qui ont servi à l’élaboration de la réponse sont indiqués en regard de celle-ci, et peuvent être consultés.
+
+| Institution	|	Nom du Projet	|	Contact | Expérimentation/Production/Recherche|
+| -------- | ------- |------- |------- |
+|Banque de France | Chatbdf | [email protected] <br> [email protected] <br> [email protected]  | Passage en production prévu en décembre 2025  |
+		
+-	**Requêter sur des bases de données codées en SQL : à une interrogation exprimée en langage naturel sur une base en SQL, un code en SQL servant à la requête est renvoyé**.
+Par exemple, à l’interrogation « trouve-moi la date de naissance de l’individu I », un code SQL est renvoyé permettant d’effectuer la requête
+
+| Institution	|	Nom du Projet	|	Contact | Expérimentation/Production/Recherche|
+| -------- | ------- |------- |------- |
+|Banque de France | Text2SQL | [email protected] | Passage en production par la BCE en décembre 2024 |
+
+
+-   **Extraire des données à partir de documents textuels**
+Par exemple, à partir de documents réglementaires extraire 15 informations-clés et stocker celles-ci dans une base de données
+
+| Institution	|	Nom du Projet	|	Contact | Expérimentation/Production/Recherche|
+| -------- | ------- |------- |------- |
+|Banque de France | Veridic | [email protected] | Passage en production prévu fin 2025 |
+
+### (Intégrer les cas d'usage ci-dessous au sein des catégories pré-citées ou en ajouter en faisant ressortir leur spécificité)
+
+### Description cas d'usage
+
+ 1. Utilisation des SLM pour la recherche thématique simple en français (en cours, Zhanna)<br>
+Malgré la disponibilité et l’attractivité des « grands » modèles langages comme GPT et Mixtral, l’utilisation des petits modèles classiques est parfois plus avantageuse, surtout quand les ressources techniques ou l’accès aux données sont restreints.\
+C’est vrai dans le cas d’utilisation d’un SLM basé sur un modèle devenu classique, BERT qui donne la naissance à milliers de modèles spécialisés comme [CamemBERT](https://arxiv.org/abs/1911.03894) un modèle en français ou encore [sBERT ou sentenceTransformers](https://sbert.net/) permettant un entraînement spécialisé pour une recherche sémantique.
+<br>
+**ici plus d'information sur les avantages des SLM (données, environement, spécialisation, travail en local, technique)
+<br>
+Nous considérons un exemple d’utilisation de CamemBERT-base et un exemple de sBERT :
+
+1. [camembert-bio-base](https://huggingface.co/almanach/camembert-bio-base) avec ses 111M de paramètres, pour une recherche thématique dans des textes scientifiques biomédicaux.
+Nous utiliserons les transformers de [HuggingFace](https://github.com/huggingface/transformers)
+```python
+from transformers import AutoTokenizer, AutoModelForMaskedLM
+biotokenizer = AutoTokenizer.from_pretrained("almanach/camembert-bio-base")
+biomodel = AutoModelForMaskedLM.from_pretrained("almanach/camembert-bio-base")
+```
+
+2. [all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)
+```python
+import requests
+
+api_url = f"https://api-inference.huggingface.co/pipeline/feature-extraction/{model_id}"
+headers = {"Authorization": f"Bearer {hf_token}"}
+```
+
+# (à intéger dans les exemples de cas d'usage du fichier cas_usage.qmd et dans la partie IV-Exemples)
+
+ 2. Classifier des accords d'entreprise
+
+
+#### Classifier des accords d'entreprise
+
+ Les accords d'entreprise sont publiés sur [LégiFrance](https://www.legifrance.gouv.fr/liste/acco).
+ Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion).
+ Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail.
+ Le besoin est alors de détecter automatiquement les thématiques
+ à la lecture de l'accord.
+ Un jeu de données est disponible à l'adresse suivante : [accords_publics_xx_to_2022_themes_et_texte.parquet](https://minio.lab.sspcloud.fr/cthiounn2/Accords/accords_publics_xx_to_2022_themes_et_texte.parquet)
diff --git a/I-Accompagnement/2_Deja_Fait_Admin.qmd b/I-Accompagnement/2_Deja_Fait_Admin.qmd
@@ -1,15 +1,4 @@
-# Guide du LLM
-
-## PARTIE I. Accompagnement au changement
-
-### 2. Ce qui est déjà fait ou expérimenté dans l’administration (Johnny Hélène Thibault)
-
-### A. Cas d’usage
-* Dans une enquête incluant un champ « Commentaire », celui-ci peut être analysé par des LLMs afin d’identifier les thématiques saillantes exprimées dans ce champ. Ensuite, pour chacune de ces thématiques, les LLMs peuvent être utilisés pour dégager le sentiment prédominant (ex : positif, négatif, neutre) associé à chacune d’entre elles. In fine, grâce aux LLMs, le champ « Commentaire » peut ainsi être divisé en un nombre N de thématiques, et, pour chacune de ces thématiques, un contenu peut être généré afin de faire ressortir le sentiment majoritaire des répondants à l’enquête.
-* Les LLMs peuvent être utilisés pour labelliser les textes d’un corpus (articles de presse, par exemple) traitant d’un sujet (ex : décision de politique monétaire), selon certaines catégories (ex : « décision attendue », « décision surprenante », « ne sait pas »).
-* Interroger une base de documents en pdf (retrieval augmented generation). Les documents sont découpés en paragraphes (chunks). Les réponses aux questions posées sont générées sur la base de paragraphes idoines. Les paragraphes qui ont servi à l’élaboration de la réponse sont indiqués en regard de celle-ci, et peuvent être consultés.
-* Requêter sur des bases en SQL : à une interrogation exprimée en langage naturel sur une base en SQL (exemple : « trouve-moi  le ratio R »), un code en SQL servant à la requête est renvoyé.
-* Chatcoder : sur la base d’une version de code fournie, une discussion en langage naturel est lancée afin soit de corriger une erreur, soit de développer une nouvelle fonction, etc…
+### (à intéger dans la partie IV-Exemples)
 
 1) [Albert - Dinum] : Projet mené par le LabIA de la DINUM
 

diff --git a/I-Accompagnement/3_Acculturation.qmd b/I-Accompagnement/3_Acculturation.qmd
@@ -2,7 +2,7 @@
 
 ## PARTIE I. Accompagnement au changement
 
-### 3. Besoin d’Acculturation (Supports!) (Johnny Hélène CamilleB)
+### 3. Besoin d’Acculturation (Supports!) (Johnny Hélène CamilleB) => Partie à replacer en 1 avec une dimension Introduction à l'IA de manière générale, les LLMs et autres d'IA
 
 	Comment embarquer les métiers/personnels moins techniques
  	Points d'attention à partager sur l'utilisation de tels outils