Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Du chaos à l'ordre ou comment gérer avec Tropy des fichiers images de sources primaires #635

Open
anisa-hawes opened this issue Oct 16, 2024 · 7 comments

Comments

@anisa-hawes
Copy link
Contributor

anisa-hawes commented Oct 16, 2024

[Lesson to be received and published in FR, ES and PT simultaneously]

Programming Historian en Français a reçu une proposition de leçon intitulée 'Du chaos à l'ordre ou comment gérer avec Tropy des fichiers images de sources primaires' par Sofia Papastamkou @spapastamkou.

Les objectifs d'apprentissage de la leçon proposée sont les suivants :

  • Organiser et annoter efficacement les fichiers images de sources primaires en tant que données de recherche
  • Apprendre l'importance et l'utilisation correcte des métadonnées adaptées à vos propres sources primaires et recherche historique
  • Gérer vos données de recherche de manière à améliorer vos analyses et présentations futures

J'ai diffusé cette proposition au sein de l'équipe française afin d'obtenir leurs impressions. Nous avons évalué cette proposition en prenant en compte les considérations suivantes :

  • Ouverture : nous préconisons l'utilisation de logiciels libres, de langages de programmation libres et d'ensembles de données libres.
  • Accès global : nous servons un lectorat travaillant avec différents systèmes d'exploitation et des ressources informatiques variées.
  • Multilinguisme : nous célébrons les méthodologies et les outils qui peuvent être appliqués ou adaptés pour être utilisés dans des contextes de recherche multilingues.
  • Durabilité : nous nous engageons à publier des ressources d'apprentissage qui peuvent rester utiles au-delà des interfaces graphiques actuelles et des versions actuelles des logiciels.

Le dossier de soumission a déjà été reçu.

Notre équipe d'édition traitera le matériel et préparera un aperçu de la version initiale. Elle publiera un commentaire dans ce ticket pour indiquer l'emplacement des les fichiers clés, ainsi qu'un lien vers l'aperçu où les contributeurs pourront lire la leçon au fur et à mesure de la progression du projet.

Notre médiatrice attitrée est Hélène Huet (français). N'hésitez pas à la contacter si vous souhaitez qu'un observateur impartial adresse un problème. Contacter la médiatrice n'aura aucun impact sur l'issue d'une évaluation par les pairs.

@charlottejmc
Copy link
Collaborator

charlottejmc commented Oct 17, 2024

Bonjour @marie-flesch et @spapastamkou,

Vous trouverez les fichiers ici :

Vous pouvez parcourir l’aperçu de la soumission ici :


J'ai seulement quelques petites remarques à partager à ce stade :

  • La leçon comprend actuellement presque 9000 mots : c'est un peu au-dessus de notre limite de 8000 mots, donc je conseille de faire attention à ne pas trop en ajouter lors des révisions (ou alors, s'il le faut, de couper autre part).
  • Je crois que certaines images sont malheureusement un peu trop floues pour être bien lisibles : notamment, 1, 2, 4, 6, 8, et 9. @spapastamkou, pourrais-tu essayer de reprendre les captures d'écran et de me les envoyer en haute qualité ? Je peux me charger de réduire la taille des fichiers de mon côté. Merci beaucoup !
  • Y a-t-il une rédactrice/un rédacteur attitré(e) pour cette leçon, ou est-ce @marie-flesch qui s'en charge ?

@marie-flesch
Copy link
Contributor

Bonjour @charlottejmc, merci pour tout ça ! David (@davvalent ) va s'occuper de cette leçon, je viens de lui assigner ce ticket :) Nous ferons attention à ton avertissement en ce qui concerne la longueur de la leçon.

@anisa-hawes
Copy link
Contributor Author

Bonjour Sofia @spapastamkou,

What's happening now?

Your lesson has been moved to the next phase of our workflow which is Phase 2: Initial Edit.

In this phase, your editor David @davvalent will read your lesson, and provide some initial feedback. David will post feedback and suggestions as a comment in this issue, so that you can revise your draft in the following phase (Phase 3: Revision 1).

%%{init: { 'logLevel': 'debug', 'theme': 'dark', 'themeVariables': {
              'cScale0': '#444444', 'cScaleLabel0': '#ffffff',
              'cScale1': '#3d7c81', 'cScaleLabel1': '#ffffff',
              'cScale2': '#444444', 'cScaleLabel2': '#ffffff'
       } } }%%
timeline
Section Phase 1 <br> Submission
Who worked on this? : Publishing Assistant (@charlottejmc) 
All  Phase 1 tasks completed? : Yes
Section Phase 2 <br> Initial Edit
Who's working on this? : Editor (@davvalent)  
Expected completion date? : Nov 18
Section Phase 3 <br> Revision 1
Who's responsible? : Author (@spapastamkou) 
Expected timeframe? : ~30 days after feedback is received
Loading

Note: The Mermaid diagram above may not render on GitHub mobile. Please check in via desktop when you have a moment.

@anisa-hawes anisa-hawes moved this from 1 Submission to 2 Initial Edit in Active Lessons Oct 18, 2024
@davvalent
Copy link
Member

Hello,

Thank you all for these elements which will allow us to start the work. I'm on it and I'll be back soon!

Cordialement,

David

@spapastamkou
Copy link
Contributor

Thank you all for your work and precisions, looking forward to receiving further feedback.

@davvalent
Copy link
Member

Bonjour Sofia,

Me voici de retour pour discuter de cette leçon. Je te prie de me pardonner pour le délai supplémentaire. Mon commentaire est un peu long, et je m’en excuse. J’aimerais discuter de certains aspects.

D’abord, merci pour le travail sur ce texte qui sera certainement utile au lectorat du PH et qui viendra enrichir l’offre du chapitre francophone. Voici donc les remarques qui font suite à une première relecture. Elles sont formulées dans le cadre d’un dialogue ouvert.

La problématique de l’ordre et du chaos est intéressante et bien présentée dans les premières sections de la leçon. L’approche adoptée, de haut niveau, soulève des enjeux généraux de la collecte des sources primaires dans un environnement numérique et est suffisamment générique pour que les problèmes soulevés s’appliquent potentiellement à un vaste éventail de problématiques basées sur la manipulation de ce type de matériau. Elle présente un intérêt certain pour le PH et son lectorat.

À partir d’ici, j’aimerais souligner deux aspects de la leçon dont j’aimerais discuter : l’accès aux données et l’utilisation de ces données au long de la leçon.

Accès aux données

Les efforts de sensibilisation aux enjeux de la collecte de données dans le contexte des sources primaires numériques ou numérisées sont tout à fait louables, mais ne sont pas sans soulever certaines questions importantes dans le contexte de la leçon.

La proposition de collecter soi-même les données à l’aide de scripts R préparés a un potentiel formateur intéressant, mais me semble dépasser le cadre de la leçon. Dans l’état actuel de la présentation, le renvoi vers les scripts et les données nécessaires à leur fonctionnement n’explique pas spécifiquement comment s’y prendre. Le fait de 1) devoir y chercher une façon de les faire fonctionner ou de chercher les instructions pour ce faire dans les fichiers des dépôts proposés, de 2) potentiellement devoir installer R et des packages et 3) d’exécuter ces scripts ne peut pas être considéré comme étant de niveau débutant (par comparaison à l’utilisation d’une archive ZIP, par exemple). La proposition de la leçon en lien avec sa catégorisation selon le niveau de difficulté aurait tout intérêt à être parfaitement claire dans le contexte de la présentation d’une leçon. Mais ces différentes méthodes rendent cette proposition ambiguë. De plus, la collecte de sources numériques à l’aide de scripts et d’API devrait probablement faire l’objet d’un tutoriel distinct, si la leçon proposée est de niveau débutant, et les explications pour ce faire, dans l’état actuel de la leçon, gagneraient à être approfondies. Cependant, nous ne disposons pas de l’espace nécessaire.

Les données, le long de la leçon

Certes, la leçon stipule qu’il est possible de choisir la méthode qui convient selon le niveau de compétence, mais je doute que ces voies parallèles ne servent réellement les visées pédagogiques de la leçon. Principalement, en raison de deux éléments : l’absence d’un parcours intégré de traitement d’un corpus sur le long de la leçon et le va-et-vient entre les corpus qui s’entremêlent entre les instructions de manipulations dans Tropy.

À partir de la présentation des trois jeux de données, la leçon poursuit sans s’attarder ni spécifier un corpus de données à manipuler en particulier, partant du principe qu’un corpus aura été choisi par le lecteur, et sera donc disponible sur disque dur ou depuis le web (¶ 54). Puis, c’est le corpus du Printemps érable qui est sélectionné pour la démonstration (¶ 58). Par la suite, lorsque vient le temps de présenter la fonction de fusion des objets, un quatrième jeu de données fait son apparition soudaine (¶ 67). Doit-on créer ici un nouveau projet ou poursuivre avec le projet créé précédemment qui comprend probablement un des trois corpus ? Je pose volontairement ici une question naïve, mais elle s’impose, car l’apparition des nouvelles données est plutôt déroutante. La leçon revient ensuite vers les affiches du Printemps érable pour la description des sources (¶ 81), en passant par la création d’un modèle de saisie qui prend pour exemple la notion de correspondance sans faire de lien explicite avec les données de la leçon (¶ 86 et suivants). Enfin, de retour avec le Printemps érable pour l’annotation des images, à la fin.

Remarques

Dans ce contexte, les fonctionnalités importantes de Tropy sont bel et bien présentées ou évoquées. Si les justifications fonctionnelles derrière les choix effectués tout au long de la leçon sont pour moi parfaitement claires (exemple : choisir la correspondance pour illustrer la création d’un modèle de saisie, en effet très utile ; utiliser les Journaux de tranchées pour la fusion, également pratique), cela se fait au prix du fil conducteur.

Pour bien montrer comment la manipulation des sources primaires numériques évolue le long d’un projet de recherche, il serait intéressant de mobiliser un corpus au sein d’un parcours intégré, de sorte que l’on puisse bénéficier d’une vue d’ensemble sur son traitement, de la collecte des données brutes à l’aboutissement de son organisation et de sa description (du chaos à l’ordre : avec un cas d’usage). La problématique de recherche propre à un projet ou un corpus n’a pas besoin d’être explicite, mais organiser un fil conducteur autour d’un jeu de données me parait essentiel pour optimiser la portée pédagogique de la leçon dans la perspective d’une démonstration pratique ou méthodologique.

Autrement dit, le cas d’usage n’apparaît pas clairement. Sur quelles données, finalement, la leçon se base-t-elle ? Et qu’allons-nous faire avec ces données à l’aide de Tropy le long de cette leçon ? Il m’apparaît essentiel de penser un parcours de traitement des données afin de mener nos lectrices et nos lecteurs du début à la fin de la leçon.

Suggestions

Cette section vise à formuler quelques suggestions qui pourraient orienter la suite des travaux. Dans un premier temps, je propose quelques recommandations essentielles. Par la suite, il sera question de points de discussions ouverts.

Pour la fusion : il faudrait éviter de faire surgir en milieu de parcours un jeu de données qui n’a pas été préalablement présenté. Je recommande que le ou les jeux de données soient présenté(s) clairement d’abord.

Pour le modèle de saisie : je recommande que ce passage s’appuie sur les données de la leçon, au lieu de présenter un exemple sans lien explicite avec les données.

Enfin voici ma principale suggestion, sujette à discussion. Dans ce contexte, il serait probablement intéressant d’envisager de travailler avec un seul corpus tout au long de la leçon : présenter et insister sur un jeu de données en particulier qui permet d’illustrer les fonctionnalités du logiciel tout en permettant également d’illustrer le traitement du corpus d’images, de sa prise en main à l’annotation, en passant par son organisation et sa description. Il s’agit de penser à un parcours intégré au lieu de montrer des manipulations qui semblent un peu trop isolées les unes des autres. Je propose que la manipulation de ce jeu de données soit sans contredit facile afin d’assurer la cohérence avec le niveau proposé et la concentration des efforts nécessaires pour suivre la leçon. Une archive ZIP ou un lien de téléchargement seraient sans doute appropriés.

La présentation des différents jeux de données est fort intéressante, mais s’il est vraiment nécessaire de la faire, il faudrait probablement indiquer très clairement que ces corpus supplémentaires relèvent de méthodes de collectes plus avancées et qu’ils sont optionnels pour suivre la leçon, en se contentant d’une mention plus succincte. Cela permettrait de s’aligner sur la version espagnole qui utilise un seul jeu de données, et peut-être aussi de sauver un peu d’espace si nécessaire.

Avant d’entrer plus en détail dans la lecture du texte, j’aimerais savoir, Sofia, ce que tu en penses. Les suggestions proposées sont évidemment sujettes à discussion, comme je disais, et je demeure disponible pour ce faire, en espérant que ces remarques pourront être utiles.

Cordialement, David

@spapastamkou
Copy link
Contributor

spapastamkou commented Nov 27, 2024 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
Status: 2 Initial Edit
Development

No branches or pull requests

5 participants