-
Notifications
You must be signed in to change notification settings - Fork 42
/
analyse-de-sequences.Rmd
501 lines (410 loc) · 29.9 KB
/
analyse-de-sequences.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
---
title: "Analyse de séquences"
---
```{r options_communes, include=FALSE, cache=FALSE}
source("options_communes.R")
```
<div class="webin-R">
Ce chapitre est évoqué dans le webin-R #16 (analyse de séquences) sur [YouTube](https://youtu.be/qCEougRU-bA).
Ce chapitre est évoqué dans le webin-R #19 (trajectoires de soins : un exemple de données longitudinales 3 : analyse de séquences) sur [YouTube](https://youtu.be/YgoSNYdfTyg).
</div>
<div class="note">
La version originale de ce chapitre est une reprise, avec l'aimable autorisation de son auteur,
d'un article de Nicolas Robette intitulé *L'analyse de séquences : une introduction avec le
logiciel R et le package TraMineR* et publié sur le blog Quanti (<http://quanti.hypotheses.org/686/>).
</div>
Depuis les années 1980, l'étude quantitative des
<dfn data-index="trajectoire biographique">trajectoires biographiques</dfn>
(<dfn lang="en">life course analysis</dfn>) a pris
une ampleur considérable dans le champ des sciences sociales. Les collectes de données micro-individuelles
longitudinales se sont développées, principalement sous la forme de panels ou d'enquêtes rétrospectives.
Parallèlement à cette multiplication des données disponibles, la méthodologie statistique a connu de
profondes évolutions. L'<dfn>analyse des biographies</dfn><dfn data-index="biographie, analyse"></dfn>
(<dfn lang="en">event history analysis</dfn>) --- qui ajoute une dimension
diachronique aux modèles économétriques mainstream --- s'est rapidement imposée comme l'approche
dominante : il s'agit de modéliser la durée des situations ou le risque d'occurrence des événements.
## L'analyse de séquences
Cependant, ces dernières années ont vu la diffusion d'un large corpus de méthodes descriptives
d'<dfn>analyse de séquences</dfn><dfn data-index="séquence, analyse"></dfn>,
au sein desquelles l'<dfn>appariement optimal</dfn><dfn data-index="optimal, appariement"></dfn>
(<dfn lang="en">optimal matching</dfn><dfn data-index="matching, optimal" lang="en"></dfn>) occupe une place
centrale^[Pour une analyse des conditions sociales de la diffusion de l'analyse de séquences dans
le champ des sciences sociales, voir Robette, 2012.].
L'objectif principal de ces méthodes est d'identifier --- dans la diversité d'un corpus de séquences constituées
de séries d'états successifs --- les régularités, les ressemblances, puis le plus souvent de construire
des typologies de « séquences-types ». L'analyse de séquences constitue donc un moyen de décrire mais
aussi de mieux comprendre le déroulement de divers processus.
La majeure partie des applications de l'analyse de séquences traite de trajectoires biographiques ou de
carrières professionnelles. Dans ces cas, chaque trajectoire ou chaque carrière est décrite par une séquence,
autrement dit par une suite chronologiquement ordonnée de « moments » élémentaires, chaque moment
correspondant à un « état » déterminé de la trajectoire (par exemple, pour les carrières professionnelles :
être en emploi, au chômage ou en inactivité). Mais on peut bien sûr imaginer des types de séquences plus
originaux : Andrew Abbott^[<http://home.uchicago.edu/~aabbott/>], le sociologue américain
qui a introduit l'*optimal matching* dans les sciences
scientifiques ou des séquences de pas de danses traditionnelles.
En France, les premiers travaux utilisant l'appariement optimal sont ceux de Claire
Lemercier^[<http://lemercier.ouvaton.org/document.php?id=62>] sur
les carrières des membres des institutions consulaires parisiennes au
<span style="font-variant: small-caps;">xix</span>^e^ siècle (Lemercier, 2005), et de
Laurent Lesnard^[<http://laurent.lesnard.free.fr/article.php3?id_article=22>]
sur les emplois du temps (Lesnard, 2008). Mais dès les années 1980, les chercheurs
du Céreq construisaient des typologies de trajectoires d'insertion à l'aide des méthodes d'analyse des
données « à la française » (analyse des correspondances,
etc.)^[Voir par exemple l'article d'Yvette Grelet (2002).].
Au final, on dénombre maintenant plus d'une centaine d'articles de sciences sociales
contenant ou discutant des techniques empruntées à l'analyse de séquences.
Pour une présentation des différentes méthodes d'analyse de séquences disponibles et de leur mise
en oeuvre pratique, il existe un petit manuel en français, publié en 2011 dernière aux éditions du Ceped
(collection « Les clefs pour »^[<http://www.ceped.org/?rubrique57>])
et disponible en pdf^[<http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf>] (Robette, 2011).
De plus, un article récemment publié dans le
*Bulletin de Méthodologie Sociologique* compare de manière systématique les résultats
obtenus par les principales méthodes d'analyse de séquences (Robette & Bry, 2012). La conclusion en est
qu'avec des données empiriques aussi structurées que celles que l'on utilise en sciences sociales, l'approche
est robuste, c'est-à-dire qu'un changement de méthode aura peu d'influence sur les principaux résultats.
Cependant, l'article tente aussi de décrire les spécificités de chaque méthode et les différences marginales
qu'elles font apparaître, afin de permettre aux chercheurs de mieux adapter leurs choix méthodologiques
à leur question de recherche.
Afin d'illustrer la démarche de l'analyse de séquences, nous allons procéder ici à la description « pas
à pas » d'un corpus de carrières professionnelles, issues de l'enquête *Biographies et entourage* (Ined,
2000)^[Pour une analyse plus poussée de ces données, avec deux méthodes différentes,
voir Robette & Thibault, 2008. Pour une présentation de l'enquête, voir Lelièvre & Vivier, 2001.].
Et pour ce faire, on va utiliser le logiciel **R**, qui propose la solution actuellement la plus complète
et la plus puissante en matière d'analyse de séquences. Les méthodes d'analyse de séquences par analyses
factorielles ou de correspondances ne nécessitent pas de logiciel spécifique : tous les logiciels de statistiques
généralistes peuvent être utilisés (**SAS**, **SPSS**, **Stata**, **R**, etc.).
En revanche, il n'existe pas de fonctions pour l'appariement optimal dans **SAS** ou **SPSS**.
Certains logiciels gratuits implémentent l'appariement optimal
(comme **Chesa**^[<http://home.fsw.vu.nl/ch.elzinga/>] ou
**TDA**^[<http://steinhaus.stat.ruhr-uni-bochum.de/tda.html>])
mais il faut alors recourir à d'autres programmes pour dérouler l'ensemble
de l'analyse (classification, représentation graphique).
**Stata** propose le module **sq**^[<http://www.stata-journal.com/article.html?article=st0111>],
qui dispose d'un éventail de fonctions intéressantes. Mais c'est **R** et
le package `TraMineR`{.pkg}^[<http://mephisto.unige.ch/traminer/>],
développé par des collègues de l'Université de Genève (Gabadinho et al, 2011),
qui fournit la solution la plus complète et la plus puissante à ce jour :
on y trouve l'appariement optimal mais aussi d'autres algorithmes alternatifs, ainsi
que de nombreuses fonctions de description des séquences et de représentation graphique.
## Charger TraMineR et récupérer les données
Tout d'abord, à quoi ressemblent nos données ? On a reconstruit à partir de l'enquête les carrières
de 1000 hommes. Pour chacune, on connaît la position professionnelle chaque année, de l'âge de 14
ans jusqu'à 50 ans. Cette position est codée de la manière suivante : les codes 1 à 6 correspondent
aux groupes socioprofessionnels de la nomenclature des PCS de l'INSEE 13 (agriculteurs exploitants ;
artisans, commerçants et chefs d'entreprise ; cadres et professions intellectuelles supérieures ; professions
intermédiaires ; employés ; ouvriers) ; on y a ajouté « études » (code 7), « inactivité » (code 8) et « service
militaire » (code 9). Le fichier de données comporte une ligne par individu et une colonne par année :
la variable *csp1* correspond à la position à 14 ans, la variable *csp2* à la position à 15 ans, etc.
Par ailleurs, les enquêtés étant tous nés entre 1930 et 1950,
on ajoute à notre base une variable « génération » à trois
modalités, prenant les valeurs suivantes : 1="1930-1938" ; 2="1939-1945" ; 3="1946-1950". Au final, la base est
constituée de 500 lignes et de 37 + 1 = 38 colonnes et se présente sous la forme d'un fichier texte au format
**csv** (téléchargeable à <http://larmarange.github.io/analyse-R/data/trajpro.csv>).
Une fois **R** ouvert, on commence par installer les extensions nécessaires à ce programme (opération
à ne réaliser que lors de leur première utilisation) et par les charger en mémoire. L'extension
`TraMineR`{.pkg} propose de nombreuses fonctions pour l'analyse de séquences.
L'extension `cluster`{.pkg} comprend un certain nombre de méthodes de
classification automatique^[Pour une présentation plus détaillée, voir le chapitre sur la
[classification ascendante hiérarchique (CAH)](classification-ascendante-hierarchique.html).].
```{r, warning=FALSE}
library(TraMineR)
library(cluster)
```
On importe ensuite les données, on recode la variable « génération » pour lui donner des étiquettes plus
explicites. On jette également un coup d'oeil à la structure du tableau de données :
```{r, echo=FALSE}
donnees <- readr::read_csv("data/trajpro.csv")
```
```{r, eval=FALSE}
donnees <- read.csv("http://larmarange.github.io/analyse-R/data/trajpro.csv", header = T)
```
```{r}
donnees$generation <- factor(donnees$generation, labels = c("1930-38", "1939-45", "1946-50"))
str(donnees)
```
On a bien 1000 observations et 38 variables. On définit maintenant des *labels* pour les différents états
qui composent les séquences et on crée un objet « séquence » avec `seqdef`{data-pkg="TraMineR"} :
```{r}
labels <- c("agric", "acce", "cadr", "pint", "empl", "ouvr", "etud", "inact", "smil")
seq <- seqdef(donnees[, 1:37], states = labels)
```
## Appariement optimal et classification
Ces étapes préalables achevées, on peut comparer les séquences en calculant les dissimilarités entre
paires de séquences. On va ici utiliser la méthode la plus répandue, l'appariement optimal
(*optimal matching*). Cette méthode consiste, pour chaque paire de séquences, à compter le nombre minimal de
modifications (substitutions, suppressions, insertions) qu'il faut faire subir à l'une des séquences pour
obtenir l'autre. On peut considérer que chaque modification est équivalente, mais il est aussi possible de
prendre en compte le fait que les « distances » entre les différents états n'ont pas toutes la même « valeur »
(par exemple, la distance sociale entre emploi à temps plein et chômage est plus grande qu'entre emploi à
temps plein et emploi à temps partiel), en assignant aux différentes modifications des « coûts » distincts.
Dans notre exemple, on va créer avec `seqsubm`{data-pkg="TraMineR"} une « matrice des coûts de substitution » dans laquelle tous les coûts sont constants et égaux à 2^[Le fonctionnement de l'algorithme d'appariement
optimal --- et notamment le choix des coûts --- est décrit dans le chapitre 9 du manuel de
`TraMineR`{.pkg}
(<http://mephisto.unige.ch/pub/TraMineR/doc/TraMineR-Users-Guide.pdf>).] :
```{r}
couts <- seqsubm(seq, method = "CONSTANT", cval = 2)
```
Ensuite, on calcule la <dfn>matrice de distances</dfn><dfn data-index="distance, matrice"></dfn>
entre les séquences (i.e contenant les « dissimilarités » entre
les séquences) avec `seqdist`{data-pkg="TraMineR"}, avec un coût d'insertion/suppression (*indel*)
que l'on fixe ici à 1 :
```{r}
seq.om <- seqdist(seq, method = "OM", indel = 1, sm = couts)
```
<div class="important">
Ce cas de figure où tous les coûts de substitution sont égaux à 2 et le coût *indel* égal à 1 correspond à un cas particulier d'*optimal matching* que l'on appelle la <dfn lang="en">Longuest Common Subsequence</dfn> ou <dfn>LCS</dfn>. Elle peut se calculer directement avec `seqdist` de la manière suivante :
```{r}
seq.om <- seqdist(seq, method = "LCS")
```
En l'absence d'hypothèses fortes sur les différents statuts auxquels correspond notre alphabet (données hiérarchisées, croisement de différentes dimensions...), nous vous recommandons d'utiliser prioritairement la métrique LCS pour calculer la distance entre les séquences.
On pourra trouver un exemple de matrice de coûts hiérarchisée dans le chapitre sur les [trajectoires de soins](trajectoires-de-soins.html).
</div>
Cette matrice des distances ou des dissimilarités entre séquences peut ensuite être utilisée pour une
<dfn>classification ascendante hiérarchique</dfn> (<dfn>CAH</dfn>), qui permet de regrouper les séquences
en un certain nombre de « classes » en fonction de leur proximité :
```{r}
seq.dist <- hclust(as.dist(seq.om), method = "ward.D2")
```
Avec la fonction `plot`{data-pkg="stats" data-rdoc="dendrogram"},
il est possible de tracer l'arbre de la classification (<dfn>dendrogramme</dfn>).
<figure>
```{r}
plot(as.dendrogram(seq.dist), leaflab = "none")
```
<figcaption>Dendrogramme de la classification des séquences</figcaption>
</figure>
De même, on peut représenter les
<dfn data-index="saut d'inertie">sauts d'inertie</dfn><dfn data-index="inertie, saut"></dfn>.
<figure>
```{r}
plot(sort(seq.dist$height, decreasing = TRUE)[1:20], type = "s", xlab = "nb de classes", ylab = "inertie")
```
<figcaption>Sauts d'inertie de la classification des séquences</figcaption>
</figure>
L'observation, sur ce dendogramme ou sur la courbe des sauts d'inertie, des sauts d'inertie
des dernières étapes de la classification peut servir de guide pour
déterminer le nombre de classes que l'on va retenir pour la suite des analyses.
Une première inflexion dans la courbe des sauts d'inertie apparaît au niveau d'une partition
en 5 classes. On voit aussi une seconde inflexion assez nette à 7 classes.
Mais il faut garder en tête le fait que ces outils ne sont que des guides,
le choix devant avant tout se faire après différents essais, en fonction de l'intérêt
des résultats par rapport à la question de recherche et en arbitrant entre exhaustivité
et parcimonie.
On fait ici le choix d'une <dfn>partition</dfn> en 5 classes :
```{r}
nbcl <- 5
seq.part <- cutree(seq.dist, nbcl)
seq.part <- factor(seq.part, labels = paste("classe", 1:nbcl, sep = "."))
```
## Représentations graphiques
Pour se faire une première idée de la nature des classes de la typologie, il existe un certain nombre de
représentations graphiques. Les chronogrammes (*state distribution plots*) présentent une série de coupes
transversales : pour chaque âge, on a les proportions d'individus de la classe dans les différentes situations
(agriculteur, étudiant, etc.). Ce graphique s'obtient avec `seqdplot`{data-pkg="TraMineR" data-rdoc="seqplot"} :
<figure>
```{r, fig.height=7}
seqdplot(seq, group = seq.part, xtlab = 14:50, border = NA)
```
<figcaption>Chronogrammes</figcaption>
</figure>
Chacune des classes semble caractérisée par un groupe professionnel principal : profession intermédiaire
pour la classe 1, ouvrier pour la 2, employé pour la 3, cadre pour la 4 et indépendant pour la 5.
Cependant, on aperçoit aussi des « couches » d'autres couleurs, indiquant que l'ensemble des carrières ne
sont probablement pas stables.
Les « <dfn dataindex="tapis des séquences">tapis</dfn><dfn data-index="séquence, tapis"></dfn> »
(<dfn lang="en">index plots</dfn>), obtenus avec `seqIplot`{data-pkg="TraMineR" data-rdoc="seqplot"},
permettent de mieux visualiser la dimension individuelle des séquences.
Chaque segment horizontal représente une séquence, découpée en sous-segments
correspondant aux aux différents états successifs qui composent la séquence.
<figure>
```{r, fig.height=7}
seqIplot(seq, group = seq.part, xtlab = 14:50, space = 0, border = NA, yaxis = FALSE)
```
<figcaption>Tapis des séquences triés</figcaption>
</figure>
Il est possible de trier les séquences pour rendre les tapis plus lisibles
(on trie ici par <dfn lang="en">multidimensional scaling</dfn> à l'aide de
la fonction `cmdscale`{data-pkg="stats"}).
<figure>
```{r, fig.height=7}
ordre <- cmdscale(as.dist(seq.om), k = 1)
seqIplot(seq, group = seq.part, sortv = ordre, xtlab = 14:50, space = 0, border = NA, yaxis = FALSE)
```
<figcaption>Tapis des séquences triés par multidimensional scaling</figcaption>
</figure>
On voit mieux apparaître ainsi l'hétérogénéité de certaines classes. Les classes 1, 3 et 4, par exemple,
semblent regrouper des carrières relativement stables (respectivement de professions intermédiaires, d'employés
et de cadres) et des carrières plus « mobiles » commencées comme ouvrier (classes 1 et 3, en orange)
ou comme profession intermédiaire (classe 4, en rouge). De même, la majorité des membres de la dernière
classe commencent leur carrière dans un groupe professionnel distinct de celui qu'ils occuperont par la
suite (indépendants). Ces distinctions apparaissent d'ailleurs si on relance le programme avec un nombre
plus élevé de classes (en remplaçant le 5 de la ligne `nbcl <- 5` par 7, seconde inflexion de la courbe
des sauts d'inertie, et en exécutant de nouveau le programme à partir de cette ligne) : les stables et les
mobiles se trouvent alors dans des classes distinctes.
Le package `seqhandbook`{.pkg} propose une fonction `seq_heatmap`{data-pkg="seqhandbook"}
permettant de représenter le tapis de l'ensemble des séquences selon l'ordre du dendrogramme.
<figure>
```{r}
library(seqhandbook)
seq_heatmap(seq, seq.dist, labCol = 14:50)
```
<figcaption>Tapis des séquences trié selon le dendrogramme</figcaption>
</figure>
<div class="note">
Il est possible de reproduire un tapis de séquence avec `ggplot2`{.pkg}. Outre le fait que cela fournit plus d'options de personnalisation du graphique, cela permets également à ce que la hauteur de chaque classe sur le graphique soit proportionnelle aux nombre d'invidus.
En premier lieu, on a va ajouter à notre fichier de données des identifiants individuels, la typologie crée et l'ordre obtenu par *multidimensional scaling*.
```{r}
donnees$id <- row.names(donnees)
donnees$classe <- seq.part
donnees$ordre <- rank(ordre, ties.method = "random")
```
Ensuite, il est impératif que nos données soient dans un format long et *tidy*, c'est-à-dire avec une ligne par individu et par pas de temps. Pour cela on aura recours à la fonction `gather`{data-pkg="tidyr"} (voir le [chapitre dédié](reorganiser-ses-donnees-avec-tidyr.html)).
```{r}
library(tidyr)
long <- donnees %>% gather(csp1:csp37, key = annee, value = csp)
```
On va mettre en forme la variable `csp` sous forme de facteur, récupérer l'année grace à la fonction `str_sub`{data-pkg="stringr"} de l'extension `stringr`{.pkg} (voir le chapitre sur la [manipulation de texte](manipuler-du-texte.html#extraire-des-sous-chaines-par-position)) et recalculer l'âge.
```{r}
long$csp <- factor(long$csp, labels = c("agriculteur", "art./com./chefs", "cadres", "prof. int.", "employés", "ouvriers", "étudiants", "inactifs", "serv. militaire"))
library(stringr)
long$annee <- as.integer(str_sub(long$annee, 4))
long$age <- long$annee + 13
```
Il n'y a plus qu'à faire notre graphique grace à `geom_raster`{data-pkg="ggplot2"} qui permet de colorier chaque pixel. Techniquement, pour un tapis de séquence, il s'agit de représenter le temps sur l'axe horizontal et les individus sur l'axe vertical. Petite astuce : plutôt que d'utiliser `id` pour l'axe vertical, nous utilisons `ordre` afin de trier les observations. Par ailleurs, il est impératif de transformer au passage `ordre` en facteur afin que `ggplot2`{.pkg} puisse recalculer proprement et séparément les axes pour chaque facette^[Essayez le même code mais avec `y = ordre` au lieu de `y = factor(ordre)` et vous comprendrez tout l'intérêt de cette astuce.], à condition de ne pas oublier l'option `scales = "free_y"` dans l'appel à `facet_grid`{data-pkg="ggplot2"}. Les autres commandes ont surtout pour vocation d'améliorer le rendu du graphique (voir le [chapitre dédié à ggplot2](ggplot2.html)).
```{r, fig.height=6}
library(ggplot2)
ggplot(long) +
aes(x = age, y = factor(ordre), fill = csp) +
geom_raster() +
ylab("") +
scale_y_discrete(label=NULL) +
theme_bw() +
theme(legend.position = "bottom") +
scale_fill_brewer(palette = "Set3") +
facet_grid(classe~., scales = "free_y", space = "free_y") +
scale_x_continuous(limits = c(14, 50), breaks = c(14, 20, 25, 30, 35, 40, 45, 50), expand = c(0, 0))
```
</div>
La distance des séquences d'une classe au centre de cette classe, obtenue avec
`disscenter`{data-pkg="TraMineR"}, permet de mesurer plus précisément
l'<dfn>homogénéité des classes</dfn><dfn data-index="classe, homogénéité"></dfn>. Nous utilisons ici `aggregate`{data-pkg="stats"} pour calculer la moyenne par classe :
```{r}
aggregate(disscenter(as.dist(seq.om), group = seq.part), list(seq.part), mean)
```
Cela nous confirme que les classes 1, 3 et 5 sont nettement plus hétérogènes que les autres,
alors que la classe 2 est la plus homogène.
D'autres représentations graphiques existent pour poursuivre l'examen de la typologie.
On peut visualiser les 10 séquences les plus fréquentes de chaque classe avec
`seqfplot`{data-pkg="TraMineR" data-rdoc="seqplot"}.
<figure>
```{r, fig.height=7}
seqfplot(seq, group = seq.part)
```
<figcaption>Séquences les plus fréquentes de chaque classe</figcaption>
</figure>
On peut aussi visualiser avec `seqmsplot`{data-pkg="TraMineR" data-rdoc="seqplot"}
l'état modal (celui qui correspond au plus grand nombre de séquences de la classe)
à chaque âge.
<figure>
```{r, fig.height=7}
seqmsplot(seq, group = seq.part, xtlab = 14:50, main = "classe")
```
<figcaption>Statut modal à chaque âge</figcaption>
</figure>
On peut également représenter avec `seqmtplot`{data-pkg="TraMineR" data-rdoc="seqplot"}
les durées moyennes passées dans les différents états.
<figure>
```{r, fig.height=7}
seqmtplot(seq, group = seq.part)
```
<figcaption>Durée moyenne dans chaque statut</figcaption>
</figure>
La fonction `seqrplot`{data-pkg="TraMineR" data-rdoc="seqplot"} cherche à identifier des séquences <q>représentatives</q> de chaque classe. Plusieurs méthodes sont proposées (voir `seqrep`{data-pkg="TraMineR"}). La méthode `dist` cherche à identifier des séquences centrales à chaque classe, c'est-à-dire situées à proximité du centre de la classe. Selon l'hétérogénéité de la classe, plusieurs séquences <q>représentatives</q> peuvent être renvoyées. ATTENTION : il faut être prudent dans l'interprétation de ces séquences centrales de la classe dans la mesure où elles ne rendent pas toujours compte de ce qui se passe dans la classe et où elles peuvent induire en erreur quand la classe est assez hétérogène. Il faut donc les considérer tout en ayant en tête l'ensemble du tapis de séquence pour voir si elles sont effectivement de bonnes candidates.
<figure>
```{r, fig.height=9, fig.with=6, message=FALSE}
seqrplot(seq, group = seq.part, dist.matrix = seq.om, criterion = "dist")
```
<figcaption>Séquences <q>représentatives</q> de chaque classe</figcaption>
</figure>
Enfin, l'<dfn>entropie transversale</dfn><dfn data-index="transversale, entropie"></dfn>
décrit l'évolution de l'homogénéité de la classe. Pour un âge donné,
une entropie proche de 0 signifie que tous les individus de la classe (ou presque) sont dans la même
situation. À l'inverse, l'entropie est de 1 si les individus sont dispersés dans toutes les situations.
Ce type de graphique produit par `seqHtplot`{data-pkg="TraMineR" data-rdoc="seqplot"}
peut être pratique pour localiser les moments de transition, l'insertion
professionnelle ou une mobilité sociale ascendante.
<figure>
```{r, fig.height=7}
seqHtplot(seq, group = seq.part, xtlab = 14:50)
```
<figcaption>Entropie transversale</figcaption>
</figure>
## Distribution de la typologie
On souhaite maintenant connaître la distribution de la typologie (en effectifs et en pourcentages) :
```{r}
library(questionr)
freq(seq.part)
```
On poursuit ensuite la description des classes en croisant la typologie avec la variable *generation* :
```{r}
cprop(table(seq.part, donnees$generation))
chisq.test(table(seq.part, donnees$generation))
```
Le lien entre le fait d'avoir un certain type de carrières et la cohorte de naissance est significatif à un
seuil de 15 %. On constate par exemple l'augmentation continue de la proportion de carrières de type
« professions intermédiaires » (classe 1) et, entre les deux cohortes les plus anciennes, l'augmentation de
la part des carrières de type « employés » (classe 3) et la baisse de la part des carrières de type « cadres »
(classe 4).
Bien d'autres analyses sont envisageables : croiser la typologie avec d'autres variables (origine sociale,
etc.), construire l'espace des carrières possibles, étudier les interactions entre trajectoires familiales et
professionnelles, analyser la variance des dissimilarités entre séquences en fonction de plusieurs variables
« explicatives^[L'articulation entre méthodes « descriptives » et méthodes « explicatives » est un prolongement
possible de l'analyse de séquences. Cependant, l'analyse de séquences était envisagée par Abbott comme une
alternative à la sociologie quantitative *mainstream*, i.e le « paradigme des variables » et ses hypothèses
implicites souvent difficilement tenables (Abbott, 2001). Une bonne description solidement fondée théoriquement
vaut bien des « modèles explicatifs » (Savage, 2009).] »...
Mais l'exemple proposé est sans doute bien suffisant pour une première introduction !
## Pour aller plus loin
En premier lieu, la lecture du manuel d'utilisation de `TraMineR`{.pkg}, intitulé [*Mining sequence data in R with the TraMineR package: A user’s guide*](http://mephisto.unige.ch/pub/TraMineR/doc/TraMineR-Users-Guide.pdf) et écrit par Alexis Gabadinho, Gilbert Ritschard, Matthias Studer et Nicolas S. Muller, est fortement conseillée. Ce manuel ne se contente pas de présenter l'extension, mais aborde également la théorie sous-jacente de l'analyse de séquences, les différents formats de données, les différences approches (séquences de statut ou séquences de transitions par exemple), etc.
Pour une initiation en français, on pourra se référer à l'ouvrage de Nicolas Robette [*Explorer et décrire les parcours de vie : les typologies de trajectoires*](http://www.ceped.org/?article1064) sorti en 2011 aux éditions du Ceped.
L'extension `WeightedCluster`{.pkg} de Matthias Studer est un excellent complément à `TraMineR`{.pkg}. Il a également écrit un [*manuel de la librairie WeightedCluster : un guide pratique pour la création de typologies de trajectoires en sciences sociales avec R*](https://cran.r-project.org/web/packages/WeightedCluster/vignettes/WeightedClusterFR.pdf).
Enfin, l'extension `TraMineRextras`{.pkg} (<https://cran.r-project.org/package=TraMineRextras>) contient des fonctions complémentaires à `TraMineR`{.pkg}, plus ou moins en phase de test.
## Bibliographie
* Abbott A., 2001, *Time matters. On theory and method*, The University of Chicago Press.
* Abbott A., Hrycak A., 1990, « Measuring ressemblance in sequence data: an optimal matching
analysis of musicians' careers», *American journal of sociology*, (96), p.144-185.
<http://www.jstor.org/stable/10.2307/2780695>
* Abbott A., Tsay A., 2000, « Sequence analysis and optimal matching methods in sociology: Review
and prospect », *Sociological methods & research*, 29(1), p.3-33.
<http://smr.sagepub.com/content/29/1/3.short>
* Gabadinho, A., Ritschard, G., Müller, N.S. & Studer, M., 2011, « Analyzing and visualizing
state sequences in R with TraMineR », *Journal of Statistical Software*, 40(4), p.1-37.
<http://archive-ouverte.unige.ch/downloader/vital/pdf/tmp/4hff8pe6uhukqiavvgaluqmjq2/out.pdf>
* Grelet Y., 2002, « Des typologies de parcours. Méthodes et usages », *Document Génération* 92,
(20), 47 p. <http://www.cmh.greco.ens.fr/programs/Grelet_typolparc.pdf>
* Lelièvre É., Vivier G., 2001, « Évaluation d'une collecte à la croisée du quantitatif et du qualitatif :
l'enquête Biographies et entourage », *Population*, (6), p.1043-1073.
<http://www.persee.fr/web/revues/home/prescript/article/pop_0032-4663_2001_num_56_6_7217>
* Lemercier C., 2005, « Les carrières des membres des institutions consulaires parisiennes au XIX^e^
siècle », *Histoire et mesure*, XX (1-2), p.59-95. <http://histoiremesure.revues.org/786>
* Lesnard L., 2008, « Off-Scheduling within Dual-Earner Couples: An Unequal and Negative
Externality for Family Time », *American Journal of Sociology*, 114(2), p.447-490.
<http://laurent.lesnard.free.fr/IMG/pdf/lesnard_2008_off-scheduling_within_dual-earner_couples-2.pdf>
* Lesnard L., Saint Pol T. (de), 2006, « Introduction aux Méthodes d'Appariement Optimal (Optimal
Matching Analysis) », *Bulletin de Méthodologie Sociologique*, 90, p.5-25.
<http://bms.revues.org/index638.html>
* Robette N., 2011, *Explorer et décrire les parcours de vie : les typologies de trajectoires*, Ceped
(Les Clefs pour), 86 p.
<http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf>
* Robette N., 2012, « Du prosélytisme à la sécularisation. Le processus de diffusion de l'Optimal Matching
Analysis », *document de travail*.
<http://nicolas.robette.free.fr/Docs/Proselytisme_secularisation_NRobette.pdf>
* Robette N., Bry X., 2012, « Harpoon or bait? A comparison of various metrics to fish for life course
patterns », *Bulletin de Méthodologie Sociologique*, 116, p.5-24.
<http://nicolas.robette.free.fr/Docs/Harpoon_maggot_RobetteBry.pdf>
* Robette N., Thibault N., 2008, « L'analyse exploratoire de trajectoires professionnelles : analyse
harmonique qualitative ou appariement optimal ? », *Population*, 64(3), p.621-646.
<http://www.cairn.info/revue-population-2008-4-p-621.htm>
* Savage M., 2009, « Contemporary Sociology and the Challenge of Descriptive Assemblage »,
*European Journal of Social Theory*, 12(1), p.155-174.
<http://est.sagepub.com/content/12/1/155.short>