-
Notifications
You must be signed in to change notification settings - Fork 42
/
analyse-de-sequences.html
1126 lines (1027 loc) · 88.3 KB
/
analyse-de-sequences.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
<!DOCTYPE html>
<html lang="fr" xml:lang="fr">
<head>
<meta charset="utf-8" />
<meta name="generator" content="pandoc" />
<meta http-equiv="X-UA-Compatible" content="IE=EDGE" />
<title>Analyse de séquences</title>
<script src="libs/header-attrs-2.25/header-attrs.js"></script>
<script src="libs/jquery-3.6.0/jquery-3.6.0.min.js"></script>
<meta name="viewport" content="width=device-width, initial-scale=1" />
<link href="libs/bootstrap-3.3.5/css/paper.min.css" rel="stylesheet" />
<script src="libs/bootstrap-3.3.5/js/bootstrap.min.js"></script>
<script src="libs/bootstrap-3.3.5/shim/html5shiv.min.js"></script>
<script src="libs/bootstrap-3.3.5/shim/respond.min.js"></script>
<style>h1 {font-size: 34px;}
h1.title {font-size: 38px;}
h2 {font-size: 30px;}
h3 {font-size: 24px;}
h4 {font-size: 18px;}
h5 {font-size: 16px;}
h6 {font-size: 12px;}
code {color: inherit; background-color: rgba(0, 0, 0, 0.04);}
pre:not([class]) { background-color: white }</style>
<script src="libs/navigation-1.1/tabsets.js"></script>
<link href="libs/pagedtable-1.1/css/pagedtable.css" rel="stylesheet" />
<script src="libs/pagedtable-1.1/js/pagedtable.js"></script>
<link href="libs/anchor-sections-1.1.0/anchor-sections.css" rel="stylesheet" />
<link href="libs/anchor-sections-1.1.0/anchor-sections-hash.css" rel="stylesheet" />
<script src="libs/anchor-sections-1.1.0/anchor-sections.js"></script>
<meta name="robots" content="index, follow">
<link rel="stylesheet" href="./include/analyse-R.css" />
<script src="https://cdnjs.cloudflare.com/ajax/libs/clipboard.js/2.0.4/clipboard.min.js"></script>
<script type="text/javascript" src="./libs/bigfoot-2.1.4/bigfoot.min.js"></script>
<link rel="stylesheet" href="./libs/bigfoot-2.1.4/bigfoot-number.css" />
<link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/4.7.0/css/font-awesome.min.css" integrity="sha256-eZrrJcwDc/3uDhsdt61sL2oOBY362qM3lon1gyExkL0=" crossorigin="anonymous">
<link rel="stylesheet" href="./libs/colorbox-1.6.1/colorbox.css" />
<script type="text/javascript" src="./libs/colorbox-1.6.1/jquery.colorbox-min.js"></script>
<!--- favicon --->
<link rel="apple-touch-icon" sizes="57x57" href="./images/favicon/apple-icon-57x57.png">
<link rel="apple-touch-icon" sizes="60x60" href="./images/favicon/apple-icon-60x60.png">
<link rel="apple-touch-icon" sizes="72x72" href="./images/favicon/apple-icon-72x72.png">
<link rel="apple-touch-icon" sizes="76x76" href="./images/favicon/apple-icon-76x76.png">
<link rel="apple-touch-icon" sizes="114x114" href="./images/favicon/apple-icon-114x114.png">
<link rel="apple-touch-icon" sizes="120x120" href="./images/favicon/apple-icon-120x120.png">
<link rel="apple-touch-icon" sizes="144x144" href="./images/favicon/apple-icon-144x144.png">
<link rel="apple-touch-icon" sizes="152x152" href="./images/favicon/apple-icon-152x152.png">
<link rel="apple-touch-icon" sizes="180x180" href="./images/favicon/apple-icon-180x180.png">
<link rel="icon" type="image/png" sizes="192x192" href="./images/favicon/android-icon-192x192.png">
<link rel="icon" type="image/png" sizes="32x32" href="./images/favicon/favicon-32x32.png">
<link rel="icon" type="image/png" sizes="96x96" href="./images/favicon/favicon-96x96.png">
<link rel="icon" type="image/png" sizes="16x16" href="./images/favicon/favicon-16x16.png">
<link rel="manifest" href="./images/favicon/manifest.json">
<meta name="msapplication-TileColor" content="#ffffff">
<meta name="msapplication-TileImage" content="./images/favicon/ms-icon-144x144.png">
<meta name="theme-color" content="#ffffff">
<!-- Google tag (gtag.js) -->
<script async src="https://www.googletagmanager.com/gtag/js?id=G-86STMQ5JPT"></script>
<script>
window.dataLayer = window.dataLayer || [];
function gtag(){dataLayer.push(arguments);}
gtag('js', new Date());
gtag('config', 'G-86STMQ5JPT');
</script>
<style type="text/css">
code{white-space: pre-wrap;}
span.smallcaps{font-variant: small-caps;}
span.underline{text-decoration: underline;}
div.column{display: inline-block; vertical-align: top; width: 50%;}
div.hanging-indent{margin-left: 1.5em; text-indent: -1.5em;}
ul.task-list{list-style: none;}
.display.math{display: block; text-align: center; margin: 0.5rem auto;}
</style>
<style type="text/css">
code {
white-space: pre;
}
.sourceCode {
overflow: visible;
}
</style>
<style type="text/css" data-origin="pandoc">
pre > code.sourceCode { white-space: pre; position: relative; }
pre > code.sourceCode > span { display: inline-block; line-height: 1.25; }
pre > code.sourceCode > span:empty { height: 1.2em; }
.sourceCode { overflow: visible; }
code.sourceCode > span { color: inherit; text-decoration: inherit; }
div.sourceCode { margin: 1em 0; }
pre.sourceCode { margin: 0; }
@media screen {
div.sourceCode { overflow: auto; }
}
@media print {
pre > code.sourceCode { white-space: pre-wrap; }
pre > code.sourceCode > span { text-indent: -5em; padding-left: 5em; }
}
pre.numberSource code
{ counter-reset: source-line 0; }
pre.numberSource code > span
{ position: relative; left: -4em; counter-increment: source-line; }
pre.numberSource code > span > a:first-child::before
{ content: counter(source-line);
position: relative; left: -1em; text-align: right; vertical-align: baseline;
border: none; display: inline-block;
-webkit-touch-callout: none; -webkit-user-select: none;
-khtml-user-select: none; -moz-user-select: none;
-ms-user-select: none; user-select: none;
padding: 0 4px; width: 4em;
color: #aaaaaa;
}
pre.numberSource { margin-left: 3em; border-left: 1px solid #aaaaaa; padding-left: 4px; }
div.sourceCode
{ }
@media screen {
pre > code.sourceCode > span > a:first-child::before { text-decoration: underline; }
}
code span.al { color: #ff0000; font-weight: bold; } /* Alert */
code span.an { color: #60a0b0; font-weight: bold; font-style: italic; } /* Annotation */
code span.at { color: #7d9029; } /* Attribute */
code span.bn { color: #40a070; } /* BaseN */
code span.bu { color: #008000; } /* BuiltIn */
code span.cf { color: #007020; font-weight: bold; } /* ControlFlow */
code span.ch { color: #4070a0; } /* Char */
code span.cn { color: #880000; } /* Constant */
code span.co { color: #60a0b0; font-style: italic; } /* Comment */
code span.cv { color: #60a0b0; font-weight: bold; font-style: italic; } /* CommentVar */
code span.do { color: #ba2121; font-style: italic; } /* Documentation */
code span.dt { color: #902000; } /* DataType */
code span.dv { color: #40a070; } /* DecVal */
code span.er { color: #ff0000; font-weight: bold; } /* Error */
code span.ex { } /* Extension */
code span.fl { color: #40a070; } /* Float */
code span.fu { color: #06287e; } /* Function */
code span.im { color: #008000; font-weight: bold; } /* Import */
code span.in { color: #60a0b0; font-weight: bold; font-style: italic; } /* Information */
code span.kw { color: #007020; font-weight: bold; } /* Keyword */
code span.op { color: #666666; } /* Operator */
code span.ot { color: #007020; } /* Other */
code span.pp { color: #bc7a00; } /* Preprocessor */
code span.sc { color: #4070a0; } /* SpecialChar */
code span.ss { color: #bb6688; } /* SpecialString */
code span.st { color: #4070a0; } /* String */
code span.va { color: #19177c; } /* Variable */
code span.vs { color: #4070a0; } /* VerbatimString */
code span.wa { color: #60a0b0; font-weight: bold; font-style: italic; } /* Warning */
</style>
<script>
// apply pandoc div.sourceCode style to pre.sourceCode instead
(function() {
var sheets = document.styleSheets;
for (var i = 0; i < sheets.length; i++) {
if (sheets[i].ownerNode.dataset["origin"] !== "pandoc") continue;
try { var rules = sheets[i].cssRules; } catch (e) { continue; }
var j = 0;
while (j < rules.length) {
var rule = rules[j];
// check if there is a div.sourceCode rule
if (rule.type !== rule.STYLE_RULE || rule.selectorText !== "div.sourceCode") {
j++;
continue;
}
var style = rule.style.cssText;
// check if color or background-color is set
if (rule.style.color === '' && rule.style.backgroundColor === '') {
j++;
continue;
}
// replace div.sourceCode by a pre.sourceCode rule
sheets[i].deleteRule(j);
sheets[i].insertRule('pre.sourceCode{' + style + '}', j);
}
}
})();
</script>
<style type = "text/css">
.main-container {
max-width: 940px;
margin-left: auto;
margin-right: auto;
}
img {
max-width:100%;
}
.tabbed-pane {
padding-top: 12px;
}
.html-widget {
margin-bottom: 20px;
}
button.code-folding-btn:focus {
outline: none;
}
summary {
display: list-item;
}
details > summary > p:only-child {
display: inline;
}
pre code {
padding: 0;
}
</style>
<!-- tabsets -->
<style type="text/css">
.tabset-dropdown > .nav-tabs {
display: inline-table;
max-height: 500px;
min-height: 44px;
overflow-y: auto;
border: 1px solid #ddd;
border-radius: 4px;
}
.tabset-dropdown > .nav-tabs > li.active:before, .tabset-dropdown > .nav-tabs.nav-tabs-open:before {
content: "\e259";
font-family: 'Glyphicons Halflings';
display: inline-block;
padding: 10px;
border-right: 1px solid #ddd;
}
.tabset-dropdown > .nav-tabs.nav-tabs-open > li.active:before {
content: "\e258";
font-family: 'Glyphicons Halflings';
border: none;
}
.tabset-dropdown > .nav-tabs > li.active {
display: block;
}
.tabset-dropdown > .nav-tabs > li > a,
.tabset-dropdown > .nav-tabs > li > a:focus,
.tabset-dropdown > .nav-tabs > li > a:hover {
border: none;
display: inline-block;
border-radius: 4px;
background-color: transparent;
}
.tabset-dropdown > .nav-tabs.nav-tabs-open > li {
display: block;
float: none;
}
.tabset-dropdown > .nav-tabs > li {
display: none;
}
</style>
<!-- code folding -->
</head>
<body>
<div class="container-fluid main-container">
<nav>
<div class="navbar navbar-default navbar-fixed-top" role="navigation">
<div class="container">
<div class="navbar-header">
<button type="button" class="navbar-toggle collapsed" data-toggle="collapse" data-target="#navbar">
<span class="icon-bar"></span>
<span class="icon-bar"></span>
<span class="icon-bar"></span>
</button>
<a class="navbar-brand" href=".">analyse-R</a>
</div>
<div id="navbar" class="navbar-collapse collapse">
<ul class="nav navbar-nav">
<li class="dropdown">
<a href="manipuler" class="dropdown-toggle" data-toggle="dropdown" role="button" aria-expanded="false">Manipuler <span class="caret"></span></a>
<ul class="dropdown-menu multi-column columns-3" role="menu" id="menu_manipuler">
<div class="row">
<div class="col-sm-4">
<ul class="multi-column-dropdown">
<li class="dropdown-header">Prise en main</li>
<li><a href="presentation-et-philosophie.html">Présentation et Philosophie</a></li>
<li><a href="installation-de-R-et-RStudio.html">Installation de <strong>R</strong> et <strong>RStudio</strong></a></li>
<li><a href="premier-contact.html">Premier contact</a></li>
<li><a href="premier-travail-avec-les-donnees.html">Premier travail avec des données</a></li>
<li><a href="extensions.html">Extensions (installation, mise à jour)</a></li>
<li><a href="introduction-au-tidyverse.html">Introduction au <strong>tidyverse</strong></a></li>
<li><a href="vecteurs-indexation-et-assignation.html">Vecteurs, indexation et assignation</a></li>
<li><a href="listes-et-tableaux-de-donnees.html">Listes et Tableaux de données</a></li>
<li><a href="facteurs-et-vecteurs-labellises.html">Facteurs et vecteurs labellisés</a></li>
<li><a href="organiser-ses-fichiers.html">Organiser ses fichiers</a></li>
<li><a href="import-de-donnees.html">Import de données</a></li>
<li><a href="ou-trouver-de-l-aide.html">Où trouver de l'aide ?</a></li>
</ul>
</div>
<div class="col-sm-4">
<ul class="multi-column-dropdown">
<li class="dropdown-header">Manipulation de données</li>
<li><a href="visualiser-ses-donnees.html">Visualiser ses données</a></li>
<li><a href="recodage.html">Recodage de variables</a></li>
<li><a href="manipuler-les-donnees-avec-dplyr.html">Manipuler les données avec <strong>dplyr</strong></a></li>
<li><a href="manipulations-avancees-avec-data-table.html">Manipulations avancées avec <strong>data.table</strong></a></li>
<li><a href="tris.html">Tris</a></li>
<li><a href="sous-ensembles.html">Sous-ensembles</a></li>
<li><a href="fusion-de-tables.html">Fusion de tables</a></li>
<li><a href="gestion-des-dates.html">Gestion des dates</a></li>
<li><a href="fonctions-a-fenetre.html">Fonctions à fenêtre</a></li>
<li><a href="manipuler-du-texte.html">Manipuler du texte avec <strong>stringr</strong></a></li>
<li><a href="reorganiser-ses-donnees-avec-tidyr.html">Réorganiser ses données avec <strong>tidyr</strong></a></li>
<!--<li><a href="scraping.html.old">Scraping</a></li>-->
</ul>
</div>
<div class="col-sm-4">
<ul class="multi-column-dropdown">
<li class="dropdown-header">Exporter</li>
<li><a href="export-de-donnees.html">Export de données</a></li>
<li><a href="export-de-graphiques.html">Export de graphiques</a></li>
</ul>
</div>
</div>
</ul>
</li>
<li class="dropdown">
<a href="analyser" class="dropdown-toggle" data-toggle="dropdown" role="button" aria-expanded="false">Analyser <span class="caret"></span></a>
<ul class="dropdown-menu multi-column columns-3" role="menu" id="menu_analyser">
<div class="row">
<div class="col-sm-4">
<ul class="multi-column-dropdown">
<li class="dropdown-header">Statistiques introductives</li>
<li><a href="statistique-univariee.html">Statistique univariée</a></li>
<li><a href="statistique-bivariee.html">Statistique bivariée</a></li>
<li><a href="intro-ggplot2.html">Introduction à <strong>ggplot2</strong>, la grammaire des graphiques</a></li>
<li><a href="graphiques-bivaries-ggplot2.html">Graphiques univariés et bivariés avec <strong>ggplot2</strong></a></li>
<li><a href="donnees-ponderees.html">Données pondérées</a></li>
</ul>
</div>
<div class="col-sm-4">
<ul class="multi-column-dropdown">
<li class="dropdown-header">Statistiques intermédiaires</li>
<li><a href="intervalles-de-confiance.html">Intervalles de confiance</a></li>
<li><a href="comparaisons-moyennes-et-proportions.html">Comparaisons (moyennes et proportions)</a></li>
<li><a href="definir-un-plan-d-echantillonnage-complexe.html">Définir un plan d'échantillonnage complexe avec <strong>survey</strong></a></li>
<li><a href="regression-lineaire.html">Régression linéaire</a></li>
<li><a href="regression-logistique.html">Régression logistique binaire, multinomiale et ordinale</a></li>
<li><a href="analyse-des-correspondances-multiples.html">Analyse des correspondances multiples (ACM)</a></li>
<li><a href="classification-ascendante-hierarchique.html">Classification ascendante hiérarchique (CAH)</a></li>
</ul>
</div>
<div class="col-sm-4">
<ul class="multi-column-dropdown">
<li class="dropdown-header">Statistiques avancées</li>
<li><a href="gtsummary.html">Tableaux statistiques avancés avec <strong>gtsummary</strong></a></li>
<li><a href="effets-d-interaction.html">Effets d'interaction dans un modèle</a></li>
<li><a href="multicolinearite.html">Multicolinéarité dans la régression</a></li>
<li><a href="modeles.html">Quel type de modèles choisir ?</a></li>
<li><a href="analyse-de-survie.html">Analyse de survie</a></li>
<li><a href="analyse-de-sequences.html">Analyse de séquences</a></li>
<!--<li><a href="modeles-a-effets-aleatoires.html">Modèles à effets aléatoires (modèles mixtes et GEE)</a></li>-->
<li><a href="trajectoires-de-soins.html">Trajectoires de soins : un exemple de données longitudinales</a></li>
<li><a href="analyse-de-reseaux.html">Analyse de réseaux</a></li>
<li><a href="analyse-spatiale.html">Analyse spatiale</a></li>
<li><a href="analyse-textuelle.html">Analyse textuelle</a></li>
</ul>
</div>
</div>
</ul>
</li>
<li class="dropdown">
<a href="approfondir" class="dropdown-toggle" data-toggle="dropdown" role="button" aria-expanded="false">Approfondir <span class="caret"></span></a>
<ul class="dropdown-menu multi-column columns-3" role="menu" id="menu_approfondir">
<div class="row">
<div class="col-sm-4">
<ul class="multi-column-dropdown">
<li class="dropdown-header">Graphiques</li>
<li><a href="ggplot2.html"><strong>ggplot2</strong> et la grammaire des graphiques</a></li>
<li><a href="etendre-ggplot2.html">Étendre <strong>ggplot2</strong></a></li>
<li><a href="combiner-plusieurs-graphiques.html">Combiner plusieurs graphiques</a></li>
<li><a href="exemples-graphiques-avances.html">Exemples de graphiques avancés</a></li>
<li><a href="graphiques-interactifs.html">Graphiques interactifs</a></li>
<li><a href="lattice-graphiques-et-formules.html"><strong>lattice</strong> : graphiques et formules</a></li>
<li><a href="cartes.html">Cartes</a></li>
<li><a href="autres-extensions-graphiques.html">Autres extensions graphiques</a></li>
</ul>
</div>
<div class="col-sm-4">
<ul class="multi-column-dropdown">
<li class="dropdown-header">Programmation</li>
<li><a href="conditions-et-comparaisons.html">Conditions et comparaisons</a></li>
<li><a href="formules.html">Formules</a></li>
<li><a href="structures-conditionnelles.html">Structures conditionnelles</a></li>
<li><a href="vectorisation.html">Vectorisation (dont <strong>purrr</strong>)</a></li>
<li><a href="expressions-regulieres.html">Expressions régulières</a></li>
<!--<li class="dev"><a href="ecrire-ses-propres-fonctions.html">Écrire ses propres fonctions</a></li>-->
<li><a href="rmarkdown-les-rapports-automatises.html"><strong>R Markdown</strong> : les rapports automatisés</a></li>
</ul>
</div>
<div class="col-sm-4">
<ul class="multi-column-dropdown">
<li class="dropdown-header">Divers</li>
<li><a href="formater-nombres.html">Mettre en forme des nombres avec <strong>scales</strong></a></li>
<li><a href="couleurs.html">Couleurs et Palettes</a></li>
<li><a href="annotations-mathematiques.html">Annotations mathématiques</a></li>
<li><a href="calculer-un-age.html">Calculer un âge</a></li>
<li><a href="diagramme-de-lexis.html">Diagramme de Lexis</a></li>
</ul>
</div>
</div>
</ul>
</li>
<li class="dropdown">
<a href="index" class="dropdown-toggle" data-toggle="dropdown" role="button" aria-expanded="false">Index <span class="caret"></span></a>
<ul class="dropdown-menu" role="menu" id="menu_naviguer">
<li><a href="index-des-concepts.html">Index des concepts</a></li>
<li><a href="index-des-fonctions.html">Index des fonctions</a></li>
<li><a href="index-des-extensions.html">Index des extensions</a></li>
</ul>
</li>
<li><a href="analyse-R.pdf">PDF</a></li>
<li><a href="https://larmarange.github.io/guide-R/">guide-R</a></li>
<li><a href="https://larmarange.github.io/webin-R/">webin-R</a></li>
<li><a href="https://www.youtube.com/c/webinR"><i class="fa fa-youtube" aria-hidden="true"></i></a></li>
<!--<li><a href="https://github.com/larmarange/analyse-R">GitHub</a></li>-->
</ul>
<form id="rechercher" class="navbar-form navbar-right" role="search" style="padding-top: 5px;" method="get" action="https://duckduckgo.com/">
<div class="form-group">
<input name="q" type="text" class="form-control input-sm" placeholder="Rechercher">
</div>
<button type="submit" class="btn btn-default btn-sm" name="Rechercher">
<span class="glyphicon glyphicon-search" aria-hidden="true"></span>
</button>
</form>
</div><!--/.nav-collapse -->
</div><!--/.container -->
</div><!--/.navbar -->
</nav>
<div class="row">
<div class="visible-lg">
<a href="https://github.com/larmarange/analyse-R"><img style="position: absolute; top: 60px; left: 40px; border: 0;" src="images/fork_me.png" alt="Contribuer sur GitHub"></a>
</div>
<div class="col-sm-9" role="main">
<article>
<div id="header">
<h1 class="title toc-ignore">Analyse de séquences</h1>
</div>
<div id="TOC">
<ul>
<li><a href="#lanalyse-de-séquences" id="toc-lanalyse-de-séquences">L’analyse de séquences</a></li>
<li><a href="#charger-traminer-et-récupérer-les-données" id="toc-charger-traminer-et-récupérer-les-données">Charger TraMineR et récupérer les données</a></li>
<li><a href="#appariement-optimal-et-classification" id="toc-appariement-optimal-et-classification">Appariement optimal et classification</a></li>
<li><a href="#représentations-graphiques" id="toc-représentations-graphiques">Représentations graphiques</a></li>
<li><a href="#distribution-de-la-typologie" id="toc-distribution-de-la-typologie">Distribution de la typologie</a></li>
<li><a href="#pour-aller-plus-loin" id="toc-pour-aller-plus-loin">Pour aller plus loin</a></li>
<li><a href="#bibliographie" id="toc-bibliographie">Bibliographie</a></li>
</ul>
</div>
<div class="webin-R">
<p>Ce chapitre est évoqué dans le webin-R #16 (analyse de séquences) sur <a href="https://youtu.be/qCEougRU-bA">YouTube</a>.</p>
<p>Ce chapitre est évoqué dans le webin-R #19 (trajectoires de soins : un exemple de données longitudinales 3 : analyse de séquences) sur <a href="https://youtu.be/YgoSNYdfTyg">YouTube</a>.</p>
</div>
<div class="note">
<p>La version originale de ce chapitre est une reprise, avec l’aimable autorisation de son auteur, d’un article de Nicolas Robette intitulé <em>L’analyse de séquences : une introduction avec le logiciel R et le package TraMineR</em> et publié sur le blog Quanti (<a href="http://quanti.hypotheses.org/686/" class="uri">http://quanti.hypotheses.org/686/</a>).</p>
</div>
<p>Depuis les années 1980, l’étude quantitative des <dfn data-index="trajectoire biographique">trajectoires biographiques</dfn> (<dfn lang="en">life course analysis</dfn>) a pris une ampleur considérable dans le champ des sciences sociales. Les collectes de données micro-individuelles longitudinales se sont développées, principalement sous la forme de panels ou d’enquêtes rétrospectives. Parallèlement à cette multiplication des données disponibles, la méthodologie statistique a connu de profondes évolutions. L’<dfn>analyse des biographies</dfn><dfn data-index="biographie, analyse"></dfn> (<dfn lang="en">event history analysis</dfn>) — qui ajoute une dimension diachronique aux modèles économétriques mainstream — s’est rapidement imposée comme l’approche dominante : il s’agit de modéliser la durée des situations ou le risque d’occurrence des événements.</p>
<div id="lanalyse-de-séquences" class="section level2 hasAnchor">
<h2 class="hasAnchor">L’analyse de séquences<a href="#lanalyse-de-séquences" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>Cependant, ces dernières années ont vu la diffusion d’un large corpus de méthodes descriptives d’<dfn>analyse de séquences</dfn><dfn data-index="séquence, analyse"></dfn>, au sein desquelles l’<dfn>appariement optimal</dfn><dfn data-index="optimal, appariement"></dfn> (<dfn lang="en">optimal matching</dfn><dfn data-index="matching, optimal" lang="en"></dfn>) occupe une place centrale<a href="#fn1" class="footnote-ref" id="fnref1"><sup>1</sup></a>. L’objectif principal de ces méthodes est d’identifier — dans la diversité d’un corpus de séquences constituées de séries d’états successifs — les régularités, les ressemblances, puis le plus souvent de construire des typologies de « séquences-types ». L’analyse de séquences constitue donc un moyen de décrire mais aussi de mieux comprendre le déroulement de divers processus.</p>
<p>La majeure partie des applications de l’analyse de séquences traite de trajectoires biographiques ou de carrières professionnelles. Dans ces cas, chaque trajectoire ou chaque carrière est décrite par une séquence, autrement dit par une suite chronologiquement ordonnée de « moments » élémentaires, chaque moment correspondant à un « état » déterminé de la trajectoire (par exemple, pour les carrières professionnelles : être en emploi, au chômage ou en inactivité). Mais on peut bien sûr imaginer des types de séquences plus originaux : Andrew Abbott<a href="#fn2" class="footnote-ref" id="fnref2"><sup>2</sup></a>, le sociologue américain qui a introduit l’<em>optimal matching</em> dans les sciences scientifiques ou des séquences de pas de danses traditionnelles.</p>
<p>En France, les premiers travaux utilisant l’appariement optimal sont ceux de Claire Lemercier<a href="#fn3" class="footnote-ref" id="fnref3"><sup>3</sup></a> sur les carrières des membres des institutions consulaires parisiennes au <span class="smallcaps">xix</span><sup>e</sup> siècle (Lemercier, 2005), et de Laurent Lesnard<a href="#fn4" class="footnote-ref" id="fnref4"><sup>4</sup></a> sur les emplois du temps (Lesnard, 2008). Mais dès les années 1980, les chercheurs du Céreq construisaient des typologies de trajectoires d’insertion à l’aide des méthodes d’analyse des données « à la française » (analyse des correspondances, etc.)<a href="#fn5" class="footnote-ref" id="fnref5"><sup>5</sup></a>. Au final, on dénombre maintenant plus d’une centaine d’articles de sciences sociales contenant ou discutant des techniques empruntées à l’analyse de séquences.</p>
<p>Pour une présentation des différentes méthodes d’analyse de séquences disponibles et de leur mise en oeuvre pratique, il existe un petit manuel en français, publié en 2011 dernière aux éditions du Ceped (collection « Les clefs pour »<a href="#fn6" class="footnote-ref" id="fnref6"><sup>6</sup></a>) et disponible en pdf<a href="#fn7" class="footnote-ref" id="fnref7"><sup>7</sup></a> (Robette, 2011). De plus, un article récemment publié dans le <em>Bulletin de Méthodologie Sociologique</em> compare de manière systématique les résultats obtenus par les principales méthodes d’analyse de séquences (Robette & Bry, 2012). La conclusion en est qu’avec des données empiriques aussi structurées que celles que l’on utilise en sciences sociales, l’approche est robuste, c’est-à-dire qu’un changement de méthode aura peu d’influence sur les principaux résultats. Cependant, l’article tente aussi de décrire les spécificités de chaque méthode et les différences marginales qu’elles font apparaître,
afin de permettre aux chercheurs de mieux adapter leurs choix méthodologiques à leur question de recherche.</p>
<p>Afin d’illustrer la démarche de l’analyse de séquences, nous allons procéder ici à la description « pas à pas » d’un corpus de carrières professionnelles, issues de l’enquête <em>Biographies et entourage</em> (Ined, 2000)<a href="#fn8" class="footnote-ref" id="fnref8"><sup>8</sup></a>. Et pour ce faire, on va utiliser le logiciel <strong>R</strong>, qui propose la solution actuellement la plus complète et la plus puissante en matière d’analyse de séquences. Les méthodes d’analyse de séquences par analyses factorielles ou de correspondances ne nécessitent pas de logiciel spécifique : tous les logiciels de statistiques généralistes peuvent être utilisés (<strong>SAS</strong>, <strong>SPSS</strong>, <strong>Stata</strong>, <strong>R</strong>, etc.). En revanche, il n’existe pas de fonctions pour l’appariement optimal dans <strong>SAS</strong> ou <strong>SPSS</strong>. Certains logiciels gratuits implémentent l’appariement optimal (comme <strong>Chesa</strong><a href="#fn9"
class="footnote-ref" id="fnref9"><sup>9</sup></a> ou <strong>TDA</strong><a href="#fn10" class="footnote-ref" id="fnref10"><sup>10</sup></a>) mais il faut alors recourir à d’autres programmes pour dérouler l’ensemble de l’analyse (classification, représentation graphique). <strong>Stata</strong> propose le module <strong>sq</strong><a href="#fn11" class="footnote-ref" id="fnref11"><sup>11</sup></a>, qui dispose d’un éventail de fonctions intéressantes. Mais c’est <strong>R</strong> et le package <code class="pkg">TraMineR</code><a href="#fn12" class="footnote-ref" id="fnref12"><sup>12</sup></a>, développé par des collègues de l’Université de Genève (Gabadinho et al, 2011), qui fournit la solution la plus complète et la plus puissante à ce jour : on y trouve l’appariement optimal mais aussi d’autres algorithmes alternatifs, ainsi que de nombreuses fonctions de description des séquences et de représentation graphique.</p>
</div>
<div id="charger-traminer-et-récupérer-les-données" class="section level2 hasAnchor">
<h2 class="hasAnchor">Charger TraMineR et récupérer les données<a href="#charger-traminer-et-récupérer-les-données" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>Tout d’abord, à quoi ressemblent nos données ? On a reconstruit à partir de l’enquête les carrières de 1000 hommes. Pour chacune, on connaît la position professionnelle chaque année, de l’âge de 14 ans jusqu’à 50 ans. Cette position est codée de la manière suivante : les codes 1 à 6 correspondent aux groupes socioprofessionnels de la nomenclature des PCS de l’INSEE 13 (agriculteurs exploitants ; artisans, commerçants et chefs d’entreprise ; cadres et professions intellectuelles supérieures ; professions intermédiaires ; employés ; ouvriers) ; on y a ajouté « études » (code 7), « inactivité » (code 8) et « service militaire » (code 9). Le fichier de données comporte une ligne par individu et une colonne par année : la variable <em>csp1</em> correspond à la position à 14 ans, la variable <em>csp2</em> à la position à 15 ans, etc. Par ailleurs, les enquêtés étant tous nés entre 1930 et 1950, on ajoute à notre base une variable « génération » à trois modalités, prenant les valeurs
suivantes : 1=“1930-1938” ; 2=“1939-1945” ; 3=“1946-1950”. Au final, la base est constituée de 500 lignes et de 37 + 1 = 38 colonnes et se présente sous la forme d’un fichier texte au format <strong>csv</strong> (téléchargeable à <a href="http://larmarange.github.io/analyse-R/data/trajpro.csv" class="uri">http://larmarange.github.io/analyse-R/data/trajpro.csv</a>).</p>
<p>Une fois <strong>R</strong> ouvert, on commence par installer les extensions nécessaires à ce programme (opération à ne réaliser que lors de leur première utilisation) et par les charger en mémoire. L’extension <code class="pkg">TraMineR</code> propose de nombreuses fonctions pour l’analyse de séquences. L’extension <code class="pkg">cluster</code> comprend un certain nombre de méthodes de classification automatique<a href="#fn13" class="footnote-ref" id="fnref13"><sup>13</sup></a>.</p>
<div class="sourceCode" id="cb1"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb1-1"><a href="#cb1-1" tabindex="-1"></a><span class="fu">library</span>(TraMineR)</span></code></pre></div>
<pre><code>
TraMineR stable version 2.2-6 (Built: 2023-01-10)</code></pre>
<pre><code>Website: http://traminer.unige.ch</code></pre>
<pre><code>Please type 'citation("TraMineR")' for citation information.</code></pre>
<div class="sourceCode" id="cb5"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb5-1"><a href="#cb5-1" tabindex="-1"></a><span class="fu">library</span>(cluster)</span></code></pre></div>
<p>On importe ensuite les données, on recode la variable « génération » pour lui donner des étiquettes plus explicites. On jette également un coup d’oeil à la structure du tableau de données :</p>
<pre><code>Rows: 1000 Columns: 38
── Column specification ────────────────────────────────────
Delimiter: ","
dbl (38): csp1, csp2, csp3, csp4, csp5, csp6, csp7, csp8...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.</code></pre>
<div class="sourceCode" id="cb7"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb7-1"><a href="#cb7-1" tabindex="-1"></a>donnees <span class="ot"><-</span> <span class="fu">read.csv</span>(<span class="st">"http://larmarange.github.io/analyse-R/data/trajpro.csv"</span>, <span class="at">header =</span> T)</span></code></pre></div>
<div class="sourceCode" id="cb8"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb8-1"><a href="#cb8-1" tabindex="-1"></a>donnees<span class="sc">$</span>generation <span class="ot"><-</span> <span class="fu">factor</span>(donnees<span class="sc">$</span>generation, <span class="at">labels =</span> <span class="fu">c</span>(<span class="st">"1930-38"</span>, <span class="st">"1939-45"</span>, <span class="st">"1946-50"</span>))</span>
<span id="cb8-2"><a href="#cb8-2" tabindex="-1"></a><span class="fu">str</span>(donnees)</span></code></pre></div>
<pre><code>spc_tbl_ [1,000 × 38] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
$ csp1 : num [1:1000] 1 7 6 7 7 6 7 7 7 6 ...
$ csp2 : num [1:1000] 1 7 6 7 7 6 7 7 6 6 ...
$ csp3 : num [1:1000] 1 7 6 6 7 6 7 7 6 6 ...
$ csp4 : num [1:1000] 1 7 6 6 7 6 7 7 6 6 ...
$ csp5 : num [1:1000] 1 7 6 6 7 6 7 7 6 6 ...
$ csp6 : num [1:1000] 1 7 6 6 7 6 9 7 6 6 ...
$ csp7 : num [1:1000] 6 9 6 6 7 6 9 7 9 6 ...
$ csp8 : num [1:1000] 6 9 9 6 7 6 9 7 4 6 ...
$ csp9 : num [1:1000] 6 6 9 6 7 6 9 3 4 9 ...
$ csp10 : num [1:1000] 6 6 9 6 7 6 4 3 4 9 ...
$ csp11 : num [1:1000] 6 6 6 6 3 6 4 3 4 6 ...
$ csp12 : num [1:1000] 6 6 6 6 3 6 4 3 4 6 ...
$ csp13 : num [1:1000] 6 6 6 6 3 6 4 3 4 6 ...
$ csp14 : num [1:1000] 6 4 6 6 3 6 4 3 4 6 ...
$ csp15 : num [1:1000] 6 4 6 6 3 6 4 3 4 6 ...
$ csp16 : num [1:1000] 6 4 6 6 3 6 6 3 4 6 ...
$ csp17 : num [1:1000] 6 4 6 6 3 6 6 3 4 6 ...
$ csp18 : num [1:1000] 6 4 6 6 3 6 6 3 4 6 ...
$ csp19 : num [1:1000] 6 4 6 6 3 6 6 3 4 6 ...
$ csp20 : num [1:1000] 6 4 6 6 3 6 6 3 4 6 ...
$ csp21 : num [1:1000] 6 4 6 6 6 6 6 3 4 6 ...
$ csp22 : num [1:1000] 6 4 6 6 6 6 6 3 4 4 ...
$ csp23 : num [1:1000] 6 4 6 6 6 6 6 3 4 4 ...
$ csp24 : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
$ csp25 : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
$ csp26 : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
$ csp27 : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
$ csp28 : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
$ csp29 : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
$ csp30 : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
$ csp31 : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
$ csp32 : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
$ csp33 : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
$ csp34 : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
$ csp35 : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
$ csp36 : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
$ csp37 : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
$ generation: Factor w/ 3 levels "1930-38","1939-45",..: 2 1 1 3 2 3 1 1 2 1 ...
- attr(*, "spec")=
.. cols(
.. csp1 = col_double(),
.. csp2 = col_double(),
.. csp3 = col_double(),
.. csp4 = col_double(),
.. csp5 = col_double(),
.. csp6 = col_double(),
.. csp7 = col_double(),
.. csp8 = col_double(),
.. csp9 = col_double(),
.. csp10 = col_double(),
.. csp11 = col_double(),
.. csp12 = col_double(),
.. csp13 = col_double(),
.. csp14 = col_double(),
.. csp15 = col_double(),
.. csp16 = col_double(),
.. csp17 = col_double(),
.. csp18 = col_double(),
.. csp19 = col_double(),
.. csp20 = col_double(),
.. csp21 = col_double(),
.. csp22 = col_double(),
.. csp23 = col_double(),
.. csp24 = col_double(),
.. csp25 = col_double(),
.. csp26 = col_double(),
.. csp27 = col_double(),
.. csp28 = col_double(),
.. csp29 = col_double(),
.. csp30 = col_double(),
.. csp31 = col_double(),
.. csp32 = col_double(),
.. csp33 = col_double(),
.. csp34 = col_double(),
.. csp35 = col_double(),
.. csp36 = col_double(),
.. csp37 = col_double(),
.. generation = col_double()
.. )
- attr(*, "problems")=<externalptr> </code></pre>
<p>On a bien 1000 observations et 38 variables. On définit maintenant des <em>labels</em> pour les différents états qui composent les séquences et on crée un objet « séquence » avec <code data-pkg="TraMineR">seqdef</code> :</p>
<div class="sourceCode" id="cb10"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb10-1"><a href="#cb10-1" tabindex="-1"></a>labels <span class="ot"><-</span> <span class="fu">c</span>(<span class="st">"agric"</span>, <span class="st">"acce"</span>, <span class="st">"cadr"</span>, <span class="st">"pint"</span>, <span class="st">"empl"</span>, <span class="st">"ouvr"</span>, <span class="st">"etud"</span>, <span class="st">"inact"</span>, <span class="st">"smil"</span>)</span>
<span id="cb10-2"><a href="#cb10-2" tabindex="-1"></a>seq <span class="ot"><-</span> <span class="fu">seqdef</span>(donnees[, <span class="dv">1</span><span class="sc">:</span><span class="dv">37</span>], <span class="at">states =</span> labels)</span></code></pre></div>
<pre><code> [>] state coding:</code></pre>
<pre><code> [alphabet] [label] [long label] </code></pre>
<pre><code> 1 1 agric agric</code></pre>
<pre><code> 2 2 acce acce</code></pre>
<pre><code> 3 3 cadr cadr</code></pre>
<pre><code> 4 4 pint pint</code></pre>
<pre><code> 5 5 empl empl</code></pre>
<pre><code> 6 6 ouvr ouvr</code></pre>
<pre><code> 7 7 etud etud</code></pre>
<pre><code> 8 8 inact inact</code></pre>
<pre><code> 9 9 smil smil</code></pre>
<pre><code> [>] 1000 sequences in the data set</code></pre>
<pre><code> [>] min/max sequence length: 37/37</code></pre>
</div>
<div id="appariement-optimal-et-classification" class="section level2 hasAnchor">
<h2 class="hasAnchor">Appariement optimal et classification<a href="#appariement-optimal-et-classification" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>Ces étapes préalables achevées, on peut comparer les séquences en calculant les dissimilarités entre paires de séquences. On va ici utiliser la méthode la plus répandue, l’appariement optimal (<em>optimal matching</em>). Cette méthode consiste, pour chaque paire de séquences, à compter le nombre minimal de modifications (substitutions, suppressions, insertions) qu’il faut faire subir à l’une des séquences pour obtenir l’autre. On peut considérer que chaque modification est équivalente, mais il est aussi possible de prendre en compte le fait que les « distances » entre les différents états n’ont pas toutes la même « valeur » (par exemple, la distance sociale entre emploi à temps plein et chômage est plus grande qu’entre emploi à temps plein et emploi à temps partiel), en assignant aux différentes modifications des « coûts » distincts. Dans notre exemple, on va créer avec <code data-pkg="TraMineR">seqsubm</code> une « matrice des coûts de substitution » dans laquelle tous les coûts
sont constants et égaux à 2<a href="#fn14" class="footnote-ref" id="fnref14"><sup>14</sup></a> :</p>
<div class="sourceCode" id="cb24"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb24-1"><a href="#cb24-1" tabindex="-1"></a>couts <span class="ot"><-</span> <span class="fu">seqsubm</span>(seq, <span class="at">method =</span> <span class="st">"CONSTANT"</span>, <span class="at">cval =</span> <span class="dv">2</span>)</span></code></pre></div>
<pre><code> [>] creating 9x9 substitution-cost matrix using 2 as constant value</code></pre>
<p>Ensuite, on calcule la <dfn>matrice de distances</dfn><dfn data-index="distance, matrice"></dfn> entre les séquences (i.e contenant les « dissimilarités » entre les séquences) avec <code data-pkg="TraMineR">seqdist</code>, avec un coût d’insertion/suppression (<em>indel</em>) que l’on fixe ici à 1 :</p>
<div class="sourceCode" id="cb26"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb26-1"><a href="#cb26-1" tabindex="-1"></a>seq.om <span class="ot"><-</span> <span class="fu">seqdist</span>(seq, <span class="at">method =</span> <span class="st">"OM"</span>, <span class="at">indel =</span> <span class="dv">1</span>, <span class="at">sm =</span> couts)</span></code></pre></div>
<pre><code> [>] 1000 sequences with 9 distinct states</code></pre>
<pre><code> [>] checking 'sm' (size and triangle inequality)</code></pre>
<pre><code> [>] 818 distinct sequences </code></pre>
<pre><code> [>] min/max sequence lengths: 37/37</code></pre>
<pre><code> [>] computing distances using the OM metric</code></pre>
<pre><code> [>] elapsed time: 0.89 secs</code></pre>
<div class="important">
<p>Ce cas de figure où tous les coûts de substitution sont égaux à 2 et le coût <em>indel</em> égal à 1 correspond à un cas particulier d’<em>optimal matching</em> que l’on appelle la <dfn lang="en">Longuest Common Subsequence</dfn> ou <dfn>LCS</dfn>. Elle peut se calculer directement avec <code>seqdist</code> de la manière suivante :</p>
<div class="sourceCode" id="cb33"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb33-1"><a href="#cb33-1" tabindex="-1"></a>seq.om <span class="ot"><-</span> <span class="fu">seqdist</span>(seq, <span class="at">method =</span> <span class="st">"LCS"</span>)</span></code></pre></div>
<pre><code> [>] 1000 sequences with 9 distinct states</code></pre>
<pre><code> [>] creating a 'sm' with a substitution cost of 2</code></pre>
<pre><code> [>] creating 9x9 substitution-cost matrix using 2 as constant value</code></pre>
<pre><code> [>] 818 distinct sequences </code></pre>
<pre><code> [>] min/max sequence lengths: 37/37</code></pre>
<pre><code> [>] computing distances using the LCS metric</code></pre>
<pre><code> [>] elapsed time: 0.89 secs</code></pre>
<p>En l’absence d’hypothèses fortes sur les différents statuts auxquels correspond notre alphabet (données hiérarchisées, croisement de différentes dimensions…), nous vous recommandons d’utiliser prioritairement la métrique LCS pour calculer la distance entre les séquences.</p>
<p>On pourra trouver un exemple de matrice de coûts hiérarchisée dans le chapitre sur les <a href="trajectoires-de-soins.html">trajectoires de soins</a>.</p>
</div>
<p>Cette matrice des distances ou des dissimilarités entre séquences peut ensuite être utilisée pour une <dfn>classification ascendante hiérarchique</dfn> (<dfn>CAH</dfn>), qui permet de regrouper les séquences en un certain nombre de « classes » en fonction de leur proximité :</p>
<div class="sourceCode" id="cb41"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb41-1"><a href="#cb41-1" tabindex="-1"></a>seq.dist <span class="ot"><-</span> <span class="fu">hclust</span>(<span class="fu">as.dist</span>(seq.om), <span class="at">method =</span> <span class="st">"ward.D2"</span>)</span></code></pre></div>
<p>Avec la fonction <code data-pkg="stats" data-rdoc="dendrogram">plot</code>, il est possible de tracer l’arbre de la classification (<dfn>dendrogramme</dfn>).</p>
<figure>
<div class="sourceCode" id="cb42"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb42-1"><a href="#cb42-1" tabindex="-1"></a><span class="fu">plot</span>(<span class="fu">as.dendrogram</span>(seq.dist), <span class="at">leaflab =</span> <span class="st">"none"</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-10-1.png" width="1050" />
<figcaption>
Dendrogramme de la classification des séquences
</figcaption>
</figure>
<p>De même, on peut représenter les <dfn data-index="saut d'inertie">sauts d’inertie</dfn><dfn data-index="inertie, saut"></dfn>.</p>
<figure>
<div class="sourceCode" id="cb43"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb43-1"><a href="#cb43-1" tabindex="-1"></a><span class="fu">plot</span>(<span class="fu">sort</span>(seq.dist<span class="sc">$</span>height, <span class="at">decreasing =</span> <span class="cn">TRUE</span>)[<span class="dv">1</span><span class="sc">:</span><span class="dv">20</span>], <span class="at">type =</span> <span class="st">"s"</span>, <span class="at">xlab =</span> <span class="st">"nb de classes"</span>, <span class="at">ylab =</span> <span class="st">"inertie"</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-11-1.png" width="1050" />
<figcaption>
Sauts d’inertie de la classification des séquences
</figcaption>
</figure>
<p>L’observation, sur ce dendogramme ou sur la courbe des sauts d’inertie, des sauts d’inertie des dernières étapes de la classification peut servir de guide pour déterminer le nombre de classes que l’on va retenir pour la suite des analyses. Une première inflexion dans la courbe des sauts d’inertie apparaît au niveau d’une partition en 5 classes. On voit aussi une seconde inflexion assez nette à 7 classes. Mais il faut garder en tête le fait que ces outils ne sont que des guides, le choix devant avant tout se faire après différents essais, en fonction de l’intérêt des résultats par rapport à la question de recherche et en arbitrant entre exhaustivité et parcimonie.</p>
<p>On fait ici le choix d’une <dfn>partition</dfn> en 5 classes :</p>
<div class="sourceCode" id="cb44"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb44-1"><a href="#cb44-1" tabindex="-1"></a>nbcl <span class="ot"><-</span> <span class="dv">5</span></span>
<span id="cb44-2"><a href="#cb44-2" tabindex="-1"></a>seq.part <span class="ot"><-</span> <span class="fu">cutree</span>(seq.dist, nbcl)</span>
<span id="cb44-3"><a href="#cb44-3" tabindex="-1"></a>seq.part <span class="ot"><-</span> <span class="fu">factor</span>(seq.part, <span class="at">labels =</span> <span class="fu">paste</span>(<span class="st">"classe"</span>, <span class="dv">1</span><span class="sc">:</span>nbcl, <span class="at">sep =</span> <span class="st">"."</span>))</span></code></pre></div>
</div>
<div id="représentations-graphiques" class="section level2 hasAnchor">
<h2 class="hasAnchor">Représentations graphiques<a href="#représentations-graphiques" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>Pour se faire une première idée de la nature des classes de la typologie, il existe un certain nombre de représentations graphiques. Les chronogrammes (<em>state distribution plots</em>) présentent une série de coupes transversales : pour chaque âge, on a les proportions d’individus de la classe dans les différentes situations (agriculteur, étudiant, etc.). Ce graphique s’obtient avec <code data-pkg="TraMineR" data-rdoc="seqplot">seqdplot</code> :</p>
<figure>
<div class="sourceCode" id="cb45"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb45-1"><a href="#cb45-1" tabindex="-1"></a><span class="fu">seqdplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">xtlab =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>, <span class="at">border =</span> <span class="cn">NA</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-13-1.png" width="1050" />
<figcaption>
Chronogrammes
</figcaption>
</figure>
<p>Chacune des classes semble caractérisée par un groupe professionnel principal : profession intermédiaire pour la classe 1, ouvrier pour la 2, employé pour la 3, cadre pour la 4 et indépendant pour la 5. Cependant, on aperçoit aussi des « couches » d’autres couleurs, indiquant que l’ensemble des carrières ne sont probablement pas stables.</p>
<p>Les « <dfn dataindex="tapis des séquences">tapis</dfn><dfn data-index="séquence, tapis"></dfn> » (<dfn lang="en">index plots</dfn>), obtenus avec <code data-pkg="TraMineR" data-rdoc="seqplot">seqIplot</code>, permettent de mieux visualiser la dimension individuelle des séquences. Chaque segment horizontal représente une séquence, découpée en sous-segments correspondant aux aux différents états successifs qui composent la séquence.</p>
<figure>
<div class="sourceCode" id="cb46"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb46-1"><a href="#cb46-1" tabindex="-1"></a><span class="fu">seqIplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">xtlab =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>, <span class="at">space =</span> <span class="dv">0</span>, <span class="at">border =</span> <span class="cn">NA</span>, <span class="at">yaxis =</span> <span class="cn">FALSE</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-14-1.png" width="1050" />
<figcaption>
Tapis des séquences triés
</figcaption>
</figure>
<p>Il est possible de trier les séquences pour rendre les tapis plus lisibles (on trie ici par <dfn lang="en">multidimensional scaling</dfn> à l’aide de la fonction <code data-pkg="stats">cmdscale</code>).</p>
<figure>
<div class="sourceCode" id="cb47"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb47-1"><a href="#cb47-1" tabindex="-1"></a>ordre <span class="ot"><-</span> <span class="fu">cmdscale</span>(<span class="fu">as.dist</span>(seq.om), <span class="at">k =</span> <span class="dv">1</span>)</span>
<span id="cb47-2"><a href="#cb47-2" tabindex="-1"></a><span class="fu">seqIplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">sortv =</span> ordre, <span class="at">xtlab =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>, <span class="at">space =</span> <span class="dv">0</span>, <span class="at">border =</span> <span class="cn">NA</span>, <span class="at">yaxis =</span> <span class="cn">FALSE</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-15-1.png" width="1050" />
<figcaption>
Tapis des séquences triés par multidimensional scaling
</figcaption>
</figure>
<p>On voit mieux apparaître ainsi l’hétérogénéité de certaines classes. Les classes 1, 3 et 4, par exemple, semblent regrouper des carrières relativement stables (respectivement de professions intermédiaires, d’employés et de cadres) et des carrières plus « mobiles » commencées comme ouvrier (classes 1 et 3, en orange) ou comme profession intermédiaire (classe 4, en rouge). De même, la majorité des membres de la dernière classe commencent leur carrière dans un groupe professionnel distinct de celui qu’ils occuperont par la suite (indépendants). Ces distinctions apparaissent d’ailleurs si on relance le programme avec un nombre plus élevé de classes (en remplaçant le 5 de la ligne <code>nbcl <- 5</code> par 7, seconde inflexion de la courbe des sauts d’inertie, et en exécutant de nouveau le programme à partir de cette ligne) : les stables et les mobiles se trouvent alors dans des classes distinctes.</p>
<p>Le package <code class="pkg">seqhandbook</code> propose une fonction <code data-pkg="seqhandbook">seq_heatmap</code> permettant de représenter le tapis de l’ensemble des séquences selon l’ordre du dendrogramme.</p>
<figure>
<div class="sourceCode" id="cb48"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb48-1"><a href="#cb48-1" tabindex="-1"></a><span class="fu">library</span>(seqhandbook)</span></code></pre></div>
<pre><code>
Attachement du package : 'seqhandbook'</code></pre>
<pre><code>L'objet suivant est masqué depuis 'package:JLutils':
seq_heatmap</code></pre>
<div class="sourceCode" id="cb51"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb51-1"><a href="#cb51-1" tabindex="-1"></a><span class="fu">seq_heatmap</span>(seq, seq.dist, <span class="at">labCol =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-16-1.png" width="1050" />
<figcaption>
Tapis des séquences trié selon le dendrogramme
</figcaption>
</figure>
<div class="note">
<p>Il est possible de reproduire un tapis de séquence avec <code class="pkg">ggplot2</code>. Outre le fait que cela fournit plus d’options de personnalisation du graphique, cela permets également à ce que la hauteur de chaque classe sur le graphique soit proportionnelle aux nombre d’invidus.</p>
<p>En premier lieu, on a va ajouter à notre fichier de données des identifiants individuels, la typologie crée et l’ordre obtenu par <em>multidimensional scaling</em>.</p>
<div class="sourceCode" id="cb52"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb52-1"><a href="#cb52-1" tabindex="-1"></a>donnees<span class="sc">$</span>id <span class="ot"><-</span> <span class="fu">row.names</span>(donnees)</span>
<span id="cb52-2"><a href="#cb52-2" tabindex="-1"></a>donnees<span class="sc">$</span>classe <span class="ot"><-</span> seq.part</span>
<span id="cb52-3"><a href="#cb52-3" tabindex="-1"></a>donnees<span class="sc">$</span>ordre <span class="ot"><-</span> <span class="fu">rank</span>(ordre, <span class="at">ties.method =</span> <span class="st">"random"</span>)</span></code></pre></div>
<p>Ensuite, il est impératif que nos données soient dans un format long et <em>tidy</em>, c’est-à-dire avec une ligne par individu et par pas de temps. Pour cela on aura recours à la fonction <code data-pkg="tidyr">gather</code> (voir le <a href="reorganiser-ses-donnees-avec-tidyr.html">chapitre dédié</a>).</p>
<div class="sourceCode" id="cb53"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb53-1"><a href="#cb53-1" tabindex="-1"></a><span class="fu">library</span>(tidyr)</span>
<span id="cb53-2"><a href="#cb53-2" tabindex="-1"></a>long <span class="ot"><-</span> donnees <span class="sc">%>%</span> <span class="fu">gather</span>(csp1<span class="sc">:</span>csp37, <span class="at">key =</span> annee, <span class="at">value =</span> csp)</span></code></pre></div>
<p>On va mettre en forme la variable <code>csp</code> sous forme de facteur, récupérer l’année grace à la fonction <code data-pkg="stringr">str_sub</code> de l’extension <code class="pkg">stringr</code> (voir le chapitre sur la <a href="manipuler-du-texte.html#extraire-des-sous-chaines-par-position">manipulation de texte</a>) et recalculer l’âge.</p>
<div class="sourceCode" id="cb54"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb54-1"><a href="#cb54-1" tabindex="-1"></a>long<span class="sc">$</span>csp <span class="ot"><-</span> <span class="fu">factor</span>(long<span class="sc">$</span>csp, <span class="at">labels =</span> <span class="fu">c</span>(<span class="st">"agriculteur"</span>, <span class="st">"art./com./chefs"</span>, <span class="st">"cadres"</span>, <span class="st">"prof. int."</span>, <span class="st">"employés"</span>, <span class="st">"ouvriers"</span>, <span class="st">"étudiants"</span>, <span class="st">"inactifs"</span>, <span class="st">"serv. militaire"</span>))</span>
<span id="cb54-2"><a href="#cb54-2" tabindex="-1"></a><span class="fu">library</span>(stringr)</span>
<span id="cb54-3"><a href="#cb54-3" tabindex="-1"></a>long<span class="sc">$</span>annee <span class="ot"><-</span> <span class="fu">as.integer</span>(<span class="fu">str_sub</span>(long<span class="sc">$</span>annee, <span class="dv">4</span>))</span>
<span id="cb54-4"><a href="#cb54-4" tabindex="-1"></a>long<span class="sc">$</span>age <span class="ot"><-</span> long<span class="sc">$</span>annee <span class="sc">+</span> <span class="dv">13</span></span></code></pre></div>
<p>Il n’y a plus qu’à faire notre graphique grace à <code data-pkg="ggplot2">geom_raster</code> qui permet de colorier chaque pixel. Techniquement, pour un tapis de séquence, il s’agit de représenter le temps sur l’axe horizontal et les individus sur l’axe vertical. Petite astuce : plutôt que d’utiliser <code>id</code> pour l’axe vertical, nous utilisons <code>ordre</code> afin de trier les observations. Par ailleurs, il est impératif de transformer au passage <code>ordre</code> en facteur afin que <code class="pkg">ggplot2</code> puisse recalculer proprement et séparément les axes pour chaque facette<a href="#fn15" class="footnote-ref" id="fnref15"><sup>15</sup></a>, à condition de ne pas oublier l’option <code>scales = "free_y"</code> dans l’appel à <code data-pkg="ggplot2">facet_grid</code>. Les autres commandes ont surtout pour vocation d’améliorer le rendu du graphique (voir le <a href="ggplot2.html">chapitre dédié à ggplot2</a>).</p>
<div class="sourceCode" id="cb55"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb55-1"><a href="#cb55-1" tabindex="-1"></a><span class="fu">library</span>(ggplot2)</span>
<span id="cb55-2"><a href="#cb55-2" tabindex="-1"></a><span class="fu">ggplot</span>(long) <span class="sc">+</span></span>
<span id="cb55-3"><a href="#cb55-3" tabindex="-1"></a> <span class="fu">aes</span>(<span class="at">x =</span> age, <span class="at">y =</span> <span class="fu">factor</span>(ordre), <span class="at">fill =</span> csp) <span class="sc">+</span></span>
<span id="cb55-4"><a href="#cb55-4" tabindex="-1"></a> <span class="fu">geom_raster</span>() <span class="sc">+</span></span>
<span id="cb55-5"><a href="#cb55-5" tabindex="-1"></a> <span class="fu">ylab</span>(<span class="st">""</span>) <span class="sc">+</span></span>
<span id="cb55-6"><a href="#cb55-6" tabindex="-1"></a> <span class="fu">scale_y_discrete</span>(<span class="at">label =</span> <span class="cn">NULL</span>) <span class="sc">+</span></span>
<span id="cb55-7"><a href="#cb55-7" tabindex="-1"></a> <span class="fu">theme_bw</span>() <span class="sc">+</span></span>
<span id="cb55-8"><a href="#cb55-8" tabindex="-1"></a> <span class="fu">theme</span>(<span class="at">legend.position =</span> <span class="st">"bottom"</span>) <span class="sc">+</span></span>
<span id="cb55-9"><a href="#cb55-9" tabindex="-1"></a> <span class="fu">scale_fill_brewer</span>(<span class="at">palette =</span> <span class="st">"Set3"</span>) <span class="sc">+</span></span>
<span id="cb55-10"><a href="#cb55-10" tabindex="-1"></a> <span class="fu">facet_grid</span>(classe <span class="sc">~</span> ., <span class="at">scales =</span> <span class="st">"free_y"</span>, <span class="at">space =</span> <span class="st">"free_y"</span>) <span class="sc">+</span></span>
<span id="cb55-11"><a href="#cb55-11" tabindex="-1"></a> <span class="fu">scale_x_continuous</span>(<span class="at">limits =</span> <span class="fu">c</span>(<span class="dv">14</span>, <span class="dv">50</span>), <span class="at">breaks =</span> <span class="fu">c</span>(<span class="dv">14</span>, <span class="dv">20</span>, <span class="dv">25</span>, <span class="dv">30</span>, <span class="dv">35</span>, <span class="dv">40</span>, <span class="dv">45</span>, <span class="dv">50</span>), <span class="at">expand =</span> <span class="fu">c</span>(<span class="dv">0</span>, <span class="dv">0</span>))</span></code></pre></div>
<pre><code>Warning: Removed 2000 rows containing missing values
(`geom_raster()`).</code></pre>
<p><img src="graphs/analyse-de-sequences/unnamed-chunk-20-1.png" width="1050" /></p>
</div>
<p>La distance des séquences d’une classe au centre de cette classe, obtenue avec <code data-pkg="TraMineR">disscenter</code>, permet de mesurer plus précisément l’<dfn>homogénéité des classes</dfn><dfn data-index="classe, homogénéité"></dfn>. Nous utilisons ici <code data-pkg="stats">aggregate</code> pour calculer la moyenne par classe :</p>
<div class="sourceCode" id="cb57"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb57-1"><a href="#cb57-1" tabindex="-1"></a><span class="fu">aggregate</span>(<span class="fu">disscenter</span>(<span class="fu">as.dist</span>(seq.om), <span class="at">group =</span> seq.part), <span class="fu">list</span>(seq.part), mean)</span></code></pre></div>
<div data-pagedtable="false">
<script data-pagedtable-source type="application/json">
{"columns":[{"label":["Group.1"],"name":[1],"type":["fct"],"align":["left"]},{"label":["x"],"name":[2],"type":["dbl"],"align":["right"]}],"data":[{"1":"classe.1","2":"15.797993"},{"1":"classe.2","2":"6.791962"},{"1":"classe.3","2":"15.032359"},{"1":"classe.4","2":"7.352675"},{"1":"classe.5","2":"14.219915"}],"options":{"columns":{"min":{},"max":[10]},"rows":{"min":[10],"max":[10]},"pages":{}}}
</script>
</div>
<p>Cela nous confirme que les classes 1, 3 et 5 sont nettement plus hétérogènes que les autres, alors que la classe 2 est la plus homogène.</p>
<p>D’autres représentations graphiques existent pour poursuivre l’examen de la typologie. On peut visualiser les 10 séquences les plus fréquentes de chaque classe avec <code data-pkg="TraMineR" data-rdoc="seqplot">seqfplot</code>.</p>
<figure>
<div class="sourceCode" id="cb58"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb58-1"><a href="#cb58-1" tabindex="-1"></a><span class="fu">seqfplot</span>(seq, <span class="at">group =</span> seq.part)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-22-1.png" width="1050" />
<figcaption>
Séquences les plus fréquentes de chaque classe
</figcaption>
</figure>
<p>On peut aussi visualiser avec <code data-pkg="TraMineR" data-rdoc="seqplot">seqmsplot</code> l’état modal (celui qui correspond au plus grand nombre de séquences de la classe) à chaque âge.</p>
<figure>
<div class="sourceCode" id="cb59"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb59-1"><a href="#cb59-1" tabindex="-1"></a><span class="fu">seqmsplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">xtlab =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>, <span class="at">main =</span> <span class="st">"classe"</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-23-1.png" width="1050" />
<figcaption>
Statut modal à chaque âge
</figcaption>
</figure>
<p>On peut également représenter avec <code data-pkg="TraMineR" data-rdoc="seqplot">seqmtplot</code> les durées moyennes passées dans les différents états.</p>
<figure>
<div class="sourceCode" id="cb60"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb60-1"><a href="#cb60-1" tabindex="-1"></a><span class="fu">seqmtplot</span>(seq, <span class="at">group =</span> seq.part)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-24-1.png" width="1050" />
<figcaption>
Durée moyenne dans chaque statut
</figcaption>
</figure>
<p>La fonction <code data-pkg="TraMineR" data-rdoc="seqplot">seqrplot</code> cherche à identifier des séquences <q>représentatives</q> de chaque classe. Plusieurs méthodes sont proposées (voir <code data-pkg="TraMineR">seqrep</code>). La méthode <code>dist</code> cherche à identifier des séquences centrales à chaque classe, c’est-à-dire situées à proximité du centre de la classe. Selon l’hétérogénéité de la classe, plusieurs séquences <q>représentatives</q> peuvent être renvoyées. ATTENTION : il faut être prudent dans l’interprétation de ces séquences centrales de la classe dans la mesure où elles ne rendent pas toujours compte de ce qui se passe dans la classe et où elles peuvent induire en erreur quand la classe est assez hétérogène. Il faut donc les considérer tout en ayant en tête l’ensemble du tapis de séquence pour voir si elles sont effectivement de bonnes candidates.</p>
<figure>
<div class="sourceCode" id="cb61"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb61-1"><a href="#cb61-1" tabindex="-1"></a><span class="fu">seqrplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">dist.matrix =</span> seq.om, <span class="at">criterion =</span> <span class="st">"dist"</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-25-1.png" width="1050" />
<figcaption>
Séquences <q>représentatives</q> de chaque classe
</figcaption>
</figure>
<p>Enfin, l’<dfn>entropie transversale</dfn><dfn data-index="transversale, entropie"></dfn> décrit l’évolution de l’homogénéité de la classe. Pour un âge donné, une entropie proche de 0 signifie que tous les individus de la classe (ou presque) sont dans la même situation. À l’inverse, l’entropie est de 1 si les individus sont dispersés dans toutes les situations. Ce type de graphique produit par <code data-pkg="TraMineR" data-rdoc="seqplot">seqHtplot</code> peut être pratique pour localiser les moments de transition, l’insertion professionnelle ou une mobilité sociale ascendante.</p>
<figure>
<div class="sourceCode" id="cb62"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb62-1"><a href="#cb62-1" tabindex="-1"></a><span class="fu">seqHtplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">xtlab =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-26-1.png" width="1050" />
<figcaption>
Entropie transversale
</figcaption>
</figure>
</div>
<div id="distribution-de-la-typologie" class="section level2 hasAnchor">
<h2 class="hasAnchor">Distribution de la typologie<a href="#distribution-de-la-typologie" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>On souhaite maintenant connaître la distribution de la typologie (en effectifs et en pourcentages) :</p>
<div class="sourceCode" id="cb63"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb63-1"><a href="#cb63-1" tabindex="-1"></a><span class="fu">library</span>(questionr)</span>
<span id="cb63-2"><a href="#cb63-2" tabindex="-1"></a><span class="fu">freq</span>(seq.part)</span></code></pre></div>
<div data-pagedtable="false">
<script data-pagedtable-source type="application/json">
{"columns":[{"label":[""],"name":["_rn_"],"type":[""],"align":["left"]},{"label":["n"],"name":[1],"type":["dbl"],"align":["right"]},{"label":["%"],"name":[2],"type":["dbl"],"align":["right"]},{"label":["val%"],"name":[3],"type":["dbl"],"align":["right"]}],"data":[{"1":"366","2":"36.6","3":"36.6","_rn_":"classe.1"},{"1":"183","2":"18.3","3":"18.3","_rn_":"classe.2"},{"1":"104","2":"10.4","3":"10.4","_rn_":"classe.3"},{"1":"296","2":"29.6","3":"29.6","_rn_":"classe.4"},{"1":"51","2":"5.1","3":"5.1","_rn_":"classe.5"}],"options":{"columns":{"min":{},"max":[10]},"rows":{"min":[10],"max":[10]},"pages":{}}}
</script>
</div>
<p>On poursuit ensuite la description des classes en croisant la typologie avec la variable <em>generation</em> :</p>
<div class="sourceCode" id="cb64"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb64-1"><a href="#cb64-1" tabindex="-1"></a><span class="fu">cprop</span>(<span class="fu">table</span>(seq.part, donnees<span class="sc">$</span>generation))</span></code></pre></div>
<pre><code>
seq.part 1930-38 1939-45 1946-50 Ensemble
classe.1 35.6 32.5 40.8 36.6
classe.2 19.7 18.3 17.0 18.3
classe.3 6.5 13.9 11.2 10.4
classe.4 31.8 29.2 27.9 29.6
classe.5 6.5 6.1 3.0 5.1
Total 100.0 100.0 100.0 100.0 </code></pre>
<div class="sourceCode" id="cb66"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb66-1"><a href="#cb66-1" tabindex="-1"></a><span class="fu">chisq.test</span>(<span class="fu">table</span>(seq.part, donnees<span class="sc">$</span>generation))</span></code></pre></div>
<pre><code>
Pearson's Chi-squared test
data: table(seq.part, donnees$generation)
X-squared = 18.518, df = 8, p-value = 0.01766</code></pre>
<p>Le lien entre le fait d’avoir un certain type de carrières et la cohorte de naissance est significatif à un seuil de 15 %. On constate par exemple l’augmentation continue de la proportion de carrières de type « professions intermédiaires » (classe 1) et, entre les deux cohortes les plus anciennes, l’augmentation de la part des carrières de type « employés » (classe 3) et la baisse de la part des carrières de type « cadres » (classe 4).</p>
<p>Bien d’autres analyses sont envisageables : croiser la typologie avec d’autres variables (origine sociale, etc.), construire l’espace des carrières possibles, étudier les interactions entre trajectoires familiales et professionnelles, analyser la variance des dissimilarités entre séquences en fonction de plusieurs variables « explicatives<a href="#fn16" class="footnote-ref" id="fnref16"><sup>16</sup></a> »…</p>
<p>Mais l’exemple proposé est sans doute bien suffisant pour une première introduction !</p>
</div>
<div id="pour-aller-plus-loin" class="section level2 hasAnchor">
<h2 class="hasAnchor">Pour aller plus loin<a href="#pour-aller-plus-loin" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>En premier lieu, la lecture du manuel d’utilisation de <code class="pkg">TraMineR</code>, intitulé <a href="http://mephisto.unige.ch/pub/TraMineR/doc/TraMineR-Users-Guide.pdf"><em>Mining sequence data in R with the TraMineR package: A user’s guide</em></a> et écrit par Alexis Gabadinho, Gilbert Ritschard, Matthias Studer et Nicolas S. Muller, est fortement conseillée. Ce manuel ne se contente pas de présenter l’extension, mais aborde également la théorie sous-jacente de l’analyse de séquences, les différents formats de données, les différences approches (séquences de statut ou séquences de transitions par exemple), etc.</p>
<p>Pour une initiation en français, on pourra se référer à l’ouvrage de Nicolas Robette <a href="http://www.ceped.org/?article1064"><em>Explorer et décrire les parcours de vie : les typologies de trajectoires</em></a> sorti en 2011 aux éditions du Ceped.</p>
<p>L’extension <code class="pkg">WeightedCluster</code> de Matthias Studer est un excellent complément à <code class="pkg">TraMineR</code>. Il a également écrit un <a href="https://cran.r-project.org/web/packages/WeightedCluster/vignettes/WeightedClusterFR.pdf"><em>manuel de la librairie WeightedCluster : un guide pratique pour la création de typologies de trajectoires en sciences sociales avec R</em></a>.</p>
<p>Enfin, l’extension <code class="pkg">TraMineRextras</code> (<a href="https://cran.r-project.org/package=TraMineRextras" class="uri">https://cran.r-project.org/package=TraMineRextras</a>) contient des fonctions complémentaires à <code class="pkg">TraMineR</code>, plus ou moins en phase de test.</p>
</div>
<div id="bibliographie" class="section level2 hasAnchor">
<h2 class="hasAnchor">Bibliographie<a href="#bibliographie" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<ul>
<li>Abbott A., 2001, <em>Time matters. On theory and method</em>, The University of Chicago Press.</li>
<li>Abbott A., Hrycak A., 1990, « Measuring ressemblance in sequence data: an optimal matching analysis of musicians’ careers», <em>American journal of sociology</em>, (96), p.144-185. <a href="http://www.jstor.org/stable/10.2307/2780695" class="uri">http://www.jstor.org/stable/10.2307/2780695</a></li>
<li>Abbott A., Tsay A., 2000, « Sequence analysis and optimal matching methods in sociology: Review and prospect », <em>Sociological methods & research</em>, 29(1), p.3-33. <a href="http://smr.sagepub.com/content/29/1/3.short" class="uri">http://smr.sagepub.com/content/29/1/3.short</a></li>
<li>Gabadinho, A., Ritschard, G., Müller, N.S. & Studer, M., 2011, « Analyzing and visualizing state sequences in R with TraMineR », <em>Journal of Statistical Software</em>, 40(4), p.1-37. <a href="http://archive-ouverte.unige.ch/downloader/vital/pdf/tmp/4hff8pe6uhukqiavvgaluqmjq2/out.pdf" class="uri">http://archive-ouverte.unige.ch/downloader/vital/pdf/tmp/4hff8pe6uhukqiavvgaluqmjq2/out.pdf</a></li>
<li>Grelet Y., 2002, « Des typologies de parcours. Méthodes et usages », <em>Document Génération</em> 92, (20), 47 p. <a href="http://www.cmh.greco.ens.fr/programs/Grelet_typolparc.pdf" class="uri">http://www.cmh.greco.ens.fr/programs/Grelet_typolparc.pdf</a></li>
<li>Lelièvre É., Vivier G., 2001, « Évaluation d’une collecte à la croisée du quantitatif et du qualitatif : l’enquête Biographies et entourage », <em>Population</em>, (6), p.1043-1073. <a href="http://www.persee.fr/web/revues/home/prescript/article/pop_0032-4663_2001_num_56_6_7217" class="uri">http://www.persee.fr/web/revues/home/prescript/article/pop_0032-4663_2001_num_56_6_7217</a></li>
<li>Lemercier C., 2005, « Les carrières des membres des institutions consulaires parisiennes au XIX<sup>e</sup> siècle », <em>Histoire et mesure</em>, XX (1-2), p.59-95. <a href="http://histoiremesure.revues.org/786" class="uri">http://histoiremesure.revues.org/786</a></li>
<li>Lesnard L., 2008, « Off-Scheduling within Dual-Earner Couples: An Unequal and Negative Externality for Family Time », <em>American Journal of Sociology</em>, 114(2), p.447-490. <a href="http://laurent.lesnard.free.fr/IMG/pdf/lesnard_2008_off-scheduling_within_dual-earner_couples-2.pdf" class="uri">http://laurent.lesnard.free.fr/IMG/pdf/lesnard_2008_off-scheduling_within_dual-earner_couples-2.pdf</a></li>
<li>Lesnard L., Saint Pol T. (de), 2006, « Introduction aux Méthodes d’Appariement Optimal (Optimal Matching Analysis) », <em>Bulletin de Méthodologie Sociologique</em>, 90, p.5-25. <a href="http://bms.revues.org/index638.html" class="uri">http://bms.revues.org/index638.html</a></li>
<li>Robette N., 2011, <em>Explorer et décrire les parcours de vie : les typologies de trajectoires</em>, Ceped (Les Clefs pour), 86 p. <a href="http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf" class="uri">http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf</a></li>
<li>Robette N., 2012, « Du prosélytisme à la sécularisation. Le processus de diffusion de l’Optimal Matching Analysis », <em>document de travail</em>. <a href="http://nicolas.robette.free.fr/Docs/Proselytisme_secularisation_NRobette.pdf" class="uri">http://nicolas.robette.free.fr/Docs/Proselytisme_secularisation_NRobette.pdf</a></li>
<li>Robette N., Bry X., 2012, « Harpoon or bait? A comparison of various metrics to fish for life course patterns », <em>Bulletin de Méthodologie Sociologique</em>, 116, p.5-24. <a href="http://nicolas.robette.free.fr/Docs/Harpoon_maggot_RobetteBry.pdf" class="uri">http://nicolas.robette.free.fr/Docs/Harpoon_maggot_RobetteBry.pdf</a></li>
<li>Robette N., Thibault N., 2008, « L’analyse exploratoire de trajectoires professionnelles : analyse harmonique qualitative ou appariement optimal ? », <em>Population</em>, 64(3), p.621-646. <a href="http://www.cairn.info/revue-population-2008-4-p-621.htm" class="uri">http://www.cairn.info/revue-population-2008-4-p-621.htm</a></li>
<li>Savage M., 2009, « Contemporary Sociology and the Challenge of Descriptive Assemblage », <em>European Journal of Social Theory</em>, 12(1), p.155-174. <a href="http://est.sagepub.com/content/12/1/155.short" class="uri">http://est.sagepub.com/content/12/1/155.short</a></li>
</ul>
</div>
<div class="footnotes footnotes-end-of-document">
<hr />
<ol>
<li id="fn1"><p>Pour une analyse des conditions sociales de la diffusion de l’analyse de séquences dans le champ des sciences sociales, voir Robette, 2012.<a href="#fnref1" class="footnote-back">↩︎</a></p></li>
<li id="fn2"><p><a href="http://home.uchicago.edu/~aabbott/" class="uri">http://home.uchicago.edu/~aabbott/</a><a href="#fnref2" class="footnote-back">↩︎</a></p></li>
<li id="fn3"><p><a href="http://lemercier.ouvaton.org/document.php?id=62" class="uri">http://lemercier.ouvaton.org/document.php?id=62</a><a href="#fnref3" class="footnote-back">↩︎</a></p></li>
<li id="fn4"><p><a href="http://laurent.lesnard.free.fr/article.php3?id_article=22" class="uri">http://laurent.lesnard.free.fr/article.php3?id_article=22</a><a href="#fnref4" class="footnote-back">↩︎</a></p></li>
<li id="fn5"><p>Voir par exemple l’article d’Yvette Grelet (2002).<a href="#fnref5" class="footnote-back">↩︎</a></p></li>
<li id="fn6"><p><a href="http://www.ceped.org/?rubrique57" class="uri">http://www.ceped.org/?rubrique57</a><a href="#fnref6" class="footnote-back">↩︎</a></p></li>
<li id="fn7"><p><a href="http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf" class="uri">http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf</a><a href="#fnref7" class="footnote-back">↩︎</a></p></li>
<li id="fn8"><p>Pour une analyse plus poussée de ces données, avec deux méthodes différentes, voir Robette & Thibault, 2008. Pour une présentation de l’enquête, voir Lelièvre & Vivier, 2001.<a href="#fnref8" class="footnote-back">↩︎</a></p></li>
<li id="fn9"><p><a href="http://home.fsw.vu.nl/ch.elzinga/" class="uri">http://home.fsw.vu.nl/ch.elzinga/</a><a href="#fnref9" class="footnote-back">↩︎</a></p></li>
<li id="fn10"><p><a href="http://steinhaus.stat.ruhr-uni-bochum.de/tda.html" class="uri">http://steinhaus.stat.ruhr-uni-bochum.de/tda.html</a><a href="#fnref10" class="footnote-back">↩︎</a></p></li>
<li id="fn11"><p><a href="http://www.stata-journal.com/article.html?article=st0111" class="uri">http://www.stata-journal.com/article.html?article=st0111</a><a href="#fnref11" class="footnote-back">↩︎</a></p></li>
<li id="fn12"><p><a href="http://mephisto.unige.ch/traminer/" class="uri">http://mephisto.unige.ch/traminer/</a><a href="#fnref12" class="footnote-back">↩︎</a></p></li>
<li id="fn13"><p>Pour une présentation plus détaillée, voir le chapitre sur la <a href="classification-ascendante-hierarchique.html">classification ascendante hiérarchique (CAH)</a>.<a href="#fnref13" class="footnote-back">↩︎</a></p></li>
<li id="fn14"><p>Le fonctionnement de l’algorithme d’appariement optimal — et notamment le choix des coûts — est décrit dans le chapitre 9 du manuel de <code class="pkg">TraMineR</code> (<a href="http://mephisto.unige.ch/pub/TraMineR/doc/TraMineR-Users-Guide.pdf" class="uri">http://mephisto.unige.ch/pub/TraMineR/doc/TraMineR-Users-Guide.pdf</a>).<a href="#fnref14" class="footnote-back">↩︎</a></p></li>
<li id="fn15"><p>Essayez le même code mais avec <code>y = ordre</code> au lieu de <code>y = factor(ordre)</code> et vous comprendrez tout l’intérêt de cette astuce.<a href="#fnref15" class="footnote-back">↩︎</a></p></li>
<li id="fn16"><p>L’articulation entre méthodes « descriptives » et méthodes « explicatives » est un prolongement possible de l’analyse de séquences. Cependant, l’analyse de séquences était envisagée par Abbott comme une alternative à la sociologie quantitative <em>mainstream</em>, i.e le « paradigme des variables » et ses hypothèses implicites souvent difficilement tenables (Abbott, 2001). Une bonne description solidement fondée théoriquement vaut bien des « modèles explicatifs » (Savage, 2009).<a href="#fnref16" class="footnote-back">↩︎</a></p></li>
</ol>
</div>
</article>
</div>
<div class="col-sm-3" role="complementary">
<nav class="hidden-print hidden-xs" id="nav_sidebar">
</nav>
</div>
</div>
<script>
// manage active state of menu based on current page
$(document).ready(function () {
// active menu
href = window.location.pathname;
href = href.substr(href.lastIndexOf('/') + 1);
if (href=='') href = 'index.html';
$('a[href="' + href + '"]').parent().addClass('active');
$('a[href="' + href + '"]').parent().parents('li').addClass('active');
// élargir la page d'accueil
if (href=='index.html') $('.col-sm-9').attr('class','col-sm-12');
// rechercher
$("#rechercher").submit(function(event) {
$('input[name="q"]').val($('input[name="q"]').val() + ' site:larmarange.github.io/analyse-R');
});
// sidebar
$("#nav_sidebar").append($("#TOC").html());
$("#nav_sidebar ul").addClass("nav nav-stacked");
$("#TOC").addClass("visible-xs-block");
$('body').scrollspy({
target: '#nav_sidebar',
offset: 40
});
// Identifier les <pre> fermant
$('pre').next("*:not(pre)").prev().addClass('last'); // Dernier <pre> de chaque groupe contigu de <pre>
$('pre').parent().each(function (){
$(this).children('pre').last().addClass('last');
}); // Si <pre> est le dernier enfant de son parent
// Ajout liens rdocumentation et tooltip
$("code[data-pkg]").each(function( index ) {
pkg = $(this).attr('data-pkg');
if ($(this).attr('data-rdoc') !== undefined) {
rdocumentation = $(this).attr('data-rdoc');
} else {
rdocumentation = $(this).text();
}
fonction = $(this).text();
//$(this).wrap('<a href="http://www.rdocumentation.org/packages/'+pkg+'/functions/'+rdocumentation+'">');
$(this).wrap('<a href="http://rdrr.io/pkg/'+pkg+'/sym/'+rdocumentation+'">');
$(this).attr('data-toggle','tooltip');
$(this).attr('data-placement','top');
$(this).attr('title','package : ' + pkg);
$('[data-toggle="tooltip"]').tooltip();
});
$("code.pkg").each(function( index ) {
//$(this).wrap('<a href="http://www.rdocumentation.org/packages/'+$(this).text()+'">');
$(this).wrap('<a href="http://rdrr.io/pkg/'+$(this).text()+'">');
});
// Figures
$("figure").each(function( index ) {
if ($(this).children("figcaption").length > 0)
$(this).children("figcaption:first").prepend('<span class="figure-number">Figure '+(index+1)+'.</span> ');
else
$(this).append($("<figcaption>").append('<span class="figure-number">Figure '+(index+1)+'</span>'));
});
// Colorbox
/*----
jQuery('article div img').colorbox({
maxWidth: '90%',
maxHeight: '90%',
rel: 'figures',
current: "",
href: function(){
return $(this).attr('src');
},
title: function(){
return $(this).attr('alt');
}
});
jQuery('article div img').css('cursor', 'pointer');
jQuery('figure img').colorbox({
maxWidth: '90%',
maxHeight: '90%',
rel: 'figures',
current: "",
href: function(){
return $(this).attr('src');
},
title: function(){
return $(this).parent().children("figcaption").text();
}
});
jQuery('figure img').css('cursor', 'pointer');
-----*/
/* Clipboard --------------------------*/
function changeTooltipMessage(element, msg) {
var tooltipOriginalTitle=element.getAttribute('data-original-title');
element.setAttribute('data-original-title', msg);
$(element).tooltip('show');
element.setAttribute('data-original-title', tooltipOriginalTitle);
}
if(ClipboardJS.isSupported()) {
$(document).ready(function() {
var copyButton = "<button type='button' class='btn btn-primary btn-copy-ex' type = 'submit' title='Copier dans le presse-papier' aria-label='Copier dans le presse-papier' data-toggle='tooltip' data-placement='left auto' data-trigger='hover' data-clipboard-copy><i class='fa fa-copy'></i></button>";