analyse-de-sequences.html

<!DOCTYPE html>

<html lang="fr" xml:lang="fr">

<head>

<meta charset="utf-8" />
<meta name="generator" content="pandoc" />
<meta http-equiv="X-UA-Compatible" content="IE=EDGE" />


<title>Analyse de séquences</title>

<script src="libs/header-attrs-2.25/header-attrs.js"></script>
<script src="libs/jquery-3.6.0/jquery-3.6.0.min.js"></script>
<meta name="viewport" content="width=device-width, initial-scale=1" />
<link href="libs/bootstrap-3.3.5/css/paper.min.css" rel="stylesheet" />
<script src="libs/bootstrap-3.3.5/js/bootstrap.min.js"></script>
<script src="libs/bootstrap-3.3.5/shim/html5shiv.min.js"></script>
<script src="libs/bootstrap-3.3.5/shim/respond.min.js"></script>
<style>h1 {font-size: 34px;}
       h1.title {font-size: 38px;}
       h2 {font-size: 30px;}
       h3 {font-size: 24px;}
       h4 {font-size: 18px;}
       h5 {font-size: 16px;}
       h6 {font-size: 12px;}
       code {color: inherit; background-color: rgba(0, 0, 0, 0.04);}
       pre:not([class]) { background-color: white }</style>
<script src="libs/navigation-1.1/tabsets.js"></script>
<link href="libs/pagedtable-1.1/css/pagedtable.css" rel="stylesheet" />
<script src="libs/pagedtable-1.1/js/pagedtable.js"></script>
<link href="libs/anchor-sections-1.1.0/anchor-sections.css" rel="stylesheet" />
<link href="libs/anchor-sections-1.1.0/anchor-sections-hash.css" rel="stylesheet" />
<script src="libs/anchor-sections-1.1.0/anchor-sections.js"></script>
<meta name="robots" content="index, follow">
<link rel="stylesheet" href="./include/analyse-R.css" />
<script src="https://cdnjs.cloudflare.com/ajax/libs/clipboard.js/2.0.4/clipboard.min.js"></script>
<script type="text/javascript" src="./libs/bigfoot-2.1.4/bigfoot.min.js"></script>
<link rel="stylesheet" href="./libs/bigfoot-2.1.4/bigfoot-number.css" />
<link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/4.7.0/css/font-awesome.min.css" integrity="sha256-eZrrJcwDc/3uDhsdt61sL2oOBY362qM3lon1gyExkL0=" crossorigin="anonymous">
<link rel="stylesheet" href="./libs/colorbox-1.6.1/colorbox.css" />
<script type="text/javascript" src="./libs/colorbox-1.6.1/jquery.colorbox-min.js"></script>
<!--- favicon --->
<link rel="apple-touch-icon" sizes="57x57" href="./images/favicon/apple-icon-57x57.png">
<link rel="apple-touch-icon" sizes="60x60" href="./images/favicon/apple-icon-60x60.png">
<link rel="apple-touch-icon" sizes="72x72" href="./images/favicon/apple-icon-72x72.png">
<link rel="apple-touch-icon" sizes="76x76" href="./images/favicon/apple-icon-76x76.png">
<link rel="apple-touch-icon" sizes="114x114" href="./images/favicon/apple-icon-114x114.png">
<link rel="apple-touch-icon" sizes="120x120" href="./images/favicon/apple-icon-120x120.png">
<link rel="apple-touch-icon" sizes="144x144" href="./images/favicon/apple-icon-144x144.png">
<link rel="apple-touch-icon" sizes="152x152" href="./images/favicon/apple-icon-152x152.png">
<link rel="apple-touch-icon" sizes="180x180" href="./images/favicon/apple-icon-180x180.png">
<link rel="icon" type="image/png" sizes="192x192"  href="./images/favicon/android-icon-192x192.png">
<link rel="icon" type="image/png" sizes="32x32" href="./images/favicon/favicon-32x32.png">
<link rel="icon" type="image/png" sizes="96x96" href="./images/favicon/favicon-96x96.png">
<link rel="icon" type="image/png" sizes="16x16" href="./images/favicon/favicon-16x16.png">
<link rel="manifest" href="./images/favicon/manifest.json">
<meta name="msapplication-TileColor" content="#ffffff">
<meta name="msapplication-TileImage" content="./images/favicon/ms-icon-144x144.png">
<meta name="theme-color" content="#ffffff">
<!-- Google tag (gtag.js) -->
<script async src="https://www.googletagmanager.com/gtag/js?id=G-86STMQ5JPT"></script>
<script>
  window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());

  gtag('config', 'G-86STMQ5JPT');
</script>

<style type="text/css">
  code{white-space: pre-wrap;}
  span.smallcaps{font-variant: small-caps;}
  span.underline{text-decoration: underline;}
  div.column{display: inline-block; vertical-align: top; width: 50%;}
  div.hanging-indent{margin-left: 1.5em; text-indent: -1.5em;}
  ul.task-list{list-style: none;}
      .display.math{display: block; text-align: center; margin: 0.5rem auto;}
  </style>


<style type="text/css">
  code {
    white-space: pre;
  }
  .sourceCode {
    overflow: visible;
  }
</style>
<style type="text/css" data-origin="pandoc">
pre > code.sourceCode { white-space: pre; position: relative; }
pre > code.sourceCode > span { display: inline-block; line-height: 1.25; }
pre > code.sourceCode > span:empty { height: 1.2em; }
.sourceCode { overflow: visible; }
code.sourceCode > span { color: inherit; text-decoration: inherit; }
div.sourceCode { margin: 1em 0; }
pre.sourceCode { margin: 0; }
@media screen {
div.sourceCode { overflow: auto; }
}
@media print {
pre > code.sourceCode { white-space: pre-wrap; }
pre > code.sourceCode > span { text-indent: -5em; padding-left: 5em; }
}
pre.numberSource code
  { counter-reset: source-line 0; }
pre.numberSource code > span
  { position: relative; left: -4em; counter-increment: source-line; }
pre.numberSource code > span > a:first-child::before
  { content: counter(source-line);
    position: relative; left: -1em; text-align: right; vertical-align: baseline;
    border: none; display: inline-block;
    -webkit-touch-callout: none; -webkit-user-select: none;
    -khtml-user-select: none; -moz-user-select: none;
    -ms-user-select: none; user-select: none;
    padding: 0 4px; width: 4em;
    color: #aaaaaa;
  }
pre.numberSource { margin-left: 3em; border-left: 1px solid #aaaaaa;  padding-left: 4px; }
div.sourceCode
  {   }
@media screen {
pre > code.sourceCode > span > a:first-child::before { text-decoration: underline; }
}
code span.al { color: #ff0000; font-weight: bold; } /* Alert */
code span.an { color: #60a0b0; font-weight: bold; font-style: italic; } /* Annotation */
code span.at { color: #7d9029; } /* Attribute */
code span.bn { color: #40a070; } /* BaseN */
code span.bu { color: #008000; } /* BuiltIn */
code span.cf { color: #007020; font-weight: bold; } /* ControlFlow */
code span.ch { color: #4070a0; } /* Char */
code span.cn { color: #880000; } /* Constant */
code span.co { color: #60a0b0; font-style: italic; } /* Comment */
code span.cv { color: #60a0b0; font-weight: bold; font-style: italic; } /* CommentVar */
code span.do { color: #ba2121; font-style: italic; } /* Documentation */
code span.dt { color: #902000; } /* DataType */
code span.dv { color: #40a070; } /* DecVal */
code span.er { color: #ff0000; font-weight: bold; } /* Error */
code span.ex { } /* Extension */
code span.fl { color: #40a070; } /* Float */
code span.fu { color: #06287e; } /* Function */
code span.im { color: #008000; font-weight: bold; } /* Import */
code span.in { color: #60a0b0; font-weight: bold; font-style: italic; } /* Information */
code span.kw { color: #007020; font-weight: bold; } /* Keyword */
code span.op { color: #666666; } /* Operator */
code span.ot { color: #007020; } /* Other */
code span.pp { color: #bc7a00; } /* Preprocessor */
code span.sc { color: #4070a0; } /* SpecialChar */
code span.ss { color: #bb6688; } /* SpecialString */
code span.st { color: #4070a0; } /* String */
code span.va { color: #19177c; } /* Variable */
code span.vs { color: #4070a0; } /* VerbatimString */
code span.wa { color: #60a0b0; font-weight: bold; font-style: italic; } /* Warning */

</style>
<script>
// apply pandoc div.sourceCode style to pre.sourceCode instead
(function() {
  var sheets = document.styleSheets;
  for (var i = 0; i < sheets.length; i++) {
    if (sheets[i].ownerNode.dataset["origin"] !== "pandoc") continue;
    try { var rules = sheets[i].cssRules; } catch (e) { continue; }
    var j = 0;
    while (j < rules.length) {
      var rule = rules[j];
      // check if there is a div.sourceCode rule
      if (rule.type !== rule.STYLE_RULE || rule.selectorText !== "div.sourceCode") {
        j++;
        continue;
      }
      var style = rule.style.cssText;
      // check if color or background-color is set
      if (rule.style.color === '' && rule.style.backgroundColor === '') {
        j++;
        continue;
      }
      // replace div.sourceCode by a pre.sourceCode rule
      sheets[i].deleteRule(j);
      sheets[i].insertRule('pre.sourceCode{' + style + '}', j);
    }
  }
})();
</script>


<style type = "text/css">
.main-container {
  max-width: 940px;
  margin-left: auto;
  margin-right: auto;
}
img {
  max-width:100%;
}
.tabbed-pane {
  padding-top: 12px;
}
.html-widget {
  margin-bottom: 20px;
}
button.code-folding-btn:focus {
  outline: none;
}
summary {
  display: list-item;
}
details > summary > p:only-child {
  display: inline;
}
pre code {
  padding: 0;
}
</style>


<!-- tabsets -->

<style type="text/css">
.tabset-dropdown > .nav-tabs {
  display: inline-table;
  max-height: 500px;
  min-height: 44px;
  overflow-y: auto;
  border: 1px solid #ddd;
  border-radius: 4px;
}

.tabset-dropdown > .nav-tabs > li.active:before, .tabset-dropdown > .nav-tabs.nav-tabs-open:before {
  content: "\e259";
  font-family: 'Glyphicons Halflings';
  display: inline-block;
  padding: 10px;
  border-right: 1px solid #ddd;
}

.tabset-dropdown > .nav-tabs.nav-tabs-open > li.active:before {
  content: "\e258";
  font-family: 'Glyphicons Halflings';
  border: none;
}

.tabset-dropdown > .nav-tabs > li.active {
  display: block;
}

.tabset-dropdown > .nav-tabs > li > a,
.tabset-dropdown > .nav-tabs > li > a:focus,
.tabset-dropdown > .nav-tabs > li > a:hover {
  border: none;
  display: inline-block;
  border-radius: 4px;
  background-color: transparent;
}

.tabset-dropdown > .nav-tabs.nav-tabs-open > li {
  display: block;
  float: none;
}

.tabset-dropdown > .nav-tabs > li {
  display: none;
}
</style>

<!-- code folding -->


</head>

<body>


<div class="container-fluid main-container">


<nav>
<div class="navbar navbar-default navbar-fixed-top" role="navigation">
  <div class="container">
    <div class="navbar-header">
      <button type="button" class="navbar-toggle collapsed" data-toggle="collapse" data-target="#navbar">
        <span class="icon-bar"></span>
        <span class="icon-bar"></span>
        <span class="icon-bar"></span>
      </button>
      <a class="navbar-brand" href=".">analyse-R</a>
    </div>
    <div id="navbar" class="navbar-collapse collapse">
      <ul class="nav navbar-nav">
        <li class="dropdown">
          <a href="manipuler" class="dropdown-toggle" data-toggle="dropdown" role="button" aria-expanded="false">Manipuler <span class="caret"></span></a>
          <ul class="dropdown-menu multi-column columns-3" role="menu" id="menu_manipuler">
            <div class="row">
              <div class="col-sm-4">
  	            <ul class="multi-column-dropdown">
  		            <li class="dropdown-header">Prise en main</li>
                  <li><a href="presentation-et-philosophie.html">Présentation et Philosophie</a></li>
                  <li><a href="installation-de-R-et-RStudio.html">Installation de <strong>R</strong> et <strong>RStudio</strong></a></li>
                  <li><a href="premier-contact.html">Premier contact</a></li>
                  <li><a href="premier-travail-avec-les-donnees.html">Premier travail avec des données</a></li>
                  <li><a href="extensions.html">Extensions (installation, mise à jour)</a></li>
                  <li><a href="introduction-au-tidyverse.html">Introduction au <strong>tidyverse</strong></a></li>
                  <li><a href="vecteurs-indexation-et-assignation.html">Vecteurs, indexation et assignation</a></li>
                  <li><a href="listes-et-tableaux-de-donnees.html">Listes et Tableaux de données</a></li>
                  <li><a href="facteurs-et-vecteurs-labellises.html">Facteurs et vecteurs labellisés</a></li>
                  <li><a href="organiser-ses-fichiers.html">Organiser ses fichiers</a></li>
                  <li><a href="import-de-donnees.html">Import de données</a></li>
                  <li><a href="ou-trouver-de-l-aide.html">Où trouver de l'aide ?</a></li>
  	            </ul>
              </div>
              <div class="col-sm-4">
  	            <ul class="multi-column-dropdown">
  		            <li class="dropdown-header">Manipulation de données</li>
  		            <li><a href="visualiser-ses-donnees.html">Visualiser ses données</a></li>
  		            <li><a href="recodage.html">Recodage de variables</a></li>
                  <li><a href="manipuler-les-donnees-avec-dplyr.html">Manipuler les données avec <strong>dplyr</strong></a></li>
                  <li><a href="manipulations-avancees-avec-data-table.html">Manipulations avancées avec <strong>data.table</strong></a></li>
                  <li><a href="tris.html">Tris</a></li>
                  <li><a href="sous-ensembles.html">Sous-ensembles</a></li>
                  <li><a href="fusion-de-tables.html">Fusion de tables</a></li>
                  <li><a href="gestion-des-dates.html">Gestion des dates</a></li>
                  <li><a href="fonctions-a-fenetre.html">Fonctions à fenêtre</a></li>
                  <li><a href="manipuler-du-texte.html">Manipuler du texte avec <strong>stringr</strong></a></li>
                  <li><a href="reorganiser-ses-donnees-avec-tidyr.html">Réorganiser ses données avec <strong>tidyr</strong></a></li>
                  <!--<li><a href="scraping.html.old">Scraping</a></li>-->
  	            </ul>
              </div>
              <div class="col-sm-4">
  	            <ul class="multi-column-dropdown">
                  <li class="dropdown-header">Exporter</li>
                  <li><a href="export-de-donnees.html">Export de données</a></li>
                  <li><a href="export-de-graphiques.html">Export de graphiques</a></li>
  	            </ul>
              </div>
            </div>
          </ul>
        </li>
        <li class="dropdown">
          <a href="analyser" class="dropdown-toggle" data-toggle="dropdown" role="button" aria-expanded="false">Analyser <span class="caret"></span></a>
          <ul class="dropdown-menu multi-column columns-3" role="menu" id="menu_analyser">
            <div class="row">
              <div class="col-sm-4">
  	            <ul class="multi-column-dropdown">
  		            <li class="dropdown-header">Statistiques introductives</li>
                  <li><a href="statistique-univariee.html">Statistique univariée</a></li>
                  <li><a href="statistique-bivariee.html">Statistique bivariée</a></li>
                  <li><a href="intro-ggplot2.html">Introduction à <strong>ggplot2</strong>, la grammaire des graphiques</a></li>
                  <li><a href="graphiques-bivaries-ggplot2.html">Graphiques univariés et bivariés avec <strong>ggplot2</strong></a></li>
                  <li><a href="donnees-ponderees.html">Données pondérées</a></li>
  	            </ul>
              </div>
              <div class="col-sm-4">
  	            <ul class="multi-column-dropdown">
  		            <li class="dropdown-header">Statistiques intermédiaires</li>
  		            <li><a href="intervalles-de-confiance.html">Intervalles de confiance</a></li>
                  <li><a href="comparaisons-moyennes-et-proportions.html">Comparaisons (moyennes et proportions)</a></li>
                  <li><a href="definir-un-plan-d-echantillonnage-complexe.html">Définir un plan d'échantillonnage complexe avec <strong>survey</strong></a></li>
                  <li><a href="regression-lineaire.html">Régression linéaire</a></li>
                  <li><a href="regression-logistique.html">Régression logistique binaire, multinomiale et ordinale</a></li>
                  <li><a href="analyse-des-correspondances-multiples.html">Analyse des correspondances multiples (ACM)</a></li>
                  <li><a href="classification-ascendante-hierarchique.html">Classification ascendante hiérarchique (CAH)</a></li>
  	            </ul>
              </div>
              <div class="col-sm-4">
  	            <ul class="multi-column-dropdown">
                  <li class="dropdown-header">Statistiques avancées</li>
                  <li><a href="gtsummary.html">Tableaux statistiques avancés avec <strong>gtsummary</strong></a></li>
                  <li><a href="effets-d-interaction.html">Effets d'interaction dans un modèle</a></li>
                  <li><a href="multicolinearite.html">Multicolinéarité dans la régression</a></li>
                  <li><a href="modeles.html">Quel type de modèles choisir ?</a></li>
                  <li><a href="analyse-de-survie.html">Analyse de survie</a></li>
                  <li><a href="analyse-de-sequences.html">Analyse de séquences</a></li>
                  <!--<li><a href="modeles-a-effets-aleatoires.html">Modèles à effets aléatoires (modèles mixtes et GEE)</a></li>-->
                  <li><a href="trajectoires-de-soins.html">Trajectoires de soins&nbsp;: un exemple de données longitudinales</a></li>
                  <li><a href="analyse-de-reseaux.html">Analyse de réseaux</a></li>
                  <li><a href="analyse-spatiale.html">Analyse spatiale</a></li>
                  <li><a href="analyse-textuelle.html">Analyse textuelle</a></li>
  	            </ul>
              </div>
            </div>
          </ul>
        </li>
        <li class="dropdown">
          <a href="approfondir" class="dropdown-toggle" data-toggle="dropdown" role="button" aria-expanded="false">Approfondir <span class="caret"></span></a>
          <ul class="dropdown-menu multi-column columns-3" role="menu" id="menu_approfondir">
            <div class="row">
              <div class="col-sm-4">
  	            <ul class="multi-column-dropdown">
  		            <li class="dropdown-header">Graphiques</li>
                  <li><a href="ggplot2.html"><strong>ggplot2</strong> et la grammaire des graphiques</a></li>
                  <li><a href="etendre-ggplot2.html">Étendre <strong>ggplot2</strong></a></li>
                  <li><a href="combiner-plusieurs-graphiques.html">Combiner plusieurs graphiques</a></li>
                  <li><a href="exemples-graphiques-avances.html">Exemples de graphiques avancés</a></li>
                  <li><a href="graphiques-interactifs.html">Graphiques interactifs</a></li>
                  <li><a href="lattice-graphiques-et-formules.html"><strong>lattice</strong> : graphiques et formules</a></li>
                  <li><a href="cartes.html">Cartes</a></li>
                  <li><a href="autres-extensions-graphiques.html">Autres extensions graphiques</a></li>
  	            </ul>
              </div>
              <div class="col-sm-4">
  	            <ul class="multi-column-dropdown">
  		            <li class="dropdown-header">Programmation</li>
  		            <li><a href="conditions-et-comparaisons.html">Conditions et comparaisons</a></li>
                  <li><a href="formules.html">Formules</a></li>
                  <li><a href="structures-conditionnelles.html">Structures conditionnelles</a></li>
                  <li><a href="vectorisation.html">Vectorisation (dont <strong>purrr</strong>)</a></li>
                  <li><a href="expressions-regulieres.html">Expressions régulières</a></li>
                  <!--<li class="dev"><a href="ecrire-ses-propres-fonctions.html">Écrire ses propres fonctions</a></li>-->
                  <li><a href="rmarkdown-les-rapports-automatises.html"><strong>R Markdown</strong> : les rapports automatisés</a></li>
  	            </ul>
              </div>
              <div class="col-sm-4">
  	            <ul class="multi-column-dropdown">
                  <li class="dropdown-header">Divers</li>
                  <li><a href="formater-nombres.html">Mettre en forme des nombres avec <strong>scales</strong></a></li>
                  <li><a href="couleurs.html">Couleurs et Palettes</a></li>
                  <li><a href="annotations-mathematiques.html">Annotations mathématiques</a></li>
                  <li><a href="calculer-un-age.html">Calculer un âge</a></li>
                  <li><a href="diagramme-de-lexis.html">Diagramme de Lexis</a></li>
  	            </ul>
              </div>
            </div>
          </ul>
        </li>
        <li class="dropdown">
          <a href="index" class="dropdown-toggle" data-toggle="dropdown" role="button" aria-expanded="false">Index <span class="caret"></span></a>
          <ul class="dropdown-menu" role="menu" id="menu_naviguer">
            <li><a href="index-des-concepts.html">Index des concepts</a></li>
            <li><a href="index-des-fonctions.html">Index des fonctions</a></li>
            <li><a href="index-des-extensions.html">Index des extensions</a></li>
          </ul>
        </li>
        <li><a href="analyse-R.pdf">PDF</a></li>
        <li><a href="https://larmarange.github.io/guide-R/">guide-R</a></li>
        <li><a href="https://larmarange.github.io/webin-R/">webin-R</a></li>
        <li><a href="https://www.youtube.com/c/webinR"><i class="fa fa-youtube" aria-hidden="true"></i></a></li>
        <!--<li><a href="https://github.com/larmarange/analyse-R">GitHub</a></li>-->
      </ul>
    <form id="rechercher" class="navbar-form navbar-right" role="search" style="padding-top: 5px;" method="get" action="https://duckduckgo.com/">
      <div class="form-group">
        <input name="q" type="text" class="form-control input-sm" placeholder="Rechercher">
      </div>
      <button type="submit" class="btn btn-default btn-sm" name="Rechercher">
        <span class="glyphicon glyphicon-search" aria-hidden="true"></span>
      </button>
    </form>
    </div><!--/.nav-collapse -->
  </div><!--/.container -->
</div><!--/.navbar -->
</nav>

<div class="row">

<div class="visible-lg">
<a href="https://github.com/larmarange/analyse-R"><img style="position: absolute; top: 60px; left: 40px; border: 0;" src="images/fork_me.png" alt="Contribuer sur GitHub"></a>
</div>

<div class="col-sm-9" role="main">
<article>

<div id="header">


<h1 class="title toc-ignore">Analyse de séquences</h1>

</div>

<div id="TOC">
<ul>
<li><a href="#lanalyse-de-séquences" id="toc-lanalyse-de-séquences">L’analyse de séquences</a></li>
<li><a href="#charger-traminer-et-récupérer-les-données" id="toc-charger-traminer-et-récupérer-les-données">Charger TraMineR et récupérer les données</a></li>
<li><a href="#appariement-optimal-et-classification" id="toc-appariement-optimal-et-classification">Appariement optimal et classification</a></li>
<li><a href="#représentations-graphiques" id="toc-représentations-graphiques">Représentations graphiques</a></li>
<li><a href="#distribution-de-la-typologie" id="toc-distribution-de-la-typologie">Distribution de la typologie</a></li>
<li><a href="#pour-aller-plus-loin" id="toc-pour-aller-plus-loin">Pour aller plus loin</a></li>
<li><a href="#bibliographie" id="toc-bibliographie">Bibliographie</a></li>
</ul>
</div>

<div class="webin-R">
<p>Ce chapitre est évoqué dans le webin-R #16 (analyse de séquences) sur <a href="https://youtu.be/qCEougRU-bA">YouTube</a>.</p>
<p>Ce chapitre est évoqué dans le webin-R #19 (trajectoires de soins : un exemple de données longitudinales 3 : analyse de séquences) sur <a href="https://youtu.be/YgoSNYdfTyg">YouTube</a>.</p>
</div>
<div class="note">
<p>La version originale de ce chapitre est une reprise, avec l’aimable autorisation de son auteur, d’un article de Nicolas Robette intitulé <em>L’analyse de séquences : une introduction avec le logiciel R et le package TraMineR</em> et publié sur le blog Quanti (<a href="http://quanti.hypotheses.org/686/" class="uri">http://quanti.hypotheses.org/686/</a>).</p>
</div>
<p>Depuis les années 1980, l’étude quantitative des <dfn data-index="trajectoire biographique">trajectoires biographiques</dfn> (<dfn lang="en">life course analysis</dfn>) a pris une ampleur considérable dans le champ des sciences sociales. Les collectes de données micro-individuelles longitudinales se sont développées, principalement sous la forme de panels ou d’enquêtes rétrospectives. Parallèlement à cette multiplication des données disponibles, la méthodologie statistique a connu de profondes évolutions. L’<dfn>analyse des biographies</dfn><dfn data-index="biographie, analyse"></dfn> (<dfn lang="en">event history analysis</dfn>) — qui ajoute une dimension diachronique aux modèles économétriques mainstream — s’est rapidement imposée comme l’approche dominante : il s’agit de modéliser la durée des situations ou le risque d’occurrence des événements.</p>
<div id="lanalyse-de-séquences" class="section level2 hasAnchor">
<h2 class="hasAnchor">L’analyse de séquences<a href="#lanalyse-de-séquences" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>Cependant, ces dernières années ont vu la diffusion d’un large corpus de méthodes descriptives d’<dfn>analyse de séquences</dfn><dfn data-index="séquence, analyse"></dfn>, au sein desquelles l’<dfn>appariement optimal</dfn><dfn data-index="optimal, appariement"></dfn> (<dfn lang="en">optimal matching</dfn><dfn data-index="matching, optimal" lang="en"></dfn>) occupe une place centrale<a href="#fn1" class="footnote-ref" id="fnref1"><sup>1</sup></a>. L’objectif principal de ces méthodes est d’identifier — dans la diversité d’un corpus de séquences constituées de séries d’états successifs — les régularités, les ressemblances, puis le plus souvent de construire des typologies de « séquences-types ». L’analyse de séquences constitue donc un moyen de décrire mais aussi de mieux comprendre le déroulement de divers processus.</p>
<p>La majeure partie des applications de l’analyse de séquences traite de trajectoires biographiques ou de carrières professionnelles. Dans ces cas, chaque trajectoire ou chaque carrière est décrite par une séquence, autrement dit par une suite chronologiquement ordonnée de « moments » élémentaires, chaque moment correspondant à un « état » déterminé de la trajectoire (par exemple, pour les carrières professionnelles : être en emploi, au chômage ou en inactivité). Mais on peut bien sûr imaginer des types de séquences plus originaux : Andrew Abbott<a href="#fn2" class="footnote-ref" id="fnref2"><sup>2</sup></a>, le sociologue américain qui a introduit l’<em>optimal matching</em> dans les sciences scientifiques ou des séquences de pas de danses traditionnelles.</p>
<p>En France, les premiers travaux utilisant l’appariement optimal sont ceux de Claire Lemercier<a href="#fn3" class="footnote-ref" id="fnref3"><sup>3</sup></a> sur les carrières des membres des institutions consulaires parisiennes au <span class="smallcaps">xix</span><sup>e</sup> siècle (Lemercier, 2005), et de Laurent Lesnard<a href="#fn4" class="footnote-ref" id="fnref4"><sup>4</sup></a> sur les emplois du temps (Lesnard, 2008). Mais dès les années 1980, les chercheurs du Céreq construisaient des typologies de trajectoires d’insertion à l’aide des méthodes d’analyse des données « à la française » (analyse des correspondances, etc.)<a href="#fn5" class="footnote-ref" id="fnref5"><sup>5</sup></a>. Au final, on dénombre maintenant plus d’une centaine d’articles de sciences sociales contenant ou discutant des techniques empruntées à l’analyse de séquences.</p>
<p>Pour une présentation des différentes méthodes d’analyse de séquences disponibles et de leur mise en oeuvre pratique, il existe un petit manuel en français, publié en 2011 dernière aux éditions du Ceped (collection « Les clefs pour »<a href="#fn6" class="footnote-ref" id="fnref6"><sup>6</sup></a>) et disponible en pdf<a href="#fn7" class="footnote-ref" id="fnref7"><sup>7</sup></a> (Robette, 2011). De plus, un article récemment publié dans le <em>Bulletin de Méthodologie Sociologique</em> compare de manière systématique les résultats obtenus par les principales méthodes d’analyse de séquences (Robette &amp; Bry, 2012). La conclusion en est qu’avec des données empiriques aussi structurées que celles que l’on utilise en sciences sociales, l’approche est robuste, c’est-à-dire qu’un changement de méthode aura peu d’influence sur les principaux résultats. Cependant, l’article tente aussi de décrire les spécificités de chaque méthode et les différences marginales qu’elles font apparaître,
afin de permettre aux chercheurs de mieux adapter leurs choix méthodologiques à leur question de recherche.</p>
<p>Afin d’illustrer la démarche de l’analyse de séquences, nous allons procéder ici à la description « pas à pas » d’un corpus de carrières professionnelles, issues de l’enquête <em>Biographies et entourage</em> (Ined, 2000)<a href="#fn8" class="footnote-ref" id="fnref8"><sup>8</sup></a>. Et pour ce faire, on va utiliser le logiciel <strong>R</strong>, qui propose la solution actuellement la plus complète et la plus puissante en matière d’analyse de séquences. Les méthodes d’analyse de séquences par analyses factorielles ou de correspondances ne nécessitent pas de logiciel spécifique : tous les logiciels de statistiques généralistes peuvent être utilisés (<strong>SAS</strong>, <strong>SPSS</strong>, <strong>Stata</strong>, <strong>R</strong>, etc.). En revanche, il n’existe pas de fonctions pour l’appariement optimal dans <strong>SAS</strong> ou <strong>SPSS</strong>. Certains logiciels gratuits implémentent l’appariement optimal (comme <strong>Chesa</strong><a href="#fn9"
class="footnote-ref" id="fnref9"><sup>9</sup></a> ou <strong>TDA</strong><a href="#fn10" class="footnote-ref" id="fnref10"><sup>10</sup></a>) mais il faut alors recourir à d’autres programmes pour dérouler l’ensemble de l’analyse (classification, représentation graphique). <strong>Stata</strong> propose le module <strong>sq</strong><a href="#fn11" class="footnote-ref" id="fnref11"><sup>11</sup></a>, qui dispose d’un éventail de fonctions intéressantes. Mais c’est <strong>R</strong> et le package <code class="pkg">TraMineR</code><a href="#fn12" class="footnote-ref" id="fnref12"><sup>12</sup></a>, développé par des collègues de l’Université de Genève (Gabadinho et al, 2011), qui fournit la solution la plus complète et la plus puissante à ce jour : on y trouve l’appariement optimal mais aussi d’autres algorithmes alternatifs, ainsi que de nombreuses fonctions de description des séquences et de représentation graphique.</p>
</div>
<div id="charger-traminer-et-récupérer-les-données" class="section level2 hasAnchor">
<h2 class="hasAnchor">Charger TraMineR et récupérer les données<a href="#charger-traminer-et-récupérer-les-données" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>Tout d’abord, à quoi ressemblent nos données ? On a reconstruit à partir de l’enquête les carrières de 1000 hommes. Pour chacune, on connaît la position professionnelle chaque année, de l’âge de 14 ans jusqu’à 50 ans. Cette position est codée de la manière suivante : les codes 1 à 6 correspondent aux groupes socioprofessionnels de la nomenclature des PCS de l’INSEE 13 (agriculteurs exploitants ; artisans, commerçants et chefs d’entreprise ; cadres et professions intellectuelles supérieures ; professions intermédiaires ; employés ; ouvriers) ; on y a ajouté « études » (code 7), « inactivité » (code 8) et « service militaire » (code 9). Le fichier de données comporte une ligne par individu et une colonne par année : la variable <em>csp1</em> correspond à la position à 14 ans, la variable <em>csp2</em> à la position à 15 ans, etc. Par ailleurs, les enquêtés étant tous nés entre 1930 et 1950, on ajoute à notre base une variable « génération » à trois modalités, prenant les valeurs
suivantes : 1=“1930-1938” ; 2=“1939-1945” ; 3=“1946-1950”. Au final, la base est constituée de 500 lignes et de 37 + 1 = 38 colonnes et se présente sous la forme d’un fichier texte au format <strong>csv</strong> (téléchargeable à <a href="http://larmarange.github.io/analyse-R/data/trajpro.csv" class="uri">http://larmarange.github.io/analyse-R/data/trajpro.csv</a>).</p>
<p>Une fois <strong>R</strong> ouvert, on commence par installer les extensions nécessaires à ce programme (opération à ne réaliser que lors de leur première utilisation) et par les charger en mémoire. L’extension <code class="pkg">TraMineR</code> propose de nombreuses fonctions pour l’analyse de séquences. L’extension <code class="pkg">cluster</code> comprend un certain nombre de méthodes de classification automatique<a href="#fn13" class="footnote-ref" id="fnref13"><sup>13</sup></a>.</p>
<div class="sourceCode" id="cb1"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb1-1"><a href="#cb1-1" tabindex="-1"></a><span class="fu">library</span>(TraMineR)</span></code></pre></div>
<pre><code>
TraMineR stable version 2.2-6 (Built: 2023-01-10)</code></pre>
<pre><code>Website: http://traminer.unige.ch</code></pre>
<pre><code>Please type &#39;citation(&quot;TraMineR&quot;)&#39; for citation information.</code></pre>
<div class="sourceCode" id="cb5"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb5-1"><a href="#cb5-1" tabindex="-1"></a><span class="fu">library</span>(cluster)</span></code></pre></div>
<p>On importe ensuite les données, on recode la variable « génération » pour lui donner des étiquettes plus explicites. On jette également un coup d’oeil à la structure du tableau de données :</p>
<pre><code>Rows: 1000 Columns: 38
── Column specification ────────────────────────────────────
Delimiter: &quot;,&quot;
dbl (38): csp1, csp2, csp3, csp4, csp5, csp6, csp7, csp8...

ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.</code></pre>
<div class="sourceCode" id="cb7"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb7-1"><a href="#cb7-1" tabindex="-1"></a>donnees <span class="ot">&lt;-</span> <span class="fu">read.csv</span>(<span class="st">&quot;http://larmarange.github.io/analyse-R/data/trajpro.csv&quot;</span>, <span class="at">header =</span> T)</span></code></pre></div>
<div class="sourceCode" id="cb8"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb8-1"><a href="#cb8-1" tabindex="-1"></a>donnees<span class="sc">$</span>generation <span class="ot">&lt;-</span> <span class="fu">factor</span>(donnees<span class="sc">$</span>generation, <span class="at">labels =</span> <span class="fu">c</span>(<span class="st">&quot;1930-38&quot;</span>, <span class="st">&quot;1939-45&quot;</span>, <span class="st">&quot;1946-50&quot;</span>))</span>
<span id="cb8-2"><a href="#cb8-2" tabindex="-1"></a><span class="fu">str</span>(donnees)</span></code></pre></div>
<pre><code>spc_tbl_ [1,000 × 38] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ csp1      : num [1:1000] 1 7 6 7 7 6 7 7 7 6 ...
 $ csp2      : num [1:1000] 1 7 6 7 7 6 7 7 6 6 ...
 $ csp3      : num [1:1000] 1 7 6 6 7 6 7 7 6 6 ...
 $ csp4      : num [1:1000] 1 7 6 6 7 6 7 7 6 6 ...
 $ csp5      : num [1:1000] 1 7 6 6 7 6 7 7 6 6 ...
 $ csp6      : num [1:1000] 1 7 6 6 7 6 9 7 6 6 ...
 $ csp7      : num [1:1000] 6 9 6 6 7 6 9 7 9 6 ...
 $ csp8      : num [1:1000] 6 9 9 6 7 6 9 7 4 6 ...
 $ csp9      : num [1:1000] 6 6 9 6 7 6 9 3 4 9 ...
 $ csp10     : num [1:1000] 6 6 9 6 7 6 4 3 4 9 ...
 $ csp11     : num [1:1000] 6 6 6 6 3 6 4 3 4 6 ...
 $ csp12     : num [1:1000] 6 6 6 6 3 6 4 3 4 6 ...
 $ csp13     : num [1:1000] 6 6 6 6 3 6 4 3 4 6 ...
 $ csp14     : num [1:1000] 6 4 6 6 3 6 4 3 4 6 ...
 $ csp15     : num [1:1000] 6 4 6 6 3 6 4 3 4 6 ...
 $ csp16     : num [1:1000] 6 4 6 6 3 6 6 3 4 6 ...
 $ csp17     : num [1:1000] 6 4 6 6 3 6 6 3 4 6 ...
 $ csp18     : num [1:1000] 6 4 6 6 3 6 6 3 4 6 ...
 $ csp19     : num [1:1000] 6 4 6 6 3 6 6 3 4 6 ...
 $ csp20     : num [1:1000] 6 4 6 6 3 6 6 3 4 6 ...
 $ csp21     : num [1:1000] 6 4 6 6 6 6 6 3 4 6 ...
 $ csp22     : num [1:1000] 6 4 6 6 6 6 6 3 4 4 ...
 $ csp23     : num [1:1000] 6 4 6 6 6 6 6 3 4 4 ...
 $ csp24     : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
 $ csp25     : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
 $ csp26     : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
 $ csp27     : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
 $ csp28     : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
 $ csp29     : num [1:1000] 6 6 6 6 5 6 6 3 4 4 ...
 $ csp30     : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
 $ csp31     : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
 $ csp32     : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
 $ csp33     : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
 $ csp34     : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
 $ csp35     : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
 $ csp36     : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
 $ csp37     : num [1:1000] 4 6 6 6 5 6 6 3 4 4 ...
 $ generation: Factor w/ 3 levels &quot;1930-38&quot;,&quot;1939-45&quot;,..: 2 1 1 3 2 3 1 1 2 1 ...
 - attr(*, &quot;spec&quot;)=
  .. cols(
  ..   csp1 = col_double(),
  ..   csp2 = col_double(),
  ..   csp3 = col_double(),
  ..   csp4 = col_double(),
  ..   csp5 = col_double(),
  ..   csp6 = col_double(),
  ..   csp7 = col_double(),
  ..   csp8 = col_double(),
  ..   csp9 = col_double(),
  ..   csp10 = col_double(),
  ..   csp11 = col_double(),
  ..   csp12 = col_double(),
  ..   csp13 = col_double(),
  ..   csp14 = col_double(),
  ..   csp15 = col_double(),
  ..   csp16 = col_double(),
  ..   csp17 = col_double(),
  ..   csp18 = col_double(),
  ..   csp19 = col_double(),
  ..   csp20 = col_double(),
  ..   csp21 = col_double(),
  ..   csp22 = col_double(),
  ..   csp23 = col_double(),
  ..   csp24 = col_double(),
  ..   csp25 = col_double(),
  ..   csp26 = col_double(),
  ..   csp27 = col_double(),
  ..   csp28 = col_double(),
  ..   csp29 = col_double(),
  ..   csp30 = col_double(),
  ..   csp31 = col_double(),
  ..   csp32 = col_double(),
  ..   csp33 = col_double(),
  ..   csp34 = col_double(),
  ..   csp35 = col_double(),
  ..   csp36 = col_double(),
  ..   csp37 = col_double(),
  ..   generation = col_double()
  .. )
 - attr(*, &quot;problems&quot;)=&lt;externalptr&gt; </code></pre>
<p>On a bien 1000 observations et 38 variables. On définit maintenant des <em>labels</em> pour les différents états qui composent les séquences et on crée un objet « séquence » avec <code data-pkg="TraMineR">seqdef</code> :</p>
<div class="sourceCode" id="cb10"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb10-1"><a href="#cb10-1" tabindex="-1"></a>labels <span class="ot">&lt;-</span> <span class="fu">c</span>(<span class="st">&quot;agric&quot;</span>, <span class="st">&quot;acce&quot;</span>, <span class="st">&quot;cadr&quot;</span>, <span class="st">&quot;pint&quot;</span>, <span class="st">&quot;empl&quot;</span>, <span class="st">&quot;ouvr&quot;</span>, <span class="st">&quot;etud&quot;</span>, <span class="st">&quot;inact&quot;</span>, <span class="st">&quot;smil&quot;</span>)</span>
<span id="cb10-2"><a href="#cb10-2" tabindex="-1"></a>seq <span class="ot">&lt;-</span> <span class="fu">seqdef</span>(donnees[, <span class="dv">1</span><span class="sc">:</span><span class="dv">37</span>], <span class="at">states =</span> labels)</span></code></pre></div>
<pre><code> [&gt;] state coding:</code></pre>
<pre><code>       [alphabet]  [label]  [long label] </code></pre>
<pre><code>     1  1           agric    agric</code></pre>
<pre><code>     2  2           acce     acce</code></pre>
<pre><code>     3  3           cadr     cadr</code></pre>
<pre><code>     4  4           pint     pint</code></pre>
<pre><code>     5  5           empl     empl</code></pre>
<pre><code>     6  6           ouvr     ouvr</code></pre>
<pre><code>     7  7           etud     etud</code></pre>
<pre><code>     8  8           inact    inact</code></pre>
<pre><code>     9  9           smil     smil</code></pre>
<pre><code> [&gt;] 1000 sequences in the data set</code></pre>
<pre><code> [&gt;] min/max sequence length: 37/37</code></pre>
</div>
<div id="appariement-optimal-et-classification" class="section level2 hasAnchor">
<h2 class="hasAnchor">Appariement optimal et classification<a href="#appariement-optimal-et-classification" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>Ces étapes préalables achevées, on peut comparer les séquences en calculant les dissimilarités entre paires de séquences. On va ici utiliser la méthode la plus répandue, l’appariement optimal (<em>optimal matching</em>). Cette méthode consiste, pour chaque paire de séquences, à compter le nombre minimal de modifications (substitutions, suppressions, insertions) qu’il faut faire subir à l’une des séquences pour obtenir l’autre. On peut considérer que chaque modification est équivalente, mais il est aussi possible de prendre en compte le fait que les « distances » entre les différents états n’ont pas toutes la même « valeur » (par exemple, la distance sociale entre emploi à temps plein et chômage est plus grande qu’entre emploi à temps plein et emploi à temps partiel), en assignant aux différentes modifications des « coûts » distincts. Dans notre exemple, on va créer avec <code data-pkg="TraMineR">seqsubm</code> une « matrice des coûts de substitution » dans laquelle tous les coûts
sont constants et égaux à 2<a href="#fn14" class="footnote-ref" id="fnref14"><sup>14</sup></a> :</p>
<div class="sourceCode" id="cb24"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb24-1"><a href="#cb24-1" tabindex="-1"></a>couts <span class="ot">&lt;-</span> <span class="fu">seqsubm</span>(seq, <span class="at">method =</span> <span class="st">&quot;CONSTANT&quot;</span>, <span class="at">cval =</span> <span class="dv">2</span>)</span></code></pre></div>
<pre><code> [&gt;] creating 9x9 substitution-cost matrix using 2 as constant value</code></pre>
<p>Ensuite, on calcule la <dfn>matrice de distances</dfn><dfn data-index="distance, matrice"></dfn> entre les séquences (i.e contenant les « dissimilarités » entre les séquences) avec <code data-pkg="TraMineR">seqdist</code>, avec un coût d’insertion/suppression (<em>indel</em>) que l’on fixe ici à 1 :</p>
<div class="sourceCode" id="cb26"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb26-1"><a href="#cb26-1" tabindex="-1"></a>seq.om <span class="ot">&lt;-</span> <span class="fu">seqdist</span>(seq, <span class="at">method =</span> <span class="st">&quot;OM&quot;</span>, <span class="at">indel =</span> <span class="dv">1</span>, <span class="at">sm =</span> couts)</span></code></pre></div>
<pre><code> [&gt;] 1000 sequences with 9 distinct states</code></pre>
<pre><code> [&gt;] checking &#39;sm&#39; (size and triangle inequality)</code></pre>
<pre><code> [&gt;] 818 distinct  sequences </code></pre>
<pre><code> [&gt;] min/max sequence lengths: 37/37</code></pre>
<pre><code> [&gt;] computing distances using the OM metric</code></pre>
<pre><code> [&gt;] elapsed time: 0.89 secs</code></pre>
<div class="important">
<p>Ce cas de figure où tous les coûts de substitution sont égaux à 2 et le coût <em>indel</em> égal à 1 correspond à un cas particulier d’<em>optimal matching</em> que l’on appelle la <dfn lang="en">Longuest Common Subsequence</dfn> ou <dfn>LCS</dfn>. Elle peut se calculer directement avec <code>seqdist</code> de la manière suivante :</p>
<div class="sourceCode" id="cb33"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb33-1"><a href="#cb33-1" tabindex="-1"></a>seq.om <span class="ot">&lt;-</span> <span class="fu">seqdist</span>(seq, <span class="at">method =</span> <span class="st">&quot;LCS&quot;</span>)</span></code></pre></div>
<pre><code> [&gt;] 1000 sequences with 9 distinct states</code></pre>
<pre><code> [&gt;] creating a &#39;sm&#39; with a substitution cost of 2</code></pre>
<pre><code> [&gt;] creating 9x9 substitution-cost matrix using 2 as constant value</code></pre>
<pre><code> [&gt;] 818 distinct  sequences </code></pre>
<pre><code> [&gt;] min/max sequence lengths: 37/37</code></pre>
<pre><code> [&gt;] computing distances using the LCS metric</code></pre>
<pre><code> [&gt;] elapsed time: 0.89 secs</code></pre>
<p>En l’absence d’hypothèses fortes sur les différents statuts auxquels correspond notre alphabet (données hiérarchisées, croisement de différentes dimensions…), nous vous recommandons d’utiliser prioritairement la métrique LCS pour calculer la distance entre les séquences.</p>
<p>On pourra trouver un exemple de matrice de coûts hiérarchisée dans le chapitre sur les <a href="trajectoires-de-soins.html">trajectoires de soins</a>.</p>
</div>
<p>Cette matrice des distances ou des dissimilarités entre séquences peut ensuite être utilisée pour une <dfn>classification ascendante hiérarchique</dfn> (<dfn>CAH</dfn>), qui permet de regrouper les séquences en un certain nombre de « classes » en fonction de leur proximité :</p>
<div class="sourceCode" id="cb41"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb41-1"><a href="#cb41-1" tabindex="-1"></a>seq.dist <span class="ot">&lt;-</span> <span class="fu">hclust</span>(<span class="fu">as.dist</span>(seq.om), <span class="at">method =</span> <span class="st">&quot;ward.D2&quot;</span>)</span></code></pre></div>
<p>Avec la fonction <code data-pkg="stats" data-rdoc="dendrogram">plot</code>, il est possible de tracer l’arbre de la classification (<dfn>dendrogramme</dfn>).</p>
<figure>
<div class="sourceCode" id="cb42"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb42-1"><a href="#cb42-1" tabindex="-1"></a><span class="fu">plot</span>(<span class="fu">as.dendrogram</span>(seq.dist), <span class="at">leaflab =</span> <span class="st">&quot;none&quot;</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-10-1.png" width="1050" />
<figcaption>
Dendrogramme de la classification des séquences
</figcaption>
</figure>
<p>De même, on peut représenter les <dfn data-index="saut d'inertie">sauts d’inertie</dfn><dfn data-index="inertie, saut"></dfn>.</p>
<figure>
<div class="sourceCode" id="cb43"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb43-1"><a href="#cb43-1" tabindex="-1"></a><span class="fu">plot</span>(<span class="fu">sort</span>(seq.dist<span class="sc">$</span>height, <span class="at">decreasing =</span> <span class="cn">TRUE</span>)[<span class="dv">1</span><span class="sc">:</span><span class="dv">20</span>], <span class="at">type =</span> <span class="st">&quot;s&quot;</span>, <span class="at">xlab =</span> <span class="st">&quot;nb de classes&quot;</span>, <span class="at">ylab =</span> <span class="st">&quot;inertie&quot;</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-11-1.png" width="1050" />
<figcaption>
Sauts d’inertie de la classification des séquences
</figcaption>
</figure>
<p>L’observation, sur ce dendogramme ou sur la courbe des sauts d’inertie, des sauts d’inertie des dernières étapes de la classification peut servir de guide pour déterminer le nombre de classes que l’on va retenir pour la suite des analyses. Une première inflexion dans la courbe des sauts d’inertie apparaît au niveau d’une partition en 5 classes. On voit aussi une seconde inflexion assez nette à 7 classes. Mais il faut garder en tête le fait que ces outils ne sont que des guides, le choix devant avant tout se faire après différents essais, en fonction de l’intérêt des résultats par rapport à la question de recherche et en arbitrant entre exhaustivité et parcimonie.</p>
<p>On fait ici le choix d’une <dfn>partition</dfn> en 5 classes :</p>
<div class="sourceCode" id="cb44"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb44-1"><a href="#cb44-1" tabindex="-1"></a>nbcl <span class="ot">&lt;-</span> <span class="dv">5</span></span>
<span id="cb44-2"><a href="#cb44-2" tabindex="-1"></a>seq.part <span class="ot">&lt;-</span> <span class="fu">cutree</span>(seq.dist, nbcl)</span>
<span id="cb44-3"><a href="#cb44-3" tabindex="-1"></a>seq.part <span class="ot">&lt;-</span> <span class="fu">factor</span>(seq.part, <span class="at">labels =</span> <span class="fu">paste</span>(<span class="st">&quot;classe&quot;</span>, <span class="dv">1</span><span class="sc">:</span>nbcl, <span class="at">sep =</span> <span class="st">&quot;.&quot;</span>))</span></code></pre></div>
</div>
<div id="représentations-graphiques" class="section level2 hasAnchor">
<h2 class="hasAnchor">Représentations graphiques<a href="#représentations-graphiques" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>Pour se faire une première idée de la nature des classes de la typologie, il existe un certain nombre de représentations graphiques. Les chronogrammes (<em>state distribution plots</em>) présentent une série de coupes transversales : pour chaque âge, on a les proportions d’individus de la classe dans les différentes situations (agriculteur, étudiant, etc.). Ce graphique s’obtient avec <code data-pkg="TraMineR" data-rdoc="seqplot">seqdplot</code> :</p>
<figure>
<div class="sourceCode" id="cb45"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb45-1"><a href="#cb45-1" tabindex="-1"></a><span class="fu">seqdplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">xtlab =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>, <span class="at">border =</span> <span class="cn">NA</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-13-1.png" width="1050" />
<figcaption>
Chronogrammes
</figcaption>
</figure>
<p>Chacune des classes semble caractérisée par un groupe professionnel principal : profession intermédiaire pour la classe 1, ouvrier pour la 2, employé pour la 3, cadre pour la 4 et indépendant pour la 5. Cependant, on aperçoit aussi des « couches » d’autres couleurs, indiquant que l’ensemble des carrières ne sont probablement pas stables.</p>
<p>Les « <dfn dataindex="tapis des séquences">tapis</dfn><dfn data-index="séquence, tapis"></dfn> » (<dfn lang="en">index plots</dfn>), obtenus avec <code data-pkg="TraMineR" data-rdoc="seqplot">seqIplot</code>, permettent de mieux visualiser la dimension individuelle des séquences. Chaque segment horizontal représente une séquence, découpée en sous-segments correspondant aux aux différents états successifs qui composent la séquence.</p>
<figure>
<div class="sourceCode" id="cb46"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb46-1"><a href="#cb46-1" tabindex="-1"></a><span class="fu">seqIplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">xtlab =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>, <span class="at">space =</span> <span class="dv">0</span>, <span class="at">border =</span> <span class="cn">NA</span>, <span class="at">yaxis =</span> <span class="cn">FALSE</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-14-1.png" width="1050" />
<figcaption>
Tapis des séquences triés
</figcaption>
</figure>
<p>Il est possible de trier les séquences pour rendre les tapis plus lisibles (on trie ici par <dfn lang="en">multidimensional scaling</dfn> à l’aide de la fonction <code data-pkg="stats">cmdscale</code>).</p>
<figure>
<div class="sourceCode" id="cb47"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb47-1"><a href="#cb47-1" tabindex="-1"></a>ordre <span class="ot">&lt;-</span> <span class="fu">cmdscale</span>(<span class="fu">as.dist</span>(seq.om), <span class="at">k =</span> <span class="dv">1</span>)</span>
<span id="cb47-2"><a href="#cb47-2" tabindex="-1"></a><span class="fu">seqIplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">sortv =</span> ordre, <span class="at">xtlab =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>, <span class="at">space =</span> <span class="dv">0</span>, <span class="at">border =</span> <span class="cn">NA</span>, <span class="at">yaxis =</span> <span class="cn">FALSE</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-15-1.png" width="1050" />
<figcaption>
Tapis des séquences triés par multidimensional scaling
</figcaption>
</figure>
<p>On voit mieux apparaître ainsi l’hétérogénéité de certaines classes. Les classes 1, 3 et 4, par exemple, semblent regrouper des carrières relativement stables (respectivement de professions intermédiaires, d’employés et de cadres) et des carrières plus « mobiles » commencées comme ouvrier (classes 1 et 3, en orange) ou comme profession intermédiaire (classe 4, en rouge). De même, la majorité des membres de la dernière classe commencent leur carrière dans un groupe professionnel distinct de celui qu’ils occuperont par la suite (indépendants). Ces distinctions apparaissent d’ailleurs si on relance le programme avec un nombre plus élevé de classes (en remplaçant le 5 de la ligne <code>nbcl &lt;- 5</code> par 7, seconde inflexion de la courbe des sauts d’inertie, et en exécutant de nouveau le programme à partir de cette ligne) : les stables et les mobiles se trouvent alors dans des classes distinctes.</p>
<p>Le package <code class="pkg">seqhandbook</code> propose une fonction <code data-pkg="seqhandbook">seq_heatmap</code> permettant de représenter le tapis de l’ensemble des séquences selon l’ordre du dendrogramme.</p>
<figure>
<div class="sourceCode" id="cb48"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb48-1"><a href="#cb48-1" tabindex="-1"></a><span class="fu">library</span>(seqhandbook)</span></code></pre></div>
<pre><code>
Attachement du package : &#39;seqhandbook&#39;</code></pre>
<pre><code>L&#39;objet suivant est masqué depuis &#39;package:JLutils&#39;:

    seq_heatmap</code></pre>
<div class="sourceCode" id="cb51"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb51-1"><a href="#cb51-1" tabindex="-1"></a><span class="fu">seq_heatmap</span>(seq, seq.dist, <span class="at">labCol =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-16-1.png" width="1050" />
<figcaption>
Tapis des séquences trié selon le dendrogramme
</figcaption>
</figure>
<div class="note">
<p>Il est possible de reproduire un tapis de séquence avec <code class="pkg">ggplot2</code>. Outre le fait que cela fournit plus d’options de personnalisation du graphique, cela permets également à ce que la hauteur de chaque classe sur le graphique soit proportionnelle aux nombre d’invidus.</p>
<p>En premier lieu, on a va ajouter à notre fichier de données des identifiants individuels, la typologie crée et l’ordre obtenu par <em>multidimensional scaling</em>.</p>
<div class="sourceCode" id="cb52"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb52-1"><a href="#cb52-1" tabindex="-1"></a>donnees<span class="sc">$</span>id <span class="ot">&lt;-</span> <span class="fu">row.names</span>(donnees)</span>
<span id="cb52-2"><a href="#cb52-2" tabindex="-1"></a>donnees<span class="sc">$</span>classe <span class="ot">&lt;-</span> seq.part</span>
<span id="cb52-3"><a href="#cb52-3" tabindex="-1"></a>donnees<span class="sc">$</span>ordre <span class="ot">&lt;-</span> <span class="fu">rank</span>(ordre, <span class="at">ties.method =</span> <span class="st">&quot;random&quot;</span>)</span></code></pre></div>
<p>Ensuite, il est impératif que nos données soient dans un format long et <em>tidy</em>, c’est-à-dire avec une ligne par individu et par pas de temps. Pour cela on aura recours à la fonction <code data-pkg="tidyr">gather</code> (voir le <a href="reorganiser-ses-donnees-avec-tidyr.html">chapitre dédié</a>).</p>
<div class="sourceCode" id="cb53"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb53-1"><a href="#cb53-1" tabindex="-1"></a><span class="fu">library</span>(tidyr)</span>
<span id="cb53-2"><a href="#cb53-2" tabindex="-1"></a>long <span class="ot">&lt;-</span> donnees <span class="sc">%&gt;%</span> <span class="fu">gather</span>(csp1<span class="sc">:</span>csp37, <span class="at">key =</span> annee, <span class="at">value =</span> csp)</span></code></pre></div>
<p>On va mettre en forme la variable <code>csp</code> sous forme de facteur, récupérer l’année grace à la fonction <code data-pkg="stringr">str_sub</code> de l’extension <code class="pkg">stringr</code> (voir le chapitre sur la <a href="manipuler-du-texte.html#extraire-des-sous-chaines-par-position">manipulation de texte</a>) et recalculer l’âge.</p>
<div class="sourceCode" id="cb54"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb54-1"><a href="#cb54-1" tabindex="-1"></a>long<span class="sc">$</span>csp <span class="ot">&lt;-</span> <span class="fu">factor</span>(long<span class="sc">$</span>csp, <span class="at">labels =</span> <span class="fu">c</span>(<span class="st">&quot;agriculteur&quot;</span>, <span class="st">&quot;art./com./chefs&quot;</span>, <span class="st">&quot;cadres&quot;</span>, <span class="st">&quot;prof. int.&quot;</span>, <span class="st">&quot;employés&quot;</span>, <span class="st">&quot;ouvriers&quot;</span>, <span class="st">&quot;étudiants&quot;</span>, <span class="st">&quot;inactifs&quot;</span>, <span class="st">&quot;serv. militaire&quot;</span>))</span>
<span id="cb54-2"><a href="#cb54-2" tabindex="-1"></a><span class="fu">library</span>(stringr)</span>
<span id="cb54-3"><a href="#cb54-3" tabindex="-1"></a>long<span class="sc">$</span>annee <span class="ot">&lt;-</span> <span class="fu">as.integer</span>(<span class="fu">str_sub</span>(long<span class="sc">$</span>annee, <span class="dv">4</span>))</span>
<span id="cb54-4"><a href="#cb54-4" tabindex="-1"></a>long<span class="sc">$</span>age <span class="ot">&lt;-</span> long<span class="sc">$</span>annee <span class="sc">+</span> <span class="dv">13</span></span></code></pre></div>
<p>Il n’y a plus qu’à faire notre graphique grace à <code data-pkg="ggplot2">geom_raster</code> qui permet de colorier chaque pixel. Techniquement, pour un tapis de séquence, il s’agit de représenter le temps sur l’axe horizontal et les individus sur l’axe vertical. Petite astuce : plutôt que d’utiliser <code>id</code> pour l’axe vertical, nous utilisons <code>ordre</code> afin de trier les observations. Par ailleurs, il est impératif de transformer au passage <code>ordre</code> en facteur afin que <code class="pkg">ggplot2</code> puisse recalculer proprement et séparément les axes pour chaque facette<a href="#fn15" class="footnote-ref" id="fnref15"><sup>15</sup></a>, à condition de ne pas oublier l’option <code>scales = "free_y"</code> dans l’appel à <code data-pkg="ggplot2">facet_grid</code>. Les autres commandes ont surtout pour vocation d’améliorer le rendu du graphique (voir le <a href="ggplot2.html">chapitre dédié à ggplot2</a>).</p>
<div class="sourceCode" id="cb55"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb55-1"><a href="#cb55-1" tabindex="-1"></a><span class="fu">library</span>(ggplot2)</span>
<span id="cb55-2"><a href="#cb55-2" tabindex="-1"></a><span class="fu">ggplot</span>(long) <span class="sc">+</span></span>
<span id="cb55-3"><a href="#cb55-3" tabindex="-1"></a>  <span class="fu">aes</span>(<span class="at">x =</span> age, <span class="at">y =</span> <span class="fu">factor</span>(ordre), <span class="at">fill =</span> csp) <span class="sc">+</span></span>
<span id="cb55-4"><a href="#cb55-4" tabindex="-1"></a>  <span class="fu">geom_raster</span>() <span class="sc">+</span></span>
<span id="cb55-5"><a href="#cb55-5" tabindex="-1"></a>  <span class="fu">ylab</span>(<span class="st">&quot;&quot;</span>) <span class="sc">+</span></span>
<span id="cb55-6"><a href="#cb55-6" tabindex="-1"></a>  <span class="fu">scale_y_discrete</span>(<span class="at">label =</span> <span class="cn">NULL</span>) <span class="sc">+</span></span>
<span id="cb55-7"><a href="#cb55-7" tabindex="-1"></a>  <span class="fu">theme_bw</span>() <span class="sc">+</span></span>
<span id="cb55-8"><a href="#cb55-8" tabindex="-1"></a>  <span class="fu">theme</span>(<span class="at">legend.position =</span> <span class="st">&quot;bottom&quot;</span>) <span class="sc">+</span></span>
<span id="cb55-9"><a href="#cb55-9" tabindex="-1"></a>  <span class="fu">scale_fill_brewer</span>(<span class="at">palette =</span> <span class="st">&quot;Set3&quot;</span>) <span class="sc">+</span></span>
<span id="cb55-10"><a href="#cb55-10" tabindex="-1"></a>  <span class="fu">facet_grid</span>(classe <span class="sc">~</span> ., <span class="at">scales =</span> <span class="st">&quot;free_y&quot;</span>, <span class="at">space =</span> <span class="st">&quot;free_y&quot;</span>) <span class="sc">+</span></span>
<span id="cb55-11"><a href="#cb55-11" tabindex="-1"></a>  <span class="fu">scale_x_continuous</span>(<span class="at">limits =</span> <span class="fu">c</span>(<span class="dv">14</span>, <span class="dv">50</span>), <span class="at">breaks =</span> <span class="fu">c</span>(<span class="dv">14</span>, <span class="dv">20</span>, <span class="dv">25</span>, <span class="dv">30</span>, <span class="dv">35</span>, <span class="dv">40</span>, <span class="dv">45</span>, <span class="dv">50</span>), <span class="at">expand =</span> <span class="fu">c</span>(<span class="dv">0</span>, <span class="dv">0</span>))</span></code></pre></div>
<pre><code>Warning: Removed 2000 rows containing missing values
(`geom_raster()`).</code></pre>
<p><img src="graphs/analyse-de-sequences/unnamed-chunk-20-1.png" width="1050" /></p>
</div>
<p>La distance des séquences d’une classe au centre de cette classe, obtenue avec <code data-pkg="TraMineR">disscenter</code>, permet de mesurer plus précisément l’<dfn>homogénéité des classes</dfn><dfn data-index="classe, homogénéité"></dfn>. Nous utilisons ici <code data-pkg="stats">aggregate</code> pour calculer la moyenne par classe :</p>
<div class="sourceCode" id="cb57"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb57-1"><a href="#cb57-1" tabindex="-1"></a><span class="fu">aggregate</span>(<span class="fu">disscenter</span>(<span class="fu">as.dist</span>(seq.om), <span class="at">group =</span> seq.part), <span class="fu">list</span>(seq.part), mean)</span></code></pre></div>
<div data-pagedtable="false">
<script data-pagedtable-source type="application/json">
{"columns":[{"label":["Group.1"],"name":[1],"type":["fct"],"align":["left"]},{"label":["x"],"name":[2],"type":["dbl"],"align":["right"]}],"data":[{"1":"classe.1","2":"15.797993"},{"1":"classe.2","2":"6.791962"},{"1":"classe.3","2":"15.032359"},{"1":"classe.4","2":"7.352675"},{"1":"classe.5","2":"14.219915"}],"options":{"columns":{"min":{},"max":[10]},"rows":{"min":[10],"max":[10]},"pages":{}}}
  </script>
</div>
<p>Cela nous confirme que les classes 1, 3 et 5 sont nettement plus hétérogènes que les autres, alors que la classe 2 est la plus homogène.</p>
<p>D’autres représentations graphiques existent pour poursuivre l’examen de la typologie. On peut visualiser les 10 séquences les plus fréquentes de chaque classe avec <code data-pkg="TraMineR" data-rdoc="seqplot">seqfplot</code>.</p>
<figure>
<div class="sourceCode" id="cb58"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb58-1"><a href="#cb58-1" tabindex="-1"></a><span class="fu">seqfplot</span>(seq, <span class="at">group =</span> seq.part)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-22-1.png" width="1050" />
<figcaption>
Séquences les plus fréquentes de chaque classe
</figcaption>
</figure>
<p>On peut aussi visualiser avec <code data-pkg="TraMineR" data-rdoc="seqplot">seqmsplot</code> l’état modal (celui qui correspond au plus grand nombre de séquences de la classe) à chaque âge.</p>
<figure>
<div class="sourceCode" id="cb59"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb59-1"><a href="#cb59-1" tabindex="-1"></a><span class="fu">seqmsplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">xtlab =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>, <span class="at">main =</span> <span class="st">&quot;classe&quot;</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-23-1.png" width="1050" />
<figcaption>
Statut modal à chaque âge
</figcaption>
</figure>
<p>On peut également représenter avec <code data-pkg="TraMineR" data-rdoc="seqplot">seqmtplot</code> les durées moyennes passées dans les différents états.</p>
<figure>
<div class="sourceCode" id="cb60"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb60-1"><a href="#cb60-1" tabindex="-1"></a><span class="fu">seqmtplot</span>(seq, <span class="at">group =</span> seq.part)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-24-1.png" width="1050" />
<figcaption>
Durée moyenne dans chaque statut
</figcaption>
</figure>
<p>La fonction <code data-pkg="TraMineR" data-rdoc="seqplot">seqrplot</code> cherche à identifier des séquences <q>représentatives</q> de chaque classe. Plusieurs méthodes sont proposées (voir <code data-pkg="TraMineR">seqrep</code>). La méthode <code>dist</code> cherche à identifier des séquences centrales à chaque classe, c’est-à-dire situées à proximité du centre de la classe. Selon l’hétérogénéité de la classe, plusieurs séquences <q>représentatives</q> peuvent être renvoyées. ATTENTION : il faut être prudent dans l’interprétation de ces séquences centrales de la classe dans la mesure où elles ne rendent pas toujours compte de ce qui se passe dans la classe et où elles peuvent induire en erreur quand la classe est assez hétérogène. Il faut donc les considérer tout en ayant en tête l’ensemble du tapis de séquence pour voir si elles sont effectivement de bonnes candidates.</p>
<figure>
<div class="sourceCode" id="cb61"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb61-1"><a href="#cb61-1" tabindex="-1"></a><span class="fu">seqrplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">dist.matrix =</span> seq.om, <span class="at">criterion =</span> <span class="st">&quot;dist&quot;</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-25-1.png" width="1050" />
<figcaption>
Séquences <q>représentatives</q> de chaque classe
</figcaption>
</figure>
<p>Enfin, l’<dfn>entropie transversale</dfn><dfn data-index="transversale, entropie"></dfn> décrit l’évolution de l’homogénéité de la classe. Pour un âge donné, une entropie proche de 0 signifie que tous les individus de la classe (ou presque) sont dans la même situation. À l’inverse, l’entropie est de 1 si les individus sont dispersés dans toutes les situations. Ce type de graphique produit par <code data-pkg="TraMineR" data-rdoc="seqplot">seqHtplot</code> peut être pratique pour localiser les moments de transition, l’insertion professionnelle ou une mobilité sociale ascendante.</p>
<figure>
<div class="sourceCode" id="cb62"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb62-1"><a href="#cb62-1" tabindex="-1"></a><span class="fu">seqHtplot</span>(seq, <span class="at">group =</span> seq.part, <span class="at">xtlab =</span> <span class="dv">14</span><span class="sc">:</span><span class="dv">50</span>)</span></code></pre></div>
<img src="graphs/analyse-de-sequences/unnamed-chunk-26-1.png" width="1050" />
<figcaption>
Entropie transversale
</figcaption>
</figure>
</div>
<div id="distribution-de-la-typologie" class="section level2 hasAnchor">
<h2 class="hasAnchor">Distribution de la typologie<a href="#distribution-de-la-typologie" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>On souhaite maintenant connaître la distribution de la typologie (en effectifs et en pourcentages) :</p>
<div class="sourceCode" id="cb63"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb63-1"><a href="#cb63-1" tabindex="-1"></a><span class="fu">library</span>(questionr)</span>
<span id="cb63-2"><a href="#cb63-2" tabindex="-1"></a><span class="fu">freq</span>(seq.part)</span></code></pre></div>
<div data-pagedtable="false">
<script data-pagedtable-source type="application/json">
{"columns":[{"label":[""],"name":["_rn_"],"type":[""],"align":["left"]},{"label":["n"],"name":[1],"type":["dbl"],"align":["right"]},{"label":["%"],"name":[2],"type":["dbl"],"align":["right"]},{"label":["val%"],"name":[3],"type":["dbl"],"align":["right"]}],"data":[{"1":"366","2":"36.6","3":"36.6","_rn_":"classe.1"},{"1":"183","2":"18.3","3":"18.3","_rn_":"classe.2"},{"1":"104","2":"10.4","3":"10.4","_rn_":"classe.3"},{"1":"296","2":"29.6","3":"29.6","_rn_":"classe.4"},{"1":"51","2":"5.1","3":"5.1","_rn_":"classe.5"}],"options":{"columns":{"min":{},"max":[10]},"rows":{"min":[10],"max":[10]},"pages":{}}}
  </script>
</div>
<p>On poursuit ensuite la description des classes en croisant la typologie avec la variable <em>generation</em> :</p>
<div class="sourceCode" id="cb64"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb64-1"><a href="#cb64-1" tabindex="-1"></a><span class="fu">cprop</span>(<span class="fu">table</span>(seq.part, donnees<span class="sc">$</span>generation))</span></code></pre></div>
<pre><code>          
seq.part   1930-38 1939-45 1946-50 Ensemble
  classe.1  35.6    32.5    40.8    36.6   
  classe.2  19.7    18.3    17.0    18.3   
  classe.3   6.5    13.9    11.2    10.4   
  classe.4  31.8    29.2    27.9    29.6   
  classe.5   6.5     6.1     3.0     5.1   
  Total    100.0   100.0   100.0   100.0   </code></pre>
<div class="sourceCode" id="cb66"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb66-1"><a href="#cb66-1" tabindex="-1"></a><span class="fu">chisq.test</span>(<span class="fu">table</span>(seq.part, donnees<span class="sc">$</span>generation))</span></code></pre></div>
<pre><code>
    Pearson&#39;s Chi-squared test

data:  table(seq.part, donnees$generation)
X-squared = 18.518, df = 8, p-value = 0.01766</code></pre>
<p>Le lien entre le fait d’avoir un certain type de carrières et la cohorte de naissance est significatif à un seuil de 15 %. On constate par exemple l’augmentation continue de la proportion de carrières de type « professions intermédiaires » (classe 1) et, entre les deux cohortes les plus anciennes, l’augmentation de la part des carrières de type « employés » (classe 3) et la baisse de la part des carrières de type « cadres » (classe 4).</p>
<p>Bien d’autres analyses sont envisageables : croiser la typologie avec d’autres variables (origine sociale, etc.), construire l’espace des carrières possibles, étudier les interactions entre trajectoires familiales et professionnelles, analyser la variance des dissimilarités entre séquences en fonction de plusieurs variables « explicatives<a href="#fn16" class="footnote-ref" id="fnref16"><sup>16</sup></a> »…</p>
<p>Mais l’exemple proposé est sans doute bien suffisant pour une première introduction !</p>
</div>
<div id="pour-aller-plus-loin" class="section level2 hasAnchor">
<h2 class="hasAnchor">Pour aller plus loin<a href="#pour-aller-plus-loin" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<p>En premier lieu, la lecture du manuel d’utilisation de <code class="pkg">TraMineR</code>, intitulé <a href="http://mephisto.unige.ch/pub/TraMineR/doc/TraMineR-Users-Guide.pdf"><em>Mining sequence data in R with the TraMineR package: A user’s guide</em></a> et écrit par Alexis Gabadinho, Gilbert Ritschard, Matthias Studer et Nicolas S. Muller, est fortement conseillée. Ce manuel ne se contente pas de présenter l’extension, mais aborde également la théorie sous-jacente de l’analyse de séquences, les différents formats de données, les différences approches (séquences de statut ou séquences de transitions par exemple), etc.</p>
<p>Pour une initiation en français, on pourra se référer à l’ouvrage de Nicolas Robette <a href="http://www.ceped.org/?article1064"><em>Explorer et décrire les parcours de vie : les typologies de trajectoires</em></a> sorti en 2011 aux éditions du Ceped.</p>
<p>L’extension <code class="pkg">WeightedCluster</code> de Matthias Studer est un excellent complément à <code class="pkg">TraMineR</code>. Il a également écrit un <a href="https://cran.r-project.org/web/packages/WeightedCluster/vignettes/WeightedClusterFR.pdf"><em>manuel de la librairie WeightedCluster : un guide pratique pour la création de typologies de trajectoires en sciences sociales avec R</em></a>.</p>
<p>Enfin, l’extension <code class="pkg">TraMineRextras</code> (<a href="https://cran.r-project.org/package=TraMineRextras" class="uri">https://cran.r-project.org/package=TraMineRextras</a>) contient des fonctions complémentaires à <code class="pkg">TraMineR</code>, plus ou moins en phase de test.</p>
</div>
<div id="bibliographie" class="section level2 hasAnchor">
<h2 class="hasAnchor">Bibliographie<a href="#bibliographie" class="anchor-section" aria-label="Anchor link to header"></a></h2>
<ul>
<li>Abbott A., 2001, <em>Time matters. On theory and method</em>, The University of Chicago Press.</li>
<li>Abbott A., Hrycak A., 1990, « Measuring ressemblance in sequence data: an optimal matching analysis of musicians’ careers», <em>American journal of sociology</em>, (96), p.144-185. <a href="http://www.jstor.org/stable/10.2307/2780695" class="uri">http://www.jstor.org/stable/10.2307/2780695</a></li>
<li>Abbott A., Tsay A., 2000, « Sequence analysis and optimal matching methods in sociology: Review and prospect », <em>Sociological methods &amp; research</em>, 29(1), p.3-33. <a href="http://smr.sagepub.com/content/29/1/3.short" class="uri">http://smr.sagepub.com/content/29/1/3.short</a></li>
<li>Gabadinho, A., Ritschard, G., Müller, N.S. &amp; Studer, M., 2011, « Analyzing and visualizing state sequences in R with TraMineR », <em>Journal of Statistical Software</em>, 40(4), p.1-37. <a href="http://archive-ouverte.unige.ch/downloader/vital/pdf/tmp/4hff8pe6uhukqiavvgaluqmjq2/out.pdf" class="uri">http://archive-ouverte.unige.ch/downloader/vital/pdf/tmp/4hff8pe6uhukqiavvgaluqmjq2/out.pdf</a></li>
<li>Grelet Y., 2002, « Des typologies de parcours. Méthodes et usages », <em>Document Génération</em> 92, (20), 47 p. <a href="http://www.cmh.greco.ens.fr/programs/Grelet_typolparc.pdf" class="uri">http://www.cmh.greco.ens.fr/programs/Grelet_typolparc.pdf</a></li>
<li>Lelièvre É., Vivier G., 2001, « Évaluation d’une collecte à la croisée du quantitatif et du qualitatif : l’enquête Biographies et entourage », <em>Population</em>, (6), p.1043-1073. <a href="http://www.persee.fr/web/revues/home/prescript/article/pop_0032-4663_2001_num_56_6_7217" class="uri">http://www.persee.fr/web/revues/home/prescript/article/pop_0032-4663_2001_num_56_6_7217</a></li>
<li>Lemercier C., 2005, « Les carrières des membres des institutions consulaires parisiennes au XIX<sup>e</sup> siècle », <em>Histoire et mesure</em>, XX (1-2), p.59-95. <a href="http://histoiremesure.revues.org/786" class="uri">http://histoiremesure.revues.org/786</a></li>
<li>Lesnard L., 2008, « Off-Scheduling within Dual-Earner Couples: An Unequal and Negative Externality for Family Time », <em>American Journal of Sociology</em>, 114(2), p.447-490. <a href="http://laurent.lesnard.free.fr/IMG/pdf/lesnard_2008_off-scheduling_within_dual-earner_couples-2.pdf" class="uri">http://laurent.lesnard.free.fr/IMG/pdf/lesnard_2008_off-scheduling_within_dual-earner_couples-2.pdf</a></li>
<li>Lesnard L., Saint Pol T. (de), 2006, « Introduction aux Méthodes d’Appariement Optimal (Optimal Matching Analysis) », <em>Bulletin de Méthodologie Sociologique</em>, 90, p.5-25. <a href="http://bms.revues.org/index638.html" class="uri">http://bms.revues.org/index638.html</a></li>
<li>Robette N., 2011, <em>Explorer et décrire les parcours de vie : les typologies de trajectoires</em>, Ceped (Les Clefs pour), 86 p.  <a href="http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf" class="uri">http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf</a></li>
<li>Robette N., 2012, « Du prosélytisme à la sécularisation. Le processus de diffusion de l’Optimal Matching Analysis », <em>document de travail</em>. <a href="http://nicolas.robette.free.fr/Docs/Proselytisme_secularisation_NRobette.pdf" class="uri">http://nicolas.robette.free.fr/Docs/Proselytisme_secularisation_NRobette.pdf</a></li>
<li>Robette N., Bry X., 2012, « Harpoon or bait? A comparison of various metrics to fish for life course patterns », <em>Bulletin de Méthodologie Sociologique</em>, 116, p.5-24. <a href="http://nicolas.robette.free.fr/Docs/Harpoon_maggot_RobetteBry.pdf" class="uri">http://nicolas.robette.free.fr/Docs/Harpoon_maggot_RobetteBry.pdf</a></li>
<li>Robette N., Thibault N., 2008, « L’analyse exploratoire de trajectoires professionnelles : analyse harmonique qualitative ou appariement optimal ? », <em>Population</em>, 64(3), p.621-646. <a href="http://www.cairn.info/revue-population-2008-4-p-621.htm" class="uri">http://www.cairn.info/revue-population-2008-4-p-621.htm</a></li>
<li>Savage M., 2009, « Contemporary Sociology and the Challenge of Descriptive Assemblage », <em>European Journal of Social Theory</em>, 12(1), p.155-174. <a href="http://est.sagepub.com/content/12/1/155.short" class="uri">http://est.sagepub.com/content/12/1/155.short</a></li>
</ul>
</div>
<div class="footnotes footnotes-end-of-document">
<hr />
<ol>
<li id="fn1"><p>Pour une analyse des conditions sociales de la diffusion de l’analyse de séquences dans le champ des sciences sociales, voir Robette, 2012.<a href="#fnref1" class="footnote-back">↩︎</a></p></li>
<li id="fn2"><p><a href="http://home.uchicago.edu/~aabbott/" class="uri">http://home.uchicago.edu/~aabbott/</a><a href="#fnref2" class="footnote-back">↩︎</a></p></li>
<li id="fn3"><p><a href="http://lemercier.ouvaton.org/document.php?id=62" class="uri">http://lemercier.ouvaton.org/document.php?id=62</a><a href="#fnref3" class="footnote-back">↩︎</a></p></li>
<li id="fn4"><p><a href="http://laurent.lesnard.free.fr/article.php3?id_article=22" class="uri">http://laurent.lesnard.free.fr/article.php3?id_article=22</a><a href="#fnref4" class="footnote-back">↩︎</a></p></li>
<li id="fn5"><p>Voir par exemple l’article d’Yvette Grelet (2002).<a href="#fnref5" class="footnote-back">↩︎</a></p></li>
<li id="fn6"><p><a href="http://www.ceped.org/?rubrique57" class="uri">http://www.ceped.org/?rubrique57</a><a href="#fnref6" class="footnote-back">↩︎</a></p></li>
<li id="fn7"><p><a href="http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf" class="uri">http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf</a><a href="#fnref7" class="footnote-back">↩︎</a></p></li>
<li id="fn8"><p>Pour une analyse plus poussée de ces données, avec deux méthodes différentes, voir Robette &amp; Thibault, 2008. Pour une présentation de l’enquête, voir Lelièvre &amp; Vivier, 2001.<a href="#fnref8" class="footnote-back">↩︎</a></p></li>
<li id="fn9"><p><a href="http://home.fsw.vu.nl/ch.elzinga/" class="uri">http://home.fsw.vu.nl/ch.elzinga/</a><a href="#fnref9" class="footnote-back">↩︎</a></p></li>
<li id="fn10"><p><a href="http://steinhaus.stat.ruhr-uni-bochum.de/tda.html" class="uri">http://steinhaus.stat.ruhr-uni-bochum.de/tda.html</a><a href="#fnref10" class="footnote-back">↩︎</a></p></li>
<li id="fn11"><p><a href="http://www.stata-journal.com/article.html?article=st0111" class="uri">http://www.stata-journal.com/article.html?article=st0111</a><a href="#fnref11" class="footnote-back">↩︎</a></p></li>
<li id="fn12"><p><a href="http://mephisto.unige.ch/traminer/" class="uri">http://mephisto.unige.ch/traminer/</a><a href="#fnref12" class="footnote-back">↩︎</a></p></li>
<li id="fn13"><p>Pour une présentation plus détaillée, voir le chapitre sur la <a href="classification-ascendante-hierarchique.html">classification ascendante hiérarchique (CAH)</a>.<a href="#fnref13" class="footnote-back">↩︎</a></p></li>
<li id="fn14"><p>Le fonctionnement de l’algorithme d’appariement optimal — et notamment le choix des coûts — est décrit dans le chapitre 9 du manuel de <code class="pkg">TraMineR</code> (<a href="http://mephisto.unige.ch/pub/TraMineR/doc/TraMineR-Users-Guide.pdf" class="uri">http://mephisto.unige.ch/pub/TraMineR/doc/TraMineR-Users-Guide.pdf</a>).<a href="#fnref14" class="footnote-back">↩︎</a></p></li>
<li id="fn15"><p>Essayez le même code mais avec <code>y = ordre</code> au lieu de <code>y = factor(ordre)</code> et vous comprendrez tout l’intérêt de cette astuce.<a href="#fnref15" class="footnote-back">↩︎</a></p></li>
<li id="fn16"><p>L’articulation entre méthodes « descriptives » et méthodes « explicatives » est un prolongement possible de l’analyse de séquences. Cependant, l’analyse de séquences était envisagée par Abbott comme une alternative à la sociologie quantitative <em>mainstream</em>, i.e le « paradigme des variables » et ses hypothèses implicites souvent difficilement tenables (Abbott, 2001). Une bonne description solidement fondée théoriquement vaut bien des « modèles explicatifs » (Savage, 2009).<a href="#fnref16" class="footnote-back">↩︎</a></p></li>
</ol>
</div>

</article>
</div>

<div class="col-sm-3" role="complementary">
<nav class="hidden-print hidden-xs" id="nav_sidebar">
</nav>
</div>

</div>

<script>
// manage active state of menu based on current page
$(document).ready(function () {

    // active menu
    href = window.location.pathname;
    href = href.substr(href.lastIndexOf('/') + 1);
    if (href=='') href = 'index.html';
    $('a[href="' + href + '"]').parent().addClass('active');
    $('a[href="' + href + '"]').parent().parents('li').addClass('active');

    // élargir la page d'accueil
    if (href=='index.html') $('.col-sm-9').attr('class','col-sm-12');

    // rechercher
    $("#rechercher").submit(function(event) {
      $('input[name="q"]').val($('input[name="q"]').val() + ' site:larmarange.github.io/analyse-R');
    });

    // sidebar
    $("#nav_sidebar").append($("#TOC").html());
    $("#nav_sidebar ul").addClass("nav nav-stacked");
    $("#TOC").addClass("visible-xs-block");
    $('body').scrollspy({
      target: '#nav_sidebar',
      offset: 40
    });

    // Identifier les <pre> fermant
    $('pre').next("*:not(pre)").prev().addClass('last'); // Dernier <pre> de chaque groupe contigu de <pre>
    $('pre').parent().each(function (){
      $(this).children('pre').last().addClass('last');
    }); // Si <pre> est le dernier enfant de son parent

    // Ajout liens rdocumentation et tooltip
    $("code[data-pkg]").each(function( index ) {
      pkg = $(this).attr('data-pkg');
      if ($(this).attr('data-rdoc') !== undefined) {
        rdocumentation = $(this).attr('data-rdoc');
      } else {
        rdocumentation = $(this).text();
      }
      fonction = $(this).text();
      //$(this).wrap('<a href="http://www.rdocumentation.org/packages/'+pkg+'/functions/'+rdocumentation+'">');
      $(this).wrap('<a href="http://rdrr.io/pkg/'+pkg+'/sym/'+rdocumentation+'">');
      $(this).attr('data-toggle','tooltip');
      $(this).attr('data-placement','top');
      $(this).attr('title','package : ' + pkg);
      $('[data-toggle="tooltip"]').tooltip();
    });

    $("code.pkg").each(function( index ) {
      //$(this).wrap('<a href="http://www.rdocumentation.org/packages/'+$(this).text()+'">');
      $(this).wrap('<a href="http://rdrr.io/pkg/'+$(this).text()+'">');
    });

    // Figures
    $("figure").each(function( index ) {
      if ($(this).children("figcaption").length > 0)
        $(this).children("figcaption:first").prepend('<span class="figure-number">Figure '+(index+1)+'.</span> ');
      else
        $(this).append($("<figcaption>").append('<span class="figure-number">Figure '+(index+1)+'</span>'));
    });

    // Colorbox

    /*----
    jQuery('article div img').colorbox({
      maxWidth: '90%',
      maxHeight: '90%',
      rel: 'figures',
      current: "",
      href: function(){
        return $(this).attr('src');
      },
      title: function(){
        return $(this).attr('alt');
      }
    });
    jQuery('article div img').css('cursor', 'pointer');
    jQuery('figure img').colorbox({
      maxWidth: '90%',
      maxHeight: '90%',
      rel: 'figures',
      current: "",
      href: function(){
        return $(this).attr('src');
      },
      title: function(){
        return $(this).parent().children("figcaption").text();
      }
    });
    jQuery('figure img').css('cursor', 'pointer');

    -----*/

    /* Clipboard --------------------------*/

  function changeTooltipMessage(element, msg) {
    var tooltipOriginalTitle=element.getAttribute('data-original-title');
    element.setAttribute('data-original-title', msg);
    $(element).tooltip('show');
    element.setAttribute('data-original-title', tooltipOriginalTitle);
  }

  if(ClipboardJS.isSupported()) {
    $(document).ready(function() {
      var copyButton = "<button type='button' class='btn btn-primary btn-copy-ex' type = 'submit' title='Copier dans le presse-papier' aria-label='Copier dans le presse-papier' data-toggle='tooltip' data-placement='left auto' data-trigger='hover' data-clipboard-copy><i class='fa fa-copy'></i></button>";

      $(".examples, div.sourceCode").addClass("hasCopyButton");

      // Insert copy buttons:
      $(copyButton).prependTo(".hasCopyButton");

      // Initialize tooltips:
      $('.btn-copy-ex').tooltip({container: 'body'});

      // Initialize clipboard:
      var clipboardBtnCopies = new ClipboardJS('[data-clipboard-copy]', {
        text: function(trigger) {
          return trigger.parentNode.textContent;
        }
      });

      clipboardBtnCopies.on('success', function(e) {
        changeTooltipMessage(e.trigger, 'Copié !');
        e.clearSelection();
      });

      clipboardBtnCopies.on('error', function() {
        changeTooltipMessage(e.trigger,'Appuyez sur Ctrl+C ou Command+C pour copier');
      });
    });
  }

  // Bigfoot
  $(".footnotes > li").addClass("footnote");
  $.bigfoot({
    activateOnHover: true,
    actionOriginalFN: "ignore"
});
});
</script>

<!-- Utterances comments
<script src="https://utteranc.es/client.js"
        repo="larmarange/analyse-R"
        issue-term="pathname"
        label="commentaires"
        theme="github-light"
        crossorigin="anonymous"
        async>
</script>
-->

<!-- Giscus comments -->
<script src="https://giscus.app/client.js"
        data-repo="larmarange/analyse-R"
        data-repo-id="MDEwOlJlcG9zaXRvcnkzNDk4NjY2Ng=="
        data-category-id="DIC_kwDOAhXaqs4B_iH_"
        data-mapping="pathname"
        data-reactions-enabled="1"
        data-emit-metadata="0"
        data-theme="light"
        data-lang="fr"
        crossorigin="anonymous"
        async>
</script>

<!-- disqus -->
<!---
<div class="row">
  <div id="disqus_thread" class="col-sm-9" role="complementary"></div>
</div>
    <script type="text/javascript">
        /* * * CONFIGURATION VARIABLES: EDIT BEFORE PASTING INTO YOUR WEBPAGE * * */
        var disqus_shortname = 'analyse-r'; // required: replace example with your forum shortname

        /* * * DON'T EDIT BELOW THIS LINE * * */
        (function() {
            var dsq = document.createElement('script'); dsq.type = 'text/javascript'; dsq.async = true;
            dsq.src = '//' + disqus_shortname + '.disqus.com/embed.js';
            (document.getElementsByTagName('head')[0] || document.getElementsByTagName('body')[0]).appendChild(dsq);
        })();
    </script>
    <noscript>Veuillez activer JavaScript pour voir les <a href="http://disqus.com/?ref_noscript">les commentaires gérés avec Disqus.</a></noscript>
    <!--<a href="http://disqus.com" class="dsq-brlink">Les commentaires sont hébergés par <span class="logo-disqus">Disqus</span>.</a>-->

<footer>
  <div class="row">
    <div class="col-lg-12">
      <p>Contenus sous licence <a href="https://creativecommons.org/licenses/by-nc-sa/3.0/fr/" rel="nofollow">Creative Commons Attribution - Pas d’utilisation commerciale - Partage dans les mêmes conditions</a>.<br />
      Propulsé par <a href="http://www.r-project.org/" rel="nofollow">R</a>, </a><a href="http://www.rstudio.com/" rel="nofollow">RStudio</a>, <a href="http://rmarkdown.rstudio.com/" rel="nofollow">R Markdown</a>, <a href="http://yihui.name/knitr/" rel="nofollow">knitr</a>, <a href="http://pandoc.org/" rel="nofollow">pandoc</a> et <a href="http://www.princexml.com/" rel="nofollow">Prince XML</a>. Hébergé par <a href="https://github.com/" rel="nofollow">GitHub</a>.<br />
      <a href="https://www.zenodo.org/badge/latestdoi/34986666"><img src="https://www.zenodo.org/badge/34986666.svg" alt="DOI"></a></p>
    </div>
  </div>
</footer>


</div>

<script>

// add bootstrap table styles to pandoc tables
function bootstrapStylePandocTables() {
  $('tr.odd').parent('tbody').parent('table').addClass('table table-condensed');
}
$(document).ready(function () {
  bootstrapStylePandocTables();
});


</script>

<!-- tabsets -->

<script>
$(document).ready(function () {
  window.buildTabsets("TOC");
});

$(document).ready(function () {
  $('.tabset-dropdown > .nav-tabs > li').click(function () {
    $(this).parent().toggleClass('nav-tabs-open');
  });
});
</script>

<!-- code folding -->


</body>
</html>