Jaar: 1873 Kranten:
- de Tijd
- de Standaard
- Het Vaderland
Nieuwe opzet:
- Basics python/notebook. Dit kunnen we ook meegeven als huiswerk: https://kbnlresearch.github.io/xml-workshop/1_introduction_python.html
- Inlezen dataset.
- Basic info over dataset: wat zit erin? En wat ontbreekt?
- Aantal kranten.
- Verdeling over tijd/dagen.
- Basic vergelijking van kranten.
- Gemiddeld aantal woorden per artikel per krant.
- Inhoudelijke vergelijking nieuwsevent (bijvoorbeeld Atjehoorlog, die in 1873 begon).
- Wordcloud
- NER
- N-gram, hoe vaak komen bepaalde woorden voor?