beispielprojekte.Rmd

---
title: "R Notebook"
output: html_notebook
---

This is an [R Markdown](http://rmarkdown.rstudio.com) Notebook. When you execute code within the notebook, the results appear beneath the code. 

Try executing this chunk by clicking the *Run* button within the chunk or by placing your cursor inside it and pressing *Cmd+Shift+Enter*. 

```{r}
plot(cars)
```

Add a new chunk by clicking the *Insert Chunk* button on the toolbar or by pressing *Cmd+Option+I*.

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the *Preview* button or press *Cmd+Shift+K* to preview the HTML file). 

The preview shows you a rendered HTML copy of the contents of the editor. Consequently, unlike *Knit*, *Preview* does not run any R code chunks. Instead, the output of the chunk when it was last run in the editor is displayed.


# Automatisierte Inhaltsanalyse mit R
#
# inhaltsanalyse_9_beispiel_bundestag.R
# 
# Arbeiten mit Metadaten am Beispiel des Bundestags-Korpus

# Installation und Laden der notwendigen Bibliotheken
if(!require("quanteda")) install.packages("quanteda")
if(!require("tidyverse")) install.packages("tidyverse")
if(!require("lubridate")) install.packages("lubridate")
if(!require("RColorBrewer")) install.packages("RColorBrewer")

# ggplot theme-Einstellung
theme_set(theme_bw())

# Laden des Bundestags-Korpus sowie der Sitzungstermine
load("daten/bundestag/bundestag.RData")
load("daten/bundestag/sitzungstermine.RData")

# Einfügen der Sitzungstermine sowie Umformatierung von Variablen
bundestag <- left_join(bundestag, sitzungstermine, "sitzung")
bundestag$termin_f <- ymd(format(bundestag$termin, "%Y-%m-01"))
bundestag$id <- as.character(bundestag$id)

# Hinzufügen der neuen Variable 'Altersgruppe'
geburtsjahr <- bundestag$birth_date %>% 
  str_sub(start = 1, end = 4) %>% 
  as.integer()
alter <- year(Sys.time())-geburtsjahr
altersgruppe <- cut(alter, breaks = seq(from = 30, to = 85, by = 5), ordered_result = TRUE)
bundestag <- bind_cols(bundestag, data.frame(altersgruppe))

# Wie ist die Verteilung nach Alter?
barplot(prop.table(table(alter))*100, main = "Altersverteilung im Bundestag", xlab = "Alter", ylab = "Anteil (%)")

# Wie ist die Verteilung nach Geschlecht?
pie(table(bundestag$gender), main = "Gerschlechterverteilung im Bundestag")

# Vorbereiten des Korpus
korpus <- corpus(bundestag, docid_field = "id", text_field = "text")
korpus <- corpus_subset(korpus, party != "fraktionslos") # parteilose Abgeordnete werden ausgeschlossen, da der Anteil sehr gering ausfällt

# Erstellung einer DFM, die alle Beiträge nach Partei gruppiert
meine.dfm <- dfm(korpus, groups = "party", remove_numbers = TRUE, remove_punct = TRUE, remove_symbols = TRUE, remove = c(stopwords("german"), "herr", "frau", "dr", "dat", "dass", "mehr", "müssen", "ja", "schon", "gibt", "geht"))

# Wie groß sind die Redeanteile nach Partei?
barplot(ntoken(meine.dfm), main = "Wortanteile nach Parteien im Bundestagskorpus (absolut)", ylab = "Tokens")

# Erstellung einer reduzierten DFM, die nur noch solche Terme im 95. Perzentil enthält (d.h. die circa 20+ mal vorkommen)
meine.dfm.trim <- dfm_trim(meine.dfm, min_count = .95)

# Distinktive Begriffe nach TF-IDF (einzelne Parteien) 
meine.dfm.tfidf <- dfm_tfidf(meine.dfm.trim)
topfeatures(meine.dfm.tfidf[1,]) # CDU
topfeatures(meine.dfm.tfidf[2,]) # CSU
topfeatures(meine.dfm.tfidf[3,]) # GRÜNE
topfeatures(meine.dfm.tfidf[4,]) # LINKE
topfeatures(meine.dfm.tfidf[5,]) # SPD

# Extrahiere distinktive Begriffe nach TF-IDF für alle Parteien
distinktive.begriffe <- as.data.frame(dfm_sort(meine.dfm.tfidf, margin = "features"))
rownames(distinktive.begriffe) <- distinktive.begriffe$document
distinktive.begriffe <- t(distinktive.begriffe[,-1])
distinktive.begriffe <- distinktive.begriffe[rowSums(distinktive.begriffe) > 0,]
hmcol <- brewer.pal(9, "Blues")
heatmap(distinktive.begriffe, Colv = NA, col = hmcol, margins = c(10,8), main = "Distinktive Begriffe nach TF-IDF für alle Parteien")

# Definition eines (sehr!) einfachen Lexikons
mein.lexikon <- dictionary(list(freiheit = "freiheit", sicherheit = "sicherheit", gerechtigkeit = "gerechtigkeit", umwelt = "umwelt", familie = "familie", wirtschaft = "wirtschaft"))

# Themen nach Parteien
meine.dfm <- dfm(korpus, groups = "party", dictionary = mein.lexikon)
meine.dfm <- dfm_weight(meine.dfm, scheme = "prop")
themen <- as.data.frame(meine.dfm) %>% 
  rename(Partei = document) %>% 
  gather(Kategorie, Anteil, -Partei)
ggplot(themen, aes(Partei, Anteil, fill = Kategorie)) + geom_bar(stat = "identity") + ggtitle("Lexikonbasierte Themenkategorien nach Parteien im Bundestagskorpus (%)")

# Themen nach Geschlecht
meine.dfm <- dfm(korpus, groups = "gender", dictionary = mein.lexikon)
meine.dfm <- dfm_weight(meine.dfm, scheme = "prop")
themen <- as.data.frame(meine.dfm) %>% 
  rename(Gender = document) %>% 
  gather(Kategorie, Anteil, -Gender)
ggplot(themen, aes(Gender, Anteil, fill = Kategorie)) + geom_bar(stat = "identity") + ggtitle("Lexikonbasierte Themenkategorien nach Geschlecht im Bundestagskorpus (%)")

# Themen nach Altersgruppe
meine.dfm <- dfm(korpus, groups = "altersgruppe", dictionary = mein.lexikon)
meine.dfm <- dfm_weight(meine.dfm, scheme = "prop")
themen <- as.data.frame(meine.dfm) %>% 
  rename(Altersgruppe = document) %>% 
  gather(Kategorie, Anteil, -Altersgruppe)
ggplot(themen, aes(Altersgruppe, Anteil, fill = Kategorie)) + geom_bar(stat = "identity") + ggtitle("Lexikonbasierte Themenkategorien nach Altersgruppe im Bundestagskorpus (%)")

# Themen nach Berufsgruppe --- leider ist die Variable nicht wirklich brauchbar, weil nur eine handvoll Personen zugeordnet sind - lieber education verwendens
meine.dfm <- dfm(korpus, groups = "education_category", dictionary = mein.lexikon)
meine.dfm <- dfm_weight(meine.dfm, scheme = "prop")
themen <- as.data.frame(meine.dfm) %>% 
  rename(Berufsgruppe = document) %>% 
  gather(Kategorie, Anteil, -Berufsgruppe)
ggplot(themen, aes(Berufsgruppe, Anteil, fill = Kategorie)) + geom_bar(stat = "identity") + ggtitle("Lexikonbasierte Themenkategorien nach Berufsgruppe im Bundestagskorpus (%)") + theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Themen über die Zeit
meine.dfm <- dfm(korpus, groups = "termin_f", dictionary = mein.lexikon)
meine.dfm <- dfm_weight(meine.dfm, scheme = "prop")
themen <- as.data.frame(meine.dfm) %>% 
  rename(Termin = document) %>% 
  mutate(Termin = ymd(Termin)) %>% 
  gather(Kategorie, Anteil, -Termin)
ggplot(themen, aes(Termin, Anteil, group = Kategorie)) + geom_line(aes(color = Kategorie), size = 1) + scale_x_date(date_breaks = "months", date_labels = "%b %Y") + ggtitle("Lexikonbasierte Themenkategorien nach über die Zeit im Bundestagskorpus (%)") + theme(axis.text.x = element_text(angle = 45, hjust = 1))