3-Models.qmd

# Regression

```{r}
library(wiesbaden)
library(tidyverse)
```

Wiesbaden package to access data from the Genesis database from Statistisches Bundesamt (located in Wiesbaden).

The Credentials to access the API are saved already, test login follows here.

```{r}
test_login(genesis=c(db="regio")) #test login
```

```{r}
wahl_lohn <- readRDS("data/wahl_lohn.Rds")
```

## Simple Regression

$$
\text{afd}_k = \beta_0 + \beta_1 \times \text{min}_k + \epsilon
$$

-   $\text{afd}_k$ AfD Vote Share in Landkreis $k$
-   $\text{min}_k$ Share of Minimum Wage Receivers in Landkreis $k$
-   $\beta_0$ Intercept
-   $\beta_1$ Slope
-   $\epsilon$ Error

```{r}
model_basic <- lm(
    afd_prozent ~ lohn_prozent, 
    data = wahl_lohn
  )
summary(model_basic)
```

## Ost West

```{r}
länder <- wahl_lohn$land %>% unique()
ost_names <- c("BB", "BE", "MV", "SN", "ST", "TH")

wahl_lohn <- wahl_lohn %>%
  mutate(
    ost = ifelse(land %in% ost_names, 1, 0)
  )
```

Dummy for ost

```{r}
model_ost <- lm(
    afd_prozent ~ lohn_prozent + ost, 
    data = wahl_lohn
  )
summary(model_ost)
```

## Unemployment Rate

from Regionalstatistik [13211-02-05-4](https://www.regionalstatistik.de/genesis//online?operation=table&code=13211-02-05-4&bypass=true&levelindex=0&levelid=1704816689633#abreadcrumb)

```{r}
d <- retrieve_datalist(tableseries="13211*", genesis=c(db="regio"))
subset(d, grepl("Kreise", description)) 
```

```{r}
#| output: false
data <- retrieve_data(tablename="13211KJ009", genesis=c(db="regio"))
head(data)
```

```{r}
arbeit_data <- data %>% 
  filter(JAHR == 2021) %>%
  select(kreis = KREISE, arbeitslosenquote = ERWP10_val) %>%
  # remove rows with more than 5 digits in kreis
  mutate(arbeitslosenquote = arbeitslosenquote / 100) %>%
  filter(nchar(kreis) == 5)
```

Merge

```{r}
wahl_lohn <- wahl_lohn %>%
  left_join(arbeit_data, by = "kreis")
```

```{r}
model_arbeit <- lm(
    afd_prozent ~ lohn_prozent + ost+ arbeitslosenquote, 
    data = wahl_lohn
  )
summary(model_arbeit)
```

## GDP per Capita

Regionalstatistik [82111](https://www.regionalstatistik.de/genesis//online?operation=table&code=82111-01-05-4&bypass=true&levelindex=0&levelid=1704893343488#abreadcrumb)

```{r}
d <- retrieve_datalist(tableseries="82111*", genesis=c(db="regio"))
subset(d, grepl("Kreise", description)) 
```

```{r}
#| output: false
data <- retrieve_data(tablename="82111KJ008", genesis=c(db="regio"))
head(data)
```

```{r}
gdp_data <- data %>% 
  filter(JAHR == 2021) %>%
  select(kreis = KREISE, gdp = BIP804_val) %>%
  # remove rows with more than 5 digits in kreis
  filter(nchar(kreis) == 5)
```

```{r}
gdp_data %>%
  filter(!kreis %in% wahl_lohn$kreis) %>%
  select(kreis) %>%
  arrange(kreis)
```

16056 (Eisenach) not present in Wahl_Lohn Data..., because Eisenach Kreis doesnt exist anymore, it is now Wartburgkreis (16063)

Merge

```{r}
wahl_lohn <- wahl_lohn %>%
  left_join(gdp_data, by = "kreis")
```

Model

```{r}
model_gdp <- lm(
    afd_prozent ~ lohn_prozent + ost+ arbeitslosenquote + log(gdp), 
    data = wahl_lohn
  )
summary(model_gdp)
```

## Avg. Age

```{r}
d <- retrieve_datalist(tableseries="12411*", genesis=c(db="regio"))
subset(d, grepl("Kreise", description)) 
```

```{r}
#| output: false
data <- retrieve_data(tablename="12411KJ019", genesis=c(db="regio"))
head(data)
```

```{r}
age_data <- data %>% 
  filter(STAG == "31.12.2021") %>%
  select(kreis = KREISE, 
         age = BEV519_val #avg age
         ) %>%
  # remove rows with more than 5 digits in kreis
  filter(nchar(kreis) == 5)
```

Merge

```{r}
wahl_lohn <- wahl_lohn %>%
  left_join(age_data, by = "kreis")
```

```{r}
model_age <- lm(
    afd_prozent ~ lohn_prozent + ost+ arbeitslosenquote + log(gdp) + age, 
    data = wahl_lohn
  )
summary(model_age)
```

## Population Density

Regionalstatistik [99910](https://www.regionalstatistik.de/genesis//online?operation=table&code=AI002-1-5&bypass=true&levelindex=0&levelid=1704894307140#abreadcrumb)

```{r}
d <- retrieve_datalist(tableseries="99910*", genesis=c(db="regio"))
subset(d, grepl("Bevölkerung", description)) 
```

```{r}
#| output: false
data <- retrieve_data(tablename="99910KJA02", genesis=c(db="regio"))
head(data)
```

```{r}
pop_data <- data %>% 
  filter(JAHR == 2021) %>%
  select(kreis = KREISE, 
         pop = AI0201_val, #population density je km2
         foreigners = AI0208_val #foreigners rate in %
         ) %>%
  mutate(foreigners = foreigners / 100) %>%
  # remove rows with more than 5 digits in kreis
  filter(nchar(kreis) == 5)
```

Merge

```{r}
wahl_lohn <- wahl_lohn %>%
  left_join(pop_data, by = "kreis")
```

<!-- somehow changes the model... 

```{r}
model_foreign <- lm(
    afd_prozent ~ lohn_prozent + ost+ arbeitslosenquote + log(gdp)+ age , 
    data = wahl_lohn
  )
summary(model_foreign)
```
-->


```{r}
model_pop <- lm(
    afd_prozent ~ lohn_prozent + ost+ arbeitslosenquote + log(gdp) +age + log(pop), 
    data = wahl_lohn
  )
summary(model_pop)
```


<!--

## Dropping Variables

```{r}
model_drop <- lm(
  afd_prozent ~ ost+ arbeitslosenquote + log(gdp) +age+ foreigners + log(pop),
  data = wahl_lohn
)
summary(model_drop)
```

hust, lets just ignore that...:)

-->


## Choosing the best Model

via Stepwise Regression, explained [here](https://www.statology.org/stepwise-regression-r/)

not well regarded in Econometrics, because it is prone to overfitting! just for self reference, that lohn_prozent is chosen and therefore valid

```{r}
step(model_basic, direction = "both", scope = ~ lohn_prozent + ost + foreigners+ arbeitslosenquote + log(gdp) + age, trace=0)
```

Seems, best model is: "afd_prozent \~ lohn_prozent + ost + age + arbeitslosenquote + foreigners"

## Interlude: Linke

```{r}
model_linke <- lm(
    linke_prozent ~ lohn_prozent,
    data = wahl_lohn
  )

model_linke_2 <- lm(
    linke_prozent ~ lohn_prozent + ost,
    data = wahl_lohn
  )

model_linke_3 <- lm(
    linke_prozent ~ lohn_prozent + ost + arbeitslosenquote,
    data = wahl_lohn
  )

model_linke_4 <- lm(
  linke_prozent ~ lohn_prozent + ost + arbeitslosenquote + log(gdp),
    data = wahl_lohn
)

model_linke_5 <- lm(
  linke_prozent ~ lohn_prozent + ost + arbeitslosenquote + log(gdp) +  age,
    data = wahl_lohn
)

model_linke_6 <- lm(
  linke_prozent ~ lohn_prozent + ost + arbeitslosenquote + log(gdp) +  age + log(pop),
    data = wahl_lohn
)

summary(model_linke_6)
```

=\> not significant in all variants, low R2 in basic variant

## Save Data

```{r}
#save all Models
save(
  model_basic,
  model_ost,
  model_arbeit, 
  model_gdp, 
  model_age,
  model_pop, 
  file = "data/models.RData")

save(
  model_linke,
  model_linke_2,
  model_linke_3,
  model_linke_4,
  model_linke_5,
  model_linke_6,
  file = "data/models_linke.RData"
  )

```

```{r}
saveRDS(wahl_lohn, "data/wahl_lohn_mod.RDS")
```