-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathstatwiwi.tex
3414 lines (2525 loc) · 294 KB
/
statwiwi.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
\documentclass[a4paper]{article}
%% Language and font encodings
\usepackage[english]{babel}
\usepackage[utf8x]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{amssymb}
%% Sets page size and margins
\usepackage[a4paper,top=3cm,bottom=2cm,left=3cm,right=3cm,marginparwidth=1.75cm]{geometry}
%% Useful packages
\usepackage{amsmath}
\usepackage{graphicx}
\usepackage[colorinlistoftodos]{todonotes}
\usepackage[colorlinks=true, allcolors=blue]{hyperref}
\usepackage{stmaryrd}
\usepackage{subfig}
\usepackage{mathtools}
\usepackage{xcolor}
\usepackage{floatrow}
%\usepackage{minted}
\usepackage{verbatim}
\usepackage{fancyvrb}
\usepackage{color}
\usepackage{multicol}
\usepackage{xcolor}
\usepackage{enumitem}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%% Custom definitions
\DeclarePairedDelimiter\ceil{\lceil}{\rceil}
\DeclarePairedDelimiter\floor{\lfloor}{\rfloor}
\DeclareMathOperator*{\E}{\mathbb{E}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\simtext}[1]{\ensuremath{\stackrel{\text{#1}}{\sim}}}
\newcommand\myeq{\stackrel{\mathclap{\normalfont\mbox{D}}}{=}}
\newtheorem{thm}{Hypothesis}
\newtheorem{lem}[thm]{Result}
\definecolor{bg}{rgb}{0.98,0.98,0.98}
\floatsetup[listing]{capposition=bottom}
\def\boxitem#1{\setbox0=\vbox{#1}{\centering\makebox[0pt]{%
\fboxrule=2pt\color{mLightBrown}\fbox{\hspace{\leftmargini}\color{black}\box0}}\par}}
\newenvironment{longlisting}{\captionsetup{type=listing}}{}
\setlength{\columnsep}{0.2cm}
\newcommand{\RomNum}[1]
{\MakeUppercase{\romannumeral #1}}
\def\boxitem#1{\setbox0=\vbox{#1}{\centering\makebox[0pt]{%
\fboxrule=2pt\color{mLightBrown}\fbox{\hspace{\leftmargini}\color{black}\box0}}\par}}
\newcommand\dangersign{%
\makebox[1.8em][c]{%
\makebox[0pt][c]{\raisebox{.15em}{\small!}}%
\makebox[0pt][c]{\color{red}\Large$\triangle$}}}%
\newcommand\blfootnote[1]{%
\begingroup
\renewcommand\thefootnote{}\footnote{#1}%
\addtocounter{footnote}{-1}%
\endgroup
}
\linespread{1.5}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\title{%
\large Wiederholung, Ergänzung, Erklärung \& Intuition:\\
\Large Statistik I \& II für Studierende der Wirtschaftswissenschaften\\
\large (Ludwig-Maximilians-Universität München)
}
\date{\textbf{Stand:} \today}
\author{\textbf{Autoren:}\\
Matthias Aßenmacher\thanks{Institut für Statistik, LMU München; Kontakt bei Fragen \& Anregungen: \url{[email protected]}}\qquad
Ann-Kathrin Köpple\thanks{Studentische Hilfskraft (SoSe20), Institut für Statistik, LMU München}\qquad
Christoph Luther\thanks{Studentische Hilfskraft (WiSe 18/19 - SoSe 20), Institut für Statistik, LMU München}\\
Patricia Haro\thanks{Studentische Hilfskraft (WiSe 18/19 - WiSe 19/20), Institut für Statistik, LMU München}\qquad
Maximilian Mandl\thanks{Institut für medizinische Informationsverarbeitung, Biometrie und Epidemiologie, LMU München\vspace{.25cm}}}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{document}
\maketitle
\blfootnote{
\hspace{-0.75cm}
\textit{\small
This work is licensed under a Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)\\
License details: \url{https://creativecommons.org/licenses/by-nc/4.0/}}
}
\noindent Dieses Dokument wurde aus verschiedenen Quellen erstellt. Es soll als kleine Verständnishilfe für Studierende angesehen werden, wobei auf mathematische Genauigkeit und Vollständigkeit explizit verzichtet wird. Außerdem wird jedes Thema durch einen Block an Multiple-Choice Aufgaben und Hinweisen auf die passenden \texttt{R}-Funktionen für die behandelten Methoden ergänzt. Für Fehler wird keine Haftung übernommen.\\
\noindent Der erste Teil dieses Dokuments ($\widehat \approx$ Statistik I) wurde von Ann-Kathrin in Zusammenarbeit mit Matthias im Sommer 2020 verfasst. Ann-Kathrin verantwortete das Schreiben des Erstentwurfs, Matthias war verantwortlich für intensives Korrekturlesen, Anpassungen und Erweiterungen.\\
Der zweite Teil ($\widehat \approx$ Statistik II) basiert auf Vorlesungszusammenfassungen von Max aus dem Sommer 2019, welche in Zusammenarbeit mit Christoph, Patricia \& Matthias in dieses Format gegossen und detaillierter ausgearbeitet wurden. Besonderer Dank für diesen zweiten Teil gilt Herrn Dr. Alexander Engelhardt, der freundlicherweise einen Teil seines Materials zur Verfügung gestellt hat (siehe auch: \url{https://www.crashkurs-statistik.de}), sodass wir uns hiervon inspirieren lassen konnten. Aufgrund des Fehlens der Themenbereiche Kombinatorik, Wahrscheinlichkeitsrechnung \& Multiple Regression wurden diese im Sommer 2020 von Ann-Kathrin \& Matthias ergänzt.
\clearpage
\tableofcontents
\clearpage
\hspace{0pt}
\vfill
\begin{center}
{\Huge Statistik I}
\end{center}
\vfill
\hspace{0pt}
\clearpage
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%% KAPITEL 1
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{Grundbegriffe, Skalenniveaus, Datenerhebung}
\subsection{Was ist die Statistik?}
Die Statistik kann man in drei verschiedene Grundaufgaben einteilen. Die deskriptive, explorative und induktive Statistik. In Statistik I wird hauptsächlich die deskriptive und die explorative Statistik thematisiert.
\begin{itemize}
\item Deskriptive Statistik: Das Ziel der deskriptiven Statistik ist es, umfangreiches Datenmaterial in Tabellen, Graphiken und Kennzahlen übersichtlich darzustellen. Viele dieser Methoden sind bereits aus der Schule bekannt (z.B. Kreis- und Balkendiagramm oder arithmetisches Mittel a.k.a. der Durchschnitt) und werden in dieser Veranstaltung durch weitere Ma\ss{}zahlen und Darstellungsweisen erg\"anzt.
\item Explorative Statistik: Hierbei wird das aufbereitete Datenmaterial auf Strukturen und Muster untersucht um mögliche Hypothesen aufzustellen.
\end{itemize}
\noindent Der Begriff \textit{Daten} mag f\"ur den ein oder anderen etwas neu sein, bezeichnet jedoch im Grunde genommen nichts anderes als eine Messung oder Erhebung von Werten. Vereinfachend kann man sich einen \textit{Datensatz} z.B. einfach als die Messung der Gr\"o\ss{}e aller Personen im H\"orsaal vorstellen.
\subsection{Grundbegriffe}
\subsubsection{Untersuchungseinheit und Grundgesamtheit}
Die \textbf{Untersuchungseinheit} ist ein einzelnes zu untersuchendes Objekt, welches durch das Symbol $\omega$ dargestellt wird.
\\Die \textbf{Grundgesamtheit} ist die Menge an Objekten, über die man etwas sagen möchte. Das Symbol der Grundgesamtheit ist $\Omega$. Somit sind alle Untersuchungseinheiten zusammen die Grundgesamtheit. Diese Beziehung lässt sich wie folgt umschreiben: $\omega \in \Omega$
\\ \textbf{Beispiel:} Die gesamten Studenten im H\"orsaal sind die Grundgesamtheit. Ein einzelner Student ist die Untersuchungseinheit.
\subsubsection{Bestandsmasse und Bewegungsmasse}
Wenn man die Grundgesamtheit $\Omega$ zu einem bestimmten Zeitpunkt einmal misst, dann spricht man von einer \textbf{Bestandsmasse}.\\
Beispiel hierfür ist die Messung, bei der festgestellt wird wie viele Studenten am Semesteranfang (10. Oktober) immatrikuliert sind.\\
Im Gegensatz dazu spricht man von einer \textbf{Bewegungsmasse} wenn Ereignisse gemessen werden, die über einen bestimmten Zeitraum eintreten können. Das wären zum Beispiel die Studenten, die während des Wintersemesters das Studium abbrechen.
\subsubsection{Merkmale und Merkmalsausprägungen}
Wenn wir von einer bestimmten Eigenschaft oder einem Aspekt der Untersuchungseinheit sprechen, nennt man dies \textbf{Merkmal} oder \textbf{statistische Variable}.
\\Wenn man sich nun für einen gemessenen/konkreten Wert eines Merkmals interessiert, dann nennt man das \textbf{Merkmalsausprägung}.
In unserem \textbf{Beispiel} könnte man sich für die Leistung in Statistik I der Studenten interessieren, somit sind die \textbf{Merkmalstr\"ager} \textit{Studenten, die Statistik I belegt haben}.
Eine konkrete \textbf{Merkmalsausprägung} mit dem \textbf{Merkmal}: "\textit{Leistung in Statistik I}" wäre dann auf der Notenskala 1,0 bis 5,0 beispielsweise die Note 2,3.\\
Es gibt zwei Arten von Merkmalsausprägungen:
\begin{itemize}
\item \textbf{Qualitative:} Merkmalsausprägungen, sind Ausprägungen, die keinen mathematischen Wert annehmen, also nicht aus Zahlen bestehen. In unserem Beispiel wäre das z.B. die Einteilung der Leistungen in \textit{bestanden} und \textit{nicht bestanden}.
\item \textbf{Quantitativ:} Merkmalsausprägungen sind \textit{messbar} und werden somit mit Zahlen angegeben. Beispielsweise in der Klausur 40 von 60 Punkten erreicht.
Quantitative Merkmalsausprägungen kann man weiter unterscheiden in diskret, stetig und quasistetig.
\begin{itemize}
\item \textbf {Diskrete} Merkmale haben abz\"ahlbar viele m\"ogliche Merkmalsauspr\"agungen, das heißt nicht quasi unendlich viele Ausprägungen wie z.B. Sandkörner am Meer (mehr dazu s.u. bei \textit{quasistetig}), sondern man kann die möglichen Merkmalsausprägungen mit nicht allzu großem Aufwand abzählen.
(Bsp.: Geschlecht (da gibt es nur männlich oder weiblich) oder die Platzierung beim Schönheitswettbewerb (bei einer Teilnahme von 5 Personen, kann ich nur Platz 1, 2, 3, 4 oder 5 bekommen), Studiendauer in Semestern)
\item\textbf{Stetige} Merkmale können unendlich viele verschiedene Merkmalsausprägungen haben. (Das Alter, da zwischen bspw. 18 und 19 unendlich viele Nachkommastellen vorhanden sein können, oder aber auch Anteilswerte sind hierfür ein gutes Beispiel)
\item \textbf{Quasistetigen} Daten sind theoretisch stetig (bspw. Körpergröße, Gewicht, o.ä.) Daten, werden aber nur auf einer diskreten Skala (in sehr kleinen Einheiten) gemessen. Da solche Daten \textit{praktisch} in den meisten Fällen auch wie stetige Daten behandelt werden, spricht man hier von \textit{quasistetigen} Daten.
\item Werden (quasi)stetige Daten in Klassen eingeteilt (bspw. Abfrage von Gehalt in Fragebögen), so spricht man von \textbf{klassierten} oder \textbf{klassiert-stetigen} Daten. Diese Klassenbildung hat weitreichende Implikationen für die anwendbaren Methoden (vgl. folgende Kapitel).
\end{itemize}
\end{itemize}
Der \textbf{Merkmalsraum} oder \textbf{Zustandsraum} ist die Menge aller möglichen Merkmalsausprägungen. Hier in unserem Beispiel hat der Merkmalsraum des Merkmals Notenleistung gerundet auf ganze Noten eine M\"achtigkeit von 5 (Die Noten: 1, 2, 3, 4, 5)
\subsubsection{Skalentypen}\label{sec:Skalentypen}
Merkmale besitzen aufgrund der Eigenschaften ihrer m\"oglichen Merkmalsausprägungen bestimmte Skalierungen. Diese richtig zuordnen zu können ist sehr wichtig, denn je nach Skalentyp kann man in den folgenden Kapiteln unterschiedliche Maßzahlen bestimmen.
\paragraph{Nominalskala:} Die Ausprägungen bei einer Nominalskala können nur voneinander unterschieden werden, jedoch nicht geordnet oder ins Verhältnis gesetzt werden. Daher kann man die Merkmalsausprägungen nicht werten, in dem man bspw. sagt, blaue Autos seien besser als (oder doppelt so gut wie) rote Auto.
Die einzige Aussage die getroffen werden kann ist, ob die Ausprägungen \textit{gleich oder ungleich} sind.
\paragraph{Ordinalskala:} Bei der Ordinalskala können wir nicht nur eine Aussage über gleich/ungleich (wie bei der Nominalskala) treffen, sondern zusätzlich auch die Ordnung, d.h. über \textit{kleiner und größer}. Somit können ordinale Merkmale in eine natürliche Rangfolge/Ordnung gebracht werden. Diese Ordnung kann interpretiert werden, jedoch nicht die Abstände. Beispiele hierfür wären die Schweregrade eines Computerspiels oder die Güteklassen eines Hotels, da man zwar sagen kann, dass das 4-Sterne-Hotel besser als das 2-Sterne-Hotel ist, nicht jedoch, dass es doppelt so gut ist o.\"a.
\paragraph{Metrische Skala:} Die metrische Skala besitzt den höchsten Informationsgehalt. Denn hier kann man zusätzlich zu den Aussagen gleich/ungleich und größer/kleiner auch Aussagen über Abstände zwischen den Merkmalsausprägungen treffen. Somit kann man die Merkmalsausprägungen in eine Ordnung bringen und die Abstände zwischen den Merkmalsausprägungen messen und interpretieren. Die metrische Skala kann man weiter auf splitten in Intervall- und Verhältnisskala:\\
\noindent Bei der \textbf{Intervallskala} können Differenzen gebildet werden um eine Aussage über den Abstand zu machen, jedoch keine Quotienten, da es kein (natürlichen) Nullpunkt gibt um zwei Werte in Relation zu einander zu setzen. (\textbf{Beispiel} Temperatur: Man kann sagen, dass es heute 10 Grad kälter als gestern ist, jedoch nicht , dass es heute halb so warm ist wie gestern.\\
Bei der \textbf{Verhältnisskala} gibt es diesen natürlichen Nullpunkt. Deshalb kann man Quotienten bilden und Verhältnisse sinnvoll interpretieren. (\textbf{Beispiel} Größe: Man kann sagen, dass Person A doppelt so gro\ss{} ist wie Person B.)
Ein Spezialfall der Verhältnisskala ist die Absolutskala, da nur natürliche Einheiten vorkommen (keine physikalischen Größen). \textit{Nat\"urliche Einheiten} sind bspw. Anzahlen, im Sinne von 10 Äpfel oder 5 Blumen.
\subsection{Datenerhebung}
Um mit Daten arbeiten zu können müssen diese erst einmal "entstehen oder hergestellt" werden. Dafür gibt es die Datenerhebung. Diese \textit{beschafft} Informationen bzw. \textit{gewinnt} Daten.
\subsubsection{Erhebungsarten}
\textbf{Primärerhebung:} Wenn ich selbst eine Erhebung (Befragung, Beobachtung, Experiment) starte ohne auf vorhandenes Material zurück zu greifen, dann wird es als Primärerhebung bezeichnet.\\
\textbf{Sekundärerhebung}: Wenn ich auf bereits vorhandenes Material zurückgreife (z.B. Daten/Statistiken aus dem Internet) dann handelt e sich um eine Sekundärerhebung. Das Material existierte schon vor meiner Recherche.
\subsubsection{Umfang}
Bei Erhebungen, kann man entweder alle Untersuchungseinheiten einer Grundgesamtheit miteinbeziehen, dann spricht man von einer \textbf{Voll-/Totalerhebung} oder nur eine Teilmenge der Grundgesamtheit miteinbeziehen. Dann spricht man von einer \textbf{Teilerhebung (Stichprobe)}.
Ein Beispiel für die Totalerhebung wäre eine Volkszählung oder eine Evaluation, bei der alle Studenten befragt werden.\\
Teilerhebungen sind zum Beispiel Qualitätsprüfungen von Produkten, bei denen einzelne Produkte überprüft werden oder die Sonntagsumfrage bei der einzelne, zufällig ausgewählte Bürger aus der Bevölkerung abstimmen können, wen sie wählen würden wenn aktuell Bundestagswahl wäre.
\subsubsection{Datenform}
Je nachdem wie oft und über welchen Zeitraum eine Erhebung gemacht wird, gibt es bestimmte Datenformen.
Bei \textbf{Querschnittsdaten} wird der Ist-Zustand zu einem bestimmten Zeitpunkt aufgenommen. An mehreren Untersuchungseinheiten werden ein oder mehrere Merkmale nur \textit{einmal} erhoben. \textbf{Beispiele} hierfür sind Lehrerevaluationen oder der Mietspiegel.\\
Eine Erweiterung hiervon sind die \textbf{Longitudinal-, Längsschnitt,- oder Paneldaten}. Hierbei werden ein oder mehrere Merkmale an mehreren Untersuchungseinheiten zu \textit{verschiedenen} Zeitpunkten wiederholt erhoben. Somit interessiert uns hier u.a. auch die Entwicklung der Merkmale im Zeitverlauf.\\
\textbf{Beispiele:} SOEP (Wiederholungsbefragung von privaten Haushalten in Deutschland), Deutsches Mobilitätspanel (Befragung von Haushalten nach ihrem Mobilitätsverhalten und ihrer PKW-Nutzung).
Bei einer \textbf{Zeitreihe} wird \textit{ein Merkmal} an aufeinander folgenden Zeitpunkten beobachtet. Hierbei wird die Entwicklung eines Merkmals im Zeitverlauf beobachtet. \textbf{Beispiele} hierfür sind Aktienkurse oder (Preis-/Mengen-)Indizes.
\subsubsection{Erhebungsmethode}
Man unterscheidet bei den Erhebungsmethoden grundsätzlich die \textbf{Beobachtung}, die \textbf{Befragung} und das \textbf{Experiment}. Im Gegensatz zur Befragung ist die Beobachtung, wenn sie verdeckt ausgeführt werden kann, weitgehend unverfälscht, da die Merkmalstr\"ager nicht mit in die Erhebung einbezogen werden. Bei Befragungen sind Personen direkt mit einbezogen und können teils eher schwerlich unverfälschte Aussagen über das eigene Verhalten machen. Jedoch kann bei der Beobachtung nur das äußerliche Verhalten ermittelt werden, wohingegen man bei einer Befragung auch innere Einstellungen und gedankliche Prozesse durch gezielte Fragen messen kann. Das Experiment ermöglicht Ursachenforschung, ein Nachteil ist jedoch (genauso wie bei der Beobachtung), dass es sehr zeit- und kostenaufwändig sein kann.
\subsection{Datenaufbereitung}
Nachdem Daten erhoben wurden, müssen diese nun aufbereitet werden, in einem sinnvollen Format abgespeichert und ausgewertet werden können.
\subsubsection{Datenstruktur}\label{sec:struct}
Um Daten abspeichern zu können, werden diese üblicherweise in Datenmatrix dargestellt.
Dies ist wie eine Tabelle, in der
\begin{itemize}
\item jede Zeile die Information über eine \textbf{Untersuchungseinheit} enthält
\item jede Spalte einem \textbf{Merkmal} entspricht
\item jedes Element der Matrix einer \textbf{Merkmalsausprägung} entspricht
\end{itemize}
\begin{table}[H]
\centering
\begin{tabular}{ccccccc}
\hline
Nr & nm & nmqm & wfl & rooms & bj & bez\\
\hline
1 & 608.40 & 12.67 & 48 & 2 &1957 & Untergiesing\\
2 &780.00 & 13.00 & 60 & 2 & 1983 & Bogenhausen\\
3 & 822.60 & 7.48 & 110 & 5 & 1957 & Obergiesing\\
4 & 500.00 & 8.62 & 58 & 2 & 1957 & Schwanthh \\
5 & 595.00 & 8.50 & 70 & 3 & 1972 & Aubing \\
6 &960.00 & 11.85& 81 & 3 & 2006 & Schwanthh\\
\hline
\end{tabular}
\caption{\textit{Mietspiegel Beispiel für eine Datenmatrix}}
\label{tab:Datenmatrix}
\end{table}
\noindent \framebox[\textwidth]{\texttt{R-Befehl für die Erstellung von Datensätzen: > data.frame()} \hfill \href{https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/data.frame}{Dokumentation}}
\noindent \dangersign Meist werden Datensätze in der Praxis nicht in \texttt{R} erstellt, sondern aus einer externen Quelle (z.B. einer .csv-Datei oder einer .txt-Datei) importiert.
\noindent \framebox[\textwidth]{\texttt{R-Befehl für den Import von Datensätzen: > read.table()} \hfill \href{https://www.rdocumentation.org/packages/utils/versions/3.6.2/topics/read.table}{Dokumentation}}
\subsubsection{Kodierung}
Da man mit Zeichenketten (Wörtern) nicht rechnen kann, müssen diese aufbereitet werden.
Der Vorgang, bei dem Zeichenkette/Merkmalsausprägungen Zahlen zugeordnet werden nennt man Kodierung (Vergleiche Tabelle \ref{tab:Datenmatrix}: Hier würden die Verschiedenen Stadtteile mit Nummern kodiert).
\subsubsection{Transformation}
Bei der Daten Aufbereitung kann es sinnvoll sein Daten zu transformieren, also mathematisch verändern.
Je nach Skalentyp sind verschiedene Arten von Transformationen zulässig.\\
\textbf{Nominalskala:} Alle \textit{eindeutigen} Transformationen (z.B. vgl. Tabelle \ref{tab:Datenmatrix}: Transformation von Stadtteilbezeichnungen in Zahlencodes)\\
\textbf{Ordinalskala:} Alle Transformationen, welche die \textit{vorliegende Ordnung erhalten}\\
\textbf{Intervallskala:} Alle Transformationen der Form $g(x)=a+bx, b>0$ (z.B. Temperaturumrechnung von °F in °C)\\
\textbf{Verhältnisskala:} Alle Transformationen der Form $g(x)=bx, b>0$ (z.B. Umrechnung von Minuten in Stunden)
\\
\subsubsection{Statistik-Software}
Es gibt verschiedene Software-Programme um statistische Analysen durchzuführen. In Statistik-Veranstaltungen oder studentischen Projekten vereinfacht es die Analyse enorm, wenn man nicht alles per Hand rechnen muss, sondern die Software das für einen mit ein paar Befehlen macht. In der praktischen Arbeit mit Daten ist dies ebenfalls der Standard, auch aus Gründen der Reproduzierbarkeit, etc. Hier in der Vorlesung behandeln wir hauptsächlich die Programmiersprache \texttt{R}. Am Ende jeweils von Statistik I und II gibt es in der Veranstaltung eine genauere Einführung dazu, jedoch stolpert man im Verlauf des Skripts auch immer wieder über Befehle und Outputs aus \texttt{R}.
Mit \texttt{R} kann man so gut wie alles aus der Vorlesung berechnen. Hat man einmal einen Datensatz importiert, kann man die verschiedensten Sachen damit berechnen ohne den Original-Datensatz selbst zu verändern. Dies ist einer der vielen Vorteile gegenüber Programmen wie bspw. Excel.\\
\noindent Dieses Skript liefert, ergänzend zu den intuitiven und eher nicht-technischen Erklärungen der verschiedenen Themen, zu jeder Methode/Maßzahl eine kurze Info darüber, wie diese in \texttt{R} anwend- bzw. berechenbar ist. Dies war bereits weiter oben in Kapitel \ref{sec:struct} zu sehen und wird sich wie ein roter Faden durch dieses Manuskript ziehen.\\
\noindent \texttt{R} selbst ist kostenlos beziehbar unter \hfill \href{http://www.r-project.org}{http://www.r-project.org}.\\
\noindent Der Editor R-Studio kann hier heruntergeladen werden: \hfill \href{https://www.rstudio.com/}{https://www.rstudio.com/}\\
\noindent Es finden sich auch zahlreiche Hilfe-Seiten, wie z.B. \hfill \href{https://www.rdocumentation.org/}{https://www.rdocumentation.org/}\\
\noindent oder \hfill \href{https://stat.ethz.ch/R-manual/}{https://stat.ethz.ch/R-manual/}\\
\newpage
\subsection{Aufgaben}
\paragraph{1. Datenerhebung: Welche Aussagen sind wahr?}
\begin{enumerate}[label=(\alph*)]
\item Längsschnittdaten werden stets durch die Erhebungsmethode "Beobachtung" gewonnen. \hfill $\square$
\item Bei Längsschnittdaten müssen die zeitlichen Abstände identisch sein. \hfill $\square$
\item Längsschnittdaten entstehen durch die wiederholte Erhebung von Querschnittsdaten. \hfill $\square$
\item Von einer Zeitreihe spricht man, wenn ein Merkmal der Reihe nach zu festgelegten\\ Zeitpunkten an unterschiedlichen Untersuchungseinheiten beobachtet wird. \hfill $\square$
\item Keine der obigen Aussagen ist wahr. \hfill $\square$
\end{enumerate}
\paragraph{2. Welche Aussagen zu Skalenniveaus sind wahr?}
\begin{enumerate}[label=(\alph*)]
\item Wenn man die Anzahl der möglichen Ausprägungen zählen kann, ist ein Merkmal\\ metrisch skaliert. \hfill $\square$
\item Ein ordinalskaliertes Merkmal besitzt mehr mögliche Ausprägungen als ein\\ nominalskaliertes Merkmal. \hfill $\square$
\item Im Gegensatz zu ordinalskalierten Merkmalen kann man metrische Merkmale ordnen. \hfill $\square$
\item Nominalskalierte Merkmale können auch stetig sein. \hfill $\square$
\item Keine der obigen Aussagen ist wahr. \hfill $\square$
\end{enumerate}
\paragraph{3. Welche Aussagen zu Skalenniveaus sind wahr?}
\begin{enumerate}[label=(\alph*)]
\item Die Existenz eines natürlichen Nullpunkts ist Voraussetzung für eine Absolutskala. \hfill $\square$
\item Die „Intervallskala“ hat einen höheren Informationsgehalt als die „Verhältnisskala“. \hfill $\square$
\item Geschlecht ist ein Beispiel für ein ordinalskaliertes Merkmal. \hfill $\square$
\item Quasistetig bedeutet, dass ein Merkmal theoretisch diskret ist, aber wie ein stetiges\\ Merkmal behandelt wird. \hfill $\square$
\item Keine der obigen Aussagen ist wahr. \hfill $\square$
\end{enumerate}
\newpage
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%% KAPITEL 2
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{Häufigkeitsverteilungen, (univariate) grafische Darstellung}
Häufigkeiten, deren Berechnung und Darstellung in Diagrammen, sind sicher schon weitgehend aus der Schule bekannt. Im Folgenden wird dies wiederholt und weiter ergänzt.
\subsection{Berechnung von Häufigkeiten}
\subsubsection{absolute Häufigkeit}\label{sec:abs-hkeit}
Um die Anzahl der Untersuchungseinheiten zu erfassen, welche eine bestimmte Merkmalsausprägung aufweisen, verwendet man die absolute Häufigkeit.\\
Diese kann man bei Nominal-, Ordinal-/ und der metrischen Skala anwenden.
Die \textbf{allgemeine Formel für die absolute Wahrscheinlichkeit} lautet:
\begin{align*}
n_j=\sum_{i=1}^n I_{a_j} (x),\qquad j=1,...,k
\end{align*}
Hierbei muss die folgende Bedingung erfüllt sein:
\begin{align*}
I_{a_j}=\begin{cases}
1 & \text{falls } x_i = a_j \\
0 & \text{sonst}
\end{cases}
\end{align*}
Wenn eine Untersuchungseinheit $I_{a_j}$ die entsprechende Merkmalsausprägung hat, dann bekommt sie den Wert 1 und wird in die Summe mit einbezogen. Fällt eine Untersuchungseinheit nicht in die zu erfassende Menge, also hat eine Untersuchungseinheit nicht die entsprechende Merkmalsausprägung, dann tritt der 2. Fall ein, nämlich diese erhält den Wert 0. Zum Schluss werden alle Untersuchungseinheiten, die diese gewünschte Ausprägung aufweisen aufsummiert.\\
Die Berechnung der absoluten Häufigkeit macht vor allem für Merkmale Sinn, bei denen nicht allzu viele verschiedene Merkmalsausprägungen beobachtet werden (z.B. Noten, Lieblingsfarbe, o.ä.).
\subsubsection{Klassenbildung}\label{sec:klassenbildung}
Um die Übersicht bei stetigen und diskreten Merkmalen mit vielen Ausprägungen (=quasistetig) zu behalten, macht man sich die Klassenbildung zu Nutze.
Um eine sinnvolle und brauchbare Verteilung bei der Klassifizierung zu bekommen, bietet es sich an, die Grundgesamtheit in $\sqrt{n}$ Klassen zu teilen (grobe, sehr allgemeine Faustregel!)\\
Allgemein gibt es zwei Möglichkeiten zur Wahl der Klassen
\begin{enumerate}
\item nach sachologischen Gegebenheiten
\item nach willkürlichen Kriterien
\end{enumerate}
da man jedoch mit den willkürlichen Kriterien Strukturen verfälschen kann, sollten diese eher vermieden werden.
\clearpage
\noindent \textbf{Einschub: Mathematische Notation bei Klassenbildung}\\
\begin{center}
\begin{tabular}{cl}
k & Anzahl der Klassen\\
$e_{j-1}$&untere Klassengrenze der j-ten Klasse\\
$e_j$&obere Klassengrenze der j-ten Klasse\\
$d_j=e_j-e_{j-1}$& Klassenbreite der j-ten Klasse\\
$a_j=\frac{1}{2}(e_j+e-{j-1})$& Klassenmitte der j-ten Klasse\\
$n_j$ &Anzahl der Beobachtungen in der j-ten Klasse\\
\end{tabular}
\end{center}
\subsubsection{relative Häufigkeit}\label{sec:rel-hkeit}
Die absolute Häufigkeit ist bei unterschiedlichen Stichprobenumfängen nicht vergleichbar.
Um dieses Problem zu umgehen kann man die relative Häufigkeitsverteilung verwenden, die die gesamte Verteilung auf 1 normiert. Somit sind (relative) Häufigkeiten nun auch für unterschiedliche Stichprobenumfänge vergleichbar.\\
Die relativen Häufigkeiten $f_j$ sind \textit{die Anteile} die auf jede Ausprägung entfallen. Man berechnet sie durch den Quotienten aus der absoluten Häufigkeit und dem Stichprobenumfang.
$$\frac {\mbox {absolute Häufigkeit}}{\mbox{Stichprobenumfang}} = \frac{n_j}{n}=f_j$$
\subsubsection{Häufigkeitstabelle}
Die Häufigkeitstabelle umfasst alle möglichen Ausprägungen eines Merkmals (bzw. alle gebildeten Klassen) und deren (relative \& absolute) Häufigkeiten.
Man kann sie bei \textit{diskreten} und bei \textit{gruppierten stetigen} Merkmalen (vgl. Tabelle \ref{tab:stetige Merkmale}) verwenden, jedoch nicht bei stetigen, da jede Beobachtung einen anderen Wert hat und somit die Tabelle "unendlich lang" werden würde. Für gruppierte stetige Merkmale kommen zusätzlich zu den Spalten \textit{Merkmalsausprägung} $a_j$, \textit{absolute Häufigkeit} $n_j$, und \textit{relative Häufigkeit} $f_j$, noch die Spalten \textit{Klassengrenzen} [$e_{j-1};e_j$[ und die \textit{Klassenbreite} $d_j$ hinzu.
\begin{table}[h!]
\centering
\begin{tabular}{|c c c c c|}
\hline
j & [$e_{j-1};e_j$[& $d_j$ & $n_j$ &$f_j$ \\ [0.5ex]
\hline\hline
1 & [$e_0;e_1$[& $d_1$&$n_1$ & $f_1$ \\
: & : & : & : & :\\
: & : & : & : & : \\
k & [$e_{k-1};e_k$[ & $d_k$ & $n_k$ & $f_k$ \\ [0,5ex]
\hline\hline
$\sum$ & & & n & 1 \\
\hline
\end{tabular}
\caption{\textit{Allgemeine Form bei gruppierten (quasi-)stetigen Merkmalen}}
\label{tab:stetige Merkmale}
\end{table}
\subsection{Graphische Darstellung von Häufigkeiten}
Da graphische Darstellungen leichter verständlich und übersichtlicher sind, werden die Daten meist ergänzend zu den Häufigkeitstabellen auf diese Art und Weise dargestellt.
\subsubsection{Balken- und Säulendiagramm}
\textbf{Gestaltung von Säulendiagrammen}
\begin{itemize}
\item Auf der x-Achse (Abszisse) sind die verschiedenen Merkmalsausprägungen abgetragen, darüber entstehen die Säulen. Jede Säule entspricht einer Merkmalsausprägung
\item Auf der y-Achse (Ordinate) wird die Skala abgetragen, um ablesen zu können, wie groß die Anzahl oder der Anteil einer Merkmalsausprägung ist.
\item Die Höhe der Säule kann die absoluten oder die relative Häufigkeit darstellen.
\end{itemize}
\noindent\textbf{Gestaltung von Balkendiagrammen}\\
Das Balkendiagramm ist identisch zum Säulendiagramm, jedoch um 90 Grad gedreht.
\begin{itemize}
\item Auf der x-Achse (Abszisse) ist die Skala abgetragen
\item Auf der y-Achse (Ordinate) sind die Merkmalsausprägungen abgetragen.
\end{itemize}
\noindent\textbf{Gestapeltes Balkendiagramm}\\
Bei einem gestapelten Balkendiagramm nutzt man die Tatsache, dass sich die relativen Häufigkeiten zu 1 aufsummieren. Hat man beispielsweise in verschiedenen Jahren unterschiedliche Zusammensetzungen der relativen Anteile, kann man diese in einem gestapelten Säulendiagramm gut vergleichen.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für Balken-/Säulendiagramme: > barplot(data)} \hfill \href{https://www.rdocumentation.org/packages/graphics/versions/3.6.2/topics/barplot}{Dokumentation}}
\noindent \dangersign Für gestapelte Balkendiagramme muss der Funktion eine Tabelle übergeben werden.
\subsubsection{Kreisdiagramm}
\textbf{Gestaltung von Kreisdiagrammen}\\
Jede Merkmalsausprägung erhält einen Sektor des Kreises. Man berechnet den Winkel durch die Multiplikation der relativen Häufigkeit mit 360°.\\
Das Kreisdiagramm kann bei allen Skalen verwendet werden, jedoch kann die Ordnung von Ausprägungen nicht wiedergegeben werden. Somit würde bei Verwendung einer Ordinalskala der Informationsgehalt über die Ordnung verloren gehen.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für Kreisdiagramme: > pie(data)} \hfill \href{https://www.rdocumentation.org/packages/graphics/versions/3.6.2/topics/pie}{Dokumentation}}
\subsubsection{Histogramme}
Das Histogramm ist, im Gegensatz zu den bisher vorgestellten Diagramm-Typen, nur bei metrischer Skala anwendbar.\\
\textbf{Gestaltung von Histogrammen}
\begin{itemize}
\item Da hier ein metrisches Merkmal vorliegt, muss dieses zunächst einmal in Klassen eingeteilt werden.
\item Auf der x-Achse (Abszisse) ist die Skala des Merkmals abgebildet.
\item Da die Fläche der einzelnen Balken den relativen Häufigkeiten entspricht (bzw. Histogrammfläche und relative Häufigkeit sind proportional zueinander), lässt sich die Höhe eines Balkens (Ordinate) wie folgt berechnen:
\begin{align*}
&h_j = \frac{f_j}{d_j} \qquad (<=> h_j\cdot d_j = f_j)
\end{align*}
\item Werden Klassen gleicher Breite verwendet, so wird des Öfteren auch die relative/absolute Häufigkeit auf der Ordinate abgetragen, da auch hierdurch die Forderung der Proportionalität (siehe oben) gewahrt wird.
\end{itemize}
\noindent \textbf{Probleme}\\
Da das Aussehen von der gewählten Klassengröße abhängt, sollte man, wie schon in (vgl. \textit{Klassenbildung} Kapitel \ref{sec:abs-hkeit}) erwähnt, sachlogische Gegebenheiten bei der Wahl der Klassenbreiten heranziehen.\\
Offene Klassen, die gegen unendlich gehen, sind nicht abbildbar. Eine Möglichkeit ist, die Klasse so zu wählen, dass darin schon die Mehrheit der Merkmalsausprägungen enthalten sind. (vgl. Induktive Statistik im zweiten Semester)\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für Histogramme: > hist(data)} \hfill \href{https://www.rdocumentation.org/packages/graphics/versions/3.6.2/topics/hist}{Dokumentation}}
\noindent \dangersign Per default nutzt \texttt{R} gleiche Klassenbreiten, deren Anzahl mit Hilfe der \href{https://en.wikipedia.org/wiki/Histogram#Sturges'_formula}{Formel von Sturges} berechnet wird. Selbst gewählte Klassen (auch ungleicher Breite) können mit dem \texttt{breaks}-Argument übergeben werden.
\subsection{Ordnungsstatistik}
Für die Berechnungen einige Maße ist es wichtig, dass die Merkmalsausprägungen geordnet sind. Die \textit{Ordnungsstatistik} ist nur bei bei ordinaler und metrischer Skala verwendbar, da man nominale Merkmale nicht ordnen kann (vgl. Kapitel \ref{sec:Skalentypen}). Dabei werden die Ausprägungen der Urliste in eine aufsteigende Ordnung gebracht. Damit man erkennt, ob eine Urliste oder eine Ordnungsstatistik vorliegt, werden die tiefgestellten Indizes bei der Ordnungsstatistik in Klammern $x_{(i)}$ gesetzt.\\
Die tiefgestellte Zahl in Klammern gibt den Rang an. Gibt es zwei Merkmalsausprägungen mit der gleichen Ausprägung, dann nennt man das \textit{Bindung} (Tie). Wenn man Bindungen in einer Ordnungsstatistik berücksichtigt, dann erhalten diese den gemittelten Wert ihrer bisherigen Position in der Ordnungsstatistik.\\
Beispiel: Urliste: $x_1=8;\quad x_2=4;\quad x_3=5;\quad x_4=1;\quad x_5=4$\\
Ordnungsstatistik (mit Bindungen): $x_{(1)}=1;\quad x_{(2,5)}=4;\quad x_{(2,5)}=4;\quad x_{(4)}=5;\quad x_{(5)}=8$\\
Rangabfrage: $Rg(4)=2,5$\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für die Ordnungsstatistik: > sort(data)} \hfill \href{https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/sort}{Dokumentation}}
\subsection{Empirische Verteilungsfunktion}\label{sec:emp-vert}
Bei der empirischen Verteilungsfunktion benötigt man die Ordnungsstatistik, daher ist sie nur für Merkmale mit ordinaler und metrischer Skala anwendbar. Hier werden nicht die einzelnen Merkmalsausprägungen in ihrer Häufigkeit einzeln dargestellt, sondern die Häufigkeiten werden \textit{kumuliert}, d.h. aufsummiert.
\begin{align*}
&F(x) = \sum_{a_j\leq x} f(a_j)
\end{align*}
\noindent F(x) ist die kumulierte relative Häufigkeit an der Stelle x, das bedeutet, dass alle Wahrscheinlichkeiten $f(a_j)$ der Merkmalsausprägungen $a_j$ kleiner gleich x aufsummiert werden.\\
Die relativen Häufigkeiten werden immer weiter aufsummiert, weshalb die Funktion monoton wachsend ist und dann schließlich bei 1 stagniert, da die kumulierte relative Häufigkeit nicht höher als 1 sein kann. Somit ist der Wertebereich von F(x) von 0 und 1.\\
\noindent Es gibt verschiedene Vorgehensweisen bei diskreten und stetigen Merkmalen, deshalb betrachten wir im Folgenden die Verteilungsfunktion für die beiden Skalen separat.
\subsubsection{Vorgehensweise bei ordinalen und diskreten Merkmalen}
\begin{enumerate}
\item Ordnungsstatistik bilden
\item Relativen Häufigkeiten berechnen
\item Kumulierte Häufigkeiten $F(x)$ für jede \textit{unterschiedliche} Merkmalsausprägung berechnen
\item Graph: Trage die kumulierten Häufigkeiten als ($x_i$; $F(x_i$)) in ein Diagramm ein und verlängere die Punkte mit einem \textit{horizontalen} Strich, bis zum Abszissenwert der nächsten Merkmalsausprägung. Somit entsteht eine Treppenfunktion, welche von 0 bis 1 geht.
\end{enumerate}
Die Rechenregeln für ordinale und diskrete Merkmale: Skript (vgl. Slide 2.39)
\subsubsection{Vorgehensweise bei stetigen Merkmalen}
\begin{enumerate}
\item (Geordnete) Klassen bilden (vgl. Kapitel \ref{sec:klassenbildung})
\item Relativen Häufigkeiten der Klassen berechnen
\item Kumulierten Häufigkeiten $F(e_j)$ für jede Klasse berechnen
\item Graph: Trage die kumulierten Häufigkeiten als ($e_j$; $F(e_j)$) in das Diagramm ein und verbinde die Punkte (da man eine Gleichverteilung innerhalb der Klassen annimmt).
\end{enumerate}
\textbf{Berechnung der empirischen Verteilungsfunktion von klassierten Daten:}\\
Die Folgende Formel verwendet man, um eine kumulierte Häufigkeit einer bestimmten Merkmalsausprägung zu bekommen.
\begin{align*}
F(x)=\begin{cases}
0 & x < e_0 \\
F(e_{j-1}+\frac{f_j}{d_j}(x-e_{j-1}) & x \in[e_{j-1}]\\
1 &x>e_k
\end{cases}
\end{align*}
Die Schwäche ist, dass man hierfür von einer Gleichverteilung innerhalb der Klassen ausgehen muss, was eine sehr starke Annahme ist und nicht immer unbedingt realistisch ist.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für die emp. Verteilungsfunktion: > ecdf(data)} \hfill \href{https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/ecdf}{Dokumentation}}
\noindent \dangersign Die \texttt{ecdf()}-Funktion selbst erzeugt noch keine Grafik, sondern lediglich ein Objekt das die Werte der emp. Verteilungsfunktion enthält. Um die emp. Verteilungsfunktion zu plotten, muss der \texttt{plot()}-Befehl auf die \texttt{ecdf()}-Funktion angewandt werden: \texttt{plot(ecdf(data))}
\clearpage
\subsection{Aufgaben}
\paragraph{1. Häufigkeitsbegriffe und Visualisierungen: Welche Aussagen sind wahr?}
\begin{enumerate}[label=(\alph*)]
\item Für stetige oder quasistetige Merkmale sollten bei der Häufigkeitsauszählung\\ Klassen gebildet werden. \hfill $\square$
\item Absolute Häufigkeiten summieren sich stets zu 1 auf. \hfill $\square$
\item Balken-/Säulendiagramme sind gut für nominale/ordinale Merkmale geeignet. \hfill $\square$
\item Kreisdiagramme sind für ordinale Merkmale eher ungeeignet. \hfill $\square$
\item Keine der obigen Aussagen ist wahr. \hfill $\square$
\end{enumerate}
\paragraph{2. Welche Aussagen zu Histogrammen sind wahr?}
\begin{enumerate}[label=(\alph*)]
\item Bei ungleichen Klassenbreiten ist die Höhe des Balkens proportional zur rel. Häufigkeit. \hfill $\square$
\item Histogramme sind gut für nominale/ordinale Merkmale geeignet. \hfill $\square$
\item Ein Histogramm mit konstanter Klassenbreite ist dasselbe wie ein Säulendiagramm. \hfill $\square$
\item Je gröber die Klasseneinteilung, desto höher die einzelnen Balken. \hfill $\square$
\item Keine der obigen Aussagen ist wahr. \hfill $\square$
\end{enumerate}
\paragraph{3. Welche Aussagen sind zur Empirische Verteilungsfunktion sind wahr?}
\begin{enumerate}[label=(\alph*)]
\item Für ein stetiges Merkmal gilt: H(x < 5) = H(x <= 4). \hfill $\square$
\item Die kumulierten relativen Häufigkeiten summieren sich zu 1. \hfill $\square$
\item Für diskrete Merkmale: Bei der häufigsten Beobachtung ist die emp. Verteilungs-\\funktion am größten. \hfill $\square$
\item Für diskrete Merkmale: Bei der häufigsten Beobachtung macht die emp. Verteilungs-\\funktion den größten Sprung. \hfill $\square$
\item Keine der obigen Aussagen ist wahr. \hfill $\square$
\end{enumerate}
\clearpage
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%% KAPITEL 3
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{Lagemaße}
Grob gesagt beschreiben (zentrale) Lageparameter, wo sich der Schwerpunkt der Daten auf einer Skala befindet. Manche Lageparameter machen nur bei bestimmten Skalen Sinn. In der folgenden Tabelle ist markiert, bei welchen Skalen die einzelnen Lageparameter jeweils Sinn machen.
\begin{center}
\begin{tabular}{|l c c c|}
\hline
& Nominalskala & Ordinalskala& metrische Skala\\
\hline\hline
Modus &x & x & x \\
\hline
Median & & x & x \\
\hline
Quantile & & x & x \\
\hline
Box-Plots & & x & x \\
\hline
Mittelungen & & & x \\
\hline
\end{tabular}
\end{center}
\subsection{Modus}
Die Merkmalsausprägung, die am häufigsten auftritt, nennt man Modus. Diese Maßzahl macht sowohl bei diskreten oder bei (quasi)stetigen Merkmalen Sinn, solange es eine überschaubare Anzahl an verschiedenen Merkmalsausprägungen gibt. Dies ist bei diskreten Merkmalen logischerweise öfter der Fall als bei (quasi)stetigen Merkmalen. Bei klassiert-stetigen Merkmalen nimmt man oft die Klassenmitte der Klasse mit der höchsten absoluten Häufigkeit.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für den Modus: > Mod(data)} \hfill \href{https://www.rdocumentation.org/packages/DescTools/versions/0.99.37/topics/OddsRatio}{Dokumentation}}
\noindent \dangersign Die R-Funktion ist \textbf{nicht} Teil von \texttt{base-R} sondern Teil des Paketes \texttt{DescTools}. Dieses muss zunächst installiert (\texttt{install.packages("DescTools")}) und anschließend importiert werden (\texttt{library(DescTools)}).
\subsection{Median/Zentralwert}\label{sec:median}
Um den Median bei diskreten Merkmalen anwenden zu können, bringt man die Urliste zuerst einmal in eine Ordnungsstatistik.
Sind die Merkmalsausprägungen aufsteigend geordnet, teilt der Median die Grundgesamtheit in zwei gleich große Teile. Unterhalb des Medians liegen die Hälfte (50\%) der Werte die \textit{kleiner oder gleichen} dem Median sind und im zweiten Teil befinden sich die andere Hälfte der Merkmalsausprägungen die \textit{größer oder gleich} dem Median sind. Der Median wird mit $\tilde{x}_{0,5}$ bezeichnet.
Alternativ kann man den Median auch mit der Verteilungsfunktion berechnen, indem man den Wert bestimmt, bei dem die kumulierte relative Häufigkeit 0,5 beträgt. Dies würde dann so aussehen: $F(\tilde{x}_{0,5})=0,5$.\\
Die Stärke des Medians ist, dass dieser relativ unempfindlich gegenüber Ausreißern und Extremwerten ist. Das heißt, wenn bspw. 10 Merkmalsausprägungen einer Grundgesamtheit im Bereich zwischen 0 und 10 haben, macht es keinen Unterschied, ob der größte Wert auch innerhalb dieses Bereichs liegt (also z.B. den Wert 10 hat) oder weit drüber hinaus geht (z.B. 60), da für den Median lediglich die \textit{Anzahl} der Beobachtungen über-/unterhalb herangezogen werden, nicht jedoch deren konkreter Wert.
\noindent Für den Median gibt es eine Fallunterscheidung bzgl. der Berechnung zwischen gerader und ungerader Anzahl der Beobachtungen. Für die ungerade Anzahl an Beobachtungen $n$ ist es einfach der mittlere Wert der Ordnungsstatistik. Da es jedoch bei gerade Anzahl von Beobachtungen keine Mitte gibt, ist es hier ein bisschen aufwändiger. Man bildet das arithmetische Mittel der beiden Beobachtungen, zwischen denen die Mitte der Ordnungsstatistik wäre.
\begin{align*}
\tilde{x}_{0,5}=\begin{cases}
x_{\frac{(n+1)}{2}} & \text{falls n ungerade} \\
\frac{1}{2}(x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}) & \text{falls n gerade}\\
\end{cases}
\end{align*}
Bei klassierten metrischen Merkmalen kann man nicht so wie oben beschrieben vorgehen, da man die exakten Merkmalsausprägungen nicht kennt.\\
Deshalb greift man hier wieder auf die Annahme der Gleichverteilung innerhalb der Klassen zurück. Man bestimmt die Klasse, in der der Median liegt, d.h. man schaut in welcher Klasse die kumulierte relative Häufigkeit 0,5 liegt. Unter Verwendung der Formel für klassierten Daten (siehe Formelsammlung) kann man nun den Median berechnen.\\
Man subtrahiert von 0,5 die kumulierte relative Häufigkeit der unteren Klassengrenze der Klasse, die den Median enthält. Das Ergebnis dividiert man durch die relative Häufigkeit der Klasse in der der Median enthalten ist. Den Quotienten multipliziert man mit der Klassenbreite. Zum Schluss addiert man die untere Klassengrenze, der Klasse, in der der Median liegt dazu.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für Median: > median(data, ...)} \hfill \href{https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/median}{Dokumentation}}
\subsection{Quantile}\label{sec:Quantile}
Die Quantile sind wie der Median bei ordinalen und metrischen Daten anwendbar (Um genau zu sein ist der Median lediglich ein bestimmtes Quantil). Uns interessiert möglicherweise nicht nur der Median, der uns durch seine Lage sagt, an welcher Stelle 50\% der Werte kleiner oder gleich diesem Wert sind, sondern potentiell die gleiche Aussage auch für andere Prozentwerte (bspw. 25\%). Somit können wir die Grundgesamtheit durch ein Quantil in zwei beliebig großen Teilbereich aufteilen, welche sich zu 100\% aufsummieren. Man wählt einen Wert $\alpha$ zwischen 0 und 1 auswählen und kann somit die Lage des Quantils zu bestimmen. Um die Realisation des Quantils zu bestimmen, multipliziert man die Anzahl der Beobachtungen $n$ mit $\alpha$.
\begin{itemize}
\item Wenn das Produkt n$\alpha$ keine ganze Zahl ist, dann ist die nächst größere ganze Zahl die Realisation des Quantils.
\item Wenn das Produkt n$\alpha$ eine ganze Zahl ist, dann addiert man diese mit dem nächst größeren Wert und bildet daraus den Mittelwert.
\end{itemize}
Wie der Median sind auch die Quantile (relativ) unempfindlich gegenüber Ausreißern, da sie in erster Linie nur auf der Lage der Ausprägungen basiert und nicht auf den konkreten Werten.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für Quantile: > quantile(data, probs, ...)} \hfill \href{https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/quantile}{Dokumentation}}
\paragraph{Besondere Quantile}
Zusätzlich zum Median, der dem 50\%-Quantil entspricht, gibt es noch zwei weitere besondere Quantile. Zum einen das \textbf{untere Quartil}, das dem 25\%-Quantil entspricht, und zum anderen das \textbf{oberen Quartil}, welches dem 75\%-Quantil entspricht. Diese beiden sind u.a. im folgenden Kapitel \ref{sec:Box-Plot} für die Box-Plots relevant.
\subsection{Boxplots} \label{sec:Box-Plot}
Ein Boxplot ist eine grafische Darstellung, mit der man sich schnell einen Überblick über die Verteilung der Ausprägungen eines Merkmals schaffen kann und sehr schnell die Unterschiede zwischen Verteilungen von verschiedenen Merkmalen erkennen.
Um den \textit{einfachen} Box-Plot zu zeichnen, benötigt man den Median und das obere und untere Quartil, sowie das Minimum und das Maximum.
\paragraph{Vorgehensweise:}
\begin{enumerate}
\item Zuerst zeichnet man die Box, die durch das untere und obere Quartil begrenzt ist.
\item Danach zeichnet man in die Box den Median als dicke Linie ein.
\item Die Striche die von der Box weggehen sind die sog. \textit{Whiskers}. Sie gehen bis zum Minimum und Maximum.
\end{enumerate}
Zeichnet man den modifizierten Boxplot, so kommen drei Schritte hinzu. Die Modifikation liegt hierbei in der Kennzeichnung von Ausreißern. Ausreißer sind hierbei (für gewöhnlich) definiert als Werte, die \textit{"mehr als 1,5-mal die Boxlänge von einem der beiden Quartile entfernt sind"}.
\begin{enumerate}
\item Man berechnet die Länge der Box, indem man das untere vom oberen Quartil abzieht. Anschließend bestimmt man damit die "Grenze", ab wo ein Wert ein Ausreißer nach oben oder unten wäre.
\item Die Whiskers gehen nun nicht mehr bis zum Minimum/Maximum, sondern lediglich bis zum kleinsten/größten Wert innerhalb der berechneten Grenzen.
\item Alle Werte, außerhalb dieser Grenzen zeichnet man als Kreis ein. Dies sind Ausreißer.
\item \textit{Anmerkung:} Von Extremwerten spricht man, wenn ein Wert mehr als 3 Boxlängen entfernt von dem oberen bzw. unteren Boxenrand entfernt liegt. Diese werden manchmal separat mit einem Sternchen eingezeichnet.
\end{enumerate}
\noindent \framebox[\textwidth]{\texttt{R-Befehl für den Boxplot: > boxplot(data, ...)} \hfill \href{https://www.rdocumentation.org/packages/graphics/versions/3.6.2/topics/boxplot}{Dokumentation}}
\subsection{Mittelungen}
Im Folgenden werden drei verschiedene Mittelungen aufgeführt. Je nach dem ob die Daten in gleicher/unterschiedlicher Gewichtung in einen Mittelwert einfließen sollen oder ob es sich um eine multiplikative Verknüpfung zwischen den Werten handelt werden arithmetisches, harmonisches oder geometrisches Mittel verwendet.
\subsubsection{arithmetisches Mittel}\label{sec:arithm}
Das arithmetische Mittel ist den meisten sicherlich als \textit{"Durchschnitt"} bekannt. Hierbei gehen alle Daten mit \textit{gleicher} Gewichtung in die Berechnung ein. Diese erfolgt durch Aufsummieren aller Merkmalsausprägungen und Teilen durch die Anzahl $n$ der Merkmalsausprägungen.\\
Liegen klassierte/gruppierte Daten mit unterschiedlichen Klassengrößen $n_j$ vor, so macht man Gebrauch vom gewichteten arithmetischen Mittel. Hierbei werden die Merkmalsausprägungen beim Aufsummieren mit ihrer Klassengröße $n_j$ gewichtet und diese Summe anschließend durch $n$ geteilt.\\
Eine Schwäche des Mittelwertes ist die Empfindlichkeit gegenüber Ausreißern/Extremwerten, welche dadurch zustande kommt, dass die Abweichungen aller Ausprägungen in Summe Null ergeben. Somit verschiebt sich der Mittelwert durch extreme Werte sehr schnell in deren Richtung.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für das arithm. Mittel: > mean(data, ...)} \hfill \href{https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/mean}{Dokumentation}}
\subsubsection{harmonisches Mittel}
Das harmonische Mittel wird im Gegensatz zum arithmetischen Mittel verwendet, wenn die Merkmalsausprägungen unterschiedlich gewichtet werden sollen. Ein Hinweis darauf, dass man das harmonische Mittel verwenden muss, sind Verhältniszahlen, bspw. $\frac{km}{h}$ oder $\frac{EUR}{h}$.\\
Man berechnet das harmonische Mittel durch den Quotienten aus den aufsummierten Anteilen und der Summe der Quotienten aus der Gewichtung und der Merkmalsausprägung $x_i$.
Wenn man das harmonische Mittel aus einer Häufigkeitstabelle berechnet, ergibt sich ein Sonderfall. Denn der Zähler (die aufsummierten Anteile), ist $n$ (bzw. 1 bei relativen Häufigkeiten) und der Nenner ergibt sich aus dem Quotient der absoluten Häufigkeit (bzw. relativen Häufigkeit) der Merkmalsausprägung durch die Merkmalsausprägung selbst.\\
\noindent \framebox[\textwidth]{\texttt{\textbf{Kein} R-Befehl für das harmonische Mittel in base-R verfügbar.\hfill \mbox{}}}
\subsubsection{geometrische Mittel}
Das geometrische Mittel verwendet man bei relativen Merkmalsausprägungen (z.B. Wachstumsfaktoren), die sich auf einen bestimmten Ausgangswert beziehen. Bei solchen Werten kann man Aussagen treffen, wie sich Werte zwischen zwei Zeitpunkten verändert haben. Mit dem geometrischen Mittel berechnet man dann die durchschnittliche Veränderung eines Wertes im Zeitverlauf. Da es sich um eine multiplikative Verknüpfung handelt, multipliziert man alle relativen Veränderungen und zieht dann die n-te Wurzel aus der Anzahl der $n$ relativen Veränderungen. Alternativ kann man auch anstelle des Aufmultiplizierens auch einfach den Quotient des n-ten Ausgangswert durch den ersten Ausgangswert teilen und anschließend die n-te Wurzel ziehen.\\
\noindent \framebox[\textwidth]{\texttt{\textbf{Kein} R-Befehl für das geometrische Mittel in base-R verfügbar. \hfill \mbox{}}}
\subsubsection{Vergleich von Mittelwert \& Median}
Ein Unterschied zwischen arithmetischem Mittel und Median ist die Empfindlichkeit bzw. Robustheit gegenüber den Ausreißern. Der Median ist relativ robust ggü. Ausreißern, während das arithmetische Mittel eher empfindlich ist. Basierend auf diesen Eigenschaften können durch deren Vergleich Rückschlüsse auf die Verteilung der Daten gezogen werden.
\paragraph {Symmetrische Verteilung} Fallen Median und arithmetisches Mittel zusammen (d.h. sind in etwa gleich), dann spricht man von einer symmetrischen Verteilung, da hierdurch der Schluss gezogen werden kann, dass entweder (i) keine Ausreißer vorliegen oder (ii) sich die Ausreißer auf beiden Seiten (d.h. nach oben und unten) die Waage halten.
\paragraph{Asymmetrische Verteilung} Fallen Median und arithmetisches Mittel auseinander, dann spricht man von einer asymmetrischen Verteilung. Wenn das arithmetische Mittel größer ist als der Median, kann man daraus schließen, dass es tendenziell eher Ausreißer nach oben gibt. Eine solche Verteilung wird als linkssteil bzw. rechtsschief bezeichnet. Linkssteil, da sich die untere Hälfte der Daten (links vom Median) eher nah am Median befindet und das Histogramm somit eher steil ansteigend aussieht. Rechtssteil, da das arithmetische Mittel durch die potenziellen Ausreißer weiter nach "rechts gezogen" (rechtsschief) wird und das Histogramm eher flach abfallend aussieht. Deshalb ist das arithmetische Mittel in diesem, Fall größer als der Median.\\
Die Verteilung heißt im Gegensatz dazu rechtssteil bzw. linksschief, wenn der Median größer ist als das arithmetische Mittel. D.h. es kann genau dieselbe Intuition wiederverwendet werden, nur diesmal in die andere Richtung.
\clearpage
\subsection{Aufgaben}
\paragraph{1. Unterschiede zwischen Mittelwert und Median?}
\begin{itemize}
\item[a)] Mittelwert ist robuster ggü. Ausreißern \hfill $\square$
\item[b)] Median ist robuster ggü. Ausreißern \hfill $\square$
\item[c)] Keine \hfill $\square$
\end{itemize}
\paragraph{2. Der Median ..}
\begin{itemize}
\item[a)] .. liegt immer genau in der Mitte der Box. \hfill $\square$
\item[b)] .. entspricht dem 50\%-Quantil. \hfill $\square$
\item[c)] .. entspricht dem 2. Quartil. \hfill $\square$
\item[d)] .. ist wichtig dafür, zu berechnen wann ein Wert ein Ausreißer ist. \hfill $\square$
\end{itemize}
\paragraph{3. Welche Mittelung ist geeignet, um den durchschnittlichen Anstieg der Transferausgaben in der Fußballbundesliga zu ermitteln?}
\begin{itemize}
\item[a)] Arithmetisches Mittel \hfill $\square$
\item[b)] Geometrisches Mittel \hfill $\square$
\item[c)] Harmonisches Mittel \hfill $\square$
\item[d)] Alle drei machen Sinn \hfill $\square$
\end{itemize}
\clearpage
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%% KAPITEL 4
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{Streuungsmaße}
Bis jetzt haben wir uns Lagemaße angeschaut, welche nur etwas über die (zentrale) Lage der Daten aussagen. Um zu quantifizieren, wie stark die Daten schwanken/streuen (Hier: Wie stark die Daten um einen Mittelwert schwanken). Weil man zur Berechnung von Streuungsmaßen Differenzen benötigt, ist auch hier wieder nur für bestimmte Skalenniveaus die Berechnung der vorgestellten Streuungsmaße möglich.
\begin{center}
\begin{tabular}{|l c c c|}
\hline
& Nominalskala & Ordinalskala& metrische Skala\\
\hline\hline
Spannweite & & x & x \\
\hline
Quartilsabstand & & x & x \\
\hline
Mittlere absolute Abweichung (MAD) & & & x \\
\hline
Varianz & & & x \\
\hline
Standardabweichung & & & x \\
\hline
Variationskoeffizient & & & x\\
\hline
\end{tabular}
\end{center}
\subsection{Spannweite}
Als \textbf{Streubereich} bezeichnet man den Bereich in dem die gesamten Merkmalsausprägungen liegen. Dessen Breite bezeichnet man als \textbf{Spannweite}. Dabei subtrahiert man den kleinsten Wert (\textit{Minimum}) vom größten Wert (\textit{Maximum}). Da es nur auf diesen beiden Werten basiert, ist es anfällig gegenüber Ausreißern, welche zu sehr großen Spannweiten führen können.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für die Spannweite: > max(data) – min(data)} \hfill \href{https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/Extremes}{Dokumentation}}
\subsection{Quartilsabstand}
Im Gegensatz zur Spannweite ist der (Inter-)Quartilsabstand \textit{robust} gegenüber Ausreißern (d.h. er wird nicht von ihnen beeinflusst). Im vorigen Kapitel wurden bei den Quantilen (vgl. Kap. \ref{sec:Quantile}) die beiden besonderen Quantile, \textit{oberes und unteres Quartil}, vorgestellt. Aus deren Abstand ergibt sich der (Inter-)Quartilsabstand. Grafisch kann man sich dies als die Länge der Box im Boxplot veranschaulichen (vgl. Kap. \ref{sec:Box-Plot}).
Im (Inter-)Quartilsabstand liegen somit die mittleren/zentralen 50\% der Werte, darunter logischerweise auch der Median (vgl. Kap. \ref{sec:median}).
\begin{align*}
d_Q = \tilde{x}_{0,75}-\tilde{x}_{0,25}
\end{align*}
\noindent \framebox[\textwidth]{\texttt{R-Befehl für den Qurtilsabstand: > IQR(data)} \hfill \href{https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/IQR}{Dokumentation}}
\subsection{Mittlere absolute Abweichung (MAD)}
Die \textit{mittlere absolute Abweichung} (Englisch: mean absolute deviation) gibt die durchschnittliche Abweichung der Merkmalsausprägungen um einen bestimmten (zentralen) Wert $A$ an. $A$ kann beispielsweise der Median oder der Mittelwert sein. Bei der Berechnung werden die betragsmäßigen Differenzen aus den einzelnen Datenpunkten und $A$ aufsummiert und durch die Beobachtungszahl $n$ dividiert.
\begin{align*}
D_A = \frac{1}{n} \sum_{i=1}^n |x_i-A|
\end{align*}
\noindent Die Betragsstriche verhindern dabei, dass sich die positiven und negativen Abweichungen "aufheben". Eine weitere Möglichkeit dies zu vermeiden, wäre die Differenzen zu quadrieren (vgl. Kap. \ref{sec:varianz}).\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für den MAD: > mad(data, center = median(data), ...)} \hfill \href{https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/mad}{Dokumentation}}
\subsection{Varianz}\label{sec:varianz}
Die Varianz $s^2$ ist die mittlere \textit{quadratische} Abweichung zum arithmetischen Mittel. Die Varianz ist dabei das gängigste Maß für die Streuung von Merkmalsausprägungen um das arithmetische Mittel. Wie oben bereits erwähnt, wird durch die Quadrierung verhindert, dass sich die positiven \& negativen Abweichungen "aufheben" können.
\begin{align*}
s^2 = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2
\end{align*}
\paragraph{Verschiebungssatz} Jede einzelne Abweichung auszurechnen und zu quadrieren kann bei großer Anzahl $n$ von Datenpunkten sehr umständlich sein. Deshalb kann durch die Umformung mittels des Verschiebungssatzes eine handrechnerisch leichtere Form erreich werden:
\begin{align*}
s^2 = \frac{1}{n} (\sum_{i=1}^n x^2_i)-\bar{x}^2 = \overline{x^2} - \bar{x}^2
\end{align*}
\noindent \textit{Anmerkung:} Neben dem arithm. Mittel (welches auch für die "normale" Varianz-Formel benötigt wird) muss hier nur noch das arithm. Mittel der \textit{quadrierten} Daten berechnet werden, um schließlich die Varianz berechnen zu können.
\paragraph{Varianz aus klassierten/gruppierten Daten} Liegen nun keine Einzeldaten vor sondern gruppierte Daten von denen die Varianz bestimmt werden soll, geht man folgendermaßen vor:
Die Streuung in zwei Teile zerlegt ($s^2_{zwischen}$ und $s^2_{innerhalb}$), diese separat berechnet und anschließend addiert werden.\\
\textit{Anmerkung:} Dies mag auf den ersten Blick etwas kontra-intuitiv erscheinen, jedoch ist diese Berechnung auch ohne Kenntnis der Einzeldaten (d.h. mit de facto weniger Information) möglich. Aufgrund dessen ist diese Zerlegung in manchen Fällen hilfreich.\\
\noindent $s^2_{zwischen}$: Bei der Streuung zwischen den Klassen wird die durchschnittliche quadratische Abweichung der Mittelwerte der Klassen $(\bar{x_j})$ vom Mittelwert aller Daten $(\bar{x})$ berechnet.
\begin{align*}
s^2_{zwischen} = \frac{1}{n} \sum_{i=1}^k n_j (\bar{x_j}-\bar{x})^2
\end{align*}
\noindent $s^2_{innerhalb}$: Bei der Streuung innerhalb der Klassen wird zuerst die Streuung jeder einzelnen Gruppe ($s^2_j=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2$) berechnet. Von diesen gruppenspezifischen Varianzen wird anschließend das gewichtete arithmetische Mittel (vgl. Kap. \ref{sec:arithm}) gebildet:
\begin{align*}
s^2_{innerhalb} = \frac{1}{n} \sum_{i=1}^k n_j s^2_j
\end{align*}
\noindent Somit kann man die gesamte Varianz durch die Summe aus $s^2_{zwischen}$ und $s^2_{innerhalb}$ berechnen.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für die Varianz: > var(data)} \hfill \href{https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/cor}{Dokumentation}}
\noindent \dangersign Die R-Funktion teilt bei der Berechnung der Varianz nicht durch $n$ sondern durch $n-1$. Die Hintergründe dafür werden in Statistik II (vgl. Kap. \ref{sec:ML}) erläutert. Um dies zu umgehen und die (empirische) Varianz zu berechnen, sollte das Ergebnis dieses R-Befehls mit \texttt{(n - 1) / n} multipliziert werden.
\subsection{Standardabweichung}
Die Standardabweichung erhält man, indem man die positive Wurzel der Varianz (vgl. Kap. \ref{sec:varianz} zieht. Der Vorteil der Standardabweichung ist, dass diese wieder in der gleichen Einheit wie die Beobachtungswerte vorliegt, da wir das Quadrieren aus der Formel für die Varianz durch das Wurzelziehen wieder auflösen.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für die Standardabweichung: > sd(data)} \hfill \href{https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/sd}{Dokumentation}}
\noindent \dangersign Wie bei der Varianz wird auch beim R-Befehl für die Standardabweichung nicht durch $n$ sondern durch $n-1$ geteilt.
\subsection{Variationskoeffizient}
Beim Variationskoeffizient wird die Standardabweichung in Beziehung zum arithm. Mittel gesetzt, damit die Streuungen von Datensätzen mit unterschiedlichen Mittelwerten miteinander verglichen werden können. Die Berechnung erfolgt durch den Quotienten aus Standardabweichung und arithm. Mittel, dadurch wird der Variationskoeffizient dimensionslos. \\
\noindent \framebox[\textwidth]{\texttt{R-Befehl(e) für den Variationskoeffizient: > sd(data) / mean(data) \hfill \mbox{}}}
\clearpage
\subsection{Aufgaben}
\paragraph{1. Bei welcher Maßzahl werden hohe Abweichungen vom Mittelwert stärker gewichtet?}
\begin{itemize}
\item[a)] MAD \hfill $\square$
\item[b)] Varianz \hfill $\square$
\item[c)] Bei beiden gleich stark \hfill $\square$
\end{itemize}
\paragraph{2. Welche Aussagen zur Streuungszerlegung sind wahr?}
\begin{itemize}
\item[a)] Die Varianz innerhalb der Gruppen ist immer größer als zwischen den Gruppen. \hfill $\square$
\item[b)] Man kann die Varianz innerhalb und zwischen den Gruppen einfach addieren\\um die Gesamtvarianz zu erhalten. \hfill $\square$
\item[c)] Es gibt Sonderfälle, bei denen die Streuung zwischen den Gruppen der\\Gesamtstreuung entspricht. \hfill $\square$
\item[d)] Es muss immer eine Streuung innerhalb der Gruppen vorliegen. \hfill $\square$
\end{itemize}
\paragraph{3. Der Verschiebungssatz ..}
\begin{itemize}
\item[a)] .. erleichtert die Berechnung des arithmetischen Mittels. \hfill $\square$
\item[b)] .. kann auch bei gruppierten Daten verwendet werden. \hfill $\square$
\item[c)] .. dient zur Berechnung des arithmetischen Mittels der quadrierten Daten. \hfill $\square$
\item[d)] .. benötigt das arithmetische Mittel der quadrierten Daten. \hfill $\square$
\end{itemize}
\paragraph{4. Welche der folgenden Aussagen zum Variationskoeffizienten sind wahr?}
\begin{itemize}
\item[a)] Der Variationskoeffizient ermöglicht den Vergleich von Streuungen von Merkmalen,\\die in verschiedenen Einheiten gemessen werden. \hfill $\square$
\item[b)] Der Variationskoeffizient ermöglicht den Vergleich von Streuungen von Merkmalen,\\die in verschiedenen Größenordnungen liegen. \hfill $\square$
\item[c)] Für die Berechnung des Variationskoeffizienten müssen beide Merkmale in der gleichen\\Einheit vorliegen. \hfill $\square$
\item[d)] Zur Berechnung des Variationskoeffizienten benötigt man den Median. \hfill $\square$
\end{itemize}
\clearpage
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%% KAPITEL 5
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{Konzentrationsmaße}\label{sec:konz}
Bis jetzt können wir bei einem Datensatz Aussagen über die (zentrale) Lage der Daten und das Ausmaß der Streuung treffen. Im Folgenden werden auch Aussagen über die \textit{Konzentration} der Daten von Interesse sein, sowie deren graphische Darstellung. Somit kann bspw. ausgesagt werden, ob eine eher gleiche ($\widehat =$ faire) Verteilung oder möglicherweise ein Monopol vorliegt.\\
Da man die Daten ins Verhältnis zueinander setzt, sind diese Maßzahlen nur noch Merkmale mit metrischem Skalenniveau möglich. Konzentrationsmaße werden im weiteren Verlauf in absolute und relative Konzentrationsmaße geteilt.
\subsection{Absolute Konzentrationsmaße}\label{sec:abs-konz}
\subsubsection{Konzentrationsrate} \label{sec:konz-rate}
Die Konzentrationsrate ist ein eher simples Maß, mit dem man Aussagen à la "\textit{Die drei größten Marktteilnehmer machen 60\% des Umsatzes.}" treffen kann. Hierfür addiert man einfach die (Markt-)Anteile der $g$ Merkmalsträger mit den größten Anteilen zusammen, wobei $g$ je nach Kontext/Interesse vorab gewählt werden muss:
\begin{align*}
CR_g = \sum_{i=n-g+1}^n p_i = \sum_{i=n-g+1}^n (\frac{x_i}{\sum_{i=1}^n x_i})
\end{align*}
\noindent Würde ich beispielsweise bei 10 Merkmalsträgern die Konzentrationsrate der $g = 2$ größten Merkmalsträger berechnen wollen, dann würde ich die Summe der Anteile $p_i$ von $i=10-2+1=9$ bis $n=10$ berechnen. Somit also die Summe der Anteile des neunten und zehnten Merkmalsträgers.
Der Wertebereich der Konzentrationsrate kann von $\frac{g}{n}$, bei Gleichverteilung, wenn die Anzahl der g der größten Merkmalsträger auch dem Anteil an den gesamten Merkmalsträgern entspricht, bis hin zur 1 gehen. Bei einer Konzentrationsrate von 1 liegt ein Monopol (bei $g = 1$) oder ein Oligopol (bei $g \geq 2$) vor.\\
\noindent \textbf{Einschub: Praktische Relevanz // Wahl von $g$}\\
Das Gesetz gegen Wettbewerbsbeschränkung (\href{https://dejure.org/gesetze/GWB/18.html}{§18 GWB}) legt fest, wann man bei Unternehmen von marktbeherrschend sprechen kann. Um bei \textit{einem} Unternehmen von marktbeherrschend sprechen kann, benötigt dieses ein Marktanteil von mind. 40\%. Eine Gesamtheit von \textit{drei oder weniger} Unternehmen muss ein Marktanteil von mindestens 50\% erreichen und eine Gesamtheit von \textit{fünf oder weniger} Unternehmen muss einen Marktanteil von mindestens zwei Drittel erreichen, damit von Marktbeherrschung gesprochen werden kann.
\subsubsection{Konzentrationskurve}
Die Konzentrationsrate wird durch die Konzentrationskurve graphisch dargestellt. Bei der Konzentrationskurve werden zuerst die Merkmalsträger absteigend nach ihrer Größe abgetragen. Auf der x-Achse ist somit die kumulierte Anzahl der Merkmalsträger mit den größten Ausprägungen abgetragen (also $1, 2, \hdots, n$) und auf der y-Achse die kumulierten relativen Marktanteile. Je flacher der Graph ist, desto ähnlicher sind die Anteile verteilt. Entspricht der Graph einer Gerade, so liegt eine Gleichverteilung vor.
\subsubsection{Herfindahl-Index}
Ein weiteres absolutes Konzentrationsmaß ist der Herfindahl-Index. Dieser bezieht sich nicht wie die Konzentrationsrate (vgl. Kap. \ref{sec:konz-rate}) nur auf die $g$ größten Merkmalsträger, sondern liefert somit eine allgemeinere Aussage über alle Merkmalsträger. Den Herfindahl-Index berechnet man als Quotienten aus der Summe der quadrierten Beobachtungen $\sum_{i=1}^n x_i^2$ und der quadrierten Summe aller Beobachtungen $(\sum_{i=1}^n x_i)^2$. Da im Zähler zuerst quadriert und anschließend aufsummiert wird, im Nenner hingegen zuerst aufsummiert und dann quadriert wird, ist klar, dass der Zähler stets kleiner oder gleich dem Nenner sein wird. Somit ergibt sich folgender Wertebereich:\\
Liegt ein Monopol vor (ein Merkmalsträger besitzt die gesamt Merkmalssumme), so sind Zähler \& Nenner identisch, was zu einem Wert von $H = 1$ führt. Bei einer Gleichverteilung (alle Merkmalsträger besitzen die gleiche Merkmalsausprägung $a$), erhalten wir den Wert $H = \frac{1}{n}$.\\
\noindent \textbf{Einschub I: Beweis für die untere Grenze:}
\begin{align*}
H =\frac{\sum_{i=1}^n x_i^2}{(\sum_{i=1}^n x_i)^2} = \frac{n \cdot a^2}{(n \cdot a)^2} = \frac{n \cdot a^2}{n^2 \cdot a^2} = \frac{1}{n}
\end{align*}
\noindent \textbf{Einschub II: Aussagen über Veränderungen}\\
Beim Herfindahl-Index kann man relativ einfach pauschale Aussagen über Veränderungen treffen, solange die Merkmalssumme gleich bleibt.
\begin{itemize}
\item \textit{Beispiel 1: Fusion zweier Markteilnehmer}\\
In diesem Fall würde sich der Nenner nicht ändern, da sich die gesamte Merkmalssumme nicht ändert. Der Zähler würde jedoch größer werden, da $(a + b)^2 > a^2 + b^2$. Wichtig ist aber hierbei auch, die damit einhergehende Veränderung des Wertebereichs zu beachten.
\item \textit{Beispiel 2: Transfer von einem großen Merkmalsträger zu einem kleineren}\\
Wird ein Teil der Merkmalssumme von einem größeren zu einem kleinerer Merkmalsträger transferiert (und bleibt der kleinere dadurch weiterhin kleiner), so wird der Herfindahl-Index ebenfalls sinken. Der Wertebereich ändert sich dabei nicht. Umgekehrt (Transfer von klein zu groß) gilt dieselbe Intuition.
\end{itemize}
\noindent \framebox[\textwidth]{\texttt{R-Befehl für den Herfindahl-Index: > Herfindahl(data)} \hfill \href{https://www.rdocumentation.org/packages/DescTools/versions/0.99.37/topics/Herfindahl}{Dokumentation}}
\noindent \dangersign Die R-Funktion ist \textbf{nicht} Teil von \texttt{base-R} sondern Teil des Paketes \texttt{DescTools}. Dieses muss zunächst installiert (\texttt{install.packages("DescTools")}) und anschließend importiert werden (\texttt{library(DescTools)}).
\clearpage
\subsection{Relative Konzentrationsmaße}\label{sec:rel-konz}
\subsubsection{Lorenzkurve}\label{sec:lk}
Die Lorenzkurve ist eine grafische Methode um Konzentration auf eine \textit{relative} Art und Weise darzustellen. Sie ist bereits auf den ersten Blick von der Konzentrationskurve zu unterscheiden, da sowohl auf der x- als auch auf der y-Achse ausschließlich \textit{relative} Werte abgetragen sind. Somit gehen beide Achsen von 0 bis 1. Anhand der Lorenzkurve kann man Aussagen à la "\textit{Die ärmsten X\% der Merkmalsträger besitzen einen Anteil von Y\% der Merkmalssumme.}" treffen. Der Begriff "arm" und "besitzen" soll hierbei aber noch signalisieren, dass dieses Konzept lediglich auf Einkommen, o.ä. anwendbar ist, sondern dient hier einfach als plastische Beispielformulierung. Man kann diese Aussage auch invertieren und zu folgendem Schluss kommen: "\textit{Die reichsten (100 - X) \% der Merkmalsträger besitzen einen Anteil von (100 - Y) \% der Merkmalssumme.}"\\
All diese beispielhaften Formulierungen zeigen, dass es essentiell ist die Daten geordnet vorliegen zu haben, bevor man die Punkte zur Erstellung der Lorenzkurve berechnen kann. Bei der Berechnung werden im Folgenden zwei Fälle unterschieden: Individualdaten (der "normale" Fall) und gruppierte Daten (der etwas "kompliziertere" Fall).
\paragraph{Berechnung Lorenzkurve bei Individualdaten}
Da jeder Merkmalsträger jeweils einen Anteil von $\frac{1}{n}$ an der Gesamtheit der Merkmalsträger ausmacht, teilt man die x-Achse in $n$ gleichgroße Abschnitte. Liegen z.B. 5 Beobachtungen vor, so wird die x-Achse durch Markierungen bei $\frac{1}{5}$, $\frac{2}{5}$, $\frac{3}{5}$ \& $\frac{4}{5}$ unterteilt. Der zugehörige Wert der Ordinate gibt für jeden dieser x-Werte den kumulierten Anteil der Merkmalssumme dieses Anteils der Merkmalsträger an. Nehmen wir also an, unsere 5 Beobachtungen hätten folgende Ausprägungen:
$$x_1 = 4;\qquad x_2 = 1;\qquad x_3 = 7;\qquad x_4 = 5;\qquad x_5 = 3$$
\noindent Die geordneten Daten sähen in diesem Fall so aus:
$$x_{(1)} = 1;\qquad x_{(2)} = 3;\qquad x_{(3)} = 4;\qquad x_{(4)} = 5;\qquad x_{(5)} = 7$$
\noindent Da wir eine gesamte Merkmalssumme von 20 hätten, hätte die erste Beobachtung daran einen kumulierten Anteil von $\frac{1}{20}$, die ersten beiden hätten einen kumulierten Anteil von $\frac{1+3}{20} = \frac{4}{20}$, die ersten drei hätten einen kumulierten Anteil von $\frac{1+3+4}{20} = \frac{8}{20}$ und die ersten vier hätten einen kumulierten Anteil von $\frac{1+3+4+5}{20} = \frac{13}{20}$.\\
Somit ergeben sich folgende Punkte für die Lorenzkurve.
$$(\frac{1}{5}|\frac{1}{20});\qquad (\frac{2}{5}|\frac{4}{20});\qquad (\frac{3}{5}|\frac{8}{20});\qquad (\frac{4}{5}|\frac{13}{20})$$
\noindent Außerdem gehören zu \textbf{jeder} Lorenzkurve die Punkte (0|0) und (1|1), da logischerweise 0\% der Merkmalsträger auch 0\% der Merkmalsumme besitzen und 100\% der Merkmalsträger auch 100\% der Merkmalsumme besitzen.\\
\noindent \dangersign \textit{Notation:} Die Werte Werte auf der x-Achse werden oft als $u_i$ und die Werte auf der y-Achse als $v_i$ bezeichnet. Dies ist für die Formeln in Kapitel \ref{sec:gini} wichtig.\\
\noindent Für die Interpretation ist es wichtig sich klar zu machen, wie eine perfekt Gleichverteilung der Merkmalssumme sich in der Lorenzkurve widerspiegeln würde. In unserem Beispiel wäre in diesem Fall jedes $x_i = 4$ (gesamte Merkmalssumme von 20 aufgeteilt auf 5 Merkmalsträger) und die Punkte für die Lorenzkurve wären:
$$(0|0);\qquad(\frac{1}{5}|\frac{1}{5});\qquad (\frac{2}{5}|\frac{2}{5});\qquad (\frac{3}{5}|\frac{3}{5});\qquad (\frac{4}{5}|\frac{4}{5});\qquad (1|1)$$
\noindent In diesem Fall würde die Lorenzkurve perfekt mit der Winkelhalbierenden übereinstimmen, was auch der Grund ist, warum die Winkelhalbierende oft mit in die Grafik eingezeichnet ist. Sie dient quasi als Referenz, wie es im Fall der Gleichverteilung aussähe um abschätzen zu können wie stark die Lorenzkurve davon abweicht.\\
Das andere Extrem, ein Monopol, läge vor falls die gesamte Merkmalssumme einem Merkmalsträger zugeordnet würde. In unserem Beispiel wären dann $x_{(1)} = \hdots = x_{(4)} = 0$ und $x_{(5)} = 20$, was zu folgenden Punkten für die Lorenzkurve führen würde:
$$(0|0);\qquad(\frac{1}{5}|0);\qquad (\frac{2}{5}|0);\qquad (\frac{3}{5}|0);\qquad (\frac{4}{5}|0);\qquad (1|1)$$
\noindent In Abbildung \ref{fig:lk1} sind die Lorenzkurven für die drei Beispielszenarien dargestellt.
\begin{figure}[htbp]
\centering
\includegraphics[width = .9\textwidth]{figures/example_lc.pdf}
\caption{Lorenzkurven zum Beispiel für Individualdaten}
\label{fig:lk1}
\end{figure}
\noindent Zwischen diesen beiden Extrema gibt es sehr viele Abstufungen von (Un)Gleichverteilung.
Generell lässt sich festhalten: Je weiter der Graph der Lorenzkurve (nach links unten) von der Winkelhalbierende entfernt ist, also je größer die Fläche dazwischen ist, desto ungleicher verteilt, also desto konzentrierter ist ein Merkmal. Vice versa, je näher an der Winkelhalbierenden, desto gleichmäßiger verteilt, als desto weniger konzentriert ist ein Merkmal. Diese angesprochene Fläche spielt auch beim Gini-Koeffizienten (vgl. Kap. \ref{sec:gini}) eine entscheidende Rolle.\\
Weitere Eigenschaften der Lorenzkurve sind, dass sie \textbf{immer} unterhalb der Winkelhalbierenden und niemals darüber verlaufen muss. Da die Merkmalsausprägungen kumuliert (also aufsummiert) werden, kann der Graph nur monoton steigend sein. Zudem muss die Steigung eines Kurvensegments immer größer oder gleich dem vorigen Segments sein, da die Merkmalsausprägungen bei der Lorenzkurve nach Größe geordnet wurden.
\paragraph{Berechnung Lorenzkurve bei gruppierten Daten}
Hat man obige Erklärungen für Individuldaten verstanden, so wird auch das Verständnis für das Vorgehen bei gruppierten Daten nicht schwer fallen. Der erste wichtige, und visuell auffälligste, Unterschied besteht darin, dass die Abstände auf der x-Achse nicht mehr identisch ist. Ansonsten sind die Berechnungen weitestgehend ähnlich zum dem Fall für Individualdaten.\\
Nehmen wir an wir hätten im obigen Beispiel nun nicht mehr 5 Beobachtungen sondern 100. Dabei haben 10 Beobachtungen eine Merkmalsausprägung von 1, 40 haben eine Merkmalsausprägung von 5, 20 eine Merkmalsausprägung von 7 und 30 eine Merkmalsausprägung von 15. Insgesamt entspricht dies einer Merkmalssumme von 800. Die Gruppe mit der geringsten Merkmalsausprägung hätte damit einen Anteil von $\frac{10}{100} = 10\%$ an den Merkmalsträgern und einen Anteil von $\frac{10 \cdot 1}{800} = 0,0125$ an der Merkmalssumme, die beiden Gruppen mit den geringsten Merkmalsausprägungen einen Anteil von $\frac{10 + 40}{100} = 50\%$ an den Merkmalsträgern und einen Anteil von $\frac{10 \cdot 1 + 40 \cdot 5}{800} = 0,2625$ an der Merkmalssumme, usw.\\Dies führt zu folgenden Punkten für die Lorenzkurve:
$$(0|0);\qquad(0,1|0,0125);\qquad (0,5|0,2625);\qquad (0,7|0,4375);\qquad (1|1)$$
\noindent Abbildung \ref{fig:lk2} zeigt die Lorenzkurve für dieses Beispielszenario.
\begin{figure}[htbp]
\centering
\includegraphics[width = .7\textwidth]{figures/example_lc2.pdf}
\caption{Lorenzkurve zum Beispiel für gruppierte Daten}
\label{fig:lk2}
\end{figure}
\noindent \dangersign \textit{Notation:} Um Formeln für gruppierte von Formeln für Individualdaten abzuheben wird eine Tilde verwendet, d.h. x-Werte als $\tilde u_i$ und y-Werte als $\tilde v_i$ bezeichnet.\\
\noindent \dangersign \textit{Anmerkung I:} Die gleiche Lorenzkurve wie in Abbildung \ref{fig:lk2} hätte man auch für die Individualdaten zeichnen können, jedoch wäre dies ein um einiges höherer Aufwand gewesen. In diesem Fall wäre es jedoch möglich gewesen, da wir tatsächlich für jedes Individuum dessen genaue Merkmalsausprägung kennen.\\
\noindent \dangersign \textit{Anmerkung II:} Kennen wir \textbf{nicht} für jedes Individuum dessen genaue Merkmalsausprägung, sondern lediglich einen Gruppenmittelwert, so wird jedem Inidividuum in einer Gruppe diese Gruppenmittelwert als Merkmalsausprägung zugeordnet. Dadurch kann man ganz normal, wie oben für gruppierte Daten gezeigt, vorgehen. Wichtig ist dabei jedoch im Hinterkopf zu behalten, dass damit implizit die Annahme einhergeht, dass innerhalb der Gruppen Gleichverteilung herrscht, da wir jedem Individuum einer Gruppe denselben Wert zuordnen. Diese Annahme muss nicht immer realistisch sein und sollte stets kritisch hinterfragt werden.\\
\noindent \framebox[\textwidth]{\texttt{R-Befehl für die Lorenzkurve: > Lc(data)} \hfill \href{https://www.rdocumentation.org/packages/ineq/versions/0.2-13/topics/Lc}{Dokumentation}}
\noindent \dangersign Die R-Funktion ist \textbf{nicht} Teil von \texttt{base-R} sondern Teil des Paketes \texttt{ineq}. Um diese Funktion verwenden zu können, muss das Paket zunächst installiert werden (\texttt{install.packages("ineq")}) und anschließend importiert werden (\texttt{library(ineq)}).
\clearpage
\subsubsection{Gini-Koeffizient}\label{sec:gini}
Die im vorigen Kapitel erwähnte Fläche $F$, die zwischen dem Graph und der Winkelhalbierenden liegt, stellt die Basis für den Gini-Koeffizienten dar, welcher ein Maß für die relative Konzentration ist. Der Gini ist definiert als "\textit{Zweimal die Fläche zwischen Winkelhalbierender und Lorenzkurve.}"\\
\noindent Kennt man bereits die kumulierten Anteile an der Merkmalssumme (y-Werte der Punkte auf der Lorenzkurve), so ist der Gini recht einfach zu berechnen:
\begin{itemize}
\item Znächst addiert man jeweils zu jedem Anteilswert den Anteilswert der vorherigen Punktes (angefangen bei 0 bis zur 1): $(v_{i-1}+v_i)$
\item Diese Summen werden anschließend addiert: $\sum_{i=1}^n (v_{i-1}+v_i)$
\item und mit $\frac{1}{n}$ multipliziert: $\frac{1}{n}\sum_{i=1}^n (v_{i-1}+v_i)$
\item Dieses Produkt wird zum Schluss von 1 abgezogen.
\end{itemize}
\begin{align*}
G=1-\frac{1}{n}\sum_{i=1}^n (v_{i-1} + v_i)
\end{align*}
Für gruppierte Daten ändern sich Vorgehen und Formel nicht dramatisch. Der einzige Unterschied zur obigen Formel besteht darin, dass man mit den Gruppengrößen $n_j$ gewichten muss:
\begin{align*}
G=1-\frac{1}{n}\sum_{i=1}^n n_j \cdot (\tilde v_{i-1} + \tilde v_i)
\end{align*}
\noindent Man kann sich das ein bisschen wie bei gewichteten arithmetischen Mittel in Kapitel \ref{sec:arithm} vorstellen, da auch dort Unterschiedlichen Gruppengrößen auf ähnliche Art \& Weise Rechnung getragen wird.\\
\noindent Der Wertebereich des Gini-Koeffizient beginnt bei 0, was für eine absolute Gleichverteilung spricht. Dies macht intuitiv Sinn, da bei der absoluten Gleichverteilung die Fläche zwischen Winkelhalbierender und Lorenzkurve nicht existiert. Dass die obere Grenze nicht bei Eins, sondern bei ($\frac{n-1}{n}$, ist auf den ersten Blick vielleicht etwas weniger intuitiv. Bei einem Blick auf das Monopol-Szenario in Abbildung \ref{fig:lk1} sollte jedoch klar werden, dass die Fläche zwischen Winkelhalbierender und Lorenzkurve nicht den Wert 0,5 erreichen kann \& somit der Gini (also das Doppelte dieser Fläche) nicht 1 werden kann. Grund dafür ist das Dreieck, welches unten rechts stets per Konstruktion ausgespart wird. Die Größe dieses ausgesparten Dreieckes hängt von der Anzahl der Merkmalsträger $n$ ab und damit auch der Wertebereich.\\
\noindent Da mit einem variierendem Wertebereich (je nach Anzahl der Merkmalsträger) schwierig Konzentrationen für verschiedene Merkmale verglichen werden können, berechnet man den \textbf{normierten Gini-Koeffizienten $G^+$}.\\
Der normierte Gini-Koeffizient erhält man, indem man den berechneten Gini-Koeffizient mit $\frac{n}{n-1}$ multipliziert:
\begin{align*}
G^+=\frac{n}{n-1}G
\end{align*}
Der Wertebereich von $G^+$ geht dann noch von 0 bis 1 und ist unabhängig von $n$. Die Konzentration 0 steht dabei für absolute Gleichverteilung, also dafür, dass es \textit{keine} Konzentration gibt, während 1 für eine \textit{vollständige} Konzentration, also für ein Monopol, steht. Somit ist es nun kein Problem mehr verschiedene Merkmale mit unterschiedlichem $n$ in Bezug auf ihre Konzentration zu vergleichen.\\
\noindent \dangersign Bei der Normierung des Gini für gruppierte Daten entspricht $n$ weiterhin der Anzahl der Beobachtungen und \textbf{nicht} der Anzahl der Gruppen.\\
\noindent \textbf{Einschub: Aussagen über Veränderungen}\\
Beim Gini kann man relativ einfach pauschale Aussagen über Veränderungen treffen, solange die Anzahl der Merkmalträger gleich bleibt.
\begin{itemize}
\item \textit{Beispiel 1: Alle Merkmalsträger erfahren dieselbe relative Steigerung}\\
Alle Merkmalsträger steigern ihre Merkmalssumme um 10\%. In diesem Fall würde sich Gini nicht verändern, da sich an den Relationen nichts gändert hat.
\item \textit{Beispiel 2: Alle Merkmalsträger erfahren dieselbe absolute Steigerung}\\
Alle Merkmalsträger steigern ihre Merkmalssumme um 10 Einheiten. In diesem Fall würde Gini nicht sinken, da in Relationen zueinander nun alle etwas gleichere Anteile besitzen. Man kann sich das gut an einem Extremfall veranschaulichen: Angenommen jeder Merkmalsträger würde seine Merkmalssumme um das 100-fache der bisher größten Ausprägung steigern. Dadurch wurden alle bisher dagewesenen Unterschiede quasi irrelevant werden und jeder hätte nahezu gleich viel.
\end{itemize}
\noindent \framebox[\textwidth]{\texttt{R-Befehl für den Gini: > Gini(data)} \hfill \href{https://www.rdocumentation.org/packages/ineq/versions/0.2-13/topics/ineq}{Dokumentation}}
\noindent \dangersign Die R-Funktion ist \textbf{nicht} Teil von \texttt{base-R} sondern Teil des Paketes \texttt{ineq}. Um diese Funktion verwenden zu können, muss das Paket zunächst installiert werden (\texttt{install.packages("ineq")}) und anschließend importiert werden (\texttt{library(ineq)}).
\clearpage
\subsection{Aufgaben}
\paragraph{1. Welche Aussagen bzgl. Gini \& Lorenzkurve sind wahr?}
\begin{itemize}
\item[a)] Die absolute Merkmalssumme ist unerheblich für den Gini. \hfill $\square$
\item[b)] Höherer Gini bedeutet (global) steilere Lorenzkurve. \hfill $\square$
\item[c)] Der Gini ist uneingeschränkt geeignet um die Konzentration in zwei Gruppen\\zu vergleichen. \hfill $\square$
\item[d)] Erhalten alle Merkmalsträger dieselbe prozentuale Steigerung ihres (absoluten)\\Teils der Merkmalssumme, so verändert sich der Gini nicht. \hfill $\square$
\end{itemize}
\paragraph{2. Welche Aussagen bzgl. des Herfindahl-Index sind wahr?}
\begin{itemize}
\item[a)] Der Herfindahl-Index ist uneingeschränkt geeignet um die Konzentration in zwei\\Gruppen zu vergleichen. \hfill $\square$
\item[b)] Falls sich die Merkmalssumme ändert, können definitive Aussagen über der Änderung\\des Herfindahl-Index getroffen werden. \hfill $\square$
\item[c)] Falls sich die Verteilung Merkmalssumme ändert, können definitive Aussagen über der\\Änderung des Herfindahl-Index getroffen werden. \hfill $\square$
\item[d)] Höherer Herfindahl-Index bedeutet ungleichere Verteilung. \hfill $\square$
\end{itemize}
\paragraph{3. Der Gini für gruppierte Daten ist nur identisch zum "normalen" Gini, falls ..}
\begin{itemize}
\item[a)] .. alle Gruppen gleich groß sind. \hfill $\square$