Eine statistische Analyse, wie eine Regression, ist mit mehreren Arten an Ungewissheit konfrontiert. Zum einen gibt es die Ungewissheit in den Modellparametern. Für die Regression y = beta0 + beta1x + error bedeutet das: “Liegt die Regressionsgerade in ‘Wahrheit’ (in der Population) genauso wie in der Stichprobe, sind Achsenabschnitt und Steigung in der Stichprobe also identisch zur Population?”. Zum anderen die Ungewissheit innerhalb des Modells. Auch wenn wir den wahren Wert von beta0 und von beta1 kennen würden, wären (in aller Regel) die Vorhersagen trotzdem nicht perfekt. Auch wenn wir etwa wüssten, wieviel Klausurpunkte “in Wahrheit” pro Stunde Lernen herausspringen (und wenn wir den wahren Achsenabschnitt kennen würden), so würde das Modell trotzdem keine perfekten Vorhersagen zum Klausurerfolg liefern: Vermutlich fehlen dem Modell wichtige Informationen etwa zur Motivation der Studentis.
Vor diesem Hintergrund, betrachten Sie folgendes statistisches Modell, das mit den Methoden der Bayes-Statistik berechnet wurde. Dazu wurde die Funktion stan_glm() verwendet, die ähnlich zu lm() ein lineare Modell berechnet.
Sie brauchen das Modell nicht zu berechnen. Bei dieser Aufgabe geht es nur um die Interpretation.
Ein wichtiger Unterschied von stan_glm() zu lm() ist, dass Ungewissheiten bei stan_glm() zu den Parameterschätzungen berichtet werden, bei lm nicht (bzw. weniger).
data(mtcars) library(rstanarm) library(easystats)lm1 <-stan_glm(mpg ~ hp, data = mtcars,refresh =0) # um nicht zu viel R-Ausgabe zu erhaltenparameters(lm1)
Parameter
Median
CI
CI_low
CI_high
pd
Rhat
ESS
Prior_Distribution
Prior_Location
Prior_Scale
(Intercept)
30.137673
0.95
26.7418072
33.5602799
1
1.0002779
3266.827
normal
20.09062
15.0673701
hp
-0.068335
0.95
-0.0891176
-0.0469947
1
0.9998604
3466.058
normal
0.00000
0.2197599
Für den Prädiktor hp ist das Regressionsgewicht (Punktschätzer) angegeben unter der Spalte Median. Dieser Wert entspricht der Punktschätzung in der Population und ist identisch zum Regressionsgewicht (“b”) der Stichprobe.
Die Spalte 95% CI gibt das 95%-Konfidenzintervall (CI wie confidence interval) zur Schätzung der Ungewissheit der Koeffizienten (der entsprechenden Zeile) wieder.
Aufgaben
Wie breit ist das Intervall, in dem mit 95% Gewissheit der Achsenabschnitt liegt (laut diesem Model)?
Wie breit ist das Intervall, in dem mit 95% Gewissheit das Regressionsgewicht liegt (laut diesem Model)?
Hinweise:
Runden Sie auf zwei Dezimalstellen.
Ignorieren Sie die Spalte zu ROPE, pd, Prior und Rhat! Goldene Regel der Statistik: Wenn du eine Information nicht brauchst, dann ignoriere sie erstmal ;-)
Solution
6.82
0.04
Categories:
qm2
inference
lm
Source Code
---extype: stringexsolution: NAexname: ungewiss-arten-regressionexpoints: 1categories:- qm2- inference- bayes- regressiondate: '2022-10-07'slug: ungewiss-arten-regressiontitle: ungewiss-arten-regression---# Exercise```{r libs, include = FALSE}library(tidyverse)``````{r global-knitr-options, include=FALSE}knitr::opts_chunk$set(fig.pos = 'H', fig.asp = 0.618, fig.width = 4, fig.cap = "", fig.path = "", cache = TRUE)```Eine statistische Analyse, wie eine Regression, ist mit mehreren Arten an Ungewissheit konfrontiert. Zum einen gibt es die *Ungewissheit in den Modellparametern*. Für die Regression `y = beta0 + beta1x + error` bedeutet das: "Liegt die Regressionsgerade in 'Wahrheit' (in der Population) genauso wie in der Stichprobe, sind Achsenabschnitt und Steigung in der Stichprobe also identisch zur Population?". Zum anderen die *Ungewissheit innerhalb des Modells*. Auch wenn wir den wahren Wert von `beta0` und von `beta1` kennen würden, wären (in aller Regel) die Vorhersagen trotzdem nicht perfekt. Auch wenn wir etwa wüssten, wieviel Klausurpunkte "in Wahrheit" pro Stunde Lernen herausspringen (und wenn wir den wahren Achsenabschnitt kennen würden), so würde das Modell trotzdem keine perfekten Vorhersagen zum Klausurerfolg liefern: Vermutlich fehlen dem Modell wichtige Informationen etwa zur Motivation der Studentis.Vor diesem Hintergrund, betrachten Sie folgendes statistisches Modell,das mit den Methoden der Bayes-Statistik berechnet wurde.Dazu wurde die Funktion `stan_glm()` verwendet, die ähnlich zu `lm()` ein lineare Modell berechnet.Sie brauchen das Modell *nicht* zu berechnen. Bei dieser Aufgabe geht es nur um die Interpretation. Ein wichtiger Unterschied von `stan_glm()` zu `lm()` ist, dass Ungewissheiten bei `stan_glm()` zu den Parameterschätzungen berichtet werden, bei `lm` nicht (bzw. weniger).```{r message=FALSE}data(mtcars) library(rstanarm) library(easystats)lm1 <- stan_glm(mpg ~ hp, data = mtcars, refresh = 0) # um nicht zu viel R-Ausgabe zu erhaltenparameters(lm1)```Für den Prädiktor `hp` ist das Regressionsgewicht (Punktschätzer) angegeben unter der Spalte `Median`.Dieser Wert entspricht der Punktschätzung in der Population und ist identisch zum Regressionsgewicht ("b") der Stichprobe.Die Spalte `95% CI` gibt das 95%-Konfidenzintervall (CI wie *confidence interval*) zur Schätzung der Ungewissheit der Koeffizienten (der entsprechenden Zeile) wieder. **Aufgaben**a) Wie breit ist das Intervall, in dem mit 95% Gewissheit der Achsenabschnitt liegt (laut diesem Model)?b) Wie breit ist das Intervall, in dem mit 95% Gewissheit das Regressionsgewicht liegt (laut diesem Model)?Hinweise:- Runden Sie auf zwei Dezimalstellen.- Ignorieren Sie die Spalte zu ROPE, pd, Prior und Rhat! Goldene Regel der Statistik: Wenn du eine Information nicht brauchst, dann ignoriere sie erstmal ;-)</br></br></br></br></br></br></br></br></br></br># Solution```{r echo=FALSE}lm1_params <- parameters(lm1)intercept_ci_width <- (lm1_params$CI_high[1] - lm1_params$CI_low[1]) %>% round(2)b1_ci_width <- (lm1_params$CI_high[2] - lm1_params$CI_low[2]) %>% round(2)```a) `r intercept_ci_width`b) `r b1_ci_width`---Categories: - qm2- inference- lm