ungewiss-arten-regression

qm2

inference

Published

October 7, 2022

Exercise

Eine statistische Analyse, wie eine Regression, ist mit mehreren Arten an Ungewissheit konfrontiert. Zum einen gibt es die Ungewissheit in den Modellparametern. Für die Regression bedeutet das: “Liegt die Regressionsgerade in”Wahrheit” (in der Population) genauso wie in der Stichprobe, sind Achsenabschnitt und Steigung in der Stichprobe also identisch zur Popuation?“. Zum anderen die Ungewissheit innerhalb des Modells. Auch wenn wir die”wahre” Regressionsgleichung kennen würden, wären (in aller Regel) die Vorhersagen trotzdem nicht perfekt. Auch wenn wir etwa wüssten, wieviel Klausurpunkte “in Wahrheit” pro Stunde Lernen herausspringen (und wenn wir den wahren Achsenabschnitt kennen würden), so würde das Modell trotzdem keine perfekten Vorhersagen zum Klausurerfolg liefern. Vermutlich fehlen dem Modell wichtige Informationen etwa zur Motivation der Studentis.

Vor diesem Hintergrund, betrachten Sie folgendes statistisches Modell, das mit den Methoden der Bayes-Statistik berechnet wurde. Dazu wurde die Funktion stan_glm() verwendet, die ähnlich zu lm() ein lineare Modell berechnet. Ein wichtiger Unterschied zu lm() ist, dass Ungewissheiten zu den Parameterschätzungen ausgegeben werden.

data(mtcars) 
library(rstanarm) 
library(easystats)
lm1 <- stan_glm(mpg ~ hp, data = mtcars,
                refresh = 0)  # um nicht zu viel R-Ausgabe zu erhalten

parameters(lm1)

Parameter   | Median |         95% CI |   pd |  Rhat |     ESS |                   Prior
----------------------------------------------------------------------------------------
(Intercept) |  30.08 | [26.70, 33.43] | 100% | 0.999 | 3419.00 | Normal (20.09 +- 15.07)
hp          |  -0.07 | [-0.09, -0.05] | 100% | 0.999 | 3469.00 |   Normal (0.00 +- 0.22)

Für den Prädiktor hp ist das Regressionsgewicht (Punktschätzer) angegeben unter der Spalte Median. Dieser Wert entspricht der Punktschätzung in der Population und ist identisch zum Regressionsgewicht (“b”) der Stichprobe.

Die Spalte 95% CI gibt das 95%-Konfidenzintervall (CI wie confidence interval) zur Schätzung der Ungewissheit der Koeffizienten (der entsprechenden Zeile) wieder.

Wie breit ist das Intervall, in dem mit 95% Gewissheit der Achsenabschnitt liegt (laut diesem Model)?
Wie breit ist das Intervall, in dem mit 95% Gewissheit das Regressionsgewicht liegt (laut diesem Model)?

Hinweise:

Runden Sie auf zwei Dezimalstellen.
Ignorieren Sie die Spalte zu ROPE, pd, Prior und Rhat! Goldene Regel der Statistik: Wenn du eine Information nicht brauchst, dann ignoriere sie erstmal ;-)

Solution

6.73
0.04

Categories:

qm2
inference
lm

--- extype: string exsolution: NA exname: ungewiss-arten-regression expoints: 1 categories: - qm2 - inference - lm date: '2022-10-07' slug: ungewiss-arten-regression title: ungewiss-arten-regression --- # Exercise ```{r libs, include = FALSE} library(tidyverse) ``` ```{r global-knitr-options, include=FALSE} knitr::opts_chunk$set(fig.pos = 'H', fig.asp = 0.618, fig.width = 4, fig.cap = "", fig.path = "", cache = TRUE) ``` Eine statistische Analyse, wie eine Regression, ist mit mehreren Arten an Ungewissheit konfrontiert. Zum einen gibt es die *Ungewissheit in den Modellparametern*. Für die Regression bedeutet das: "Liegt die Regressionsgerade in "Wahrheit" (in der Population) genauso wie in der Stichprobe, sind Achsenabschnitt und Steigung in der Stichprobe also identisch zur Popuation?". Zum anderen die *Ungewissheit innerhalb des Modells*. Auch wenn wir die "wahre" Regressionsgleichung kennen würden, wären (in aller Regel) die Vorhersagen trotzdem nicht perfekt. Auch wenn wir etwa wüssten, wieviel Klausurpunkte "in Wahrheit" pro Stunde Lernen herausspringen (und wenn wir den wahren Achsenabschnitt kennen würden), so würde das Modell trotzdem keine perfekten Vorhersagen zum Klausurerfolg liefern. Vermutlich fehlen dem Modell wichtige Informationen etwa zur Motivation der Studentis. Vor diesem Hintergrund, betrachten Sie folgendes statistisches Modell, das mit den Methoden der Bayes-Statistik berechnet wurde. Dazu wurde die Funktion `stan_glm()` verwendet, die ähnlich zu `lm()` ein lineare Modell berechnet. Ein wichtiger Unterschied zu `lm()` ist, dass Ungewissheiten zu den Parameterschätzungen ausgegeben werden. ```{r message=FALSE} data(mtcars) library(rstanarm) library(easystats) lm1 <- stan_glm(mpg ~ hp, data = mtcars, refresh = 0) # um nicht zu viel R-Ausgabe zu erhalten parameters(lm1) ``` Für den Prädiktor `hp` ist das Regressionsgewicht (Punktschätzer) angegeben unter der Spalte `Median`. Dieser Wert entspricht der Punktschätzung in der Population und ist identisch zum Regressionsgewicht ("b") der Stichprobe. Die Spalte `95% CI` gibt das 95%-Konfidenzintervall (CI wie *confidence interval*) zur Schätzung der Ungewissheit der Koeffizienten (der entsprechenden Zeile) wieder. a) Wie breit ist das Intervall, in dem mit 95% Gewissheit der Achsenabschnitt liegt (laut diesem Model)? b) Wie breit ist das Intervall, in dem mit 95% Gewissheit das Regressionsgewicht liegt (laut diesem Model)? Hinweise: - Runden Sie auf zwei Dezimalstellen. - Ignorieren Sie die Spalte zu ROPE, pd, Prior und Rhat! Goldene Regel der Statistik: Wenn du eine Information nicht brauchst, dann ignoriere sie erstmal ;-) # Solution ```{r echo=FALSE} lm1_params <- parameters(lm1) intercept_ci_width <- (lm1_params$CI_high[1] - lm1_params$CI_low[1]) %>% round(2) b1_ci_width <- (lm1_params$CI_high[2] - lm1_params$CI_low[2]) %>% round(2) ``` a) `r intercept_ci_width` b) `r b1_ci_width` --- Categories: - qm2 - inference - lm