ungewiss-arten-regression

qm2
inference
bayes
regression
Published

October 7, 2022

Exercise

Eine statistische Analyse, wie eine Regression, ist mit mehreren Arten an Ungewissheit konfrontiert. Zum einen gibt es die Ungewissheit in den Modellparametern. Für die Regression y = beta0 + beta1x + error bedeutet das: “Liegt die Regressionsgerade in ‘Wahrheit’ (in der Population) genauso wie in der Stichprobe, sind Achsenabschnitt und Steigung in der Stichprobe also identisch zur Population?”. Zum anderen die Ungewissheit innerhalb des Modells. Auch wenn wir den wahren Wert von beta0 und von beta1 kennen würden, wären (in aller Regel) die Vorhersagen trotzdem nicht perfekt. Auch wenn wir etwa wüssten, wieviel Klausurpunkte “in Wahrheit” pro Stunde Lernen herausspringen (und wenn wir den wahren Achsenabschnitt kennen würden), so würde das Modell trotzdem keine perfekten Vorhersagen zum Klausurerfolg liefern: Vermutlich fehlen dem Modell wichtige Informationen etwa zur Motivation der Studentis.

Vor diesem Hintergrund, betrachten Sie folgendes statistisches Modell, das mit den Methoden der Bayes-Statistik berechnet wurde. Dazu wurde die Funktion stan_glm() verwendet, die ähnlich zu lm() ein lineare Modell berechnet.

Sie brauchen das Modell nicht zu berechnen. Bei dieser Aufgabe geht es nur um die Interpretation.

Ein wichtiger Unterschied von stan_glm() zu lm() ist, dass Ungewissheiten bei stan_glm() zu den Parameterschätzungen berichtet werden, bei lm nicht (bzw. weniger).

data(mtcars) 
library(rstanarm) 
library(easystats)
lm1 <- stan_glm(mpg ~ hp, data = mtcars,
                refresh = 0)  # um nicht zu viel R-Ausgabe zu erhalten

parameters(lm1)
Parameter Median CI CI_low CI_high pd Rhat ESS Prior_Distribution Prior_Location Prior_Scale
(Intercept) 30.137673 0.95 26.7418072 33.5602799 1 1.0002779 3266.827 normal 20.09062 15.0673701
hp -0.068335 0.95 -0.0891176 -0.0469947 1 0.9998604 3466.058 normal 0.00000 0.2197599

Für den Prädiktor hp ist das Regressionsgewicht (Punktschätzer) angegeben unter der Spalte Median. Dieser Wert entspricht der Punktschätzung in der Population und ist identisch zum Regressionsgewicht (“b”) der Stichprobe.

Die Spalte 95% CI gibt das 95%-Konfidenzintervall (CI wie confidence interval) zur Schätzung der Ungewissheit der Koeffizienten (der entsprechenden Zeile) wieder.

Aufgaben

  1. Wie breit ist das Intervall, in dem mit 95% Gewissheit der Achsenabschnitt liegt (laut diesem Model)?
  2. Wie breit ist das Intervall, in dem mit 95% Gewissheit das Regressionsgewicht liegt (laut diesem Model)?

Hinweise:

  • Runden Sie auf zwei Dezimalstellen.
  • Ignorieren Sie die Spalte zu ROPE, pd, Prior und Rhat! Goldene Regel der Statistik: Wenn du eine Information nicht brauchst, dann ignoriere sie erstmal ;-)











Solution

  1. 6.82
  2. 0.04

Categories:

  • qm2
  • inference
  • lm