library(tidyverse)
<- 2^4
n
<-
d tibble(x = rnorm(n = n), # im Default: mean = 0, sd = 1
y = x + rnorm(n, mean = 0, sd = .5))
lm-standardfehler
Exercise
Man kann angeben, wie genau eine Schätzung von Regressionskoeffizienten die Grundgesamtheit widerspiegelt. Zumeist wird dazu der Standardfehler (engl. standard error, SE) verwendet.
In dieser Übung untersuchen wir, wie sich der SE als Funktion der Stichprobengröße, \(n\), verhält.
Erstellen Sie dazu folgenden Datensatz:
Hier ist das Ergebnis. Uns interessiert v.a. Std. Error
für den Prädiktor x
:
lm(y ~ x, data = d) %>%
summary()
Call:
lm(formula = y ~ x, data = d)
Residuals:
Min 1Q Median 3Q Max
-0.8758 -0.3004 -0.1946 0.2529 1.3000
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.1422 0.1561 -0.911 0.378
x 0.9546 0.1317 7.251 4.22e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.5976 on 14 degrees of freedom
Multiple R-squared: 0.7897, Adjusted R-squared: 0.7747
F-statistic: 52.58 on 1 and 14 DF, p-value: 4.216e-06
Hier haben wir eine Tabelle mit zwei Variablen, x und y, definiert mit n=16.
Verdoppeln Sie die Stichprobengröße 5 Mal und betrachten Sie, wie sich die Schätzgenauigkeit, gemessen über den SE, verändert. Berechnen Sie dazu für jedes n eine Regression mit x als Prädiktor und y als AV!
Bei welcher Stichprobengröße ist SE am kleinsten?
Answerlist
- \(2^5\)
- \(2^6\)
- \(2^7\)
- \(2^8\)
- \(2^9\)
Solution
Probieren wir es aus!
Erste Verdopplung, \(n=2^5\):
<- 2^5
n
<-
d5 tibble(x = rnorm(n = n), # im Default: mean = 0, sd = 1
y = x + rnorm(n, mean = 0, sd = .5))
<- lm(y ~ x, data = d5)
lm5
%>% summary() lm5
Call:
lm(formula = y ~ x, data = d5)
Residuals:
Min 1Q Median 3Q Max
-0.68722 -0.43286 -0.07974 0.38128 1.62001
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.07923 0.09254 -0.856 0.399
x 1.11837 0.11377 9.830 6.81e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.5181 on 30 degrees of freedom
Multiple R-squared: 0.7631, Adjusted R-squared: 0.7552
F-statistic: 96.63 on 1 and 30 DF, p-value: 6.812e-11
Man kann sich den Standardfehler komfortabler ausgeben lassen, wenn man das Paket easystats
verwendet:
library(easystats)
%>%
lm5 parameters()
Parameter | Coefficient | SE | CI | CI_low | CI_high | t | df_error | p |
---|---|---|---|---|---|---|---|---|
(Intercept) | -0.0792257 | 0.0925390 | 0.95 | -0.2682155 | 0.1097641 | -0.8561335 | 30 | 0.3987108 |
x | 1.1183739 | 0.1137728 | 0.95 | 0.8860189 | 1.3507289 | 9.8298902 | 30 | 0.0000000 |
Jetzt mit den anderen Stichprobengrößen:
<- 2^6
n
<-
d tibble(x = rnorm(n = n), # im Default: mean = 0, sd = 1
y = x + rnorm(n, mean = 0, sd = .5))
<- lm(y ~ x, data = d)
mein_lm
%>%
mein_lm parameters
Parameter | Coefficient | SE | CI | CI_low | CI_high | t | df_error | p |
---|---|---|---|---|---|---|---|---|
(Intercept) | 0.0179108 | 0.075495 | 0.95 | -0.1330015 | 0.1688232 | 0.237245 | 62 | 0.8132489 |
x | 1.0192013 | 0.070361 | 0.95 | 0.8785517 | 1.1598509 | 14.485316 | 62 | 0.0000000 |
<- 2^7
n
<-
d tibble(x = rnorm(n = n), # im Default: mean = 0, sd = 1
y = x + rnorm(n, mean = 0, sd = .5))
<- lm(y ~ x, data = d)
mein_lm
%>%
mein_lm parameters()
Parameter | Coefficient | SE | CI | CI_low | CI_high | t | df_error | p |
---|---|---|---|---|---|---|---|---|
(Intercept) | -0.0283003 | 0.0418013 | 0.95 | -0.1110239 | 0.0544232 | -0.6770198 | 126 | 0.4996344 |
x | 1.0038115 | 0.0423511 | 0.95 | 0.9200000 | 1.0876230 | 23.7021619 | 126 | 0.0000000 |
<- 2^8
n
<-
d tibble(x = rnorm(n = n), # im Default: mean = 0, sd = 1
y = x + rnorm(n, mean = 0, sd = .5))
<- lm(y ~ x, data = d)
mein_lm
%>%
mein_lm parameters()
Parameter | Coefficient | SE | CI | CI_low | CI_high | t | df_error | p |
---|---|---|---|---|---|---|---|---|
(Intercept) | 0.0431977 | 0.0290556 | 0.95 | -0.0140228 | 0.1004182 | 1.486728 | 254 | 0.1383268 |
x | 1.0565355 | 0.0278379 | 0.95 | 1.0017129 | 1.1113581 | 37.953072 | 254 | 0.0000000 |
<- 2^9
n
<-
d tibble(x = rnorm(n = n), # im Default: mean = 0, sd = 1
y = x + rnorm(n, mean = 0, sd = .5))
<- lm(y ~ x, data = d)
mein_lm
%>%
mein_lm parameters()
Parameter | Coefficient | SE | CI | CI_low | CI_high | t | df_error | p |
---|---|---|---|---|---|---|---|---|
(Intercept) | 0.0508174 | 0.0212192 | 0.95 | 0.0091296 | 0.0925052 | 2.39488 | 510 | 0.0169857 |
x | 0.9834259 | 0.0210561 | 0.95 | 0.9420586 | 1.0247932 | 46.70508 | 510 | 0.0000000 |
Answerlist
- Falsch
- Falsch
- Falsch
- Falsch
- Wahr. Die größte Stichprobe impliziert den kleinsten SE, ceteris paribus.
Categories:
- inference
- lm
- qm2