tidymodels-ames-01

ds1
tidymodels
prediction
yacsda
statlearning
num
Published

May 17, 2023

Aufgabe

Berechnen Sie ein lineares Modell mit tidymodels und zwar anhand des ames Datensatzes.

Modellgleichung: Sale_Price ~ Gr_Liv_Area, data = ames.

Berechnen Sie ein multiplikatives (exponenzielles) Modell.

Gesucht ist R-Quadrat als Maß für die Modellgüte im Train-Sample.

Hinweise:

  • Fixieren Sie die Zufallszahlen auf den Startwert 42.











Lösung

library(tidymodels)
data(ames)

Multiplikatives Modell:

ames <- 
  ames %>% 
  mutate(Sale_Price = log10(Sale_Price))

Datensatz aufteilen:

ames_split <- initial_split(ames, prop = 0.80, strata = Sale_Price)
ames_train <- training(ames_split)
ames_test  <-  testing(ames_split)

Modell definieren:

m1 <-
  linear_reg() # engine ist "lm" im Default

Modell fitten:

fit1 <-
  m1 %>% 
  fit(Sale_Price ~ Gr_Liv_Area, data = ames)
fit1 %>% pluck("fit") 

Call:
stats::lm(formula = Sale_Price ~ Gr_Liv_Area, data = data)

Coefficients:
(Intercept)  Gr_Liv_Area  
  4.8552133    0.0002437  

Modellgüte im Train-Sample:

fit1_performance <-
  fit1 %>% 
  extract_fit_engine()  # identisch zu pluck("fit")

Modellgüte:

fit1_performance %>% summary()

Call:
stats::lm(formula = Sale_Price ~ Gr_Liv_Area, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.02587 -0.06577  0.01342  0.07202  0.39231 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 4.855e+00  7.355e-03  660.12   <2e-16 ***
Gr_Liv_Area 2.437e-04  4.648e-06   52.43   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.1271 on 2928 degrees of freedom
Multiple R-squared:  0.4842,    Adjusted R-squared:  0.484 
F-statistic:  2749 on 1 and 2928 DF,  p-value: < 2.2e-16

R-Quadrat via easystats:

library(easystats)
fit1_performance %>% r2()  # rmse()
# R2 for Linear Regression
       R2: 0.484
  adj. R2: 0.484
tidy(fit1_performance)  # ähnlich zu parameters()
# A tibble: 2 × 5
  term        estimate  std.error statistic p.value
  <chr>          <dbl>      <dbl>     <dbl>   <dbl>
1 (Intercept) 4.86     0.00736        660.        0
2 Gr_Liv_Area 0.000244 0.00000465      52.4       0
sol <- 0.484

Categories:

  • ds1
  • tidymodels
  • prediction
  • yacsda
  • statlearning
  • num