movies-vis1

vis

eda

string

Published

February 26, 2023

Aufgabe

Importieren Sie bitte für diese Aufgabe den Datensatz movies (aus dem R-Paket ggplot2movies). Ein Data-Dictionary findet sich hier.

Erstellen Sie folgende Visualisierung:

Streudiagramme mit rating als Y-Variable, und alle übrigen metrischen Variablen als X-Variable.
Lassen Sie aber folgende Variablen außen vor: etwaige ID-Variablen, die Variablen, die die Perzentile der Bewertungen angeben (rX, mit X von 1 bis 10)
Berücksichtigen Sie nur Actionfilme ab 2000
Verzichten Sie auf Filme mit einer unterdurchschnittlichen Zahl an Bewertungen (votes; gemessen an allen Filmen, gerundet zur nächsten ganzen Zahl)

Lösung

Pakete starten:

library(tidyverse)
library(DataExplorer)

Daten importieren:

d_path <- "https://vincentarelbundock.github.io/Rdatasets/csv/ggplot2movies/movies.csv"
d <- read.csv(d_path)

Durchschnittliche Zahl an Bewertungen:

d %>% 
  summarise(votes_mean = mean(votes))

  votes_mean
1   632.1304

Die durchschnittliche Zahl an Bewertungen beträgt also 632.

d %>% 
  select(length, budget, rating, year, votes, Action) %>% 
  filter(year >= 2000) %>% 
  filter(Action == 1) %>% 
  filter(votes >= 632) %>% 
  select(-Action) %>% 
  plot_scatterplot(by = "rating")

Warning: Removed 66 rows containing missing values or values outside the scale range
(`geom_point()`).

Categories:

vis
eda
string

---
exname: movies-vis1
extype: string
exsolution: ''
exshuffle: no
categories:
- vis
- eda
- string
date: '2023-02-26'
slug: movies-vis1
title: movies-vis1

---




```{r libs, include = FALSE}
library(tidyverse)
```


```{r global-knitr-options, include=FALSE}
knitr::opts_chunk$set(fig.pos = 'H',
                      fig.asp = 0.618,
                      fig.width = 4,
                      fig.cap = "", 
                      fig.path = "",
                      echo = TRUE,
                      message = FALSE,
                      fig.show = "hold")

```






# Aufgabe

Importieren Sie bitte für diese Aufgabe den Datensatz [movies](https://vincentarelbundock.github.io/Rdatasets/csv/ggplot2movies/movies.csv) (aus dem R-Paket `ggplot2movies`).
Ein Data-Dictionary findet sich [hier](https://vincentarelbundock.github.io/Rdatasets/doc/ggplot2movies/movies.html).

Erstellen Sie folgende Visualisierung:

- Streudiagramme mit `rating` als Y-Variable, und alle übrigen metrischen Variablen als X-Variable.
- Lassen Sie aber folgende Variablen außen vor: etwaige ID-Variablen, die Variablen, die die Perzentile der Bewertungen angeben (`rX`, mit `X` von 1 bis 10)
- Berücksichtigen Sie nur Actionfilme ab 2000
- Verzichten Sie auf Filme mit einer unterdurchschnittlichen Zahl an Bewertungen (`votes`; gemessen an allen Filmen, gerundet zur nächsten ganzen Zahl)





</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>

# Lösung

Pakete starten:

```{r message=FALSE}
library(tidyverse)
library(DataExplorer)
```



Daten importieren:

```{r echo=TRUE}
d_path <- "https://vincentarelbundock.github.io/Rdatasets/csv/ggplot2movies/movies.csv"
d <- read.csv(d_path)
```


Durchschnittliche Zahl an Bewertungen:

```{r}
d %>% 
  summarise(votes_mean = mean(votes))
```

Die durchschnittliche Zahl an Bewertungen beträgt also 632. 


```{r out.width="100%"}
d %>% 
  select(length, budget, rating, year, votes, Action) %>% 
  filter(year >= 2000) %>% 
  filter(Action == 1) %>% 
  filter(votes >= 632) %>% 
  select(-Action) %>% 
  plot_scatterplot(by = "rating")
```







---

Categories: 

- vis
- eda
- string