sentiws2

textmining
tokenizer
string
Published

November 8, 2023

Aufgabe

Importieren Sie das sentiws Lexikon:

Die Spalte inflections birgt eine Reihe von Word-Varianten. Es scheint sinnvoll zu sein, diese Wörter zu nutzen. Aber um sie zu nutzen, muss man sie tokenisieren.

Aufgabe: Tokenisieren Sie die Tabelle sentiws, Spalte inflections.

Hinweise:











Lösung

# A tibble: 28,620 × 3
   neg_pos word           value
   <chr>   <chr>          <dbl>
 1 neg     abbaus       -0.058 
 2 neg     abbaues      -0.058 
 3 neg     abbauen      -0.058 
 4 neg     abbaue       -0.058 
 5 neg     abbruches    -0.0048
 6 neg     abbrüche     -0.0048
 7 neg     abbruchs     -0.0048
 8 neg     abbrüchen    -0.0048
 9 neg     abdankungen  -0.0048
10 neg     abdämpfungen -0.0048
# ℹ 28,610 more rows

Das ging einfach!

Nur die NAs sollten wir vielleicht noch entfernen.


Categories:

  • textmining
  • tokenizer
  • string