German POS and Lemma

(partly in German)

Model: STTS 2.0 (Westphal et. al.)

Here you find the Guidelines: Westpfahl_Schmidt_Jonietz_Borlinghaus_STTS_2_0_2017.pdf

Entscheidungen POS tag:

  • F16 als NE
  • 1-Wort Begrüßungen/Verabschiedungen wie hi, hallo, tschüss sind Interjektionen (NGIRR)
  • Speaker-Codes, anonymisierte Straßennahmen, etc. werde zu Eigenname (NE)
  • von den Proband_innen selber anonymisierte Namen, wie "Frau XX" oder "XY-Straße", werden zu Nichtwort (XY)
  • drei Punkte sind eine satzbeendende Interpunktion ($.)
  • wenn durch Abbrüche oder sonstiges nicht entscheidbar ist, welches POStag einem token zugewiesen werden sollte, bleibt der Wert leer
  • konventionalisierte Abkürzungen, wie "d.h." werden als ADV getaggt (siehe guidelines S.13)
  • "also" je nach Kontext SEDM, ADV oder KOUS:
    1. "also" als SEDM im Vor-Vorfeld, z.B. "also/SEDM ich heiße..."
    2. "also" als ADV, meist Spezifizierungen ohne Verb, z.B. "...eine Familie, also/ADV Frau, Mann, Kind"
    3. "also" als KOUS, z.B. "also/KOUS ging ich die Straße entlang"
  • ein paar Beispiele
token POS tag
/bis /später /APPR /ADJD
/gegenüber /von /ADV /APPR
/gegenüber /dem /Auto /APPR /ART /NN
  • Beispiele

  • DEbi56FR_fsD: und der hat natürlich/ADJD auf den Ball reagiert

Entscheidungen lemma:

  • Nominalisierungen werden beibehalten (Verletzte, Folgendes, Fahrer...) und dann nach der untenstehenden Tabelle für verschiedene Formen, die kleinste gemeinsame Form nehmen (Verletzte, Folgende, Fahrer), sodass pos und lemma übereinstimmen (z.B. [norm]: "das Spielen", [pos_lang]: NN, [lemma]: Spielen)
  • Speaker codes bleiben so
  • Merged forms Artikel+Präposition werden zum lemma der Präposition: aufm wird zu auf, mitm zu mit, zum zu zu, im zu in
  • Datum zu @card@
  • Reflexive werden zu Personalpronomen (sich zu er|sie|es), Possesive nicht, siehe auch Tabelle Formen Lemma
  • Ordinalzahlen bleiben (damit es mit [lemma] übereinstimmt) und werden nicht zu Kardinalzahlen
  • Bei unterschiedlichen Formen bei verschiedenem Genus nehmen wir immer die kleinste gemeinsame Form (siehe Tabelle), Ausnahme: NN, die Personen bezeichnen, bleiben in der Form, die auf [norm] ist, z.B. "Augenzeugin" bleibt und wird nicht zu "Augenzeug"
  • der, die, das wird immer d, unabhängig davon, ob es als Artikel oder Relativpronomen gebraucht wird.
  • Verschmelzungen Präpositionen+Artikel (vom, beim, aufm) werden immer zur Präposition lemmatisiert (vom --> von, beim --> bei, aufm --> auf)
  • Pluralformen werden zu Singularformen, d.h. Einkäufe wird auf [lemma] zu Einkauf
Verschiedene Formen lemma
all, alle, alles, aller all
andere, anderer, anderes ander
eine, einer, ein ein
der, die, das d
diese, dieser, dieses (atrribuierende Demonstrativpronomen) diese
dieser, dies, dieses (substituierendes Demostrativpronomen) dies
Folgendes, Folgende, Folgender Folgende
jener, jenes, jene jene
mein, meiner, meine, meins mein
welche, welcher, welches welch
vordere, vorderer, vorderes (ADJA) vordere
zweit, zweite, zweiter, zweites zweit