German POS and Lemma
(partly in German)
Model: STTS 2.0 (Westphal et. al.)
Here you find the Guidelines: Westpfahl_Schmidt_Jonietz_Borlinghaus_STTS_2_0_2017.pdf
Entscheidungen POS tag:
- F16 als NE
- 1-Wort Begrüßungen/Verabschiedungen wie hi, hallo, tschüss sind Interjektionen (NGIRR)
- Speaker-Codes, anonymisierte Straßennahmen, etc. werde zu Eigenname (NE)
- von den Proband_innen selber anonymisierte Namen, wie "Frau XX" oder "XY-Straße", werden zu Nichtwort (XY)
- drei Punkte sind eine satzbeendende Interpunktion ($.)
- wenn durch Abbrüche oder sonstiges nicht entscheidbar ist, welches POStag einem token zugewiesen werden sollte, bleibt der Wert leer
- konventionalisierte Abkürzungen, wie "d.h." werden als ADV getaggt (siehe guidelines S.13)
- "also" je nach Kontext SEDM, ADV oder KOUS:
- "also" als SEDM im Vor-Vorfeld, z.B. "also/SEDM ich heiße..."
- "also" als ADV, meist Spezifizierungen ohne Verb, z.B. "...eine Familie, also/ADV Frau, Mann, Kind"
- "also" als KOUS, z.B. "also/KOUS ging ich die Straße entlang"
- ein paar Beispiele
token | POS tag |
---|---|
/bis /später | /APPR /ADJD |
/gegenüber /von | /ADV /APPR |
/gegenüber /dem /Auto | /APPR /ART /NN |
-
Beispiele
- DEbi56FR_fsD: und der hat natürlich/ADJD auf den Ball reagiert
Entscheidungen lemma:
- Nominalisierungen werden beibehalten (Verletzte, Folgendes, Fahrer...) und dann nach der untenstehenden Tabelle für verschiedene Formen, die kleinste gemeinsame Form nehmen (Verletzte, Folgende, Fahrer), sodass pos und lemma übereinstimmen (z.B. [norm]: "das Spielen", [pos_lang]: NN, [lemma]: Spielen)
- Speaker codes bleiben so
- Merged forms Artikel+Präposition werden zum lemma der Präposition: aufm wird zu auf, mitm zu mit, zum zu zu, im zu in
- Datum zu @card@
- Reflexive werden zu Personalpronomen (sich zu er|sie|es), Possesive nicht, siehe auch Tabelle Formen Lemma
- Ordinalzahlen bleiben (damit es mit [lemma] übereinstimmt) und werden nicht zu Kardinalzahlen
- Bei unterschiedlichen Formen bei verschiedenem Genus nehmen wir immer die kleinste gemeinsame Form (siehe Tabelle), Ausnahme: NN, die Personen bezeichnen, bleiben in der Form, die auf [norm] ist, z.B. "Augenzeugin" bleibt und wird nicht zu "Augenzeug"
- der, die, das wird immer d, unabhängig davon, ob es als Artikel oder Relativpronomen gebraucht wird.
- Verschmelzungen Präpositionen+Artikel (vom, beim, aufm) werden immer zur Präposition lemmatisiert (vom --> von, beim --> bei, aufm --> auf)
- Pluralformen werden zu Singularformen, d.h. Einkäufe wird auf [lemma] zu Einkauf
Verschiedene Formen | lemma |
---|---|
all, alle, alles, aller | all |
andere, anderer, anderes | ander |
eine, einer, ein | ein |
der, die, das | d |
diese, dieser, dieses (atrribuierende Demonstrativpronomen) | diese |
dieser, dies, dieses (substituierendes Demostrativpronomen) | dies |
Folgendes, Folgende, Folgender | Folgende |
jener, jenes, jene | jene |
mein, meiner, meine, meins | mein |
welche, welcher, welches | welch |
vordere, vorderer, vorderes (ADJA) | vordere |
zweit, zweite, zweiter, zweites | zweit |