Transcription Decisions German
(in German)
Grundlegendes
Transkriptionsprogramm Exmaralda:
Nach jedem Intervall muss ein Leerzeichen stehen!
Tiers
- Sprecher_in (Benennung nach der Sigle, z.B. DEmo09FD; type: transcription)
- Comment (Kommunikation unter Transkribierenden; type: description; Informationen dieser Ebene verschwinden später)
- Anonymisierung (für das Festlegen von Events, die verrauscht werden sollen; type: description)
Segmentierung und Akzentsetzung
- Segmentierung nach Communication Units (CU)
- Keine Akzentsetzung
- Keine Satzzeichen
- Faustregel: Unabhängige Sätze bilden eine CU, abhängige Sätze bilden gemeinsam mit dem jeweiligen unabhängigen Satz eine CU
Transkription
Allgemein
- Sprachliches Material, das sich auf die Aufgabenstellung bezieht, wie Nachfragen durch Proband_innen, und evtl. Unterbrechungen durch Erhebende, wird wie folgt markiert:
<Q> communication with elicitor </Q>
und bekommt ein eigenes Event. - Strikte Kleinschreibung
- Weitestgehend orthografische Transkription gemäß der deutschen Rechtsschreibregeln
- ABER: Transkribiere wie gehört in Fällen, die NICHT allgemeiner Standard gesprochener Sprache sind! Nichts weglassen oder ergänzen.
- darunter fällt z.B.: nich vs. nicht, kein vs. keinen, jetz vs. jetzt, n vs. ein, is vs. ist, ne vs. eine, ma vs. mal, was vs. etwas, brauch vs. braucht, rum vs. herum, ham vs. haben, isch vs. ich
- wenn die komplette Endung wegfällt (-en und nicht nur Schwa), z.B. gesprung, angefang, dein
- dialektale, soziolektale und ethnolektale Variation wird verschriftlicht (nicht übertrieben genau)
- Standardphänome der gesprochenen Sprache, die NICHT transkribiert werden, sondern gemäß der deutschen Orthografie, sind1:
- Wegfall von Nebensilbenvokale / Schwatilgung: immer orthografisch schreiben (sehn = sehen, machn = machen); siehe offene Fragen
- Auslautverhärtung (z.B. bald nicht balt)
- Wortfinales er (z.B. koffer nicht koffa)
- Wortfinales g als ch (z.B. König nicht könich)
- ä bleibt ä (z.B. später nicht speta)
- sch in der Verbindung sp/st wird als sp/st notiert
- Vereinfachung von pf zu f wird nicht notiert
- v und f wird den Rechtschreibregeln gemäß verwendet
- Diphthonge werden gemäß den Rechtschreibregeln verwendet
- einzelne Wörter: eigentlich, irgendwie
- Metasprache ist Englisch (alles was nicht von Srecher*innen produziert wird, z.B. non-verbal)
Eine Liste mit Einzelentscheidungen zu Schreibweisen findet sich hier
Auslassung/Wiederholung/Abbrüche
- Nichts weglassen, was gesprochen wird. Nichts ergänzen, was nicht gesprochen wird.
- keine Apostrophe als Auslassungszeichen
Onomatopoetika/Echoismen:
- einzelne Token (z.B. gutschi gutschi gutschi)
- es sei denn, sie sind sehr kurz, dann zusammen (z.B. eieiei)
Reihungen, Wiederholunge, Abbrüche
- transkribieren wie gehört, nichts weglassen
- Wortabbrüche durch / kennzeichnen
- wortinterne Abbrüche werden so gekennzeichnet, dass das abgebrochene Element durch Dollarzeichen eingeklammert wird, z.B. dipl: Kinder$gar$ wagen
Aussprachevariationen
Verschmelzungen/Reduktionsformen/Auslassungen
-
verschmolzene Formen (Reduktion + schneller Anschluss) werden durch Gleichheitszeichen gekennzeichnet (z.B. is=er, ham=se)
-
Verb + Personalpronomen mit = (z.B. hättest=e, is=er)
-
andere mit = (z.B. so=ne)
-
Präpostion + Artikel Verschmelzungen werden nicht extra markiert, sondern werden zusammengeschrieben. Wir unterschieden nicht zwischen verschiedenen Formen von Präp + Art. Verschmelzungen. Dazu gehören:
- zum, beim, aufm, mitm, fürs, ins, ans etc.
- Doppelschreibung von Konsonantenen bei Silbengelenk: vonner, inner, mitter etc.
- ABER: auser, aufer, zuner etc.
-
Eine Liste mit Schreibweisen findet sich hier
Dehnung
- Orthographische Schreibung mit Dehnungs-h oder Vokalverdopplung bleibt erhalten, die Doppelpunkte (siehe folgende Punkte) kommen hinzu
- Längung bei Buchstabenkombinationen: vor dem Dehnungs-h (z.B. spä::ht), nach dem Dipthong (z.B. polzei::), nach dem Doppelbuchstaben (z.B. see:), nach der r-Vokalisierung (z.B. über:)
- Länger als Normal (0.2-2 Sek.) durch Doppelpunkt (z.B. so la:ng)
- Auffällig lang (ab 2 Sek.) mit :: (z.B. so la::ng)
- Dopplung vokalischer Silben mit % (z.B. tschü%üss); kann mit Dehnungsdoppelpunkten kombiniert werden (z.B. tschü:%üss); das gleiche gilt für Diphthonge (z.B. hei%ei)
- langgezogene und lang behauchte Konsonanten werden auch durch Doppelpunkte (wie bei den Vokalen) gekennzeichnet
Komplexe Komposita
- Generell zusammen schreiben (z.B. lehrerzimmer)
- Kompositionen aus Nomen+Adjektiv (saumüde), zwei Adjektiven (supertoll) oder Adjektiv+Präposition (übergeil) und Partikelverben (leidtun, weggehen) werden als ein Token transkribiert
- Abkürzungen/Wörter mit Bindestrich werden nicht gesondert markiert (z.B. "mathe emesa prüfung" für Mathe-MSA-Prüfung)2
- Koordination von Komposita OHNE Bindestrich (z.B. mittag und abendessen)3
Zahlen und Daten
- Ausschreiben
- Komplexe Zahlen auch zusammenschreiben (z.B. zweikommadrei)
- Bruchzahlen getrennt schreiben (z.B. zwei drittel)
- Schulnoten getrennt schreiben (z.B. zwei minus)
- Datum getrennt schreiben (z.B. elfter dritter)
Abkürzungen / Akronyme
- Ein Wort (z.B. "beemwe" für BMW)
- Komposita aus zwei Abkürzungen werden nicht gesondert markiert (z.B. "mercedes eselfka" für Mercedes-S11K)2
Eigen-/Markennamen
Schreibung wird beibehalten (z.B. renault)
Pausen
- auf Sprecher-tier transkribieren
- Pausen zwischen zwei CUs erhalten ein eigenes Event
- Pausen innerhalb einer CU wird innerhalb dieser transkribiert, kein eigenes Event
- 0.2-1.0 Sekunde: (-)
- 1.1-3.0 Sekunden: (--)
- über 3 Sekunden: gemessenen Wert in die Klammern eintragen, z.B. (5.5)
- Wortinterne Pausen werden ebenfalls so gekennzeichnet, z.B. auf(-)geschlossen (ohne Leerzeichen vor und nach der Klammer), Ausnahme: Wortinterne Pause und gefüllte Pause (ähm) mit Leerzeichen, z.B. auf (-) äh geschlossen
Außersprachliche/non-verbale Handlungen
- non-verbale Handlungen wie lachen oder husten werden auf speaker-tier in eckigen Klammern notiert, z.B. [laughing]
- gleichzeitiges Lachen und Sprechen, wie folgt: [[laughing]ball]
- CU-Zuordnung: wie bei Häsitationsmarkern wird non-verbale Handlung zur folgenden CU zugeordnet, z.B. "(-) | [laughing] (-) ähm ja das hat mir meine mama schon immer gesagt"
Geräusche/non-verbales Material
- Geräuschimitationen werden auf speaker-tier transkribiert (z.B. "dann hör ick nur so wuh")
- Sprecher_in-ungebundene Unterbrechungen (z.B. starker Autolärm, Computer piepsen) werden nur als Pause notiert; interner Vermerk auf comment-tier4
Unverständlich/schwer verständlich
- unverständliches innerhalb einer CU, wird innerhalb der CU in Klammern transkribiert, also kein eigenes Intervall angelegt (UNK) bzw. (UNK, 2.2) über 2 Sekunden
- Wenn nicht eindeutig ist zu welcher CU das Gesagte gehört, wird ein eigenes Event angelegt
- Bei Vermutungen des Inhalts jedes Lexem einzeln in Klammern setzen, z.B. (vermuteter) (Inhalt), Vermutungen beziehen sich auf existierende Lexeme, d.h. wenn man nur "ga" hört, muss das entweder als Abbruch markiert werden innerhalb der Klammern, als "(ga/)" oder als (UNK)
Fremdsprachliches Material
- Transkribieren wie gehört in deutscher Orthographie
- AUßER bei englischem Material, das wird in englischer Schreibweise belassen
- UND: Wie im Duden bei "fremdsprachlichen Material", das dort gelistet ist (z.B. adieu)
- Liste mit der Schreibung von fremdsprachlichen Wörtern und deren Vorkommen erstellen, damit sie immer gleich geschrieben werden, diese Liste findet sich hier
Anonymisierung
Personennamen
- Name (Vor- und Nachnamen) des Sprechenden durch Sprechersigle ersetzen (z.B. DEmo02FD)
- Genitiv-s wird an diese Sigle angehängt (z.B. DEmo02FDs)
- Vornamen von nicht anwesenden Genannten müssen nicht anonymisiert werden
- Nachname oder Vor- und Nachname von nicht Anwesenden müssen anonymisiert werden durch Sprechersigle_P (z.B. DEmo02FD_P)
Ortsangaben
- nur anonymisieren bei Rückschlussmöglichkeit auf den Wohnort, wenn z.B. Straßennamen genannt werden, die der Adresse des Sprechenden entsprechen könnten
- Schule: {Kategorie}, z.B. Alexander-Puschkin-Schule als {schoolname}schule 5
- Straße: {streetname}straße
- Hat der Ort eine Flexion, z.B. Plural, wird sie drangehängt: {streetname}straßen
- Unverständliche Personennamen ohne Angabe der Kategorie
Partikeln/Signale/Interjektionen
Rezeptionssignale
- Verneinung: 'hm'hm, nee, 'ä'ä
- Bejahung/Rezeptionssignal: 'hmhm
- Rezeptionssignal: hm, mhmh
Vezögerungssignale (hesitation markers)
- Filler: äh, ähm, öh, öhm, (auch wenn sie mit einem glottal stop produziert werden), hm (auch wenn nur m produziert wird)
Fragepartikel (gehören zur vorherigen CU)
- immer: ne, gell
- manchmal: oder, ja, okay
Interjektionen
Eine Liste aller Interjektionen, die vorkommen können befindet sich hier und wird während des Transkriptionsprozesses stetig erweitert.
Fragen / Zweifel / Unklarheiten
Sonderzeichen auf Transkriptionsebene
Symbole | Bedeutung |
---|---|
<Q>...</Q> | Nachfragen zur Aufgabenstellung |
(-) | Pause 0.2-1.0 Sek. |
(--) | Pause 1.1-3.0 Sek. |
(3.2) | Pausen länger als 3 Sek. |
(UNK) | unverständliches Material |
(UNK, 2.2) | unverständliches Material länger als 2 Sek. |
(assumption) | vermutetes Material |
[...] | non-verbale Handlung |
[[...]...] | non-verbale Handlung & verbales Material |
: | auffällig lange Vokale/Konsonanten (unter 0.2-2 Sek.) |
:: | außergewöhnlich lange Vokale/Konsonanten (über 2 Sek.) |
= | reduzierte Formen mit schnellem Anschluss |
/ | Wortabbruch |
$...$ | wortinterner Abbruch |
% | Silbendopplung |
{...} | Spezifizierung eines anonymisierten Ortes |
' | Glottisverschlusslaut |
Fußnoten:
Gründe: Konsistenz, agreement, Lesbarkeit
Bindestrich auf Normebene
Störende Geräusche, die den Redefluss unterbrechen: Brauchen wir diese Information später und wo soll sie hin?
Verfahren wir so auch mit Unis? Und soll über diese Orte auch eine Liste angefertigt werden, welche Abkürzungen was sind?
Erst auf Normebene