
Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten
- 31 Seiten
- German
- PDF
- Über iOS und Android verfügbar
Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten
Über dieses Buch
Studienarbeit aus dem Jahr 2017 im Fachbereich Germanistik - Linguistik, Note: 1, 7, Technische Universität Darmstadt (Institut für Sprach- und Literaturwissenschaft), Veranstaltung: Forschungsthemen der Korpus- und Computerlinguistik - computervermittelte Interaktion (DH), Sprache: Deutsch, Abstract: Automatische Tagger spielen eine wichtige Rolle bei der Bearbeitung großer Textkorpora. Ohne sie wäre es nicht möglich große Textmengen in kurzen Zeiträumen mit bestimmten linguistischen Merkmalen zu annotieren und somit für die weitere Bearbeitung zugänglich zu machen. Viele dieser Tagger sind als Open-Source Software verfügbar.Das Ziel dieser Arbeit ist es, einen Vergleich zwei solcher Tagger durchzuführen, indem sie auf unterschiedliche deutsche Texte angewandt werden, die von der deutschen Standardvarietät in kleinem bis großem Umfang abweichen. Anschließend können die Textstellen betrachtet werden, bei denen die Tagger unterschiedliche Annotationen erzeugen. Der Fokus liegt dabei auf der Frage, welche Probleme durch die Besonderheiten der deutschen Sprache und seiner Varietäten bei den hier verwendeten Taggern beispielhaft auftreten und den daraus resultierenden falschen oder ambigen Annotationen.Der Aufbau der Arbeit gliedert sich wie folgt: Zunächst werden im Abschnitt 'Methodik' – nach einem kurzen Überblick über den aktuellen Forschungsstand - die verwendeten Part-of-Speech-Tagger (PoS-Tagger) vorgestellt. Anschließend werden deutsche Texte für den Test der Tagger ausgewählt und vorgestellt. Diese Texte sollen sich in ihrer Abweichung von der deutschenStandardvarietät möglichst stark unterscheiden, um eine breite Fläche an möglichen "Stolpersteinen" für die Tagger zu bieten. Anschließend erfolgt die Annotation der ausgewählten Texte mit den ausgewählten Taggern und schließlich eine Auswertung der resultierenden annotierten Token. Zum Schluss werden die Ergebnisse noch einmal kurz zusammengefasst.
Häufig gestellte Fragen
- Elementar ist ideal für Lernende und Profis, die sich mit einer Vielzahl von Themen beschäftigen möchten. Erhalte Zugang zur Basic-Bibliothek mit über 800.000 vertrauenswürdigen Titeln und Bestsellern in den Bereichen Wirtschaft, persönliche Weiterentwicklung und Geisteswissenschaften. Enthält unbegrenzte Lesezeit und die Standardstimme für die Funktion „Vorlesen“.
- Pro: Perfekt für fortgeschrittene Lernende und Forscher, die einen vollständigen, uneingeschränkten Zugang benötigen. Schalte über 1,4 Millionen Bücher zu Hunderten von Themen frei, darunter akademische und hochspezialisierte Titel. Das Pro-Abo umfasst auch erweiterte Funktionen wie Premium-Vorlesen und den Recherche-Assistenten.
Bitte beachte, dass wir Geräte, auf denen die Betriebssysteme iOS 13 und Android 7 oder noch ältere Versionen ausgeführt werden, nicht unterstützen können. Mehr über die Verwendung der App erfahren.