Historische Linguistik @ RUB

Korpuslinguistik: Diachronie und Synchronie

Das Ziel der Korpuslinguistik ist neue Erkentnisse über Strukuren, Formen, Funktionen, Variation, und Verwendung u.a. natürlicher Sprache in schriftlicher oder geschriebener Form zu erlangen. Durch die Analyse großer annotierter Korpora können wir zu statistisch signifikanten Ergbenissen kommen, die eventuell in kleineren Untersuchungen nicht erkennbar wären.

Auf dieser Seite bieten wir eine Liste einiger der wichtigsten deutschen bzw. mit dem Deutschen verwandten Korpora sowie Werkzeuge für Korpuslinguistik. Diese Liste stellt keine ausführliche Liste der Korpora der deutschen Gegenswartsprache dar, aber sie wird ständing aktualisiert und ausgebaut.

Korpuswerkzeug

Corpus Tools

ANNIS

User Guide

(Seite auf English)

Online ANNIS-Installationen ermöglichen es Forschern, kostenfrei einen schnellen Einblick in viele deutschsprachige Korpora zu nehmen, v.a. die diachronen Referenzkorpora des Deutschen (ReA, Rem, ReF, ReN) zu nehmen. Dafür muss man ANNIS nicht installieren, da diese Korpora über on-line Installationen laufen.

ANNIS is an open source, browser-based search and visualization architecture for multi-layer corpora, developed at Humboldt-Universität zu Berlin, Georgetown University and Potsdam University. It can be used to search for complex graph structures of annotated nodes and edges forming a variety of linguistic structures, such as constituent or dependency syntax trees, coreference, rhetorical structure and parallel alignment edges, span annotations and associated multi-modal data (audio/video).

ANNIS-Inventar von Korpora der HU-Berlin

CorpusSearch2

User Guide (von Beatrice Santorini)

(Seite auf English)

CorpusSearch2 wird für Korpora des Penn-Treebank-Formats verwendet und muss lokal installiert werden.

CorpusSearch 2 ist ein Javaprogramm, das korpuslinguistische Forschung unterstüzt. Es kann sowohl für die Erstellung so wie die Durchsuchung syntaktisch annotierter bzw. nach dem Penn-Treebank-Format geparster Korpora verwendet werden.
(Legacy-Seite von Beth Randall: Einleitung und Download-Link, aber diese Seite wird nicht mehr aktualisiert.)

TüNDRA

Tutorial

(Seite auf English)

TüNDRA (Tübingen aNnotated Data Retrieval Application) is a web application for searching in treebanks using a lightweight query language inspired by the widely used TIGERSearch application. It offers corpus linguists an interface for using corpora with complex annotation and syntactic links. As for now TüNDRA has 464 treebanks: 455 dependency treebanks, 9 constituency treebanks. In total they contain 161034518 sentences in 84 languages.

Referenzkorpora zur Deutschen Sprachgeschichte

Reference Corpora for the history of German

Referenzkorpora

Homeseite des Verbunds "Deutsch Diachron Digital". Im ddd sind mehrere Projekte zusammengeschlossen, die tiefenannotierte Referenzkorpora für die Erforschung der deutschen Sprachgeschichte bereitstellen und weiterentwickeln. Die Korpora sind webbasiert, kostenfrei und ohne Anmeldung nutzbar.

Altdeutsch

Das “Referenzkorpus Altdeutsch” (kurz: ReA) erfasst und annotiert sämtliche althochdeutschen und altniederdeutschen Texte (750–1050) mit ca. 1/2 Mio. Texttokens. Es wurde von 2008-2015 an der Humboldt-Universität zu Berlin, der Goethe-Universität Frankfurt am Main und der Universität Jena erstellt. Heute wird es in Berlin betreut.

Mittelhochdeutsch

Das “Referenzkorpus Mittelhochdeutsch” (kurz: ReM) ist ein Korpus diplomatisch transkribierter und annotierter Texte des Mittelhochdeutschen (1050-1350) mit einem Umfang von ca. 2 Mio. Wortformen. Es ist aus den Forschungsprojekten “Referenzkorpus Mittelhochdeutsch” und “Mittelhochdeutsche Grammatik” hervorgegangen.

Frühneuhochdeutsch

Das “Referenzkorpus Frühneuhochdeutsch” (kurz: ReF) ist ein Korpus diplomatisch transkribierter und annotierter Texte des Frühneuhochdeutschen (1350–1650). Es wurde an den drei Projektstandorten Bochum, Halle und Potsdam erstellt und enthält morphologische (Bochum, Halle) und syntaktische Annotationen (Potsdam).

Deutsche Inschriften

Das in Bochum ertsellte “Referenzkorpus Deutsche Inschriften” ist Teil des „Referenzkorpus historischer Texte des Deutschen“ und umfasst alle bisher dokumentierten und über „Deutsche Inschriften Online (DIO)“ digital verfügbaren deutschsprachigen Inschriften bis 1650. Die grammatisch annotierten Texte werden als Teilkorpus im Rahmen des sich im Aufbau befindlichen „Referenzkorpus Frühneuhochdeutsch (ReF)“ zur weiteren sprachwissenschaftlichen Erforschung zur Verfügung gestellt.

Mittelniederdeutsch

Das Referenzkorpus Mittelniederdeutsch Niederrheinisch (1200–1650) (kurz: ReN) umfasst mittelniederdeutsche und niederrheinische Sprachdenkmäler. Das Korpus besteht aus ca. 1,7 millionen Tokens und wurde für PoS und Morphologie getagged sowie lemmatisiert. Das von der DFG geförderte Referenzkorpus wurde von Januar 2013 bis Juli 2019 an den Universitäten Hamburg und Münster erstellt.

Korpora der deutschen Gegenwartssprache

Contemporary Corpora of German

Das KiezDeutsch-Korpus

Direktlink zum Korpus auf Annis

Das KiezDeutsch-Korpus (KiDKo) (Wiese et al. 2012 et seq.) ist ein digitales Korpus spontansprachlicher Gesprächsdaten aus informellen Peer-Group-Situationen in multi- und monoethnischen Sprechergemeinschaften. Die Korpusdaten sind transkribiert und normalisiert, sowie kodiert nach Wortarten (PoS-Tagging), syntaktischen Chunks und topologischen Feldern.

DeReKo

Das Deutsche Referenzkorpus

Das Deutsche Referenzkorpus (kurz DeReKo) ist ein elektronisches Archiv von deutschsprachigen Textkorpora geschriebener Sprache, das seit 1964 existiert und vom Institut für Deutsche Sprache (IDS) in Mannheim gepflegt und kontinuierlich ausgebaut wird. Mit derzeit über 53 Milliarden Wörtern (Stand: September 2021) ist DeReKo eine der weltweit größten Sammlungen elektronischer Korpora der deutschen Gegenwartssprache.

DWDS-Kernkorpus

Digitales Wörterbuch der deutschen Sprache

Korpus der Berlin-Brandenburgischen Akademie der Wissenschaften, auf dessen Grundlage das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS) erstellt wurde. Das Korpus beinhaltet 28 Milliarden Belege aus historischen und gegenwartssprachlichen Textkorpora.

Historische Penn-Treenbank-Format Korpora

Nach den Penn-Parsed Corpora

Wir verlinken hier nur kostenfreie geparste Korpora und nicht die kostenplichtigen 'Penn Parsed Corpora of Historical English' (PPCHE)

HeliPaD: the Heliand Parsed Database

Altsächsisch: der Heliand

Corpus of Historical Low German

(Seite auf English)

Das von George Walkden estellte Korpus des altsächsischen Heliand beinhaltet 5968 Zeilen des C-Manuskripts aus der Sievers (1878) Edition und 46067 Wörter. Das Korpus ist nicht nur getagged und syntaktisch annotiert bzw. geparst, sondern auch lemmatisiert. Suchanfragen benötigen das von Beth Randall etwickelte Programm CorpusSearch2. Das Korpus stellt den ersten Teil vom Corpus of Historical Low German (CHLG) dar.

Parsed Corpus of Middle Low German

Mittelniederdeutsch

Corpus of Historical Low German

(Seite auf English)

Das in Gent entwickelte Korpus des Mittelniederdeutschen (1250-1600) und zweiter Teil des CHLG ist genauso nach dem Beispiel der Penn Parsed Corpora of Historical English getagged und geparst. Suchanfragen können auf der Seite des Korpus eingegeben werden; die daraus resultierenden Ergebnisse können dort ebenso in Form einer .out-Datei heruntergeladen werden.

Historische Korpora

Historical Corpora

Korpuslinguistik: Diachronie und Synchronie

Korpuswerkzeug

Corpus Tools

ANNIS

User Guide

CorpusSearch2

User Guide (von Beatrice Santorini)

TüNDRA

Tutorial

Referenzkorpora zur Deutschen Sprachgeschichte

Reference Corpora for the history of German

Referenzkorpora

Altdeutsch

Mittelhochdeutsch

Frühneuhochdeutsch

Deutsche Inschriften

Mittelniederdeutsch

Korpora der deutschen Gegenwartssprache

Contemporary Corpora of German

Das KiezDeutsch-Korpus

Direktlink zum Korpus auf Annis

DeReKo

Das Deutsche Referenzkorpus

DWDS-Kernkorpus

Digitales Wörterbuch der deutschen Sprache

Historische Penn-Treenbank-Format Korpora

Nach den Penn-Parsed Corpora

HeliPaD: the Heliand Parsed Database

Altsächsisch: der Heliand

Corpus of Historical Low German

Parsed Corpus of Middle Low German

Mittelniederdeutsch

Corpus of Historical Low German

Penn-Parsed corpus of Historical Yiddish

Jiddisch

Penn-Parsed Corpora