Das Ziel der Korpuslinguistik ist neue Erkentnisse über Strukuren, Formen, Funktionen, Variation, und Verwendung u.a. natürlicher Sprache in schriftlicher oder geschriebener Form zu erlangen. Durch die Analyse großer annotierter Korpora können wir zu statistisch signifikanten Ergbenissen kommen, die eventuell in kleineren Untersuchungen nicht erkennbar wären.
Auf dieser Seite bieten wir eine Liste einiger der wichtigsten deutschen bzw. mit dem Deutschen verwandten Korpora sowie Werkzeuge für Korpuslinguistik. Diese Liste stellt keine ausführliche Liste der Korpora der deutschen Gegenswartsprache dar, aber sie wird ständing aktualisiert und ausgebaut.
Online ANNIS-Installationen ermöglichen es Forschern, kostenfrei einen schnellen Einblick in viele deutschsprachige Korpora zu nehmen, v.a. die diachronen Referenzkorpora des Deutschen (ReA, Rem, ReF, ReN) zu nehmen. Dafür muss man ANNIS nicht installieren, da diese Korpora über on-line Installationen laufen.
ANNIS is an open source, browser-based search and visualization architecture for multi-layer corpora, developed at Humboldt-Universität zu Berlin, Georgetown University and Potsdam University. It can be used to search for complex graph structures of annotated nodes and edges forming a variety of linguistic structures, such as constituent or dependency syntax trees, coreference, rhetorical structure and parallel alignment edges, span annotations and associated multi-modal data (audio/video).
ANNIS-Inventar von Korpora der HU-BerlinCorpusSearch2 wird für Korpora des Penn-Treebank-Formats verwendet und muss lokal installiert werden.
CorpusSearch 2 ist ein Javaprogramm, das korpuslinguistische Forschung unterstüzt. Es kann sowohl für die Erstellung so wie die Durchsuchung syntaktisch annotierter bzw. nach dem Penn-Treebank-Format geparster Korpora verwendet werden.
(Legacy-Seite von Beth Randall: Einleitung und Download-Link, aber diese Seite wird nicht mehr aktualisiert.)
TüNDRA (Tübingen aNnotated Data Retrieval Application) is a web application for searching in treebanks using a lightweight query language inspired by the widely used TIGERSearch application. It offers corpus linguists an interface for using corpora with complex annotation and syntactic links. As for now TüNDRA has 464 treebanks: 455 dependency treebanks, 9 constituency treebanks. In total they contain 161034518 sentences in 84 languages.
Homeseite des Verbunds "Deutsch Diachron Digital". Im ddd sind mehrere Projekte zusammengeschlossen, die tiefenannotierte Referenzkorpora für die Erforschung der deutschen Sprachgeschichte bereitstellen und weiterentwickeln. Die Korpora sind webbasiert, kostenfrei und ohne Anmeldung nutzbar.
Das “Referenzkorpus Altdeutsch” (kurz: ReA) erfasst und annotiert sämtliche althochdeutschen und altniederdeutschen Texte (750–1050) mit ca. 1/2 Mio. Texttokens. Es wurde von 2008-2015 an der Humboldt-Universität zu Berlin, der Goethe-Universität Frankfurt am Main und der Universität Jena erstellt. Heute wird es in Berlin betreut.
Das “Referenzkorpus Mittelhochdeutsch” (kurz: ReM) ist ein Korpus diplomatisch transkribierter und annotierter Texte des Mittelhochdeutschen (1050-1350) mit einem Umfang von ca. 2 Mio. Wortformen. Es ist aus den Forschungsprojekten “Referenzkorpus Mittelhochdeutsch” und “Mittelhochdeutsche Grammatik” hervorgegangen.
Das “Referenzkorpus Frühneuhochdeutsch” (kurz: ReF) ist ein Korpus diplomatisch transkribierter und annotierter Texte des Frühneuhochdeutschen (1350–1650). Es wurde an den drei Projektstandorten Bochum, Halle und Potsdam erstellt und enthält morphologische (Bochum, Halle) und syntaktische Annotationen (Potsdam).
Das in Bochum ertsellte “Referenzkorpus Deutsche Inschriften” ist Teil des „Referenzkorpus historischer Texte des Deutschen“ und umfasst alle bisher dokumentierten und über „Deutsche Inschriften Online (DIO)“ digital verfügbaren deutschsprachigen Inschriften bis 1650. Die grammatisch annotierten Texte werden als Teilkorpus im Rahmen des sich im Aufbau befindlichen „Referenzkorpus Frühneuhochdeutsch (ReF)“ zur weiteren sprachwissenschaftlichen Erforschung zur Verfügung gestellt.
Das Referenzkorpus Mittelniederdeutsch Niederrheinisch (1200–1650) (kurz: ReN) umfasst mittelniederdeutsche und niederrheinische Sprachdenkmäler. Das Korpus besteht aus ca. 1,7 millionen Tokens und wurde für PoS und Morphologie getagged sowie lemmatisiert. Das von der DFG geförderte Referenzkorpus wurde von Januar 2013 bis Juli 2019 an den Universitäten Hamburg und Münster erstellt.
Das KiezDeutsch-Korpus (KiDKo) (Wiese et al. 2012 et seq.) ist ein digitales Korpus spontansprachlicher Gesprächsdaten aus informellen Peer-Group-Situationen in multi- und monoethnischen Sprechergemeinschaften. Die Korpusdaten sind transkribiert und normalisiert, sowie kodiert nach Wortarten (PoS-Tagging), syntaktischen Chunks und topologischen Feldern.
Das Deutsche Referenzkorpus (kurz DeReKo) ist ein elektronisches Archiv von deutschsprachigen Textkorpora geschriebener Sprache, das seit 1964 existiert und vom Institut für Deutsche Sprache (IDS) in Mannheim gepflegt und kontinuierlich ausgebaut wird. Mit derzeit über 53 Milliarden Wörtern (Stand: September 2021) ist DeReKo eine der weltweit größten Sammlungen elektronischer Korpora der deutschen Gegenwartssprache.
Korpus der Berlin-Brandenburgischen Akademie der Wissenschaften, auf dessen Grundlage das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS) erstellt wurde. Das Korpus beinhaltet 28 Milliarden Belege aus historischen und gegenwartssprachlichen Textkorpora.
Wir verlinken hier nur kostenfreie geparste Korpora und nicht die kostenplichtigen 'Penn Parsed Corpora of Historical English' (PPCHE)
Das von George Walkden estellte Korpus des altsächsischen Heliand beinhaltet 5968 Zeilen des C-Manuskripts aus der Sievers (1878) Edition und 46067 Wörter. Das Korpus ist nicht nur getagged und syntaktisch annotiert bzw. geparst, sondern auch lemmatisiert. Suchanfragen benötigen das von Beth Randall etwickelte Programm CorpusSearch2. Das Korpus stellt den ersten Teil vom Corpus of Historical Low German (CHLG) dar.
Das in Gent entwickelte Korpus des Mittelniederdeutschen (1250-1600) und zweiter Teil des CHLG ist genauso nach dem Beispiel der Penn Parsed Corpora of Historical English getagged und geparst. Suchanfragen können auf der Seite des Korpus eingegeben werden; die daraus resultierenden Ergebnisse können dort ebenso in Form einer .out-Datei heruntergeladen werden.
Das von Beatrice Santorini erstellte Korpus beinhaltet ca. 200.000 Wörter aus historischen und modernen jiddischen Quellen. Das Korpus kann wie andere Korpora des Penn-Treebank-Formats mit CorpusSearch durchsucht werden (siehe unten).