diff options
Diffstat (limited to 'statistik/Leipzig-Karl/README.txt')
-rw-r--r-- | statistik/Leipzig-Karl/README.txt | 18 |
1 files changed, 18 insertions, 0 deletions
diff --git a/statistik/Leipzig-Karl/README.txt b/statistik/Leipzig-Karl/README.txt new file mode 100644 index 0000000..6f8d95d --- /dev/null +++ b/statistik/Leipzig-Karl/README.txt @@ -0,0 +1,18 @@ +== Über diesen Korpus == +im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt: +• Umstellung auf die Neue Rechtschreibung, +• Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.), +• Korrektur vieler Rechtschreibfehler. + +Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen. + +Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu +gebrauchen, als der pure – zu zeitungslastige – Leipziger Korpus. + +=== Dateien === +Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper kann (derzeitig) hier heruntergeladen werden: +http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html + +In den ersten drei n-Gramm-Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit »tab« im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen. + +Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden. |