summaryrefslogtreecommitdiffstats
path: root/statistik/Leipzig-Karl/README.txt
diff options
context:
space:
mode:
Diffstat (limited to 'statistik/Leipzig-Karl/README.txt')
-rw-r--r--statistik/Leipzig-Karl/README.txt18
1 files changed, 18 insertions, 0 deletions
diff --git a/statistik/Leipzig-Karl/README.txt b/statistik/Leipzig-Karl/README.txt
new file mode 100644
index 0000000..6f8d95d
--- /dev/null
+++ b/statistik/Leipzig-Karl/README.txt
@@ -0,0 +1,18 @@
+== Über diesen Korpus ==
+im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt:
+• Umstellung auf die Neue Rechtschreibung,
+• Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
+• Korrektur vieler Rechtschreibfehler.
+
+Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.
+
+Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
+gebrauchen, als der pure – zu zeitungslastige – Leipziger Korpus.
+
+=== Dateien ===
+Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper kann (derzeitig) hier heruntergeladen werden:
+http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
+
+In den ersten drei n-Gramm-Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit »tab« im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen.
+
+Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden.