diff options
author | dennis <dennis@b9310e46-f624-0410-8ea1-cfbb3a30dc96> | 2010-05-05 18:33:47 +0000 |
---|---|---|
committer | dennis <dennis@b9310e46-f624-0410-8ea1-cfbb3a30dc96> | 2010-05-05 18:33:47 +0000 |
commit | aff1073da93e6b223b18ee376eecf50a4e93567b (patch) | |
tree | 49fb317a0df0b84890f0953b7b016739a140e23c /statistik/Leipzig-Karl/README.txt | |
parent | 3380939a8e8301982c720092793aeeff95f4f50b (diff) |
Ergänzung: Die Dateien des von Karl Köckemann überarbeiteten Leipziger Korpus (die eigentliche Korpus fehlt jedoch, da 100 MB für eine einzige Datei
wohl doch das SVN sprengen würden).
git-svn-id: https://svn.neo-layout.org@2310 b9310e46-f624-0410-8ea1-cfbb3a30dc96
Diffstat (limited to 'statistik/Leipzig-Karl/README.txt')
-rw-r--r-- | statistik/Leipzig-Karl/README.txt | 18 |
1 files changed, 18 insertions, 0 deletions
diff --git a/statistik/Leipzig-Karl/README.txt b/statistik/Leipzig-Karl/README.txt new file mode 100644 index 0000000..6f8d95d --- /dev/null +++ b/statistik/Leipzig-Karl/README.txt @@ -0,0 +1,18 @@ +== Über diesen Korpus == +im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt: +• Umstellung auf die Neue Rechtschreibung, +• Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.), +• Korrektur vieler Rechtschreibfehler. + +Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen. + +Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu +gebrauchen, als der pure – zu zeitungslastige – Leipziger Korpus. + +=== Dateien === +Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper kann (derzeitig) hier heruntergeladen werden: +http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html + +In den ersten drei n-Gramm-Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit »tab« im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen. + +Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden. |