diff options
author | pascal <pascal@b9310e46-f624-0410-8ea1-cfbb3a30dc96> | 2008-08-06 22:53:17 +0000 |
---|---|---|
committer | pascal <pascal@b9310e46-f624-0410-8ea1-cfbb3a30dc96> | 2008-08-06 22:53:17 +0000 |
commit | c14436103ae5b0a7d72c323821d8289d0f069846 (patch) | |
tree | 2c8b4c50d0792301ddc4288fa558df767e0ae441 /statistik/Leipzig/README.txt | |
parent | 165e1dd559674bd6eb864bf08d93b019b3348fbe (diff) |
Statistik über die rel. Häufigkeit von Mono/Bi/Trigrammen
git-svn-id: https://svn.neo-layout.org@725 b9310e46-f624-0410-8ea1-cfbb3a30dc96
Diffstat (limited to '')
-rw-r--r-- | statistik/Leipzig/README.txt | 22 |
1 files changed, 22 insertions, 0 deletions
diff --git a/statistik/Leipzig/README.txt b/statistik/Leipzig/README.txt new file mode 100644 index 0000000..173939e --- /dev/null +++ b/statistik/Leipzig/README.txt @@ -0,0 +1,22 @@ +Diese Dateien basieren auf der von der Uni Leipzig erstellten Liste der 10000 +häufigsten Wörter (bzw. Wortformen) der deutschen Sprache¹. +Groß- und Kleinschreibung sowie Sonderzeichen (Bindestriche, Leerzeichen, +Apostrophe, Buchstaben mit Akzenten, Zahlen, …) wurden ignoriert. +Gemäß des Zipfschen Gesetzes² wurden die Häufigkeiten der Wörter annähernd +rekonstruiert (a=0,83). + +Anschließend wurden die Häufigkeiten des Auftreten einzelner Buchstaben sowie +Bi- und Trigramme mit den Zipf-Wahrscheinlichkeiten gewichtet, aufsummiert, +sortiert und auf 100% renormiert. + +Somit verstehen sich die Zeilen in allen Dateien als relative Häufigkeit und Name +des Mono/Bi/Trigramms. + + +¹ http://wortschatz.uni-leipzig.de/html/wliste.html + Die Uni Leipzig weist jedoch selbst darauf hin, dass die Reihenfolge von der + Auswahl der Quelle abhängt +² http://de.wikipedia.org/wiki/Zipfsches_Gesetz + Dabei treten Fehler sowohl bei den häufigsten Wörtern auf, deren berechnete + Häufigkeit zu hoch liegt, als auch bei den seltenen Wörtern, da bereits die + häufigsten 10000 Wörter auf 100% gesetzt werden. |