d18febecd9
git-svn-id: https://svn.neo-layout.org@2323 b9310e46-f624-0410-8ea1-cfbb3a30dc96
23 lines
1.1 KiB
Text
23 lines
1.1 KiB
Text
== häufigste*.txt ==
|
|
Die Dateien basieren auf der von der Uni Leipzig erstellten Liste der 10000
|
|
häufigsten Wörter (bzw. Wortformen) der deutschen Sprache¹.
|
|
Groß- und Kleinschreibung sowie Sonderzeichen (Bindestriche, Leerzeichen,
|
|
Apostrophe, Buchstaben mit Akzenten, Zahlen, …) wurden ignoriert.
|
|
Gemäß des Zipfschen Gesetzes² wurden die Häufigkeiten der Wörter annähernd
|
|
rekonstruiert (a=0,83).
|
|
|
|
Anschließend wurden die Häufigkeiten des Auftreten einzelner Buchstaben sowie
|
|
Bi- und Trigramme mit den Zipf-Wahrscheinlichkeiten gewichtet, aufsummiert,
|
|
sortiert und auf 100% renormiert.
|
|
|
|
Somit verstehen sich die Zeilen in allen Dateien als relative Häufigkeit und Name
|
|
des Mono/Bi/Trigramms.
|
|
|
|
|
|
¹ http://wortschatz.uni-leipzig.de/html/wliste.html
|
|
Die Uni Leipzig weist jedoch selbst darauf hin, dass die Reihenfolge von der
|
|
Auswahl der Quelle abhängt
|
|
² http://de.wikipedia.org/wiki/Zipfsches_Gesetz
|
|
Dabei treten Fehler sowohl bei den häufigsten Wörtern auf, deren berechnete
|
|
Häufigkeit zu hoch liegt, als auch bei den seltenen Wörtern, da bereits die
|
|
häufigsten 10000 Wörter auf 100% gesetzt werden.
|