neo/statistik/Leipzig/README.txt
erik 940e29b981 Monster-entBOMmung. Alles weg! Braucht kein Mensch. Und Trac auch nicht mehr.
Also merken: NIE WIEDER BOM setzen! Das wird ab jetzt bestraft.

Wie ich die BOMs entfernt habe, seht Ihr hier (im Verzeichnis des Neo-SVN starten):
  for i in $(find -type f | grep -v \.svn); do sed -i '1s%^\xef\xbb\xbf%%' "$i"; done

In der trac.ini war dazu nur folgendes notwendig zu ändern:
  default_charset = utf8

Danke an Mœsi für den (etwas späten) Hinweis.

git-svn-id: https://svn.neo-layout.org@1289 b9310e46-f624-0410-8ea1-cfbb3a30dc96
2008-12-18 15:21:02 +00:00

22 lines
1.1 KiB
Text

Diese Dateien basieren auf der von der Uni Leipzig erstellten Liste der 10000
häufigsten Wörter (bzw. Wortformen) der deutschen Sprache¹.
Groß- und Kleinschreibung sowie Sonderzeichen (Bindestriche, Leerzeichen,
Apostrophe, Buchstaben mit Akzenten, Zahlen, …) wurden ignoriert.
Gemäß des Zipfschen Gesetzes² wurden die Häufigkeiten der Wörter annähernd
rekonstruiert (a=0,83).
Anschließend wurden die Häufigkeiten des Auftreten einzelner Buchstaben sowie
Bi- und Trigramme mit den Zipf-Wahrscheinlichkeiten gewichtet, aufsummiert,
sortiert und auf 100% renormiert.
Somit verstehen sich die Zeilen in allen Dateien als relative Häufigkeit und Name
des Mono/Bi/Trigramms.
¹ http://wortschatz.uni-leipzig.de/html/wliste.html
Die Uni Leipzig weist jedoch selbst darauf hin, dass die Reihenfolge von der
Auswahl der Quelle abhängt
² http://de.wikipedia.org/wiki/Zipfsches_Gesetz
Dabei treten Fehler sowohl bei den häufigsten Wörtern auf, deren berechnete
Häufigkeit zu hoch liegt, als auch bei den seltenen Wörtern, da bereits die
häufigsten 10000 Wörter auf 100% gesetzt werden.