Statistik über die rel. Häufigkeit von Mono/Bi/Trigrammen

git-svn-id: https://svn.neo-layout.org@725 b9310e46-f624-0410-8ea1-cfbb3a30dc96
author: pascal <pascal@b9310e46-f624-0410-8ea1-cfbb3a30dc96> 2008-08-06 22:53:17 +0000
committer: pascal <pascal@b9310e46-f624-0410-8ea1-cfbb3a30dc96> 2008-08-06 22:53:17 +0000
commit: c14436103ae5b0a7d72c323821d8289d0f069846 (patch)
tree: 2c8b4c50d0792301ddc4288fa558df767e0ae441 /statistik/Leipzig/README.txt
parent: 165e1dd559674bd6eb864bf08d93b019b3348fbe (diff)
1 files changed, 22 insertions, 0 deletions
diff --git a/statistik/Leipzig/README.txt b/statistik/Leipzig/README.txt
new file mode 100644
index 0000000..173939e
--- /dev/null
+++ b/statistik/Leipzig/README.txt
@@ -0,0 +1,22 @@
+Diese Dateien basieren auf der von der Uni Leipzig erstellten Liste der 10000
+häufigsten Wörter (bzw. Wortformen) der deutschen Sprache¹.
+Groß- und Kleinschreibung sowie Sonderzeichen (Bindestriche, Leerzeichen,
+Apostrophe, Buchstaben mit Akzenten, Zahlen, …) wurden ignoriert.
+Gemäß des Zipfschen Gesetzes² wurden die Häufigkeiten der Wörter annähernd
+rekonstruiert (a=0,83).
+
+Anschließend wurden die Häufigkeiten des Auftreten einzelner Buchstaben sowie
+Bi- und Trigramme mit den Zipf-Wahrscheinlichkeiten gewichtet, aufsummiert,
+sortiert und auf 100% renormiert.
+
+Somit verstehen sich die Zeilen in allen Dateien als relative Häufigkeit und Name
+des Mono/Bi/Trigramms.
+
+
+¹ http://wortschatz.uni-leipzig.de/html/wliste.html
+  Die Uni Leipzig weist jedoch selbst darauf hin, dass die Reihenfolge von der
+  Auswahl der Quelle abhängt
+² http://de.wikipedia.org/wiki/Zipfsches_Gesetz
+  Dabei treten Fehler sowohl bei den häufigsten Wörtern auf, deren berechnete
+  Häufigkeit zu hoch liegt, als auch bei den seltenen Wörtern, da bereits die
+  häufigsten 10000 Wörter auf 100% gesetzt werden.
author	pascal <pascal@b9310e46-f624-0410-8ea1-cfbb3a30dc96>	2008-08-06 22:53:17 +0000
committer	pascal <pascal@b9310e46-f624-0410-8ea1-cfbb3a30dc96>	2008-08-06 22:53:17 +0000
commit	c14436103ae5b0a7d72c323821d8289d0f069846 (patch)
tree	2c8b4c50d0792301ddc4288fa558df767e0ae441 /statistik/Leipzig/README.txt
parent	165e1dd559674bd6eb864bf08d93b019b3348fbe (diff)