WDF
Was bedeutet "WDF"?
Das Kürzel WDF steht für Within-document Frequency und bezeichnet die Gewichtung eines Wortes in Relation zu allen anderen Worten innerhalb eines Dokuments. Die Informationswissenschaft bedient sich zur Feststellung der WDF einer von Donna Harman entwickelten Formel, die Worten innerhalb eines Dokuments einen Gewichtungswert beimisst. Dabei gilt: Je häufiger ein Wort in einem Dokument enthalten ist, desto höher ist die WDF dieses Wortes.
Die Formel zur Berechnung der WDF lautet:
Freq(i,j) = Häufigkeit von Term i in Dokument j (= Termfrequenz)
Lj = Gesamtanzahl der Terme in Dokument j
Erklärung zu "+1": falls Freq(i,j) = 0 ist, kann mit dem "+1" erreicht werden, dass im Zähler log2(1) = 0 steht.
Beispiel
In einem Dokument sind 12.000 Wörter enthalten (L= 12.000). Das Wort i wird in diesem Dokument 23 mal erwähnt, also ist Freq(i,j)=23.
Die Berechnung lautet beim Einsatz dieser Werte in die Formel: WDF = log2(23+1)/log2(12000) = 0,3
Der Gewichtungswert beträgt hier im Ergebnis also WDF(i)= 0,3 (gerundet).