IDF: Unterschied zwischen den Versionen
Aus Seobility Wiki
Zeile 1: | Zeile 1: | ||
<seo title="IDF - Was ist das?" metadescription="Die inverse Dokumenthäufigkeit dient u.a. in der Informationswissenschaft der Ermittlung von Worthäufigkeiten in Dokumenten." /> | <seo title="IDF - Was ist das?" metadescription="Die inverse Dokumenthäufigkeit dient u.a. in der Informationswissenschaft der Ermittlung von Worthäufigkeiten in Dokumenten." /> | ||
− | Die inverse Dokumenthäufigkeit (Englisch: Inverse Document Frequency; kurz: IDF) dient u.a. in der Informationswissenschaft der Ermittlung von Worthäufigkeiten in Dokumenten. Dabei wird beispielsweise einem Wort, das nur in wenigen Dokumenten enthalten ist, eine höhere Relevanz beigemessen als einem Wort, das in nahezu jedem Dokument vorkommt. IDF und [[WDF]] werden gemeinsam zur Gewichtung von Worten in Dokumenten bei der [[Indexierung]] herangezogen. | + | Die [[Inverse Dokumenthäufigkeit|inverse Dokumenthäufigkeit]] (Englisch: Inverse Document Frequency; kurz: IDF) dient u.a. in der Informationswissenschaft der Ermittlung von Worthäufigkeiten in Dokumenten. Dabei wird beispielsweise einem Wort, das nur in wenigen Dokumenten enthalten ist, eine höhere Relevanz beigemessen als einem Wort, das in nahezu jedem Dokument vorkommt. IDF und [[WDF]] werden gemeinsam zur Gewichtung von Worten in Dokumenten bei der [[Indexierung]] herangezogen. |
Die Formel zur Berechnung der IDF lautet: | Die Formel zur Berechnung der IDF lautet: |
Version vom 23. Februar 2021, 14:25 Uhr
Die inverse Dokumenthäufigkeit (Englisch: Inverse Document Frequency; kurz: IDF) dient u.a. in der Informationswissenschaft der Ermittlung von Worthäufigkeiten in Dokumenten. Dabei wird beispielsweise einem Wort, das nur in wenigen Dokumenten enthalten ist, eine höhere Relevanz beigemessen als einem Wort, das in nahezu jedem Dokument vorkommt. IDF und WDF werden gemeinsam zur Gewichtung von Worten in Dokumenten bei der Indexierung herangezogen.
Die Formel zur Berechnung der IDF lautet:
ND = Anzahl aller betrachteten Dokumente
fi = Anzahl der Dokumente, die Term i beinhalten