Deep Web
Deep Web (engl. für tiefes Web) bezeichnet den Teil des World Wide Web, der für Nutzer nicht zugänglich ist und auch von normalen Suchmaschinen nicht durchsucht werden kann. Das Gegenteil des Deep Web ist das Visible Web (Sichtbares Web) oder Surface Web (Oberflächenweb). Die Inhalte des Deep Web sind so ungenügend verlinkt, dass sie von normalen Suchmaschinen nicht auffindbar sind. Inhalte des Deep Webs sind zum Großteil Fachdatenbanken und Webseiten, die erst dynamisch durch Anfragen aus speziellen Datenbanken generiert werden. Die genaue Größe des Deep Webs ist unbekannt, im Vergleich zum Visible Web jedoch sehr groß.
Inhaltsverzeichnis
Eigenschaften des Deep Web
Aus der Bergmann Studie von 2001 der Firma BrightPlanet ergaben sich folgende Eigenschaften:
- Das Deep Web hat eine 400 bis 550 mal größere Datenmenge als das Visible Web
- 60% der größten Websites im Deep Web enthalten ca. 750 Terabyte an Informationen
- Es gibt mehr als 200.000 Deep-Websites
- Webseiten aus dem Deep Web haben 50% mehr Zugriff und sind öfter verlinkt als Webseiten aus dem Visible Web
- Deep Weg ist die schnellst wachsende Kategorie von neuen Informationen im World Wide Web
- Mehr als die Hälfte des Deep Web ist in themenspezifischen Datenbanken ansässig
Untersuchungen im Jahr 2003, der University of California in Berkeley, ergaben folgende Zahlen zu dem Umfang des Internets:
- Visible Web: 167 Terabyte
- Deep Web: 91.850 Terabyte
Arten des Deep Web
Sherman & Price unterscheiden fünf Arten des Deep Web:
Opaque Web (engl. für undurchsichtig)
Hiermit sind Webseiten gemeint, die nicht im Index von Suchmaschinen aufgelistet sind, es aber könnten. Grund dafür ist die unzureichende technische Leistungsfähigkeit oder Aufwand-Nutzen-Relation. Google berücksichtigt oft höchstens fünf bis sechs Verzeichnisebenen einer Website. Auf tieferen Hierarchieschichten können somit auch relevante Dokumente liegen, die jedoch aufgrund der beschränkten Erschließungstiefe nicht gefunden werden. Außerdem werden Dateiformen wie PDF-Daten nicht vollständig berücksichtigt.
Private Web (engl. für privates Web)
Beim Private Web handelt es sich um Webseiten, die auf Grund von Zugangsbeschränkungen des Webmasters nicht im Index von Suchmaschinen aufgelistet werden.
Beispiele:
- Webseiten im Intranet
- passwortgeschützte Daten (z.B. durch Login)
- Zugang nur für bestimmte [IP-Adresse]n
- Schutz vor einer Indexierung durch den Robots Exclusion Standard
- Schutz vor einer Indexierung durch die Meta Tag-Werte noindex, nofollow und noimageindex im Quellcode der Webseite
Propietary Web (engl. für Eigentümer Web)
Beim Propietary Web handelt es sich um Webseiten, die für die Indexierung erst die Nutzungsbedingungen anerkennen müssen oder zur Zugänglichkeit die Eingabe eines Passwortes benötigen. Erst nach dieser Identifizierung sind die Webseiten zugänglich.
Invisible Web (engl. für unsichtbares Web)
Mit Ivisible Web sind Webseiten gemeint, die indexiert werden könnten, jedoch nicht werden, da es aus kaufmännischer oder strategischer Sicht nicht sinnvoll ist. Beispiel: Datenbanken mit einem Webformular
Truly Invisible Web (engl. für tatsächlich unsichtbares Web)
Das Truly Invisible Web beschreibt Webseiten, die aus technischen Gründen nicht in den Index von Suchmaschinen aufgenommen werden können.
Beispiele:
- Vor dem WWW entstandene Datenbankformate
- Dokumente, die nicht direkt im Browser angezeigt werden können
- Nicht-Standardformate (z.B. Flash)
- Grafikformate (komplexe Datenformate)
- komprimierte Daten oder Webseiten, die nur über eine Benutzernavigation bedient werden können (Grafiken oder Skripte)
Bedeutung für SEO
Noch können Webseiten des Deep Web nicht von Suchmaschinen berücksichtigt werden. Die Vorgehensweise beim Crawling und Ranking des Deep Web ist noch nicht bekannt, in Zukunft sollen aber Dokumente des Deep Web in die SERPs mit aufgenommen werden und effizient an den jeweiligen Suchmaschinenuser gelangen.