SUCHMASCHINEN UND DYNAMISCHE SEITEN
Die dynamische Gefahr
Warum behandeln Suchmaschinen dynamische Seiten besonders vorsichtig? Die Gründe hierfür sind einfach: viele Angebote versuchen durch eine hohe Anzahl verschiedener Seiten mit verschiedenen Kombinationen von Schlüsselworten eine möglichst optimale Plazierung zu erreichen. Ferner glaubten viele Suchmaschinen an eine gestiegene Aktualität, wenn sich der Inhalt einer Seite geändert hat.
Die Verbannung
Diese Techniken wurden durch die automatische Seitengenerierung durch Sprachen wie PHP
etc. äußerst vereinfacht. Die beste Lösung für weiterhin qualitativ hochwertige Suchergebnisse war die Reduzierung dynamischer Seiten im Suchmaschinenverzeichnis. Manche Suchmaschinen nehmen pro Domäne einfach nur noch 10 Seiten auf.
Die Enttarnung
Die Erkennung der dynamischen Seiten ist daher für die Suchmaschinen überlebenswichtig geworden. Deshalb werden raffinierte Methoden verwendet, sinnige von unsinnigen Seiten zu unterscheiden. Da selbst die unterschiedlichen Endungen wie *.php3 oder *.asp durch sog. Url-Rewriting auf *.html umgesetzt werden können, verlassen sich immer mehr Suchmaschinen auf die Unterschiede im Http-Protokoll
. Im unsichtbaren Kopfbereich stehen nämlich interessante Informationen, um zuverlässig dynamische Seiten zu erkennen.
Die Tarnkappe
Echt statische Html-Seiten betrachten Suchmaschinen noch immer als "fleißiges Handwerk" und somit als wertvoll. Das Ziel muss folglich sein, eine große CMS-gestützte Präsenz als ein "per Hand" zusammengestelltes Angebot aussehen zu lassen. Doch das ist nicht so einfach, wie es klingt.
- HOTdoc
-
HOTdoc-Server
verwendet aufwendige Techniken, um die Seiten nach außen wie eine Html-Seite zu präsentieren. Die Unterschiede sind schnell aufgezählt, der Weg zu diesem Ziel ist durch die dynamische Zusammenstellung der Seiten sehr komplex.
- jm@kolext:~> wget -S http://www.hotdoc.info/
- --08:28:47-- http://www.hotdoc.info/index.html
- => `index.html'
- HTTP Anforderung gesendet, warte auf Antwort...
- 1 HTTP/1.1 200 OK
- 2 Date: Tue, 12 Aug 2003 06:28:45 GMT
- 3 Server: Apache/1.3.27
- 4 Content-Language: de
-
5 Last-Modified: Mon, 11 Aug 2003 23:51:00 GMT
-
6 Content-Length: 12830
-
7 Keep-Alive: timeout=15, max=200
-
8 Connection: Keep-Alive
- 9 Content-Type: text/html
- HTML
- Der Urvater aller Seiten sind einfache Textdateien, die Html-Code enthalten. Diese vorliegenden Seiten können von jedem noch so einfachen Webserver perfekt ausgeliefert werden. Die Dateilänge steht fest (Zeile 7), die letzte Modifikation ist das nicht ständig wechselnde Dateidatum (Zeile 4). Durch die feststehende Dateilänge können über dieselbe Verbindung nach dem Seiteninhalt noch weitere Daten wie z.B. die Bilder übertragen werden (Zeile 8+9).
- HTTP Anforderung gesendet, warte auf Antwort...
- 1 HTTP/1.1 200 OK
- 2 Date: Tue, 12 Aug 2003 06:30:16 GMT
- 3 Server: Apache/1.3.27
-
4 Last-Modified: Fri, 16 May 2003 18:55:13 GMT
- 5 ETag: "3fc123-287a-3ec53411"
- 6 Accept-Ranges: bytes
-
7 Content-Length: 10362
-
8 Keep-Alive: timeout=15, max=200
-
9 Connection: Keep-Alive
- 10 Content-Type: text/html
- PHP, ASP etc.
-
Sämtliche dynamischen Seiten wie z.B. unter PHP
(auch hinter Url-Rewriting
"versteckte" Varianten) wissen zum Anfang der Übertragung nicht, wie die Seite aussehen wird. Somit muss die Verbindung nach der Übertragung geschlossen werden, um das Ende der Übertragung anzuzeigen (Zeile 6).
- Ferner nutzen Suchmaschinen gerne den Trick, eine Seite später nach kurzer Pause erneut zu laden, um ständig wechselnde Modifikationen festzustellen (entfällt in diesem Beispiel, sonst analog zu Zeile 4 beim Html).
- HTTP Anforderung gesendet, warte auf Antwort...
- 1 HTTP/1.1 200 OK
- 2 Date: Tue, 12 Aug 2003 06:31:19 GMT
- 3 Server: Apache/1.3.27
- 4 Set-Cookie: Cookie=213.168.108.66.205851060669879698; path=/
- 5 X-Powered-By: PHP/4.3.1
-
6 Connection: close
- 7 Content-Type: text/html
Überzeugen Sie sich selbst. Unter Linux/Unix gibt es das hervorragende Kommando wget
, das wie folgt benutzt werden kann: wget -S http://www.hotdoc.info/
. Probieren Sie verschiedene URLs aus und bewerten Sie selbst das Ergebnis.