|
Die Datei robots.txt
Wieviele Betreiber einer Internetpräsentation haben sich beim Studium Ihrer
Serverlogbücher bestimmt schon gefragt, warum in regelmäßigen Abständen eine Datei namens robots.txt abgerufen wird.Wen interessiert diese Datei? Die Datei wird von Suchmachinen gesucht die Spider oder Crawler benutzen. Suchmaschinen die, nachdem Ihr Server einmal angemeldet, in regelmauml;szlig;igen Abständen Ihren Server aufsuchen und nach eventüllen Veränderungen und neün Seiten und Verzeichnissen auf Ihrem Server suchen. Der 'robots exclusion standard' ist ein Quasistandard, der entwickelt wurde, um dem Serverbetreiber die Möglichkeit zu geben, ausgewählte Bereiche des Servers
für die Spider der Suchmaschinen zu sperren. Durch Eintragungen in der Datei
robots.txt können Sie also Verzeichnisse angeben, die nicht in Suchmaschinen
automatisch aufgenommen werden sollen.
Wie ist robots.txt aufgebaut?
# Bemerkung
User-agent: *
Disallw:/test
- #
- Hinter diesen Zeichen können Sie Bemerkungen hinterlassen, die jedoch vom
Spider ignoriert werden. Wenn Sie einem bestimmten Spider etwas mitteilen möchten,
so kouml;nnen Sie in der User-agent-Zeile eine Bemerkung hinterlassen.
- User-agent:
- * Ein Stern bedeutet, daß die Angaben für alle Spider gelten.
- Disallow:/Verzeichnis
- In diese Zeile tragen Sie die Verzeichnisse ein, die nicht aufgesucht
werden sollen (Im obigen Beispiel das Verzeichnis test).
Wichtig ist, daß sie die Datei in Ihrem Server-Hauptverzeichnis hinterlegen
und nicht in dem betreffenden Unterverzeichnis. Wenn Sie keine robots.txt-Datei
auf Ihrem Server hinterlegt haben, werden alle Verzeichnisse von den Spidern besucht.
|
|
|