Obwohl die
robots.txt den meisten wahrscheinlich schon mal über den Weg gelaufen ist, wissen viele nicht, was es mit dieser Datei eigentlich auf sich hat. Sie ist, wie die Endung .txt schon verrät, eine reine Textdatei – dennoch kann sie von großer Wichtigkeit sein.
Was ist die robots.txt?
Die robots.txt heißt eigentlich Robots-Exklusion-Standard-Protokoll. Sie liegt im Stammverzeichnis einer Website und enthält Aussagen darüber, ob Suchmaschinenbots die Seite durchsuchen, also crawlen, dürfen. Wenn die robots.txt erlaubt von Suchmaschinenbots gecrawlt zu werden, kann in ihr zudem noch festgelegt werden, welche Bots dies dürfen und welche Bereiche der Website von welchen Bots durchsucht werden dürfen.
Wie ist die robots.txt aufgebaut?
Um es zu vereinfachen, kann gesagt werden, dass die robots.txt aus zwei Bereichen besteht. Im ersten Bereich wird der jeweilige Bot mit ‘user-agent:’ benannt. Dort kann festgelegt werden, ob die folgende Aussage alle Bots betrifft oder z.B. nur den Google-Bot. Im zweiten Bereich der robots.txt wird dann mit dem Befehl ‘disallow:’ gearbeitet. Hinter Disallow kommen dann alle Bereiche der Website, die vom vorher benannten Bot nicht gecrawlt werden sollen.
Halten sich Suchmaschinen an die robots.txt?
Leider gibt es keine Garantie dafür, dass sich die Bots der Suchmaschinen an die robots.txt und die Befehle darin halten. Dennoch haben große Suchmaschinen, darunter natürlich auch Google, sich bereits dazu geäußert und angegeben, dass sich ihre Bots an die Verbote in den robots.txt halten. Jedoch gibt es im Internet auch Bots, die nicht mit guten Vorsätzen programmiert wurden und die sich deshalb aller Voraussicht nach auch nicht an die robots.txt halten.
Wie wichtig ist die robots.txt in der SEO?
Die robots.txt kann für die
SEO durchaus eine große Rolle spielen. Durch die robots.txt hat man die Möglichkeit einen gewissen Einfluss auf das Verhalten der Suchmaschinenbots innerhalb der eigenen Website zu nehmen.