Wat is Robots.txt?
Robots.txt is een tekstbestand op je website waarin je omgangsregels voor zoekmachines opneemt. Voordat een zoekmachine websites gaat crawlen, leest deze eerst het Robots.txt bestand, waarna de zoekmachine de richtlijnen weet van hoe jouw website gelezen moet worden. Zo kun je via Robots.txt je website efficiënter laten crawlen, duplicated content voorkomen en toegang tot bepaalde pagina’s verbieden. De term Robots.txt is ook bekend onder de namen Robots Exclusion Standard en Robots Exclusion Protocol.
Efficiënt crawlen
Een Robots.txt is belangrijk voor SEO, omdat je hiermee een zoekmachine richtlijnen geeft voor het crawlen van je website. Niet iedere website heeft een Robots.txt. Indien je dit niet hebt, dan crawlt de zoekmachine heel je website, hetgeen mogelijk een negatief effect heeft op je rankings. Onnodige pagina’s hoeven niet gecrawld te worden, want de zoekmachine besteedt maar een bepaalde tijd aan het crawlen. Daarnaast wil je misschien niet dat al je pagina’s in de zoekmachine terecht komen. Denk bijvoorbeeld aan je inlogpagina. Je moet ervoor zorgen dat deze tijd naar de belangrijkste pagina’s voor de zoekmachine gaat. Houd overigens wel in het achterhoofd dat het Robots.txt bestand voor zoekmachines een richtlijn is. De bots van zoekmachines bepalen zelf of ze zich aan jouw richtlijnen te houden.
Wil je bepaalde pagina’s juist wel laten crawlen? Verwijs dan in je Robots.txt naar de XML Sitemap, dit zijn eigenlijk een soort tegenovergestelde van elkaar.
Toegang tot bepaalde pagina’s verbieden en duplicated content voorkomen
Wanneer je een pagina niet wilt laten indexeren, kun je de toegang via Robots.txt verbieden. Via instructies voor bots kun je ervoor zorgen dat mappen, pagina’s, bestanden of pagina’s uitgesloten worden. Denk hierbij aan pagina’s die beschikbaar komen via de interne zoekmachine op je website, pagina’s die dezelfde tekst behouden wanneer je een filter toepast in je zoekresultaten of aan irrelevante pagina’s zoals je admin, privacyverklaring en algemene voorwaarden.
Robots.txt toevoegen aan je website
Het Robots.txt is een tekstbestand dat je simpelweg met kladblok kunt aanmaken. Het schrijven van de code is echter wat lastiger. Je werkt met tags als ‘disallow’ (niet te verwarren met disavow), wanneer je toegang tot crawlen wilt verbieden. Raadpleeg een specialist als je zelf niet weet hoe je de Robots.txt moet schrijven en toevoegen.
Het is overigens altijd verstandig om een Robots.txt toe te voegen aan je website, want het kan in geen opzicht kwaad voor je SEO. Het zou juist een positieve bijdrage moeten hebben. Let op bij het toevoegen van een Robots.txt dat Google een tekstbestand met een maximale grootte van 500 kb hanteert.