Wat is Robots.txt?
Wat is Robots.txt?
Je hebt meer controle over de zoekmachines dan je denkt, zeker met een Robotx.txt bestand. Het is waar; je kunt manipuleren wie jouw site crawlt en indexeert – zelfs tot op het niveau van individuele pagina’s. Om dit te controleren, moet je gebruik maken van een robots.txt bestand. Maar wat is een Robots.txt bestand? Het is een eenvoudig tekstbestand dat zich in de hoofdmap van jouw website bevindt.
Het informeert de robots die door zoekmachines worden uitgezonden welke pagina’s ze moeten crawlen en welke ze over het hoofd moeten zien. De meeste websites hebben geen robots.txt-bestand nodig. Dat komt omdat Google meestal alle belangrijke pagina’s op jouw site kan vinden en indexeren. En ze zullen automatisch pagina’s die niet belangrijk zijn of dubbele versies van andere pagina’s niet indexeren. Dit artikel is een erg niche-onderwerp, iets makkelijker beginnen kan altijd door even onze diensten door te nemen!
Robots.txt als oplossing
Hoewel het niet de allesomvattende oplossing is, is het een krachtig hulpmiddel waarmee jij jouw website aan Google kunt presenteren op de manier waarop jij wil dat Google hem ziet. Zoekmachines zijn strenge beoordelaars van karakter, dus het is essentieel om een goede indruk te maken. Robots.txt, indien correct gebruikt, kan de crawl-frequentie verbeteren, wat van invloed kan zijn op jouw SEO-inspanningen.
Dus, hoe maak je er een aan? Hoe gebruik je het? Welke dingen moet je vermijden? En wat vindt Google fijn in een Robots.txt bestand?
Een vroege versie van Robots.txt
In de tijd dat het internet nog maar een baby was met het potentieel om grootse dingen te doen, bedachten ontwikkelaars een manier om verse pagina’s op het web te crawlen en te indexeren. De software die ze hiervoor gebruikten werden ‘robots’ of ‘spiders’ genoemd.
Af en toe dwaalden deze kleine kereltjes af naar websites die niet bedoeld waren om te worden gecrawld en geïndexeerd, zoals sites die in onderhoud waren. De maker van ‘s werelds eerste zoekmachine, Aliweb, adviseerde een oplossing – een soort routekaart die elke robot moet volgen.
Dit stappenplan werd in juni 1994 door een aantal techneuten uitgewerkt tot het “Robots Exclusion Protocol”.
Een robots.txt bestand is de uitvoering van dit protocol. Het protocol omschrijft de richtlijnen die elke authentieke robot moet volgen, ook de Google-bots. Sommige onwettige robots, zoals malware, spyware, en dergelijke, opereren per definitie buiten deze regels.
Je kunt een kijkje nemen achter het gordijn van een website door een URL in te typen en toe te voegen: /robots.txt aan het eind toe te voegen.
Waar is het Robots.txt bestand te vinden?
Jouw robots.txt bestand zal worden opgeslagen in de root directory van jouw site. Om het te vinden opent jij jouw FTP cPanel, en je zult het bestand kunnen vinden in jouw public_html website directory. Er is niets aan deze bestanden, zodat ze niet omvangrijk – waarschijnlijk slechts een paar honderd bytes, als dat.
Hoe zet je een Robots.txt bestand in elkaar
Robots.txt is een super simpel tekst bestand, dus het is eigenlijk heel simpel om te maken. Alles wat je nodig hebt, is een eenvoudige tekst editor zoals Notepad. Open een blad en sla de lege pagina op als, ‘robots.txt’.
Log nu in op jouw cPanel en zoek de map public_html om de hoofdmap van de site te openen. Zodra die geopend is, sleept je jouw bestand erin.
Ten slotte moet je ervoor zorgen dat jij de juiste permissies voor het bestand hebt ingesteld. In principe moet je, als eigenaar, het bestand kunnen schrijven, lezen en bewerken, maar anderen mogen dat niet doen.
Het bestand moet een “0644” permissiecode hebben. Zo niet, dan moet je dit veranderen, dus klik op het bestand en selecteer, “bestandspermissies”.
Voila! Je hebt een Robots.txt bestand.
Robots.txt Syntax
Een robots.txt bestand bestaat uit meerdere secties van “directives”, die elk beginnen met een gespecificeerde user-agent. De user-agent is de naam van de specifieke crawl bot waar de code tegen spreekt.
Er zijn twee opties beschikbaar:
- Je kunt een wildcard gebruiken om alle zoekmachines in één keer aan te spreken.
- Je kan specifieke zoekmachines individueel aanspreken.
Wanneer een bot wordt ingezet om een website te crawlen, zal deze worden aangetrokken tot de blokken die hen aanspreken.
Hiernaast is een voorbeeld:
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
User-agent: bingbot
Disallow: /not-for-bing/
User-Agent Directive
De eerste paar regels in elk blok zijn de ‘user-agent’, die een specifieke bot aanwijst. De user-agent zal overeenkomen met een specifieke bot zijn naam. Dus als je bijvoorbeeld een Googlebot wil vertellen wat hij moet doen, begin dan met:
User-agent: Googlebot
Zoekmachines proberen altijd specifieke directives aan te wijzen die het meest op hen betrekking hebben.
Bijvoorbeeld, als je twee directives hebt, één voor Googlebot-Video en één voor Bingbot. Een bot die komt met de user-agent ‘Bingbot’ zal de instructies volgen.
Terwijl de ‘Googlebot-Video’ bot hier aan voorbij zal gaan en op zoek zal gaan naar een meer specifieke richtlijn. De meeste zoekmachines hebben een paar verschillende bots, lijsten van al deze bots zijn gemakkelijk online te vinden.
Crawl-Delay Directive
Yahoo, Bing, en Yandex kunnen een beetje trigger happy zijn als het op ‘crawlen’ aankomt, maar ze reageren wel op de crawl-delay richtlijn, die ze een tijdje op afstand houdt.
Als je deze regel in je blok zet:
Crawl-delay: 10
Dit betekent dat je de zoekmachines tien seconden kunt laten wachten voordat ze de site crawlen of tien seconden voordat ze de site opnieuw benaderen na het ‘crawlen’ – het is in principe hetzelfde, maar net anders afhankelijk van de zoekmachine.
Benieuwd hoe we jou verder kunnen helpen?
Waarom gebruik je Robots.txt?
Nu je de basis kent en weet hoe je een paar directives moet gebruiken, kun je je bestand samenstellen. Deze volgende stap zal echter afhangen van het soort inhoud op je site.
Robots.txt is geen essentieel element voor een succesvolle website; in feite kan jouw site nog steeds correct functioneren en goed scoren zonder een dergelijk bestand.
Stuur bots weg van privémappen: Door te voorkomen dat bots jouw privémappen controleren, worden deze veel moeilijker te vinden en te indexeren.
Hou bronnen onder controle: elke keer dat een bot door je site kruipt, zuigt hij bandbreedte en andere serverbronnen op. Websites met veel inhoud en veel pagina’s, zoals e-commercesites, kunnen duizenden pagina’s hebben, en deze bronnen kunnen heel snel uitgeput raken.
Je kunt robots.txt gebruiken om het voor bots moeilijk te maken om toegang te krijgen tot individuele scripts en afbeeldingen; hierdoor blijven waardevolle bronnen behouden voor echte bezoekers.
Specificeer de locatie van jouw Sitemap: dit is nogal een belangrijk punt, wil je crawlers laten weten waar jouw sitemap zich bevindt, zodat ze deze kunnen scannen.
Houd gedupliceerde inhoud weg van SERPs: door het toevoegen van de regel aan jouw robots, kan je voorkomen dat crawlers pagina’s indexeren die de gedupliceerde inhoud bevatten.
Je wil natuurlijk dat zoekmachines hun weg vinden naar de belangrijkste pagina’s op jouw website. Door specifieke pagina’s beleefd af te schermen, kan jij bepalen welke pagina’s voor zoekers worden weergegeven (zorg er wel voor dat zoekmachines bepaalde pagina’s nooit helemaal niet te zien krijgen).
Fouten om van te leren
We hebben het nu al een beetje gehad over de dingen die je zou kunnen doen en de verschillende manieren waarop jij jouw robots.txt kunt bedienen. We gaan nu een beetje dieper in op dat punt, namelijk hoe dit kan veranderen in een SEO ramp als het niet goed wordt gebruikt.
Blokkeer geen goede inhoud
Het is belangrijk om geen goede inhoud die je wil presenteren aan het publiek te blokkeren door een robots.txt bestand of een noindex tag. We hebben in het verleden veel van dit soort fouten gezien, die de SEO-resultaten hebben geschaad. Je moet jouw pagina’s grondig controleren op noindex tags en disallow regels.
Overmatig gebruik van Crawl Delay
We hebben al uitgelegd wat de crawl-delay directive doet, maar je zou moeten vermijden deze te vaak te gebruiken, omdat je daarmee de pagina’s beperkt die door de bots worden gecrawld. Dit kan perfect zijn voor sommige websites, maar als je een enorme website hebt, zou je jezelf in de voet kunnen schieten en goede rankings en solide verkeer kunnen voorkomen.
Hoofdlettergevoeligheid
Het Robots.txt bestand is hoofdlettergevoelig, dus je moet onthouden om een robots bestand op de juiste manier aan te maken. Je moet een robots bestand noemen als ‘robots.txt’, allemaal met kleine letters. Anders zal het niet werken!
Robots.txt gebruiken om te voorkomen dat inhoud geïndexeerd wordt
We hebben dit al een beetje behandeld. Het uitschakelen van een pagina is de beste manier om te proberen te voorkomen dat de bots de pagina direct crawlen.
Maar het zal niet werken in de volgende omstandigheden:
- Als de pagina is gelinkt vanaf een externe bron, zullen de bots toch doorstromen en de pagina indexeren.
- Illegitieme bots zullen de inhoud nog steeds crawlen en indexeren.
Gebruik Robots.txt om privécontent te verbergen
Sommige privé-inhoud zoals PDF’s of andere pagina’s zijn indexeerbaar, zelfs als je de bots ervan weghoudt. Een van de beste methodes om naast de disallow directive te gaan, is om al jouw privé-inhoud achter een login te plaatsen. Het betekent natuurlijk wel dat het een extra stap toevoegt voor jouw bezoekers, maar jouw inhoud blijft veilig.
Gebruik Robots.txt om Duplicate Content te verbergen
Duplicate Content is soms een noodzakelijk kwaad – denk aan printer-vriendelijke pagina’s, bijvoorbeeld. Echter, Google en de andere zoekmachines zijn slim genoeg om te weten wanneer je iets probeert te verbergen. In feite kan dit juist meer aandacht trekken, en dit komt omdat Google het verschil herkent tussen een printervriendelijke pagina en iemand die probeert ze voor de gek te houden.
Hier zijn drie manieren om met dit soort inhoud om te gaan
- Herschrijf de inhoud – Het creëren van spannende en nuttige inhoud zal de zoekmachines aanmoedigen om jouw website te zien als een betrouwbare bron. Deze suggestie is vooral relevant als de inhoud een kopieer- en plakwerk is.
- 301 redirects informeren zoekmachines dat een pagina is verplaatst naar een andere locatie. Voeg een 301 toe aan een pagina met dubbele inhoud en leid bezoekers om naar de oorspronkelijke inhoud op de site.
- Rel= “canonical – Dit is een tag die Google informeert over de oorspronkelijke locatie van gedupliceerde inhoud; dit is vooral belangrijk voor een e-commerce website waar het CMS vaak dubbele versies van dezelfde URL genereert.
Als jij jouw robots.txt-bestand correct maakt, verbeter jij jouw SEO en de gebruikerservaring van jouw bezoekers.
Door bots hun dagen te laten besteden aan het crawlen van de juiste dingen, zullen zij jouw inhoud kunnen organiseren en weergeven op de manier waarop jij wil dat deze in de SERP’s wordt weergegeven.
Waarom is Robots.txt belangrijk voor SEO?
Laten we eens kijken naar een voorbeeld:
Je runt een eCommerce website en bezoekers kunnen een filter gebruiken om snel door jouw producten te zoeken. Dit filter genereert pagina’s die in principe dezelfde inhoud tonen als andere pagina’s. Dit werkt geweldig voor gebruikers, maar verward zoekmachines omdat het dubbele inhoud creëert.
Je wil niet dat zoekmachines deze gefilterde pagina’s indexeren en hun kostbare tijd verspillen aan deze URL’s met gefilterde inhoud. Daarom moet je ‘Disallow’ regels instellen zodat zoekmachines deze gefilterde productpagina’s niet kunnen openen.
Moet je Robots.txt gebruiken?
Je wil dat Google en zijn gebruikers moeiteloos de juiste pagina’s op jouw site kunnen vinden. Zoals de meeste sites, heb je waarschijnlijk bedankpagina’s die volgen op conversies of transacties. Komen bedankpagina’s in aanmerking als de ideale keuzes om te ranken en regelmatig gecrawld te worden?
Waarschijnlijk niet. Het is ook gebruikelijk dat staging-sites en aanmeldingspagina’s niet worden toegestaan in het robots.txt-bestand. Het voortdurend crawlen van niet-essentiële pagina’s kan jouw server vertragen en andere problemen opleveren die jouw SEO-inspanningen belemmeren.
Een van de redenen waarom robots.txt-bestanden SEO helpen, is het verwerken van nieuwe optimalisatie-acties. Hun crawling-check-ins registreren wanneer jij jouw header-tags, metabeschrijvingen en zoekwoordgebruik wijzigt en effectieve zoekmachine-crawlers rangschikken jouw website zo snel mogelijk op basis van positieve ontwikkelingen.
Als jij jouw SEO-strategie implementeert of nieuwe inhoud publiceert, wil jedat zoekmachines de wijzigingen die je aanbrengt herkennen en dat de resultaten deze wijzigingen weerspiegelen. Als je een trage site crawling snelheid hebt, kan het bewijs van je verbeterde site achterblijven. Robots.txt kunnen jouw site netjes en efficiënt maken, hoewel ze jouw pagina niet direct hoger in de SERPs zetten.
Ze optimaliseren indirect jouw site, zodat deze geen penalties oploopt, jouw crawlbudget opslurpt, jouw server vertraagt en de verkeerde pagina’s vol link juice stopt.
Laat het je nog een keer uitleggen door een expert!
Als je voldoende tijd en kennis hebt, is het mogelijk om zelf met het begeleiden van Googles Crawlers aan de slag te gaan. De beste resultaten boek je echter wanneer je hiervoor een specialist inschakelt. Bij ROXTAR gaan we graag voor je aan de slag, om ervoor te zorgen dat je alles uit je website haalt. Wil jij meer omzet behalen met hetzelfde aantal bezoekers? Neem dan vandaag nog contact met ons op. Overigens kunnen we je ook helpen om meer bezoekers op je website te krijgen.
Gratis Strategiesessie
Wil jij jouw online marketing naar een volgend niveau tillen? Vraag nu een gratis strategiesessie aan.