Geplaatst in

Wat is een robots.txt bestand?

Wat is een robots.txt bestand?

Heb je wel eens nagedacht over hoe zoekmachines zoals Google weten welke pagina’s op een website ze wel en niet mogen indexeren? Het antwoord ligt in een klein, maar krachtig bestand: de robots.txt file. Dit bestand is een set instructies die je aan zoekmachines geeft over hoe ze je website moeten ‘crawlen’ ofwel doorzoeken. Zie het als een soort verkeersregelaar voor zoekmachines op je website.

Waarom je een robots.txt bestand nodig hebt

Het is essentieel om te begrijpen dat zoekmachines, zoals Google, constant het internet afstruinen op zoek naar nieuwe content om aan hun index toe te voegen. Ze doen dit door middel van ‘bots’ of ‘spiders’. Deze bots volgen links en downloaden pagina’s om te analyseren wat erop staat. Dit proces, website crawlen genoemd, kan echter ook ongewenste gevolgen hebben. Misschien heb je bijvoorbeeld bepaalde delen van je website die je niet publiekelijk wilt maken, zoals interne administratiepagina’s, testomgevingen, of pagina’s met gevoelige informatie die je niet wilt dat in de zoekresultaten verschijnen. Zonder een robots.txt bestand zouden deze bots zonder pardon al je pagina’s kunnen bezoeken en, erger nog, ze kunnen indexeren.

Een goed geconfigureerd robots.txt bestand helpt je dus om de controle te houden over welke content door zoekmachines wordt bekeken en, belangrijker nog, welke niet. Dit kan verschillende redenen hebben:

  • Privacy: Je wilt bepaalde privé-informatie of persoonlijke gegevens afschermen.
  • Beheer van serverbelasting: Op zeer grote websites kan het crawlen door bots veel serverkracht verbruiken. Met robots.txt kun je specifieke secties laten overslaan om de prestaties te verbeteren.
  • Voorkomen van dubbele content: Als je meerdere versies van dezelfde pagina hebt (bijvoorbeeld een geprinte versie), kun je met robots.txt de zoekmachines vertellen welke versie ze moeten negeren.
  • Organisatie: Je kunt zoekmachines helpen om efficiënter te crawlen door ze te leiden naar de belangrijkste delen van je website en minder belangrijke delen te laten vermijden.

Hoe werkt een robots.txt bestand?

Het robots.txt bestand is een simpel tekstbestand dat je in de hoofdmap (root directory) van je website plaatst. De naam is altijd exact ‘robots.txt’. Wanneer een zoekmachinebot je website bezoekt, zoekt het eerst naar dit bestand. Als het wordt gevonden, leest de bot de instructies en past deze toe tijdens het crawlen.

Het bestand maakt gebruik van twee belangrijke regels:

  • User-agent: Dit specificeert voor welke bot de instructies gelden. De meest voorkomende is ‘*’, wat betekent dat de instructie voor alle bots geldt. Je kunt ook specifieke bots targeten, zoals ‘Googlebot’ of ‘Bingbot’.
  • Disallow: Dit vertelt de bot welke paden of URL’s hij niet mag bezoeken.
  • Allow: Dit vertelt de bot juist welke paden wel bezocht mogen worden. Dit wordt vaak gebruikt in combinatie met een algemene ‘Disallow’ regel om uitzonderingen te maken.

Laten we kijken naar een paar simpele voorbeelden:

Stel je wilt dat alle bots je hele website mogen crawlen. Dan is je robots.txt bestand heel eenvoudig:

User-agent: *
Disallow:

Hier staat geen pad achter ‘Disallow’, wat betekent dat er geen beperkingen zijn.

Als je daarentegen wilt voorkomen dat alle bots een specifieke map genaamd ‘admin’ bezoeken, ziet je bestand er zo uit:

User-agent: *
Disallow: /admin/

De ‘/’ aan het einde van ‘/admin/’ geeft aan dat de hele map, inclusief alle submappen en bestanden daarin, niet gecrawld mag worden.

Je kunt ook heel specifiek zijn. Bijvoorbeeld, als je alleen Googlebot wilt tegenhouden om een bepaalde map te bezoeken:

User-agent: Googlebot
Disallow: /secret-files/

Het is belangrijk om te weten dat robots.txt een gedragsrichtlijn is. De meeste respectabele zoekmachines houden zich eraan, maar er is geen garantie dat kwaadaardige bots of minder bekende zoekmachines deze regels zullen volgen. Het is dus geen beveiligingsmaatregel voor gevoelige data.

Belangrijke overwegingen bij het gebruik van robots.txt

Het correct instellen van je robots.txt bestand is cruciaal. Een verkeerde instelling kan namelijk leiden tot ongewenste gevolgen, zoals het volledig onvindbaar maken van je website voor zoekmachines.

Een veelvoorkomende fout is bijvoorbeeld het per ongeluk blokkeren van de gehele website. Dit gebeurt als je de volgende regel toepast:

User-agent: *
Disallow: /

Dit betekent simpelweg ‘verbied alles voor iedereen’, waardoor je website niet meer geïndexeerd zal worden.

Een ander belangrijk punt is dat de robots.txt file alleen instructies geeft over crawlen, niet over indexeren. Als een pagina weliswaar geblokkeerd is in robots.txt, maar wel vanaf een andere website gelinkt wordt, kan deze pagina toch in de zoekresultaten verschijnen, zij het zonder beschrijving. Om dit te voorkomen, kun je beter gebruikmaken van meta robots tags in de HTML van de pagina zelf, bijvoorbeeld met `noindex`.

Verschillende scenario’s voor robots.txt

Om het wat concreter te maken, laten we een aantal veelvoorkomende situaties bekijken en hoe je die met robots.txt kunt aanpakken.

Type instructie Voorbeeld robots.txt regel Uitleg
Alle bots toegang geven
User-agent: *
Disallow: 
Dit is de meest standaard instelling en geeft aan dat alle zoekmachines de hele website mogen crawlen.
Specifieke map blokkeren
User-agent: *
Disallow: /cart/
Voorkomt dat zoekmachines de winkelwagenpagina’s en alles wat daarin staat bezoeken.
Specifieke bestandstypen blokkeren
User-agent: *
Disallow: /*.pdf$
Hiermee voorkom je dat zoekmachines PDF-bestanden indexeren. De ‘$’ zorgt ervoor dat alleen de exacte bestandsnaam eindigend op ‘.pdf’ wordt geblokkeerd.
Specifieke bot uitsluiten
User-agent: Googlebot
Disallow: /private/
Alleen Googlebot mag de map ‘/private/’ niet bezoeken. Andere bots mogen dit wel.
Sitemap-locatie specificeren
Sitemap: https://www.jouwwebsite.nl/sitemap.xml
Hoewel geen instructie voor crawlen, is dit een nuttige regel die zoekmachines helpt je sitemap te vinden, wat essentieel is voor een goede indexering.

Je kunt meerdere ‘User-agent’ en ‘Disallow’ regels in één bestand hebben staan. De interpretatie van de regels is belangrijk; specifieke regels gaan vaak voor algemene regels. Het is daarom verstandig om je robots.txt bestand simpel en overzichtelijk te houden.

Testen van je robots.txt

Het is ontzettend belangrijk om je robots.txt bestand te testen voordat je het live zet, of na wijzigingen. Gelukkig bieden de meeste zoekmachines tools om dit te doen. De Google Search Console heeft bijvoorbeeld een ‘robots.txt tester’ waar je kunt controleren of je regels correct werken en geen ongewenste blokkades veroorzaken.

Door je robots.txt te testen, voorkom je dat je per ongeluk belangrijke pagina’s uitsluit van de zoekresultaten. Dit is cruciaal voor je SEO (Search Engine Optimization) strategie, omdat je wilt dat de juiste pagina’s vindbaar zijn voor potentiële bezoekers.

Wat is een robots.txt bestand?

Een robots.txt bestand is een tekstbestand op je website dat zoekmachines instructies geeft over welke pagina’s ze wel en niet mogen crawlen en indexeren. Het fungeert als een verkeersregelaar voor bots van zoekmachines, waardoor je controle behoudt over de zichtbaarheid van je content. Door dit bestand correct te configureren, voorkom je dat gevoelige informatie wordt getoond in zoekresultaten, beheer je serverbelasting en help je zoekmachines efficiënter door je website te navigeren, wat uiteindelijk bijdraagt aan een betere vindbaarheid van je gewenste content.

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *