Robots.txt bestand goed instellen: De complete gids

Je hebt een website en die wil je natuurlijk laten vinden door de juiste mensen. Maar hoe zorg je ervoor dat zoekmachines zoals Google je website snappen en je pagina’s correct indexeren? Een belangrijk, maar vaak onderschat, onderdeel van die puzzel is het robots.txt bestand. In dit artikel leggen we je precies uit hoe je dit bestand goed instelt, zodat jij de controle hebt over wat zoekmachines wel en niet mogen zien op je site.

Wat is een robots.txt bestand?

Stel je voor dat je website een huis is. Zoekmachines zijn als postbodes die je huis bezichtigen om te zien welke brieven (pagina’s) ze aan hun klanten (gebruikers) moeten geven. Het robots.txt bestand is dan de ‘niet storen’-hanger aan je deur of een briefje op je brievenbus. Het is een eenvoudig tekstbestand dat je plaatst in de hoofdmap van je website. Het vertelt zoekmachinerobots (ook wel ‘crawlers’ of ‘spiders’ genoemd) welke delen van je website ze wel of niet mogen bezoeken en indexeren.

Dit is cruciaal, want niet elke pagina op je website is bedoeld voor publieke indexering. Denk aan administratieve pagina’s, testomgevingen, of delen die dubbele content creëren. Door ze uit te sluiten met robots.txt, voorkom je dat zoekmachines onnodige of ongewenste pagina’s oppikken, wat kan leiden tot een lagere ranking of een negatieve impact op je SEO.

Waarom is een goede robots.txt instelling belangrijk?

Een goed ingesteld robots.txt bestand is essentieel voor een gezonde online zichtbaarheid. Het heeft verschillende voordelen:

Controle over indexering: Je bepaalt zelf welke content door zoekmachines wordt opgenomen in hun index. Dit is belangrijk om te voorkomen dat bijvoorbeeld interne zoekresultaten of persoonlijke accountpagina’s publiekelijk vindbaar zijn.
Besparing van crawl budget: Zoekmachines hebben een beperkt ‘budget’ om je website te crawlen. Door te voorkomen dat ze onnodige pagina’s bezoeken, zorg je ervoor dat ze hun tijd besteden aan het indexeren van je belangrijkste content. Dit is vooral belangrijk voor grotere websites.
Voorkomen van dubbele content: Als je per ongeluk meerdere versies van dezelfde pagina laat indexeren, kan dit je SEO schaden. robots.txt helpt dit te voorkomen door duplicaten uit te sluiten.
Bescherming van gevoelige informatie: Hoewel robots.txt geen beveiligingsmechanisme is, kan het wel helpen om bepaalde delen van je site buiten het zicht van standaard zoekmachinevermeldingen te houden.
Betere prestaties: Door zoekmachines naar de juiste pagina’s te leiden, verbeter je de kans dat je website hoog scoort op relevante zoektermen.

Een verkeerd geconfigureerd robots.txt bestand kan echter averechts werken. Als je per ongeluk belangrijke pagina’s uitsluit, worden deze niet geïndexeerd en dus ook niet gevonden via zoekmachines. Dit is een fout die je koste wat kost wilt vermijden.

Hoe maak je een robots.txt bestand aan?

Het aanmaken van een robots.txt bestand is gelukkig vrij eenvoudig. Je hebt hier geen speciale software voor nodig. Het enige wat je nodig hebt, is een teksteditor, zoals Kladblok (Windows) of TextEdit (Mac).

Open je teksteditor.
Typ de instructies die je aan zoekmachinerobots wilt geven.
Sla het bestand op als robots.txt. Zorg ervoor dat de extensie `.txt` is en niet `.txt.txt`.
Upload dit bestand naar de hoofdmap van je website. Dit is meestal de map waar je domeinnaam naartoe verwijst, vaak aangeduid als ‘public_html’, ‘www’ of ‘htdocs’ in je hostingomgeving.

Het is cruciaal dat het bestand exact robots.txt heet en zich in de root directory bevindt. Als het bestand ergens anders staat of een andere naam heeft, negeren zoekmachines het.

De basis van de robots.txt syntax

De syntax van robots.txt is gebaseerd op twee belangrijke instructies:

User-agent: Hiermee geef je aan welke crawler je instructies wilt geven. De meest voorkomende is `*`, wat ‘alle crawlers’ betekent. Je kunt ook specifieke crawlers aansturen, zoals `Googlebot` of `Bingbot`.
Disallow: Hiermee geef je aan welke paden (delen van je website) de betreffende crawler niet mag bezoeken.
Allow: Hiermee geef je juist aan welke paden wel bezocht mogen worden. Dit is handig om uitzonderingen te maken op een bredere `Disallow`-regel.

Laten we dit met wat voorbeelden bekijken.

Voorbeelden en praktijk van robots.txt regels

Hieronder zie je een tabel met veelgebruikte regels en hun betekenis. Dit helpt je om te begrijpen hoe je robots.txt in de praktijk kunt toepassen voor jouw website.

Regel	Voorbeeld	Kenmerk	Voordeel
Alle crawlers, alles verbieden	`User-agent: * Disallow: /`	Dit sluit je hele website af voor alle zoekmachines. Gebruik dit alleen als je absoluut niet wilt dat je site geïndexeerd wordt.	Voorkomt volledige indexering van de site.
Specifieke map verbieden	`User-agent: * Disallow: /admin/`	Sluit de map `/admin/` en alles daarin uit voor alle crawlers.	Beschermt administratieve gedeelten tegen indexering.
Specifieke pagina verbieden	`User-agent: * Disallow: /privacypagina.html`	Sluit de specifieke pagina `privacypagina.html` uit.	Voorkomt indexering van niet-essentiële pagina’s.
Meerdere mappen verbieden	`User-agent: * Disallow: /temp/ Disallow: /test-sites/`	Sluit zowel de `/temp/` als de `/test-sites/` map uit.	Houdt test- of tijdelijke content verborgen.
Crawler-specifiek verbod	`User-agent: Googlebot Disallow: /images/`	Googlebot mag de `/images/` map niet bezoeken, maar andere crawlers wel.	Specifieke controle per zoekmachine.
Wildcards gebruiken	`User-agent: * Disallow: /*.pdf$`	Verbod op het indexeren van alle PDF-bestanden.	Handig voor het uitsluiten van specifieke bestandstypen.
Alles toestaan (vaak impliciet)	`User-agent: * Disallow:`	Dit betekent dat er geen beperkingen zijn. Als je dit bestand hebt, maar geen `Disallow`-regels, wordt alles geïndexeerd. Dit is de standaard als er geen `robots.txt` is.	Zorgt voor volledige indexering van de site.
Sitemap specificeren	`Sitemap: https://jouwdomein.nl/sitemap.xml`	Geeft de locatie van je sitemap aan. Dit is geen regel die iets blokkeert, maar een handige tip voor crawlers.	Helpt zoekmachines je content sneller te vinden.

Veelvoorkomende fouten en hoe je ze vermijdt

Het instellen van robots.txt lijkt simpel, maar er zijn een paar valkuilen waar je op moet letten:

Bestand in de verkeerde map: Zoals eerder genoemd, moet robots.txt in de root directory staan. Als het in een submap staat, wordt het genegeerd.
Verkeerde bestandsnaam: Zorg dat het bestand exact robots.txt heet, inclusief de kleine letters.
Geblokkeerde sitemap: Als je je sitemap hebt laten indexeren, maar deze vervolgens blokkeert in robots.txt, kunnen zoekmachines je site niet meer efficiënt scannen.
Te veel blokkeren: Wees voorzichtig met het blokkeren van belangrijke pagina’s. Test altijd grondig om er zeker van te zijn dat je niet per ongeluk cruciale content uitsluit.
Niet testen: Gebruik tools zoals de ‘robots.txt tester’ in Google Search Console om te controleren of je regels correct werken.

Testen van je robots.txt bestand

Het is absoluut noodzakelijk om je robots.txt bestand te testen voordat je het live zet, of nadat je wijzigingen hebt aangebracht. De beste manier om dit te doen is via Google Search Console (als je een Google-georiënteerde website hebt). Hier vind je een speciale tool waarmee je kunt testen of specifieke URL’s geblokkeerd worden door je huidige robots.txt bestand.

Bing Webmaster Tools biedt ook vergelijkbare functionaliteit. Door deze tests uit te voeren, krijg je zekerheid dat je regels het gewenste effect hebben en je website correct wordt gecrawld.

Veelgestelde vragen over robots.txt

Hieronder beantwoorden we enkele veelgestelde vragen:

Moet ik een robots.txt bestand hebben? Niet per se. Als je wilt dat zoekmachines je hele website mogen crawlen en indexeren, heb je geen robots.txt nodig. Echter, voor de meeste websites is het aan te raden om op zijn minst te controleren of je geen onbedoelde content laat indexeren.
Wat als ik mijn hele site wil blokkeren? Gebruik de regel User-agent: * gevolgd door Disallow: /. Dit is vaak gewenst voor tijdelijke sites, staging-omgevingen of sites die nog in ontwikkeling zijn.
Kan ik een robots.txt gebruiken om mijn site te beveiligen? Nee. robots.txt is geen beveiligingsmaatregel. Het is slechts een verzoek aan zoekmachines. Kwaadwillende crawlers kunnen deze instructies negeren. Voor beveiliging heb je wachtwoorden of andere methoden nodig.
Wat gebeurt er als ik een pagina die ik wil blokkeren via robots.txt, toch vind in zoekresultaten? Dit kan gebeuren. robots.txt voorkomt crawling, maar niet noodzakelijk indexering. Als een pagina is gelinkt vanaf een andere geïndexeerde pagina, kan zoekmachines deze toch oppikken. Om een pagina volledig te verwijderen uit zoekresultaten, moet je ook een `noindex` meta-tag gebruiken op die pagina zelf.

Hoe stel je een robots.txt bestand goed in?

Het correct instellen van een robots.txt bestand is een essentiële stap om de controle te behouden over hoe zoekmachines je website benaderen. Door duidelijk te definiëren welke delen van je site wel en niet bezocht mogen worden, optimaliseer je de crawl-efficiëntie, voorkom je ongewenste indexering en zorg je ervoor dat zoekmachines zich richten op de content die jij wilt laten zien. Begin met het begrijpen van de basis syntax, gebruik concrete voorbeelden om je regels vorm te geven en test je instellingen altijd grondig. Een goed geconfigureerd robots.txt bestand is de fundering voor een effectieve zoekmachineoptimalisatie en draagt bij aan een betere online prestatie van je website.