Blog

Hoe belangrijk zijn de robots.txt en de xml.sitemap?

Auteur:
Frits van Dijk

Wat mij betreft het belangrijkste onderdeel van een website: de techniek. Een succesvolle website staat of valt bij een stevig fundament. In deze blog vertel ik je graag over twee onderdelen van de techniek van een website en het belang hiervan.

Websites, zoekmachines & Indexering

Als je een website hebt, is het belangrijk om ervoor te zorgen dat zoekmachines deze goed kunnen indexeren. Het indexeren van een website betekent dat zoekmachines de website kunnen vinden, lezen en analyseren. Hierdoor kunnen individuele pagina’s van een website een ranking krijgen en zijn deze terug te vinden in de organische resultaten van Google en andere zoekmachines. Bij dit proces spelen de robots.txt en de XML-sitemap een belangrijke rol. In deze blog zal ik uitleggen wat deze termen inhouden en waarom ze zo belangrijk zijn voor websites.

Zoals ik hierboven al aangaf is het van belang dat je website goed geïndexeerd wordt door zoekmachines. Mocht dit niet gebeuren, dan zal je minder (of zelfs niet) online vindbaar zijn. Voor de indexatie van websites spelen twee bestanden een essentiële rol.

Wat is de robots.txt

Laten we beginnen met de robots.txt. Dit is een bestand dat zich op de server van een website bevindt en instructies bevat voor zoekmachines over de indexatie van de website. De robots.txt wordt gebruikt om bepaalde delen van de website uit te sluiten van de indexatie.

Wat zijn de onderdelen van een goede robots.txt

In het robots.txt bestand staan doorgaans drie onderdelen:

  • De User-agent: Dit onderdeel geeft aan welke zoekmachine specifieke instructies moet volgen. De meest voorkomende waarde hierbij is een sterretje (*). Dit geeft aan dat alle zoekmachines dezelfde instructies mogen volgen. Er zijn dus geen instructies voor specifieke zoekmachines.
  • Disallow & Allow: Bij de Disallow kun je aangeven welke pagina’s, of delen van de website niet geïndexeerd moeten worden door zoekmachines. Pagina’s die je bij de Disallow invoert zullen dus ook niet gaan ranken in de resultaten van zoekmachines. Let op! Deze pagina’s blijven wel bereikbaar via de website structuur. De Allow geeft aan welke pagina’s wel geïndexeerd mogen worden door de zoekmachine, ondanks eventuele uitsluitingen van de Disallow. Dit is handig als je een gehele categorie wilt uitsluiten, maar één specifieke pagina in die categorie wel wilt laten indexeren. Je kunt bij Disallow dan de gehele categorie invoeren, en bij de Allow de specifieke pagina invoeren die je wilt laten indexeren.
  • XML sitemap: Dit is een onderdeel van de robots.txt. De XML sitemap is een verzameling van alle belangrijke pagina’s van je website. Dit geeft aan zoekmachines een gemakkelijk overzicht welke pagina’s geïndexeerd moeten worden. De verwijzing naar de XML sitemap vanuit de robots.txt is belangrijk, omdat dit een makkelijk overzicht geeft voor zoekmachines en eventuele orphan pages kun je gemakkelijk detecteren. Een orphan page is een pagina die wel bestaat, maar omdat er niet naar gelinkt wordt kan deze pagina vanuit de websitestructuur niet bereikt worden.

Een voorbeeld van de robots.txt

Ik kan me voorstellen dat het lastig is om te volgen, omdat het erg technisch is. Daarom heb ik in de onderstaande afbeelding het robots.txt bestand van websitepromotor gezet. We zien hier door het sterretje (*) dat er geen andere instructies gelden voor bepaalde crawlers/zoekmachines. Er worden geen pagina’s uitgesloten bij de Disallow, waardoor er ook geen Allow nodig is. Tot slot zien we dat de sitemap ingeladen wordt. Dit robots.txt bestand staat dus goed.

Wat is een XML sitemap

Zoals ik hierboven benoemd heb, kan een goed robots.txt bestand helpen om het crawlen en indexeren van een website te versnellen. Het opnemen van de XML sitemap in de robots.txt is hiervoor een vereiste, maar wat is de XML sitemap en waarom is deze zo belangrijk?

Simpel gezegd is de XML sitemap een verzameling van alle ‘belangrijke’ pagina’s van je website. Met belangrijke pagina’s bedoel ik alle pagina’s die geïndexeerd moeten worden door Google, en daardoor moeten gaan ranken. Een contactpagina bijvoorbeeld hoeft niet opgenomen te worden in de XML sitemap. Het is wel een belangrijke pagina, maar deze hoeft niet te ranken in Google. Wanneer de XML sitemap is gevuld met alle ‘belangrijke’ pagina’s, is het voor zoekmachines (zoals Google en Bing) gemakkelijk om te achterhalen welke pagina’s geïndexeerd moeten worden.

Een voorbeeld van een XML sitemap

Ik zal hieronder ook van de XML sitemap een voorbeeld laten zien. We zien dat alle belangrijke pagina’s van onze eigen website worden onderverdeeld in vier categorieën: posts, pages, references en vacatures. Onder ieder van deze categorie vallen alle pagina’s die geïndexeerd moeten worden.

Waarom zijn de robots.txt en XML sitemap zo belangrijk?

Nu we weten wat de robots.txt en de XML sitemap zijn en hoe ze werken, is het belangrijk om te begrijpen waarom ze zo belangrijk zijn voor je website.

Ten eerste zorgt een goed geconfigureerde robots.txt ervoor dat zoekmachines alleen de pagina’s indexeren die je openbaar wilt maken, waardoor je de privacy van gebruikers kunt beschermen en kunt voorkomen dat gevoelige informatie in zoekresultaten terecht komt.

Daarnaast helpt de XML sitemap zoekmachines om je website beter te begrijpen en de inhoud sneller te indexeren. Dit zorgt voor een betere zichtbaarheid in zoekresultaten en kan dus leiden tot meer verkeer naar je website.

Leuk al die technische instellingen, maar wat heb ik eraan?

Ik hoor je al denken; ‘’wat heb ik eraan? Mijn website is al goed.’’
De robots.txt en de XML sitemap zijn slechts 2 voorbeelden van de techniek van een website. Een goede techniek van je website is de basis voor een succesvolle onderneming. Je website moet goed zijn voor de gebruikers, maar ook voor zoekmachines! Als je ervoor zorgt dat de techniek van je website goed staat ingesteld, zal je merken dat je website beter zichtbaar is in de zoekresultaten en dat je meer verkeer krijgt. Probeer hierbij niet te kijken naar de visuele versie van je website, maar naar de technische versie van je website. Zo kijken zoekmachines immers ook naar jouw website.

Zonder een goede robots.txt en XML-sitemap zou het voor zoekmachines een doolhof zijn om jouw website te vinden en te indexeren. Maar maak je geen zorgen, zelfs zoekmachines hebben af en toe een beetje hulp nodig om de weg te vinden. Met de juiste robots.txt en xml-sitemap op je website, zijn ze op de goede weg.

Ben je benieuwd naar de techniek van je eigen website? Neem dan contact met ons om op jouw website naar een hoger niveau te tillen. Wij zullen een uitgebreid document opstellen om de techniek van jouw website volledig in kaart te brengen.

Vragen of interesse? Wij helpen je graag.

Onze specialisten staan voor je klaar om antwoorden te geven!

    Contact