XML Sitemap in het kort

Een XML Sitemap is een speciaal document waarin de URLs van alle pagina’s van een website staan opgenomen. Het doel hierbij is om zoekmachines een overzicht te bieden van de gehele website. Het is sterk aan te raden om een XML Sitemap op te nemen, met name op grotere websites (meer dan 500 pagina’s).

Houd je aan de volgende best practices wanneer je een XML Sitemap implementeert:

  • Houd de XML Sitemap up-to-date met de inhoud van jouw website.
  • Zorg ervoor dat de inhoud klopt: enkel indexeerbare pagina’s moeten worden opgenomen.
  • Verwijs naar de XML Sitemap vanuit jouw robots.txt bestand.
  • Neem niet meer dan 50.000 URLs op in een enkele XML Sitemap.
  • Zorg ervoor dat de (ongecomprimeerde) bestandsgrootte kleiner is dan 50MB.
  • Maak je niet te druk over de lastmod, priority en changefreq eigenschappen.

Wat is een XML Sitemap?

Een XML Sitemap is een speciaal document waarin de URLs van alle pagina’s van een website staan opgenomen. Het biedt zoekmachines een overzicht van welke content beschikbaar is en waar dit te vinden. Daarnaast kan optioneel extra informatie gegeven worden, zoals wanneer de content voor het laatst bijgewerkt is en hoe belangrijk de content is (relatief binnen de website).

XML Sitemaps zijn zeer nuttig voor zoekmachines, omdat het hen direct een overzicht biedt van alle beschikbare content. Dit heeft maakt de XML Sitemap het startpunt voor zoekmachines en biedt nadien een mechanisme om snel nieuw toegevoegde content te ontdekken.

Het is belangrijk om het onderscheid te maken tussen XML sitemaps en “reguliere” sitemaps (ook wel “HTML sitemaps” genoemd). Reguliere sitemaps zijn bedoeld voor jouw bezoekers om snel de content op de website te doorgronden, terwijl XML sitemaps zich op zoekmachines richten.

Waarom zijn XML Sitemaps van belang?

XML Sitemaps helpen zoekmachines om de inhoud van jouw website te vinden, en dient als mechanisme om hen op de hoogte te stellen van nieuw of bijgewerkte content. Daarom is het sterk aan te raden hier gebruik van te maken indien dit technisch gezien te doen is. Zeker bij grotere websites (meer dan 500 pagina’s) is dit van groot belang.

Hoe ziet een XML Sitemap eruit?

Een XML Sitemap is bedoeld voor zoekmachines en is daarom opgesteld in een taal die eenvoudig is te begrijpen voor computers: XML. Gelukkig is XML ook zeer leesbaar voor mensen. Laten we eens kijken hoe dit eruit ziet:

<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>https://www.contentkingapp.com/</loc>
<lastmod>2017-06-14T19:55:25+02:00</lastmod>
</url>
<url>
<loc>https://www.contentkingapp.com/blog/</loc>
<lastmod>2016-06-24T10:23:20+02:00</lastmod>
</url>
</urlset>

XML Header

<?xml version="1.0" encoding="UTF-8"?>

De header geeft aan dat de inhoud is gestructureerd volgens versie 1.0 van de XML standaard en beschrijft de “character encoding”. Het komt erop neer dat het zoekmachines vertelt wat zij kunnen verwachten van de structuur van het bestand.

Definitie van de URL set

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

De urlset definitie omvat alle URLs die in de sitemap zijn opgenomen en beschrijft welke versie van de XML Sitemap standaard is gebruikt. Let erop dat de urlset aan het einde van het document wordt gesloten:

</urlset>

Definitie van de individuele URLs

<url>
<loc>https://www.contentkingapp.com/</loc>
<lastmod>2017-06-14T19:55:25+02:00</lastmod>
</url>

Tot slot het meest belangrijke onderdeel: de definitie van de individuele URLs middels de url-tag. Elke URL definitie moet de loc-tag bevatten (afkorting voor location). De inhoud van deze tag moet de volledige URL van de pagina zijn, inclusief het protocol (bijvoorbeeld “http://”).

Verder kan iedere URL definitie de volgende optionele eigenschappen bevatten:

  • lastmod: de datum waarop de content voor het laatst is bijgewerkt. De datum volgt het “W3C datetime” formaat.
  • priority: de belangrijkheid van de URL, relatief binnen de website op een schaal van 0.0 tot 10.0.
  • changefreq: hoe vaak de URL verwacht wordt te veranderen. Mogelijke waarden zijn always (altijd), hourly (ieder uur), daily (dagelijks), weekly (wekelijks), monthly (maandelijks), yearly (jaarlijks) en never (nooit).

Waar moet ik de XML Sitemap plaatsen?

Net zoals de pagina’s van jouw website wordt de XML Sitemap op zijn eigen URL geplaatst. Doorgaans wordt de XML Sitemap in /sitemap.xml geplaatst, en het is aan te raden om deze conventie te volgen om het makkelijk te maken voor zoekmachines om de XML Sitemap te vinden.

Echter, als het niet mogelijk is om de XML Sitemap op die locatie (/) te plaatsen of de bestandsnaam volgens de conventie toe te passen (sitemap.xml) dan is het mogelijk om hiervan af te wijken, mits je naar de XML Sitemap verwijst in het robots.txt bestand middels de Sitemap-directive:

Sitemap: http://www.example.com/alternativelocation/alternativefilename.xml

Zijn er limieten voor XML Sitemaps?

XML Sitemaps hebben een paar limitaties om in de gaten te houden:

  • Maximaal 50.000 URLs.
  • Bestandsgrootte niet meer dan 50MB (ongecomprimeerd).

Indien jouw XML Sitemap deze grenzen overschrijdt is het zaak om deze op te splitsen in meerdere XML Sitemaps en een XML Sitemap Index te gebruiken.

Wat is een XML Sitemap Index?

Wanneer je de limieten van een enkele XML Sitemap overschrijdt dien je deze op te splitsen in aparte XML Sitemaps en ze te bundelen middels een XML Sitemap Index. Deze index een losstaand XML-bestand die naar de verschillende XML Sitemaps verwijst.

Laten we er een voorbeeld bijpakken:

<?xml version=”1.0″ encoding=”UTF-8″?>
<sitemapindex xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>

</sitemapindex>

Deze XML Sitemap Index verwijst naar twee XML Sitemaps: sitemap1.xml.gz en sitemap2.xml.gz.

XML Header

<?xml version="1.0" encoding="UTF-8"?>

Niets nieuws onder zon: net zoals een gewone XML Sitemap moeten we eerst het XML formaat en de character encoding definiëren.

Definitie van de Sitemap Index

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

Vervolgens zien we de sitemapindex definitie op de plek waar bij de gewone XML Sitemap de urlset definitie staat. Deze definitie omvat alle sitemaps in de sitemap index en wederom de versie van de gehanteerde XML Sitemap standaard. Net zoals de urlset definitie wordt de sitemapindex definitie afgelosten aan het einde van het document:

</sitemapindex>

Definitie van de individuele sitemaps

<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>

En dan vervolgens de kern: de definitie van de individuele sitemaps. Net zoals bij URLs moet iedere sitemap definite minimaal een loc-tag bevatten, met daarin de volledige URL van de individuele XML Sitemap.

Daarnaast kan de sitemap definitie optioneel een lastmod definitie bevatten: de datum waarop de XML sitemap voor het laatst is bijgewerkt. Wederom in “W3C datetime” formaat.

Waar moet ik de XML Sitemap Index plaatsen?

Net zoals bij normale XML Sitemaps is er een conventie voor de locatie en bestandsnaam van de XML Sitemap Index: /sitemap_index.xml. Maar wederom kan je hiervan afwijken mits je de juiste verwijzing plaatst in jouw robots.txt bestand.

Sitemap: http://www.example.com/alternativelocation/alternativefilename.xml

Best practices voor XML Sitemap

Pas de volgende best practices toe wanneer je aan de slag gaat met de XML Sitemap implementatie.

Houd de XML Sitemap up-to-date

Zorg ervoor dat de XML Sitemap een bijgewerkt overzicht geeft van de website. Wanneer een pagina wordt verwijderd moet deze ook worden weggehaald uit de XML Sitemap. Wanneer je gebruik maakt van de optionele lastmod-tag, moet je ervoor zorgen dat deze iedere keer wordt bijgewerkt wanneer de pagina inhoud wijzigt.

Neem enkel indexeerbare pagina’s op in de XML Sitemap

De XML Sitemap mag enkel indexeerbare pagina’s bevatten. Dit betekent dat er geen URLs in mogen voorkomen die wijzen naar redirects (301 status code) of missende pagina’s (404 status code).

Verder moeten alle opgenomen pagina’s indexeerbaar zijn, wat betekent dat ze toegankelijk zijn voor zoekmachines (geen uitsluiting in robots.txt) en dat er geen directives zijn die zoekmachines vertellen om de pagina niet te indexeren (zoals meta robots, canonical links of de x-robots-tag).

Volg de standaard locatie en bestandsnaam

Volg de standaard locatie en bestandsnaam voor de XML Sitemap (/sitemap.xml) en XML Sitemap Index (/sitemap_index.xml) indien enigszins mogelijk. Dit maakt het het makkelijkst voor zoekmachines om ze te vinden.

Verwijs naar de XML Sitemap in jouw robots.txt bestand

Wanneer je afwijkt van de URL conventie voor de XML Sitemap of XML Sitemap Index moet je naar de juiste URL verwijzen in het robots.txt bestand. Maar ook als je de URL conventie volgt is het aan te raden om de robots.txt verwijzing op te nemen om er zeker van te zijn dat zoekmachines deze eenvoudig kunnen vinden.

Maak je niet te druk om lastmod, priority en changefreq

Although for every URL you can define the lastmod, priority and changefreq properties, this is fully optional. Defining them won’t hurt, and there may be a slight chance search engines will use this information, but it’s generally understood that search engines don’t pay (much) attention to them.

Houd je aan de limieten voor XML Sitemaps

Zorg ervoor dat jouw XML Sitemaps niet meer dan 50.000 URLs bevatten en dat de ongecomprimeerde bestandsgrootte niet meer is dan 50MB. Wanneer je voorbij deze grenzen gaat dien je de XML Sitemap op te knippen en gebruik te maken van een XML Sitemap Index.

Veelgestelde vragen over XML Sitemap

  1. What does the .gz extension mean?

1. Wat betekent de .gz bestandsextensie?

De .gz extensie kan worden toegevoegd aan de bestandsnaam wanneer de XML Sitemap gecomprimeerd is (middels gzip compressie). XML Sitemaps met veel URLs erin hebben doorgaans een hoge bestandsgrootte, en door compressie te gebruiken kan diskruimte en downloadtijd beperkt worden.

Waarom wachten? Probeer het direct.

Eindelijk doorhebben wat er werkelijk gebeurt op jouw website.
Gelieve een geldige domeinnaam (www.voorbeeld.nl) op te geven.