Academy

Zoekmachines crawlen miljarden pagina’s elke dag. Maar ze indexeren minder pagina’s dan dit, en ze tonen nog minder pagina’s in de resultaat pagina’s. Jij wilt natuurlijk dat jouw pagina’s getoond worden. Hoe pak je nou de controle en verbeter je jouw rankings?

Om deze vraag te beantwoorden moeten we eerst eens kijken hoe het crawl- en indexering proces precies werkt. Daarna bespreken we alle methoden die je kunt gebruiken om een betere controle over dit proces te krijgen.

Hoe werkt crawling?

De crawlers van zoekmachines hebben de taak om zo veel mogelijk URLs te vinden en te crawlen. Ze doen dit om te kijken of er nieuwe content is. Dit kan zowel nieuwe, als reeds bekende URLs betreffen. Nieuwe URLs worden gevonden op pagina’s die al bekend zijn. Na het crawlen geven zij de resultaten door aan de indexer. Pagina’s die door crawlers gecrawld mogen worden, worden vaak crawlbaar genoemd.

Zoekmachines kunnen pagina’s die ze niet kunnen crawlen niet ranken. Daarom zijn crawling en indexering belangrijke onderwerpen.

Hoe werkt indexering?

De indexers ontvangen de inhoud van de URLs van de crawlers. De indexers proberen dan deze content te begrijpen door het te analyseren (inclusief de links, indien aanwezig). De indexer verwerkt gekanonikaliseerde URLs en bepaalt de autoriteit van elke URL. De indexer bepaalt ook of ze een pagina moeten indexeren. Pagina’s die door zoekmachines geïndexeerd mogen worden, worden vaak indexeerbaar genoemd.

After being crawled a page is forwarded to the indexers.
Nadat een pagina gecrawld is wordt de inhoud doorgegeven aan de indexers.

Indexers renderen ook webpagina’s en voeren JavaScript uit. Als hierdoor links worden gevonden, worden deze aan de crawler teruggegeven.

Zorg ervoor dat jouw site makkelijk te crawlen is en dat er geen crawl budget wordt verspilt. We weten dat Google een enorme crawl capaciteit heeft, maar vooral voor grote webshops loont het om ervoor te zorgen dat Google de juiste pagina’s crawlt en indexeert. Dit verbetert de relevantie, conversie en uiteindelijk de inkomsten.

Door de controle over het crawlproces te nemen zorg je ervoor dat het crawl budget wordt gebruikt voor jouw pagina’s die geld verdienen. Maar er is meer aan de hand: je wilt natuurlijk jouw bezoekers alleen de beste content en producten laten zien.

Hoe neem je de controle over crawling en indexing

Neem de controle over het crawl- en indexering proces door jouw voorkeuren duidelijk te maken aan zoekmachines. Als je dit doet, help je ze begrijpen welke sectie van de website het belangrijkst voor jou zijn.

In deze sectie behandelen we alle methoden om dit te doen en ook wanneer je welke moet gebruiken. Wij hebben daarnaast een tabel gemaakt waarin je kunt zien wat ze wel en niet doen.

Laten we eerst een aantal concepten uitleggen:

  • Crawlbaar: kunnen zoekmachines de URL crawlen?
  • Indexeerbaar: worden zoekmachines aangemoedigd de URL te indexeren?
  • Voorkomt duplicate content: voorkomt deze methode duplicate content issues?
  • Consolideert signalen: worden zoekmachines aangemoedigd de relevantie van het onderwerp en URL autoriteit signalen te consolideren, zoals gedefinieerd door de content van de URL en links?

Het is verder belangrijk om te weten wat crawl budget is. Crawl budget is de hoeveel tijd die de crawlers van zoekmachines aan jouw website besteden. Je wilt dat ze dit budget goed besteden, en je kunt ze hiervoor instructies geven.

Voor grote websites kan het moeilijk zijn de balans te bewaren bij het managen van de crawl inspanningen van een zoekmachines zodat al de juiste pagina’s gecrawld en geïndexeerd worden, en niet al te veel pagina’s tegelijkertijd geblokkeerd worden. Idealiter voorkomt een goed uitgedachte structuur een hoop crawl issues op de lange termijn, maar soms helpt een meer radicale aanpak door middel van robots.txt blokkering. Ik hou er ook van om rel=nofollow te gebruiken bij specifieke links waarvan ik niet wil dat zoekmachines ze crawlen, zoals bijvoorbeeld in een faceted navigation.

Crawling en indexering is het hart van technisch SEO. Het is niet iets waar je je zorgen over hoeft te maken met kleinere, eenvoudige websites. Daar doet Google het sowieso wel redelijk goed bij. Echter, voor grotere en complexere websites is het des te belangrijker om de controle te nemen over het crawl- en het indexeringsproces. Dit kan alle verschil maken!

Methoden om crawling en indexering te beïnvloeden

  Crawlbaar Indexeerbaar Voorkomt duplicate content Consolideert signalen
Robots.txt no no no no
Robots directives
(Meta and HTTP header)
no no no no
Canonical
(Link and HTTP header)
no no no no
Hreflang attribuut no no no no
Paginering attributen no no no no
Mobile attribuut no no no no
Webmaster tools no no no no
HTTP authentication no no no no
David Iwanow
David Iwanow

Zoekmachines zijn redelijk oké in het bepalen welke pagina’s gecrawld en geïndexeerd moeten worden, maar is vaak aan te raden om jouw voorkeuren met betrekking tot het crawl- en indexeringsproces aan ze door te geven. Dan weten ze op welke pagina’s ze zich moet richten tijdens het crawlen, wat vervolgens leidt tot meer focus tijdens het indexeren waardoor minder ongewenste pagina’s worden geïndexeerd.

Robots.txt

Controlling crawling and indexing with robots.txt.

De robots.txt file is een centrale locatie die de basisregels aangeeft voor crawlers. We noemen deze basisregels directives. Als je niet wilt dat crawlers bepaalde URLs crawlen, dan is robots.txt de beste manier om dit te doen.

Als het crawlers niet toegestaan is om een URL te crawlen en de content op te vragen, dan kan de indexer nooit de content en de links analyseren. Dit kan duplicate content voorkomen, en het betekent ook dat de desbetreffende URL nooit kan ranken. Bovendien kunnen zoekmachines niet de relevantie van het onderwerp en de autoriteitssignalen consolideren wanneer ze niet weten wat er zich op de pagina bevindt. Deze signalen gaan dan dus verloren.

Het ultieme Cheatsheet voor Crawling & Indexering

Moet je vaak heel hard nadenken welke methode je moet gebruiken om zoekmachines crawl- en indexeerhints te geven? Bespaar tijd, en kies altijd de juiste methode met dit cheatsheet!

Een geldig e-mailadres opgeven.

Een voorbeeld van het gebruik van robots.txt.
De admin sectie van een site is een goed voorbeeld van waar je het robots.txt bestand wilt toepassen om te voorkomen dat crawlers toegang tot de website krijgen. Stel je voor dat de admin sectie zich hier bevindt:

https://www.example.com/admin/.

Blokkeer crawlers de toegang tot deze sectie door de volgende directive in jouw robots.txt te gebruiken:

Disallow: /admin/

Kun je jouw robots.txt bestand niet wijzigen? Pas dan het robots noindex directive op alle pagina’s in de/admin sectie toe.

Belangrijke opmerkingen
Houd er rekening mee dat URLs die niet gecrawld mogen worden nog steeds in de zoekresultaten kunnen verschijnen. Dit gebeurt wanneer er naar deze URLs gelinkt wordt vanaf andere pagina’s, of wanneer ze al bekend waren bij zoekmachines voordat ze ontoegankelijk gemaakt werden door robots.txt. Zoekmachines laten dan een snippet zoals de volgende zien:

Page is inaccessible through robots.txt

Robots.txt kan geen bestaande duplicate content issues oplossen. Zoekmachines vergeten niet zomaar een URL omdat ze deze niet kunnen bereiken.

Wanneer je een canonical URL of een meta robots noindex attribuut toevoegt aan een URL die geblokkeerd is door middel van robots.txt betekent niet dat deze pagina uit de index gehaald wordt. Zoekmachines kunnen jouw verzoek tot de-indexering nooit te weten komen, aangezien jouw robots.txt bestand de toegang tot dit URL juist voorkomt.

Het robots.txt bestand is een essentiële tool bij het optimaliseren van het crawl budget op jouw website. Door middel van het robots.txt bestand, kun je zoekmachines vertellen dat ze delen van jouw website die irrelevant zijn voor ze niet moeten crawlen.

Wat het robots.txt bestand doet:

  • het voorkomt dat zoekmachines bepaalde delen van jouw website crawlen waardoor crawl budget behouden blijft.
  • het voorkomt dat zoekmachines bepaalde delen van jouw website indexeren - als er geen links naar verwijzen.
  • het voorkomt nieuwe duplicate content issues.

Wat het robots.txt bestand niet doet:

  • consolideren van relevantie- en autoriteitssignalen.
  • verwijderen van content wat al geïndexeerd is*.

* Hoewel Google de noindex robots.txt directive ondersteunt en content zal verwijderen, wordt het niet aangeraden om deze methode te gebruiken omdat het een onofficiële standaard is die alleen ondersteund wordt door Google en deze methode niet 100% onfeilbaar is. Gebruik het alleen wanneer je geen robots directives and canonical URLs kunt gebruiken.

Wil je meer weten over robots.txt?
Lees dan de ultieme robots.txt handleiding.

Paddy Moogan
Paddy Moogan

Uit ervaring weten we dat Googlebot vrij radicaal kan zijn bij het crawlen van URLs als je het dingen zelf laat uitzoeken. Alles wat maar op een URL lijkt in jouw source code kan worden gecrawld en ik heb zelf gezien dat ze URLs die niet lijken te bestaan”uitproberen”. Dit is voor de meeste sites meestal niet een groot probleem, maar als jouw site uit meer dan een paar duizend pagina’s bestaat, dan zul je moeten nadenken over hoe je Googlebot kunt sturen en ervoor kunt zorgen dat ze zoveel mogelijk tijd besteden aan het crawlen van pagina’s die voor jouw belangrijk zijn.

Robots directives

Controlling crawling and indexing with Meta Robots noindex.

De robots directives vertellen zoekmachines hoe ze pagina’s moeten indexeren, terwijl ze de pagina’s toegankelijk houden voor bezoekers. Het wordt vaak gebruikt om zoekmachines te vertellen welke pagina’s niet geïndexeerd mogen worden. Wanneer het om indexeren gaat is het een sterker signaal dan de canonical URL.

Je implementeert robots directives in het algemeen door het in de source op te nemen door middel van de meta robots tag. Voor andere documenten zoals PDF bestanden of afbeeldingen doe je het door middel van de X-Robots-Tag HTTP header.

Een voorbeeld hoe je robots directives kunt gebruiken
Stel je voor dat je tien Google Ads landing pagina’s hebt. Je hebt de content van andere pagina’s gekopieerd en vervolgens licht aangepast. Je wilt niet dat deze pagina’s geïndexeerd worden, aangezien dit duplicate content issues zou veroorzaken, dus je voegt een noindex attribuut aan de robots directive toe.

Belangrijke opmerkingen
De robot directives helpen je duplicate content voorkomen, maar het wijst geen topical relevantie en autoriteit aan een andere URL toe. Dat is gewoon weg.

Behalve dat ze zoekmachines vertellen niet een pagina te indexeren, ontmoedigen robots directives ook zoekmachines om een pagina te crawlen. Zo wordt wat crawl budget behouden.

In tegenstelling tot wat de naam zegt, beïnvloedt het robots directives nofollow attribuut niet het crawlen van een pagina dat het nofollow attribuut heeft. Echter, wanneer het robots directive nofollow attribuut is ingesteld, gebruiken zoekmachines geen links op deze pagina’s om andere pagina’s te crawlen. Daarnaast dragen ze ook geen autoriteit over aan deze andere pagina’s.

Wat robots directives doen:

  • voorkomen dat zoekmachines bepaalde delen van jouw websites indexeren.
  • voorkomen dat er duplicate content issues ontstaan.

Wat robots directives niet doen:

  • voorkomen dat zoekmachines bepaalde delen van jouw website crawlen, en er blijft crawl budget behouden.
  • consolideren van de relevantie- en autoriteitssignalen.

Wil je meer weten over robots directives?
Lees de ultieme handleiding over de meta robots tag.

Canonical URLs

Controlling crawling andJ indexing with Canonical URLs.

Een canonical URL communiceert de canonieke versie van een pagina aan zoekmachines, en het moedigt zoekmachines aan de canonieke versie te indexeren. De canonical URL kan naar zichzelf of naar andere pagina’s verwijzen. Als het nuttig is dat bezoekers meerdere versies van een pagina kunnen bezoeken, terwijl je wilt dat zoekmachines deze pagina’s als één behandelen, dan is een canonical URL de juiste manier. Wanneer een pagina naar een andere pagina verwijst door middel van een canonical URL, wordt het meeste van de topical relevance en de autoriteit aan de target URL toegewezen.

Een voorbeeld hoe je een canonical URL kunt gebruiken
Stel je hebt een webshop met een product in drie categorieën. Het product kan benaderd worden via drie verschillende URLs. Dit is prima voor bezoekers, maar zoekmachines moeten zich alleen maar richten op het crawlen en indexeren van één URL. Kies één van de categorieën als de hoofdcategorie, en zorg dat de canonical URL van de andere twee categorieën verwijst naar deze hoofdcategorie.

Belangrijke opmerkingen
Zorg ervoor dat je URLs 301 redirect naar de canonieke versie als deze URLs niets meer voor bezoekers betekenen. Dit helpt je alle topical relevance en autoriteit toe te wijzen aan de canonieke versie. Het helpt ook andere websites met het linken naar de canonieke versie.

Een canonical URL is meer een richtlijn dan een directive. Zoekmachines kunnen ervoor kiezen het te negeren.

Het toepassen van een canonical URL zal geen crawl budget behouden, aangezien het niet voorkomt dat zoekmachines pagina’s crawlen. Het zorgt ervoor dat ze niet in zoekresultaten worden weergegeven aangezien ze geconsolideerd worden met de canonieke versie van de URL.

Wat een canonical URL doet:

  • voorkomen dat zoekmachines bepaalde delen van jouw website indexeren.
  • voorkomen dat duplicate content issues ontstaan.
  • consolideren van het merendeel van de relevantie- en autoriteitssignalen.

Wat een canonical URL niet doet:

  • voorkomen dat zoekmachines bepaalde delen van jouw website crawlen, en dus blijft crawl budget niet behouden.

Wil je meer weten over canonical URLs?
Lees de ultieme canonical URL handleiding.

Hreflang attribuut

Controlling crawling and indexing with hreflang.

Het rel="alternate" hreflang="x" link attribuut, of afgekort hreflang attribuut, wordt gebruikt om aan zoekmachines te vertellen in welke taal jouw content geschreven is en voor welke geografische regio het bedoeld is. Als je dezelfde of vergelijkbare content gebruikt om meerdere regio’s te bedienen, dan kun je het beste hreflang gebruiken. Het stelt je in staat jouw pagina’s in de beoogde markten te ranken.

Het helpt duplicate content voorkomen, dus is het prima wanneer je twee pagina’s hebt met precies dezelfde content voor het Verenigd Koninkrijk en de Verenigde Staten, als je hreflang geïmplementeerd hebt. Duplicate content terzijde, het belangrijkste is dat je ervoor zorgt dat jouw content de juiste snaar raakt bij jouw publiek. Zorg ervoor dat jouw bezoekers zich thuisvoelen op de website, dus is het aan te bevelen dat je naast verschillende valuta’s ook (iets) verschillende teksten en afbeeldingen hebt voor het Verenigd Koninkrijk en de Verenigde Staten.

Een voorbeeld van het gebruik van hreflang
Je richt je op verscheidene Engelstalige markten en je gebruikt een subdomein voor elke markt. Elk subdomein bevat engelse content, gelokaliseerd voor de markt:

  • www.example.com voor de Amerikaanse markt
  • ca.example.com voor de Canadese markt
  • uk.example.com voor de Engelse markt
  • au.example.com for de Australische markt

In elke markt wil je met de juiste pagina ranken. Hiervoor gebruik je hreflang.

Wat het hreflang attribuut doet:

  • zoekmachines helpen om de juiste content in de juiste markt te ranken.
  • voorkomen van duplicate content issues.

Wat het hreflang attribuut niet doet:

  • voorkomen dat zoekmachines dat bepaalde delen van jouw website crawlen, en dus blijft crawl budget niet behouden.
  • voorkomen dat zoekmachines bepaalde delen van jouw website indexeren.
  • consolideren van relevantie- en autoriteitssignalen.

Wil je meer weten over hreflang?
Lees dan de ultieme hreflang referentie handleiding.

Paginering attributen

Controlling crawling and indexing with rel=prev and rel=next.

De rel="next" en rel="prev" link attributen, paginering attributen in het kort, worden gebruikt om de relatie tussen een reeks pagina’s duidelijk te maken aan zoekmachines. Voor reeksen van vergelijkbare pagina’s, zoals gepagineerde blog archief pagina’s of gepagineerde product categorie pagina’s is het zeer aan te raden om paginering attributen te gebruiken. Zoekmachines begrijpen dan dat de pagina’s zeer vergelijkbaar zijn en dat voorkomt duplicate content issues.

In de meeste gevallen zullen zoekmachines geen andere pagina’s behalve de eerst in een gepagineerde reeks ranken.

Wat het paginering attribuut doet:

  • voorkomen van duplicate content issues.
  • consolideren van relevantie- en autoriteitssignalen.

Wat het paginering attribuut niet doet:

  • voorkomen dat zoekmachines bepaalde delen van jouw website crawlen, en dus blijft crawl budget niet behouden.
  • voorkomen dat zoekmachines bepaalde delen van jouw websites indexeren.

Wil je meer weten over paginering attributen?
Lees dan de ultieme pagination handleiding.

Mobile attribuut

Controlling crawling and indexing with rel=alternate mobile attribute.

Het rel="alternate" mobile attribuut, afgekort mobile attribuut, wordt gebruikt om een relatie tussen een desktop website en een mobiele website aan te geven. Het helpt zoekmachines de juiste website voor het juiste apparaat te tonen en het voorkomt duplicate content issues.

Wat het mobile attribuut doet:

  • voorkomen van duplicate content issues.
  • consolideren van relevantie- en autoriteitssignalen.

Wat het mobile attribuut niet doet:

  • voorkomen dat zoekmachines bepaalde delen van jouw website crawlen, en dus blijft crawl budget niet behouden.
  • voorkomen dat zoekmachines bepaalde delen van jouw websites indexeren.

Wil je meer weten over het mobile attribuut?
Lees dan onze handleiding over het mobile attribuut.

Parameter handling in Webmaster Tools

Controlling crawling and indexing with Webmaster Tools.

Als je niet in staat bent (snel) jouw website te veranderen, kun je parameter handling instellen in de Google Search Console en Bing Webmaster Tools. Parameter handling definieert hoe zoekmachines om moeten gaan met URLs die een parameter bevatten. Wanneer je dit gebruikt, kun je aan Google en Bing aangeven dat ze bepaalde URLs niet niet hoeven te crawlen en/of indexeren.

Om parameter handling in te stellen, heb je URLs nodig die herkenbaar zijn door middel van een patroon. Parameter handling moet alleen in bepaalde situaties gebruikt worden, bijvoorbeeld bij het sorteren, filteren, vertalen, en het opslaan van sessie data.

Belangrijke opmerking
Houd in gedachten dat wanneer je dit configureert voor Google en Bing, het geen invloed heeft op de manier waarop andere zoekmachines jouw website crawlen.

Wat parameter handling doet:

  • voorkomen dat zoekmachines bepaalde delen van jouw website crawlen, en dus blijft er crawl budget behouden.
  • voorkomen dat zoekmachines bepaalde delen van jouw websites indexeren.
  • voorkomen duplicate content issues.
  • consolideert relevantie- en autoriteitssignalen.

Wat parameter handling niet doet:

  • crawl- en indexatie voorkeuren configureren voor individuele pagina’s.

HTTP authenticatie

Controlling crawling and indexing with HTTP authentication.

HTTP authenticatie vereist dat gebruikers of machines inloggen om toegang te krijgen tot (een deel van) een website. Zo ziet een voorbeeld eruit:

Authentication required

Zonder een username en wachtwoord, kom jij (of een robot) niet voorbij het login scherm, en heb je nergens toegang voor. HTTP authenticatie is een goede manier om ongewenste bezoekers - zowel mensen als crawlers van zoekmachines - buiten bijvoorbeeld een testomgeving te houden. Google raadt aan dat je HTTP authenticatie gebruikt om te voorkomen dat crawlers test omgevingen kunnen bereiken:

Als u vertrouwelijke of privé-inhoud heeft die niet moet worden weergegeven in de zoekresultaten van Google Zoeken, kunt u ze opslaan in een directory op de siteserver die is beveiligd met een wachtwoord. Dit is de eenvoudigste en meest effectieve manier om te voorkomen dat de privé-URL’s worden weergegeven. Googlebot en andere webcrawlers hebben geen toegang tot inhoud in directory’s die zijn beveiligd met een wachtwoord.

Wat HTTP authentication doet:

  • voorkomen dat zoekmachines bepaalde delen van jouw website crawlen, en dus blijft er crawl budget behouden.
  • voorkomen dat zoekmachines bepaalde delen van jouw websites indexeren.
  • voorkomen van duplicate content issues.

Wat HTTP authentication niet doet:

  • consolideren van relevantie- en autoriteitssignalen.
Het ultieme cheatsheet voor crawlen en indexeren

Kies snel de juiste methode om crawl- en indexeringsproblemen aan te pakken!

Een geldig e-mailadres opgeven.

Fetch as search engines: verplaatst je in hun schoenen

Hoe zien zoekmachines nou jouw pagina’s, en hoe worden jouw pagina’s gerenderd? Verplaats je in hun schoenen door middel van “Fetch and Render” tools.

Google’s “Fetch as Googlebot” feature is het meest bekend. Het bevindt zich in de Google Search Console en het laat je een URL van jouw website invullen en vervolgens laat Google je dan zien wat hun crawlers zien op deze URL, en hoe de URL gerenderd wordt. Je kunt dit voor zowel desktop en mobiel doen. Zie hieronder voor een voorbeeld:

Fetching a URL
Fetching a URL
Rendering a URL
Rendering a URL

Het is een goede manier om dubbel te checken of URLs reageren zoals verwacht, maar ook om URL indexering af te dwingen (“Request indexing”). Binnen enkele seconden kun je een URL gecrawld en geïndexeerd hebben. Dit betekent niet dat de content onmiddellijk wordt verwerkt en de rankings worden aangepast, maar het stelt je wel zeker in staat het crawl- en indexeringsproces te versnellen.

Andere situaties waarin Fetch as Googlebot erg handig is

Fetch as Googlebot is niet alleen handig om het crawl- en indexeringsproces te versnellen, het stelt je ook in staat om:

  1. het ontdekken van geheel nieuwe secties op jouw website te versnellen
    Fetch de URL waar vandaan de nieuwe sectie worden gelinkt, en kies dan voor (“Request index”) met de optie “Crawl this URL and its direct links”.
  2. de ervaring van mobile gebruikers hebben op jouw site te auditen
    Fetch een URL als “Mobile: smartphone”.
  3. te controleren of 301-redirects naar behoren werken
    Vul een URL in en controleer de header response.

Opmerkingen:

  • Situatie 3 is makkelijk in bulk uit te voeren door ContentKing te gebruiken.
  • Google laat je 500 URLs per maand indienen voor indexering.
  • Google laat je maar 10 URLs per maand indienen voor indexering waarbij ook alle gelinkte URLs worden gecrawld.
  • Bing heeft een vergelijkbare tool, genaamd “Fetch as Bingbot”.

Veel gestelde vragen over crawling en indexering

  1. Hoe vaak crawlt Google mijn website?
  2. Kan ik crawlers vertragen wanneer ze mijn website crawlen?
  3. Hoe voorkom ik dat zoekmachines een website of pagina crawlen?
  4. Wat wordt er bedoeld met het indexeren van een website?
  5. Is mijn website indexeerbaar voor zoekmachines?
  6. Hoe vaak indexeert Google mijn website?
  7. Hoe lang duurt het voordat Google mijn nieuwe website geïndexeerd heeft?
  8. Hoe voorkom ik dat zoekmachines een website of pagina indexeren?

1. Hoe vaak crawlt Google mijn website?

Google Search Console deelt hun crawl gedrag met je. Zo kun je het bekijken:

  1. Log in op de Google Search Console en selecteer een website.
  2. Ga naar Crawl > Crawl Stats en daar kun je zien hoe vaak Google jouw site crawlt.

Als je redelijk technisch onderlegd bent, kun je zien hoe vaak Google jouw website crawlt door de log files van jouw website te analyseren.

Het is het vermelden waard dat Google bepaalt hoe vaak ze jouw website moeten crawlen gebaseerd op het crawl budget van jouw website.

2. Kan ik crawlers vertragen wanneer ze mijn website crawlen?

Ja, dat kan middels de zogenaamde crawl-delay directive in het robots.txt bestand. Echter, Google luistert hier niet naar. Als je wilt dat Googlebot langzamer crawlt dan moet je dit in Google Search Console instellen. Het is sowieso niet aan te raden om Google en Bing langzamer te laten crawlen, omdat hun crawlers slim genoeg zijn om te weten wanneer jouw website het moeilijk heeft, en ze checken de site dan op een later moment.

3. Hoe voorkom ik dat zoekmachines een website of pagina crawlen?

Er is een aantal manieren waarop je zoekmachines ervan kunt weerhouden delen of bepaalde pagina’s van jouw website te crawlen:

  • Robots.txt: kan worden gebruikt om het crawlen van de gehele website, secties en individuele pagina’s te voorkomen.
  • Parameter handling: kan worden gebruikt om het crawlen van URLS die een bepaalde parameter bevatten te voorkomen.
  • HTTP authenticatie: kan worden gebruikt om het crawlen van de gehele website, secties en individuele pagina’s te voorkomen.

4. Wat wordt er bedoeld met het indexeren van een website?

Het betekent dat een zoekmachine actie onderneemt om een website te begrijpen zodat het vindbaar gemaakt kan worden voor hun zoekmachine.

5. Is mijn website indexeerbaar voor zoekmachines?

De beste manier om deze vraag te beantwoorden is door een account bij ContentKing aan te maken zodat je kunt evalueren hoe indexeerbaar jouw website is voor zoekmachines. Zoals je hierboven hebt kunnen lezen, zijn er meerdere manieren waarop je kunt beïnvloeden hoe zoekmachines jouw website indexeren.

6. Hoe vaak indexeert Google mijn website?

Zo vaak als Google jouw website crawlt. Hun crawlers geven alles wat ze gevonden hebben door aan de indexer die zorgt voor het indexeren van websites.

7. Hoe lang duurt het voordat Google mijn nieuwe website geïndexeerd heeft?

Er is niet echt een makkelijk antwoord op deze vraag, aangezien het afhangt van de promotie van de nieuwe website. Promotie versnelt het crawl- en indexeringsproces. Als je dit goed doet, kan een kleine website binnen een uur geïndexeerd worden. Maar het kan ook maanden duren voor dat een geheel nieuwe website geïndexeerd is.

Houd er rekening mee dat wanneer jouw website geïndexeerd is door zoekmachines, het niet betekent dat jouw pagina’s vanaf het begin een hoge ranking hebben. Het duurt veel langer voordat jouw website een hoge ranking heeft.

8. Hoe voorkom ik dat zoekmachines een website of pagina indexeren?

Zoekmachines kunnen ervan weerhouden worden om een een website of pagina te indexeren door middel van deze methoden:

  • Meta Robots noindex tag: is een zeer sterk signaal wat aan zoekmachines aangeeft dat ze niet een pagina moeten indexeren. Het geeft geen relevantie of autoriteitssignalen door aan andere pagina’s.
  • Canonical URL: is een redelijk sterk signaal wat aan zoekmachines aangeeft welke pagina geïndexeerd moet worden en waaraan relevantie-r en autoriteitssignalen toegekend moeten worden.
  • HTTP authenticatie: voorkomt alleen het crawlen en indexeren van nieuwe pagina’s vanuit een SEO oogpunt. Maar het is nog steeds best practice om HTTP authenticatie te gebruiken om ongewenste zoekmachines en gebruikers geen toegang te geven tot testomgevingen.
  • Robots.txt: kan alleen worden gebruikt om het crawlen en indexeren van nieuwe pagina’s te voorkomen.
  • Parameter handling: kan worden gebruikt om het crawlen en indexeren van URLs met een bepaalde parameter te voorkomen.
ContentKing Academy Content Team
Steven van Vessum
Steven van Vessum

Steven is onze Chief Customer Officer. Hij zorgt ervoor dat onze klanten tevreden zijn én blijven. Daarnaast is hij gek op alles wat met SEO en content marketing te maken heeft!

Vojtěch Zach
Vojtěch Zach

Vojtěch is ContentKing’s Customer Support & Localization Manager. He is the one who will answer your questions when you reach out to us. He is a studied translator, so apart from making our users happy, he also loves to take on our localization challenges.

Lorena Torsani
Lorena Torsani

Lorena is ContentKing’s Marketing Specialist. She’s a creative thinker, who is highly enthusiastic about engaging with customers, running exciting campaigns and bringing forth some fresh ideas.

Probeer 14 dagen gratis

Binnen 20 seconden aan de slag

Gelieve een geldige domeinnaam (www.voorbeeld.nl) op te geven.
  • Geen credit card nodig
  • Geen installatie nodig
  • Geen verplichtingen