Academy

Welkom bij de eerste editie van SEO in Focus, een maandelijks terugkerend blog waarin we SEO experts over alles wat met SEO te maken heeft interviewen.

In deze eerste editie van SEO in Focus bespreken we crawler traps met Dawn Anderson!

Dawn Anderson
Dawn Anderson

Crawler traps kunnen een site ernstig schaden, maar het hangt af van het type trap waar de crawler in zit.

Als je Dawn Anderson kent, weet je dat ze ervan houdt om over technische SEO te schrijven en te praten.

Als je haar niet kent: Dawn is the oprichter van Move It Marketing, een online marketing agency uit Manchester.

Laten we voordat we beginnen eerst definiëren wat crawler traps zijn.

In SEO zijn “crawler traps” structurele problemen op een website die ervoor zorgen dat crawlers een bijna oneindig aantal irrelevante URLs vinden. Dat is een slechte zaak, want zij verspillen het crawl budget en zij kunnen ook duplicate-content issues veroorzaken.

Crawler traps illustrated

Hoe zie jij crawler traps?

Crawler traps kunnen een site schaden, maar het hangt af van het type trap waarin de crawler zich bevindt. Hoewel crawler traps vanwege kalenders en URLs met parameters, zoals op eCommerce sites, erg problematisch kunnen zijn, zijn de ergste crawler traps pagina's die logische maar incorrecte parameters gebruiken.

Kun je uitleggen wat je bedoelt met pagina's die logische maar incorrecte parameters gebruiken?

Wanneer we het hebben over dit soort pagina's, bedoel ik pagina's met inhoud dat op het eerste gezicht prima lijkt, en wordt veranderd gebaseerd op de parameters die het gebruikt.

Bijvoorbeeld: je hebt een eCommerce platform met schoenen en subcategorieën met hakken, platte schoenen, kitten heels, laarzen, slippers, regenlaarzen en sandalen. Een oneindige loop zou hakken en platte schoenen bij elkaar kunnen plaatsen omdat één van de variabelen van de subcategorie, die dynamisch de inhoud binnenhaalt en de URL veranderd, foutief in de template geprogrammeerd is.

Afhankelijk van de content output gemaakt op basis van deze dynamische variabelen, kan de gecreëerde pagina output logisch of volstrekte onzin zijn. Maar, ze zijn aan het onderwerp verwant en semantisch gerelateerd (schoenen, hakken, kitten heels, laarzen, slippers).

Voorbeelden van denkbeeldige URLs:
https://www.example.com/shoes/heels/boots/rest-of-path]
https://www.example.com/shoes/boots/kitten-heels/[rest-of-path]
https://www.example.com/shoes/kitten-heels/slippers/[rest-of-path]

Dat klinkt serieus? Is dat het geval?

Ja, dit soort crawler traps kunnen een site met de tijd compleet laten falen. Zo serieus is het.

Waarom is dat het geval?

De reden is als volgt: Google herkent meestal redelijk snel een standaard crawler trap gebaseerd en beperkt het aantal crawls op deze irrelevante URLs. De uitzondering is echter dat ze dat niet echt snel doen met logische, maar incorrecte, parameters.

Soms bezoeken ze deze pagina's met logische, maar incorrecte, parameters zelfs meer dan de inhoud die je ze wilt laten crawlen!

Hoe werkt dat in de praktijk?

Je kunt twee fases onderscheiden bij het opsporen van crawler traps:

Fase 1:

De meest bekende type parameters worden voor een tijdje gecrawld, en dan neemt het crawlen sterk af zodra de crawler traps vermoedelijk door Googlebot (of andere delen van het 'crawl scheduling' systeem) worden herkend.

Fase 2:

De parameter verschijnt dan in de Google Search Console bij Crawl > URL Parameters zodat we Google kunnen vertellen of ze representatieve (voor tracking doeleinden) of actieve parameters (die de inhoud of de volgorde van de inhoud kunnen veranderen) zijn. Representatieve parameters bevatten meestal patronen in hun strings zoals ?utm_ enzovoorts. Actieve parameters kunnen identifiers zoals bijvoorbeeld subcategorieën, maten, kleuren enzovoorts bevatten. Al deze parameters veranderen de inhoud of de volgorde van de inhoud. Denk aan prijssortering, best gewaardeerd, aflopend, oplopend etc.

URL parameter handling is eigenlijk Google die zegt: “Hey, we hebben dit pad een aantal keer gevonden. Weet je zeker dat dit de route is die je ons wilt laten volgen?” We kunnen Google tips geven over verschillende richtingen, in het bijzonder op sites met veel variaties op hetzelfde artikel.

Maar met logische, maar incorrecte, parameters is dat niet het geval. Ze zijn meestal niet te zien in de Google Search Console omdat ze niet als crawler trap worden herkend.

Waarom herkent Google deze crawler trap niet?

Googlebot, een crawler die aanvankelijk niet oordeelt, zal gewoon door de de URLs blijven loopen en de indexer zal gewoon deze pagina's, die aangedreven worden door 'logische' (maar incorrecte) parameters, blijven indexeren omdat de inhoud op de pagina's ook vaak 'on the fly' gemaakt wordt en het afhankelijk is van dezelfde binnengehaalde variabelen afhankelijk is als in de URLs.

Headings, subheadings, calls to action, enzovoorts krijgen allemaal variabele output om de pagina's in delen te bouwen. Hoe kan Googlebot nou weten dat het zeer onwaarschijnlijk is dat mensen laarzen met kitten heels zouden willen hebben?

Het is dus waarschijnlijk dat je uiteindelijk pagina's voor laarzen met kitten heels gaat indexeren volgens potentieel elke variant (maat/kleur), enzovoorts. Als je al dacht dat de normale parameters voor eCommerce sites slecht zijn voor index bloat, vermenigvuldig dit met een factor 10.000.

Uiteindelijk (dit kan lang duren), realiseert Google dat de pagina's die aangemaakt worden door onlogische parameters van erg lage waarde zijn en de download rate (crawl rate) van deze URLs begint dan omlaag te gaan.

Wie zoekt er nou in Google naar laarzen met kitten heels?

Sommige van deze gegenereerde pagina's gebaseerd op variabelen zijn echter logisch. Het is bijvoorbeeld niet gek kitten heels en hakken bij elkaar te zien, maar dit was eigenlijk niet wat je nou wilde laten indexeren. Programmeerfouten in de template hebben dit veroorzaakt.

Deze zullen waarschijnlijk niet eens in de handling van URL parameters in Google Search verschijnen. Je zult ze zien in analytics, server logs en Google Search Console.

Je zult het waarschijnlijk een lange tijd niet eens opmerken, en je zult misschien ook eerst een beetje extra verkeer krijgen omdat je meer geïndexeerde pagina's hebt die aan langere zoekopdrachten voldoen.

Maar uiteindelijk daalt de crawl rate meer en meer wanneer de patronen herkend worden en Google inziet dat de pagina's helemaal geen waarde hebben.

Je hebt letterlijk jouw site (of delen ervan) ontrafeld, en het is enorm werk om dit weer uit te zoeken. Je hebt over de gehele linie de site verzwakt, en je moet het weer van de grond opbouwen. Veel succes daarmee, want het kan een tijdje duren.

Het op grote schaal submitten van XML sitemaps gebaseerd op incorrecte gebruikte (maar logische parameters) verergert het alleen maar.

Hoe ontstaat dit type crawler traps?

Zij ontstaan meestal als een issue gegenereerd door een programma wat dynamisch de verkeerde variabelen in een template binnenhaalt. Het wordt erger wanneer er zich een massa interne links naar deze pagina's in de navigatie of XML sitemaps bevinden. In dit geval blijven de crawlers aan het rondgaan terwijl ze elke mogelijke variant aan de paden (en pagina output) toevoegen. In wezen vinden ze een oneindige aantal URLs met op het eerste gezicht logische inhoud.

Wat is nou jouw advies om dit te voorkomen?

Controleer altijd de URL parameters en altijd, altijd controleer pagina's die worden gecreëerd op basis van programmatische variabelen in templates.

En welke lering kunnen we hieruit trekken?

Houd altijd goed in de gaten of er geen afwijkingen zijn en controleer keer op keer alles wat automatisch geïmplementeerd wordt, vooral wanneer dit betrekking heeft op dynamische elementen.

Probeer 14 dagen gratis

Binnen 20 seconden aan de slag

Gelieve een geldige domeinnaam (www.voorbeeld.nl) op te geven.
  • Geen credit card nodig
  • Geen installatie nodig
  • Geen verplichtingen