wat is duplicate content?

Wat is duplicate content?

Wat ziet Google als duplicate content?

Zoekmachines zoals Google hebben een probleem – het wordt ‘duplicate content’ genoemd. Duplicate content betekent dat vergelijkbare content op meerdere locaties (URL’s) op het web verschijnt, en als gevolg daarvan weten zoekmachines niet welke URL ze in de zoekresultaten moeten laten zien. Dit kan de ranking van een webpagina schaden, en het probleem wordt alleen maar erger wanneer mensen beginnen te linken naar de verschillende versies van dezelfde content.

Wat is duplicate content?

Duplicate content is content die beschikbaar is op meerdere URL’s op het web. Omdat meer dan één URL dezelfde inhoud toont, weten zoekmachines niet welke URL ze hoger in de zoekresultaten moeten plaatsen. Daarom kunnen ze beide URL’s lager rangschikken en de voorkeur geven aan andere webpagina’s. Laten we dit illustreren met een voorbeeld:

wat is duplicate content?

Dubbele inhoud kan vergeleken worden met op een kruispunt staan waar de verkeersborden in twee verschillende richtingen wijzen naar dezelfde bestemming: Welke weg moet je nemen? Tot overmaat van ramp is de eindbestemming ook nog verschillend, maar slechts een klein beetje. Als lezer vind je het misschien niet erg dat je nog steeds het antwoord krijgt waar je voor kwam, maar een zoekmachine moet kiezen welke pagina in de zoekresultaten getoond moet worden omdat ze natuurlijk niet twee keer dezelfde inhoud wil laten zien.

Stel dat je artikel over ‘keyword x’ verschijnt op http://www.example.com/keyword-x/ en dat dezelfde inhoud ook verschijnt op http://www.example.com/article-category/keyword-x/.

Deze situatie is niet fictief: het gebeurt in veel moderne Content Management Systemen (CMS). Laten we dan zeggen dat je artikel door verschillende bloggers is opgepikt en dat sommigen van hen linken naar de eerste URL, terwijl anderen linken naar de tweede. Dit is het moment waarop het probleem van de zoekmachine zijn ware aard toont: het is jouw probleem. De dubbele inhoud is jouw probleem omdat die links beide verschillende URL’s promoten. Als ze allemaal naar dezelfde URL zouden linken, zouden jouw kansen om te scoren voor ‘trefwoord x’ hoger zijn.

Waarom moet je duplicate content op jouw website voorkomen?

Dubbele inhoud zal jouw rankings schaden. Op z’n minst weten zoekmachines niet welke pagina ze aan gebruikers moeten voorstellen. En als gevolg daarvan lopen alle pagina’s die de zoekmachines als duplicaat zien het risico om lager in de rankings te komen. Dat is het beste scenario. Als jouw problemen met dubbele inhoud echt erg zijn, bijvoorbeeld als je zeer dunne inhoud hebt gecombineerd met woord voor woord gekopieerde inhoud, kan je zelfs te maken krijgen met een handmatige actie van Google omdat jij gebruikers probeert te misleiden. Dus als je wilt dat jouw inhoud goed scoort, is het echt belangrijk om ervoor te zorgen dat elke pagina een behoorlijke hoeveelheid unieke inhoud biedt.

wat is duplicate content?

Het is echter niet alleen een probleem voor zoekmachines. Als jouw gebruikers op zoek zijn naar een bepaalde pagina, kan het echt frustrerend voor hen zijn als ze niet het juiste ding kunnen vinden dat ze zoeken. Dus, zoals met veel aspecten van SEO, is het belangrijk om te zorgen voor jouw duplicate content problemen voor zowel de gebruikerservaring als de zoekfunctie.

wat is duplicate content?

Oorzaken van duplicate content

Er zijn tientallen redenen voor duplicate content. De meeste zijn technisch: het komt niet vaak voor dat een mens besluit om dezelfde inhoud op twee verschillende plaatsen te zetten zonder duidelijk te maken welke de originele is. Tenzij je een post hebt gekloond en per ongeluk hebt gepubliceerd natuurlijk. Maar anders voelt het voor de meesten van ons onnatuurlijk aan.

Er zijn echter veel technische redenen en het gebeurt meestal omdat ontwikkelaars niet denken als een browser of zelfs een gebruiker, laat staan een zoekmachine spider – ze denken als een programmeur. Neem nu dat artikel dat we eerder vermeldden, dat verschijnt op http://www.example.com/keyword-x/ en http://www.example.com/article-category/keyword-x/. Als je het de ontwikkelaar vraagt, zal hij zeggen dat het maar één keer bestaat.

Nee, die ontwikkelaar is niet gek geworden, hij spreekt alleen een andere taal. Waarschijnlijk wordt de website aangestuurd door een CMS, en in die database staat maar één artikel, maar de software van de website staat gewoon toe dat datzelfde artikel in de database via meerdere URL’s kan worden opgehaald.

Dat komt omdat, in de ogen van de ontwikkelaar, de unieke identificatie voor dat artikel de ID is die dat artikel heeft in de database, niet de URL. Maar voor de zoekmachine is de URL de unieke identifier voor een stuk content. Als je dat uitlegt aan een ontwikkelaar, zullen ze het probleem gaan snappen.

Session IDs

Vaak wil jij je bezoekers volgen en hen bijvoorbeeld in staat stellen artikelen die zij willen kopen in een winkelwagentje op te slaan. Om dat te kunnen doen, moet jij ze een ‘sessie’ geven. Een sessie is een korte geschiedenis van wat de bezoeker op jouw site heeft gedaan en kan zaken bevatten zoals de items in zijn winkelwagentje. Om die sessie te behouden terwijl een bezoeker van de ene pagina naar de andere klikt, moet de unieke identificatie voor die sessie – de Session ID – ergens worden opgeslagen. De meest gebruikelijke oplossing is om dat met cookies te doen. Zoekmachines slaan echter meestal geen cookies op.

Op dat punt vallen sommige systemen terug op het gebruik van Session IDs in de URL. Dit betekent dat elke interne link op de website die Session ID krijgt toegevoegd aan zijn URL, en omdat die Session ID uniek is voor die sessie, creëert het een nieuwe URL, en dus duplicate content.

URL-parameters gebruikt voor traceren en sorteren

Een andere oorzaak van duplicate content is het gebruik van URL parameters die de inhoud van een pagina niet veranderen, bijvoorbeeld in tracking links. Ziet u, voor een zoekmachine zijn http://www.example.com/keyword-x/ en http://www.example.com/keyword-x/?source=rss niet dezelfde URL. Dit laatste kan je toelaten om te traceren van welke bron mensen kwamen, maar het kan het ook moeilijker maken voor jou om goed te ranken – een zeer ongewenst neveneffect.

Dit geldt niet alleen voor tracking parameters. Het geldt voor elke parameter die je kunt toevoegen aan een URL die niets verandert aan het vitale stuk content, of die parameter nu is voor ‘het veranderen van de sortering op een set producten’ of voor ‘het tonen van een andere zijbalk’: ze veroorzaken allemaal duplicate content.

Scrapers en contentsyndicatie

De meeste redenen voor duplicate content zijn ofwel de ‘fout’ van jou of van jouw website. Soms echter gebruiken andere websites jouw inhoud, met of zonder jouw toestemming. Ze linken niet altijd naar jouw originele artikel, waardoor de zoekmachine het niet ‘snapt’ en te maken krijgt met nog een versie van hetzelfde artikel. Hoe populairder je site wordt, hoe meer scrapers je krijgt, waardoor dit probleem groter en groter wordt.

Benieuwd hoe we jou verder kunnen helpen?

Volgorde van parameters

Een andere veel voorkomende oorzaak is dat een CMS geen mooie schone URL’s gebruikt, maar URL’s als /?id=1&cat=2, waarbij ID verwijst naar het artikel en cat verwijst naar de categorie. De URL /?cat=2&id=1 zal in de meeste website systemen dezelfde resultaten opleveren, maar voor een zoekmachine zijn ze totaal verschillend.

Printervriendelijke pagina’s

Als jouw CMS printer-vriendelijke pagina’s maakt en je linkt daarnaar vanuit jouw artikelpagina’s, zal Google ze meestal wel vinden, tenzij jij ze specifiek blokkeert (met een Robots.txt bestand bijvoorbeeld). Vraag jezelf nu eens af: Welke versie wil je dat Google toont? Degene met jouw advertenties en randcontent, of degene die alleen jouw artikel laat zien?

Comments een pagina geven

In WordPress maar ook in sommige andere systemen, is er een optie om je comments een pagina te geven. Dit leidt ertoe dat de inhoud wordt gedupliceerd over de artikel URL, en de artikel URL + /comment-page-1/, /comment-page-2/ etc.

WWW vs. non-WWW

Dit is een van de oudste in het boek, maar soms hebben zoekmachines het nog steeds mis: WWW vs. non-WWW duplicate content, wanneer beide versies van je site toegankelijk zijn. Een andere, minder vaak voorkomende situatie maar die ik ook heb gezien is HTTP vs. HTTPS duplicate content, waarbij dezelfde inhoud over beide wordt geserveerd.

Conceptuele oplossing: een ‘canonical’ URL

Zoals we al gezien hebben, is het feit dat verschillende URL’s naar dezelfde inhoud leiden een probleem, maar het kan opgelost worden. Eén persoon die bij een publicatie werkt zal je normaal gezien vrij gemakkelijk kunnen vertellen wat de ‘juiste’ URL voor een bepaald artikel moet zijn, maar als je het soms aan drie mensen binnen hetzelfde bedrijf vraagt, krijg je drie verschillende antwoorden. Dat is een probleem dat moet worden aangepakt, want uiteindelijk kan er maar één (URL) zijn. Die ‘juiste’ URL voor een stuk content wordt door de zoekmachines de canonieke URL genoemd.

Problemen met duplicate content identificeren

Misschien weet je niet of je een probleem hebt met dubbele inhoud op jouw site of met jouw inhoud. Het gebruik van Google is een van de eenvoudigste manieren om dubbele inhoud op te sporen. Er zijn verschillende zoekfuncties die zeer nuttig zijn in dit soort gevallen. Soms is het zelfs de moeite waard om te zoeken naar één of twee volledige zinnen uit je artikel, omdat sommige scrapers de titel kunnen veranderen.

Praktische oplossingen voor duplicate content

Als je eenmaal hebt besloten welke URL de canonical URL is voor je stuk content, moet je een proces van canonicalistion starten. Dit betekent dat we zoekmachines moeten vertellen over de canonical versie van een pagina en dat ze die zo snel mogelijk moeten vinden. Er zijn vier methoden om het probleem op te lossen, in volgorde van voorkeur:

  • Geen duplicate content maken
  • Dubbele inhoud doorsturen naar de canonical URL
  • Een canonical link-element toevoegen aan de duplicaatpagina
  • Een HTML-link toevoegen van de duplicaatpagina naar de canonical pagina

Sommige van de bovenstaande oorzaken zijn eenvoudig op te lossen:

Staan er Session ID’s in jouw URL?Deze kunnen vaak gewoon worden uitgeschakeld in de instellingen.
Heb je dubbele printer-vriendelijke pagina’s? Deze zijn volledig overbodig: gebruik gewoon een print style sheet.
Gebruik je comment pagina’s in WordPress?Deze kan je gewoon uitschakelen (onder instellingen)op 99% van de sites.
Staan jouw parameters in een andere volgorde? Vertel jouw programmeur om de parameters altijd in de juiste volgorde te zetten.
Zijn er problemen met de tracking links?Gebruik in de meeste gevallen een hashtag-gebaseerde campagne tracking.

Als jouw probleem niet zo eenvoudig te verhelpen is, kan het misschien toch nuttig zijn om de moeite te nemen. Het doel moet zijn om dubbele inhoud helemaal te voorkomen, want dat is verreweg de beste oplossing voor het probleem.

301 Redirecting duplicate content

In sommige gevallen is het onmogelijk om volledig te voorkomen dat het systeem dat je gebruikt verkeerde URL’s aanmaakt voor inhoud, maar soms is het mogelijk om ze om te leiden. Als dit niet logisch is voor jou houdt het dan in gedachten tijdens het gesprek met jouw ontwikkelaars. Als je een aantal van de duplicate content problemen oplost, zorg er dan voor dat je alle oude duplicate content URL’s redirect naar de juiste canonieke URL’s.

Soms wil of kan je niet af van een dubbele versie van een artikel, zelfs als je weet dat het de verkeerde URL is. Om dit probleem op te lossen, hebben de zoekmachines het canonical link element geïntroduceerd. Het wordt geplaatst in de sectie van je site, en het ziet er als volgt uit:

<link rel=”canonical” href=”http://example.com/wordpress/seo-plugin/” /> 

In de href sectie van de canonical link, plaats je de correcte canonical URL voor je artikel. Wanneer een zoekmachine die canonical ondersteunt dit link element vindt, voert het een zachte 301 redirect uit, waarbij het grootste deel van de link waarde die door die pagina is verzameld wordt overgebracht naar je canonical pagina. Dit proces is echter een beetje langzamer dan de 301 redirect, dus als je gewoon een 301 redirect kunt doen zou dat de voorkeur verdienen.

Teruglinken naar de oorspronkelijke inhoud

Als je geen van bovenstaande kunt doen, mogelijk omdat je de sectie van de site waarop jouw inhoud verschijnt niet beheert, is het toevoegen van een link terug naar het oorspronkelijke artikel boven of onder het artikel altijd een goed idee. Je zou dit kunnen doen in je RSS feed door een link terug naar het artikel toe te voegen. Sommige scrapers zullen die link wegfilteren, maar anderen kunnen hem erin laten staan. Als Google meerdere links tegenkomt die naar je originele artikel verwijzen, zal het snel genoeg doorhebben dat dit de echte canonical versie is.

Duplicate content komt overal voor. Het is iets dat je constant in de gaten moet houden, maar het is te verhelpen, en de beloningen kunnen overvloedig zijn. Jouw kwaliteit inhoud kan stijgen in de rankings, gewoon door zich te ontdoen van dubbele inhoud van jouw site.

SEO uitbesteden

Typ je een zoekwoord-gerelateerd op jouw bedrijf in op Google en verschijnt jouw website niet eens op de eerste paar pagina’s? Dan spreekt het voor zich dat jouw bezoekersaantal misschien niet zo hoog ligt. Tijd voor verandering! Om meer verkeer naar je website te krijgen is het belangrijk om aan de slag te gaan met zoekmachine optimalisatie. Zodra dit goed op orde is, rank je beter in Google. En hoe beter jij rankt in Google, hoe meer bezoekers je hebt en hoe meer omzet je gaat maken. Klinkt deze win-winsituatie jou als muziek in de oren? Dan is er werk aan de winkel! 

SEO helemaal zelf verzorgen is echter geen makkie. Veel bedrijven weten niet dat er bij het verzorgen van SEO ontzettend veel komt kijken. Voordat Google jouw website hoger laat ranken, moet er namelijk een hoop gebeuren. Helemaal als je nog niet bezig bent geweest met zoekmachine optimalisatie. Dit zelf oppakken kan een lang en lastig proces zijn, want het vereist diepgaande kennis. SEO uitbesteden is daarom een goede optie. Zo ben jij ervan verzekerd dat jouw website helemaal SEO-proof is. ROXTAR is de juiste partner voor het uitbesteden van je SEO.

Gratis Strategiesessie

Wil jij jouw online marketing naar een volgend niveau tillen? Vraag nu een gratis strategiesessie aan.

Maak kennis met ons team