Waarom verschijnt de primaire bron in Google niet boven Open Archivaris?

Een van de ideeën achter Open Archivaris is om een kopie van een openbaar gemaakt overheidsdocument al klaar te zetten en te laten indexeren door zoekmachines voordat het niet meer beschikbaar of vindbaar is. Op die manier kennen de zoekmachines al een secundaire bron voor een document mocht de primaire bron permanent offline gaan en is de onderbreking in de tijd voor informatiezoekers zo kort mogelijk.

Dit zou geen bij-effecten mogen hebben. Een zoekmachine zal normaliter de primaire bron als meer autoritatief beschouwen en daar voorrang aan geven in de zoekresultaten. Die voorrangsregel is ook hard nodig; je wilt bijvoorbeeld niet dat de concurrent van een bedrijf de website kan kopiëren en daarmee verkeer krijgt dat voor een ander bedoeld is.

Echter, het blijkt dat er regelmatig door gebruikers van zoekmachines toch de voorkeur gegeven wordt aan documenten op Open Archivaris in plaats van het gebruik bij de primaire bron. Dat mag, maar is niet in lijn met het genoemde idee. Nog sterker, we waren er best door verward. Toont Google soms de primaire bron onder Open Archivaris? Dit blijkt het geval te zijn zoals te zien in dit voorbeeld over Leiden:

Als men zoekt op “uitwerkingsplan groene hoofdstructuur”, dan verschijnt een secundaire bron (een testversie van Open Archivaris met de naam hierden-bosch.nl) hoger in de zoekresultaten dan de primaire bron leiden.notubiz.nl.

De enige hint is het gele vlok waaruit volgt dat het raadsinformatiesysteem Notubiz geen informatie beschikbaar maakt voor Google. De onderliggende Google tip leert ons dat:

Dit betekent dat de website heeft voorkomen dat Google een paginabeschrijving maakte, maar de pagina niet daadwerkelijk heeft verborgen voor Google.

Kijken we nu in de robots.txt van de gemeente Leiden dan lezen we:

User-agent: *
Disallow: /

Dit is een technisch verzoek aan crawlers om niet doorlopend de raadsstukken te bezoeken en te indexeren. De documenten van gemeente Leiden zijn wel toegankelijk, anders kunnen belanghebbenden ze niet raadplegen. Google verwerkt daarom blijkbaar alleen de titel in zijn index en geeft de voorkeur aan Open Archivaris als een betere bron.

Op dit moment hebben we hiervoor nog geen oplossing. Mogelijkerwijs is het haalbaar om Google met een conditionele doorverwijzing te overtuigen de primaire bron te gebruiken, ook al klikt de bezoeker op de bovenste link.

Een alternatieve oplossing is dat de gemeente Leiden haar raadsstukken naast openbaar ook vindbaar voor zoekmachines maakt.

Open Archivaris is een hulpmiddel om de doelen van Stichting Common Sense in Actie te realiseren. Open Archivaris richt zich primair op de verbetering van de transparantie van het openbaar bestuur en de herleidbaarheid van het handelen.