Payday loans
HomeBijdragenDe mythe van Google

De mythe van Google

Avatar

Eric Sieverts

Eric Sieverts is werkzaam op de Hogeschool van Amsterdam en bij de Universiteitsbibliotheek Utrecht. Hij is redacteur van InformatieProfessional.

[Zie ook "De mythe van de catalogus"]

Marketeers leren ons dat we daar moeten zijn waar onze gebruikers zijn.
Onze gebruikers "zijn op Google". Dus zouden wij ook "op Google" moeten zijn.
Maar wat bedoelen we daar eigenlijk mee? Vaak hoor ik dat we zouden moeten zorgen dat de boekbeschrijvingen uit onze catalogi "in Google" zitten. Dan komen onze klanten daar via Google wel terecht. Maar helpt dat?

Laten we eens een rekensommetje maken, waarvoor we voor het gemak alle Nederlandse UB's maar samen nemen.
Die Nederlandse UB's zullen samen zo'n 5 miljoen (?) titels hebben. Daartegenover heeft Google vermoedelijk al meer dan 500 miljard "titels".
Als je een willekeurige zoekactie doet, zal dus maar 1 op elke 100.000 resultaten een boek uit een UB zijn.

Maar het is nog erger. Google zoekt full-text in webpagina's, PDF's, Word-documenten enzovoort. Een gemiddeld "document" dat Google indexeert zal dus zeker 1000 woorden bevatten en waarschijnlijk nog aanzienlijk meer. De "documenten" die wij in Google zouden moeten krijgen, zijn echter catalogusrecords.
Dat wil zeggen metadata, waar we ontzettend trots op zijn dat we die zo consistent en uniform en gestandaardiseerd hebben weten in te voeren, maar die, zoals ik in mijn "mythe van de catalogus" al aangaf, niet meer doorzoekbare tekst bevatten dan alleen een titel van pakweg 10 woorden, plus nog hooguit 5 trefwoorden.
Dat is maar 1/60 van het aantal woorden (dus zoekingangen) dat een gemiddeld Google document heeft.
Zo verder rekenend, zou dus maar 1 op de 6 miljoen zoekresultaten een catalogusrecord van een boek uit onze collecties zijn. Denken we echt dat onze boeken dan op Google gevonden worden?

Toegegeven, mijn berekening van deze vindkans van 1 op 6.000.000 is een beetje eenzijdig.
In de eerste plaats geldt deze berekening voor onderwerpszoekacties, niet voor een "known item search". Als je al een auteursnaam en/of (ongeveer) een titel weet, ligt de zaak ietsje anders, maar ook dan zullen de meeste catalogusrecords nog steeds verdrinken in de overmaat aan andere resultaten uit Google.
Verder hield mijn rekensommetje nog geen rekening met de relevance ranking die zoekmachines als Google toepassen. Het nadeel van onze magere metadata verkeert daarbij ineens nog in een voordeel. Doordat catalogusrecords nauwelijks meer ingangen hebben dan alleen de titelwoorden, komen de zoekwoorden waarop onze boeken gevonden worden, als ze gevonden worden, vrijwel altijd in die titels voor. En bij vrijwel alle zoekmachines is dat een van de belangrijkste criteria voor een hoge ranking. Van de webpagina's die Google op een zoekvraag vindt, zal een belangrijk deel dus lager scoren dan die catalogusbeschrijving, omdat de zoekwoorden in veel van die webpagina's pas verderop in hun veel langere teksten staan. Bovendien zijn onze bibliotheken veelal gerespecteerde instellingen, ook in termen van Google's populariteitsmeting, de pagerank.
Maar als we echt hoog willen scoren zullen we met onze catalogi ook nog aan Search Engine Optimization moeten doen. En dat is een techniek die ik eerder in een column al eens met doping heb vergeleken. Als iedereen optimaal optimaliseert, wat steeds meer het geval lijkt, dan schiet je daar ook niets meer mee op. Maar je kunt het ook niet meer achterwege laten, omdat de anderen het allemaal wel blijven doen en dan dus harder zouden fietsen dan jij, ook al zijn ze niet echt beter.

Waarschijnlijk ligt het dus genuanceerder, maar zelfs bij een vindkans van 1 op 6.000 - drie ordes van grootte gunstiger dan mijn aanvankelijke berekening opleverde - blijft het feit dat onze boeken op onderwerpszoekacties in Google door onze klanten veel vaker niet dan wel gevonden zullen worden. En dat ligt dus niet alleen aan de overmaat aan andere informatie in Google, maar ook aan onze eigen kale catalogi, waarin boeken vaak helemaal niet te vinden zijn op de onderwerpen die daarin aan de orde komen. Dat laatste is een stokpaardje dat ik onder het kopje "de mythe van de catalogus" al apart heb bereden.

Dan maar helemaal geen pogingen meer doen om "in Google" te komen?
Ik betwijfel inderdaad of het zinnig is dat zelf te willen. Laten we dat liever overlaten aan grote spelers als Worldcat. In zo'n gemeenschappelijke catalogus zullen vaak al meer metadata beschikbaar zijn, dan in ieders lokale catalogus (zoals ook in enkele van de reacties op mijn vorige tekst al gezegd werd). Daar zijn bovendien al diensten beschikbaar om te zien te krijgen welke gevonden boeken eventueel in naburige bibliotheken te vinden zijn. En - misschien wel het belangrijkste - daarbij is het vooralsnog makkelijker om gebruik te maken van extra mash-ups die (bijvoorbeeld via ISBN's) mogelijk zijn met resultaten uit Google of Google Books, zodat gebruikers via omwegen (toevallig) misschien toch nog bij je eigen fysieke collectie terecht komen.


Reacties

  • In een recent onderzoek (Inger S., Gardner T., How readers navigate to scholarly content. September 2008. Http://www.sic.ox14.com/howreadersnavigatetoscholarlycontent.pdf) vinden de auteurs dat bij het known-itemzoeken ('citation searching') een algemene zoekmachine als Google op de 4e plaats staat als favoriet startpunt voor het zoeken naar het artikel. Op de eerste plaats staat de vakbibliografie ('A&I databases'), gevolgd door bibliotheek webpagina's en homepagina's van tijdschriften.

    Bij het onderwerpsgericht zoeken staat de vakbibliografie ook op de eerste plaats gevolgd door de algemene zoekmachine.

    Toegegeven de verschillen zijn klein en het belang van de algemene zoekmachine als startpunt neemt volgens het onderzoek ook toe (maar ook dat van de vakbibliografie) maar om zonder meer aan te nemen dat al onze gebruikers op Google zitten en dat daarom de bibliotheken dat dan dus ook maar moeten zijn is toch wat te kort door de bocht.

    Beslist zijn er onderzoeken te vinden waarin Google wel op de eerste plaats staat. In zijn blogreactie op bovenstaande bijdrage noemt Wowter bijvoorbeeld logingegevens van zijn instelling. Het toont aan dat de zaken blijkbaar niet zo eenvoudig en duidelijk zijn als vaak wordt verondersteld en dat de discussie over dit onderwerp nog niet is afgesloten.

    In de reacties op "De mythe van Google" mis ik trouwens het belang van OpenURL resolvers. Met deze techniek -de bibliotheekuitvinding van het laatste decennium- is een belangrijk deel van de bibliotheek(collectie) toch al 'aanwezig' in Google (Scholar dan wel te verstaan) en trouwens ook in de diverse vakbibliografieen.

    Leon Osinski @ 20-08-2009 11:29
  • Een aardige manier die we bij de Bibliotheek van de Rijksuniversiteit Groningen gevonden hebben ons (nieuwe) boekenbezit via Google zichtbaar te maken is via onze aanwinstenlijsten (http://aanwinsten.ub.rug.nl). Doordat we in die lijsten ook de ISBNâ��s opnemen, leidt het zoeken via Google op het ISBN van een recentelijk door ons aangeschaft boek in de meeste gevallen al bij de eerste treffers tot een verwijzing naar onze aanwinstenlijsten, met daarin een link naar het betreffende catalogusrecord. (NB Dit geldt uiteraard niet voor een net gepubliceerde aanwinstenlijst, want Google heeft even tijd nodig om de lijst te harvesten.)

    Jan-Arjen Mondria

    @ 07-07-2009 13:05
  • Zolang je een van de weinige bibliotheken bent met met een door Google geïndexeerde catalogus werkt het volgens mij heel aardig. Ik kom in elk geval erg vaak een catalogusrecord van library.wur.nl als eerste treffer in Google tegen. Maar gaan we dat allmaal doen dan is de ellende niet te overzien. Denk aan 10.000 treffers van Dawkins "The God delusion" in bibliotheekcatalogi om maar te zwijgen van de wellicht meer dan 50.000 verwijzingen naar exemplaren van de Da Vinci Code. Willen we die allemaal apart in Google? En al zouden we het willen: Google zal het niet laten gebeuren. Mijn suggestie: laten we allemaal onze catalogus als 'discovery tool' opgeven en die rol neerleggen bij Worldcat, de enige partij die op de langere termijn interessant kan blijven naast Google, Google Books, Google Scholar en Amazon. En dan nog moet Worldcat alle resultaten van scanprojecten en repositories van alle betrokken bibliotheken volledig kunnen integreren en moeten we als bibliotheken wereldwijd de moderne boeken ook veel beter ontsluiten (volledige inhoudopgave, flaptekst en bv eerste 300 woorden van elk hoofdstuk).

    jeroen bosman @ 02-07-2009 12:31
  • Er zijn meer manieren om "in Google", of misschien juist wel "uit Google" te komen. We kunnen proberen te prifiteren avn wat al in Goolge zit en het makkelijk maken om na een zoekactie (bijvoorbeeld met een boek of artikel als resultaat) een snelle weg naar het eigen bezit te bieden.
    Eén zo'n manier is via een firefox plugin, zoals Libx. Zie http://www.libx.org/

    B. Vat @ 02-07-2009 09:55
  • wat je over de relevance ranking zegt klopt niet. als je alleen een titel op je pagina hebt zal dat niet echt zullen de woorden in de titel geen extra 'punten' opleveren. Het gaat om relatieve verhoudingen, binnen een document zullen de titel woorden hoger meetellen dan platte tekst woorden, maar niet tussen documenten onderling.

    Overigens is dit veld waarin ik dit nu intik wel erg breed, of ligt dat aan mijn FireFoX?

    Wichor Bramer @ 01-07-2009 09:23
Login om te reageren op dit artikel. Klik hier