Send As SMS

16.8.05

De grootste

In Yahoo! Search blog van 8 augustus wordt een indicatie gegeven van de omvang van Yahoo!'s database sinds er op 20 juli jl. een herindexering bij deze zoekmachine heeft plaatsgevonden. Het getal dat genoemd wordt is 19,2 miljard webdocumenten (naast 1,6 miljard images en 50 miljoen audio- en videobestanden). Daarmee zou Yahoo! in één klap meer dan tweemaal zo groot zijn geworden als Google, dat op het moment dat ik dit schrijf nog een aantal van 8.168.684.336 documenten in zijn database zegt te hebben.
Wat heeft de bloggersgemeenschap over dit nieuws te zeggen? Ik zocht met de phrase "19.2 billion web documents" in Blogpulse en vond 31 treffers. Bij raadpleging daarvan blijkt in het algemeen de scepsis te overheersen: in de commentaren wordt erop gewezen dat omvang niet alles is, dat relevantie belangrijker is en dat meer webdocumenten in de database van een zoekmachine zelfs wel eens mindere kwaliteit kunnen betekenen (bijvoorbeeld door meer spam). Enfin, dezelfde geluiden die je vroeger ook nog wel eens uit de hoek van andere zoekmachines hoorde als Google weer eens een herindexering meldde die het tot de grootste zoekmachine maakte. De enige die wat dieper op de materie ingaat is Charlene Li in haar blog. Zij deed onder meer een paar testjes, waaruit Google wat het aantal werkelijk getoonde resultaten betreft, met meer treffers te voorschijn kwam dan Yahoo!.
Een andere testje werd gedaan door Independent Sources.
Mijn eigen indruk is dat Google nog altijd groter is dan Yahoo!. In baseer die indruk op een testje dat ik zelf heb gedaan. Ziehier twaalf vragen die een zo laag resultaat opleveren dat (doorgaans) ook de laatste treffer nog kan worden bekeken. [Scroll down!]
















































































VraagYahoo!GoogleMSN Search
"quantum gravity"
"boson stars"
18052773
caravaggio clair-obscur
rembrandt
172210139
badminton "world
champions" 1999
"mixed doubles"
19320862
"global warming"
statistics contrails
aviation
215571231*
Finno-Ugric
german "loan
words"
634614250*
spivakov brahms
triple
382951155
"gustav
stresemann"
nobelpreisträger
49999**250*
maxima amalia
leontien
6410959
verdonk
staatsveiligheid
252318117
"Ashura Day"
killed
299342158
oorlog venetië
casanova
88238107
"relevance
ranking" recall
precision Boolean
"information
retrieval"
160521233*

* MSN Search toont maximaal 250 resultaten.
** Google en Yahoo! leveren beide maximaal 1000 treffers.

In elf van de twaalf gevallen heeft Google een groter raadpleegbaar resultaat dan Yahoo!. De conclusie dat de database van Yahoo! nu dubbel zo groot zou zijn als die van Google, lijkt me dus voorlopig voorbarig.
Eind van deze maand ziet u mij weer terug...

Permalink

14.8.05

Twee interessante tools

Een van de nuttigste functies van blogs is dat ze nieuws verspreiden. Twee blogs die ik een paar weken geleden onder ogen kreeg en die nieuws bevatten waarvan ik dacht: Dat moet ik doorgeven, zijn die van Erik Hoy en Karen Blakeman. Erik Hoy is een bibliothecaris en internettrainer van de Copenhagen Central Library in Denemarken en Karen Blakeman is een freelance consultant met een eigen adviesbureau. De tools die ze in hun blogs noemden, zijn Yahoo! Mindset en GoLexa.
Yahoo! Mindset maakt deel uit van de site waar Yahoo! ons op de hoogte houdt van nieuwe ontwikkelingen betreffende zijn zoektechnologie. De drie grootste zoekmachines, Google, Yahoo! en MSN Search hebben zo'n speeltuin waar met betaversies van ideeën geëxperimenteerd wordt. Google Labs is de bekendste, maar de andere twee zijn ook de moeite van een periodiek bezoek zeker waard.
Yahoo! Mindset is de zoekmachine van Yahoo! met een slider (schuifregelaar). Die verschijnt op de resultatenpagina's en biedt u de keuze tussen commerciële en informatieve resultaten (en diverse mixes tussen de uiteinden van de slider). Een eenvoudig voorbeeld biedt een zoekactie naar de naam iturbide. De commerciële resultaten gaan over de hedendaagse kunstenares Graciela Iturbide, de informatieve over Agustín Iturbide, de eerste keizer van Mexico. Toegegeven, u zelf kunt er door het gebruik van contextuele zoektermen en/of de toevoeging van generieke TLD's (zoals .edu, .gov, .ac etc.) natuurlijk ook voor zorgen dat ongewenste zoekresultaten zoveel mogelijk worden weggefilterd, maar het blijft een nuttig hulpmiddel. Zoek maar eens met de term Viagra en bekijk de verschillen.
Van een heel andere orde is GoLexa. U kent natuurlijk allemaal Fagan Finder Urlinfo, waar u een groot aantal tools bij elkaar vindt die informatie of een oordeel over een opgegeven site verschaffen. GoLexa is een soortgelijke informatiebron, maar anders dan bij Fagan Finder geeft u hier geen bepaalde URL, maar gewoon zoektermen op. GoLexa vindt daarop een aantal resultaten, die elk vergezeld gaan van een hele reeks van tools met informatie over de gevonden sites. Die informatie omvat onder meer:
  • de diverse rankings die Google (PageRank), Alexa en Yahoo! aan een pagina toekennen
  • de Google-cache van een pagina (Fagan Finder heeft die ook, naast andere cachekopieën) en de eventuele kopieën die de Wayback Machine van het Internet Archive van een pagina heeft
  • de "related" pages van Google (idem dito)
  • de aantallen geïndexeerde pagina's van een site bij de diverse datacentra van Google
  • de source code
  • een spidersimulatie (dus: de manier waarop een pagina zich aan de spider van een zoekmachine presenteert)
  • de zoekmachines die de betreffende pagina vinden
  • de "link popularity" en de "link stats", d.w.z. de aantallen pagina's die -- volgens de diverse grote mondiale zoekmachines -- naar een bepaalde pagina of site verwijzen, plus het aantal pagina's dat door de verschillende zoekmachines van een site geïndexeerd is
  • de MetaKeywords en de MetaDescription op een pagina, plus keywords en key phrases en hun density (= verhouding van het aantal malen dat een woord in een pagina voorkomt tot het totale aantal woorden op die pagina)
  • Whois en Site report (van Netcraft) twee informatiebronnen voor wie en wat er achter een website of webpagina schuilgaat
  • bezoekersstatistieken van Alexa
  • omvang en laadtijd van een pagina
  • een Ping-utility, die het mogelijk maakt te zien of een server uit de lucht is of dat er iets mis is met de verbinding
  • het IP-adres van een website en het land waar een website gehost wordt
  • de tekst van de "anchors" die bij links in een pagina voorkomen
  • de Adsense advertenties van Google die -- op basis van de tekst in een pagina -- op die pagina zouden kunnen verschijnen als van Adsense avertenties zou worden gebruik gemaakt
Verder biedt GoLexa nog handige mogelijkheden om het adres van een pagina aan uzelf of aan anderen te mailen, de pagina (door BabelFish) in een andere taal te laten vertalen, op wijzigingen te laten monitoren en op spelling te laten controleren.
Hoewel de meeste van de hierboven genoemde mogelijkheden interessanter zijn voor de webmaster dan voor de zoeker, zijn er toch ook bij waar wij als zoekers ons voordeel mee kunnen doen. Ik noem bijvoorbeeld de informatie die Alexa onder Alexa Ranking verschaft over andere pagina's die bezoekers aan een gevonden pagina ook bezocht hebben. Naast links tussen pagina's (link:) en overeenkomsten op basis van de inhoud van pagina's (related:) of het feit dat ze in dezelfde rubriek van Google's directory zijn ondergebracht vormt dit een vierde trait d'union die het mogelijk maakt uitgaande van een al bekende pagina of site verwante pagina's of sites op te sporen.
GoLexa is een Google API tool, hetgeen betekent dat zoekresultaten uit -- een gelimiteerde versie van -- Google's database komen.

Permalink

8.8.05

Overlap tussen zoekmachines III

Zoals beloofd kom ik nog even terug op de onderzoeksstudie van Dogpile inzake de overlap tussen de zoekresultaten van de vier grote zoekmachines Google, Yahoo!, MSN Search en Ask Jeeves bij 12.570 "random user-defined" vragen. Dogpile is een metazoekmachine die (inmiddels) alle vier deze grote zoekmachines gebruikt. Doel van het onderzoek was de hierboven genoemde overlap en de verschillen tussen de resultaten van de vier zoekmachines vast te stellen en te meten in hoeverre een metazoekmachine zoals Dogpile betere resultaten levert dan elk van de grote zoekmachines afzonderlijk.
Gekeken werd hoofdzakelijk naar de eerste resultatenpagina's, met -- naar ik aanneem -- maximaal 10 algoritmische en een onbekend aantal gesponsorde treffers, maar in sommige gevallen zijn ook de eerste, de eerste drie en de eerste vijf algoritmische treffers met elkaar vergeleken.

Het totale aantal (ontdubbelde) resultaten voor alle zoekmachines dat gevonden werd bedroeg 485.460. Per vraag werden gemiddeld 9 algoritmische treffers gevonden, en 2,6 gesponsorde resultaten. Dat het gemiddelde aantal algoritmische treffers minder is dan 10 is te verklaren uit de voor de hand liggende veronderstelling dat een aantal vragen minder dan 10 van zulke treffers heeft opgeleverd. Niet duidelijk is of de oorzaak daarvan zou kunnen zijn dat een aantal vragen wegens spelfouten een nulresultaat opleverde.

Wat de overlap tussen de resultaten betreft, de cijfers die Dogpile over het tweede onderzoek (van juli 2005) verschaft, verschillen iets van de cijfers die het over het eerste onderzoek (van april 2005, waarin MSN Search nog niet was opgenomen) verstrekte. Die cijfers zijn nu (p. 13):
  • 1,1% van de 485.460 ontdubbelde treffers zat in het zoekresultaat van alle vier de zoekmachines
  • 2,6% zat in het zoekresultaat van drie van de vier zoekmachines
  • 11,4% werd gedeeld door twee zoekmachines
  • 84,9% was uniek voor een van de vier zoekmachines
Overigens worden deze cijfers in Appendix A (p. 23-24) van de studie enigszins gerelativeerd door een verwijzing naar een controle-analyse op het eerste onderzoek, waarbij voor de berekening van de overlap alleen de root domain (dus zonder prefixen als www, www1, en suffixen als .com/news, .com/sports) werd meegeteld. Voor het eerste onderzoek bracht dit het percentage treffers dat 2, dan wel 3 zoekmachines gemeen hadden van 15% op 20%.

Het zou te ver voeren hier alle getallen en percentages te noemen die de studie bevat. Daarvoor kunt u beter het onderzoeksrapport zelf raadplegen. Een paar interessante getallen wil ik u echter niet onthouden:
  • het absolute en gemiddelde aantal algoritmische treffers voor Yahoo! (114.607, resp. 9,1 per eerste resultatenpagina) en Ask Jeeves (114.497, resp. 9,1 per eerste resultatenpagina) is groter dan voor Google (111.779, resp. 8,9 per eerste resultatenpagina). Wat Ask Jeeves betreft kan de verklaring liggen in het feit dat Ask Jeeves phrases en de impliciete EN-relatie tussen zoektermen laat vallen als die geen resultaat opleveren, maar bij Yahoo! zou ik het omgekeerde verwacht hebben.
  • het absolute en gemiddelde aantal algoritmische treffers voor MSN Search (111.398 of 8,9 per eerste resultatenpagina) is vrijwel gelijk aan die van Google. Ook dat is verrassend, gegeven het feit dat Google voor de meeste vragen een groter aantal treffers zal hebben dan MSN, plus het feit dat MSN voor veel vragen die mede gesponsorde resultaten opleveren op de eerste resultatenpagina geen tien maar slechts negen algoritmische treffers toont (zie bijvoorbeeld: Florida holiday).
Zoals ik al in mijn eerste stukje over het eerste Dogpile-rapport opmerkte, vind ik het op één hoop gooien van algoritmische en gesponsorde treffers ongelukkig, ook al is uit onderzoek gebleken dat veel gebruikers dat onderscheid ook niet weten te maken. Dat bezwaar geldt ook voor een berekening die het nieuwe rapport op p. 14 maakt, waar wordt gekeken naar het aantal en het percentage van mogelijke topresultaten die een zoeker zou hebben gemist als hij/zij maar één zoekmachine zou hebben gebruikt. Voor Google bijvoorbeeld is dat aantal, resp. percentage 343.700, resp. 70,8%. Dat lijkt heel veel, tot je beseft dat de gemiddeld 9,1 treffers die Google geeft hier worden vergeleken met de gemiddeld 36 treffers van alle zoekmachines gezamenlijk. Interessanter zou zijn geweest als men de algoritmische treffers op Googles eerste vier resultatenpagina's had vergeleken met de treffers op de eerste resultatenpagina's van alle vier de zoekmachines gezamenlijk. Wat hier ook niet vermeld wordt is dat Dogpile zelf voor dit probleem ook geen oplossing biedt, omdat het op zijn eigen resultatenpagina's nooit meer dan 20 treffers toont, en dan nog algoritmische en gesponsorde door elkaar.

De afwijkende manier waarop Dogpile als metazoekmachine met zijn resultaten omgaat, geeft ook een scheef beeld van de relatieve relevantie van zijn zoekresultaten. Relevantie wordt in het onderzoek gemeten aan de hand van het percentage zoekacties dat in een klik (aangeklikte link) resulteerde (de zogeheten "Success Rate"), en het aantal links per eerste resultatenpagina dat dan werd aangeklikt (Clicks per Successful Search). Uit eigen ervaring lijkt mij dit nogal een dubieuze manier om relevantie te meten, maar alla. Nog dubieuzer vind ik dat op blz. 18 van het rapport de Success Rate, resp. de Clicks per Successful Search van Dogpile (62,9%, resp. 2,08) worden vergeleken met die van de afzonderlijke zoekmachines (bijvoorbeeld Google 55,6%, resp. 1,95) zonder dat daarbij uitdrukkelijk melding wordt gemaakt van het feit dat de doorsnee eerste resultatenpagina van Dogpile 18,4 treffers bevat, en die van Google 11,3. Dat gegeven staat wel in het rapport, op blz. 13, maar wordt niet bij de berekening op blz. 18 uitdrukkelijk vermeld. We zullen dus niet weten of de resultaten van Google en de andere afzonderlijke zoekmachines op het punt van de zo gemeten relevantie niet beter zouden zijn dan die van Dogpile als het aantal treffers per pagina voor de afzonderlijke zoekmachines eenvoudig op 20 was ingesteld.

Wat ook niet wordt vermeld is dat de verhouding tussen algoritmische en gesponsorde resultaten bij Dogpile heel anders kan zijn dan bij de achterliggende zoekmachines. Een zoekactie naar Hawaii vacation bijvoorbeeld levert 17 gesponsorde treffers (dus advertenties) op, naast slechts 3 algoritmische resultaten. Van de 17 gesponsorde treffers zijn er overigens 2 van Looksmart, dus niet van een van de vier groten.

Er is nog een algemene veronderstelling waarvan metazoekmachines uitgaan waar ik mijn twijfels bij heb. Dat is dat een treffer die bij zoekmachine a op plaats 9 in de ranking staat per definitie "beter" is dan die welke bij zoekmachine b op plaats 11 staat. Bovendien wordt verondersteld dat treffer 1 van zoekmachine a altijd beter is dan treffer 10 van dezelfde zoekmachine. In werkelijkheid is het heel goed mogelijk dat alle eerste tien treffers een goed antwoord op de vraag bevatten. Last but not least is de veronderstelling dat een vraag die bij zoekmachine a niet tot een klik leidt (en "dus" niet succesvol is -- op zichzelf ook al een twijfelachtige aanname), dat bij zoekmachine b wel zou doen, ook nogal gewaagd: in veel gevallen zal de vraagstelling gewoon verkeerd zijn geweest. Dat zou misschien ook wel kunnen worden opgemaakt uit het hoge percentage (37,1%) zoekacties dat zelfs bij Dogpile niet tot een klik op de eerste resultatenpagina leidde.

Het rapport bevat nog een paar interessante getallen: zo gebruiken zoekers gemiddeld 2,8 zoekmachines per maand, en meldt de studie op blz. 7 dat het web 45 miljard openbaar toegankelijke statische webpagina's telt. Het laatste getal komt naar het schijnt bij About.com vandaan, maar wordt daar onvoldoende toegelicht.

Misschien ben ik te negatief over dit onderzoek. Voor een heel wat positiever geluid, zie Chris Shermans bespreking in SearchEngineWatch van 2 augustus.

Permalink

4.8.05

Javascript cloaking

Het bericht was zelfs tot de NRC van 1 en 2 augustus doorgedrongen: een aantal Nederlandse bedrijven is door Google bestraft ("penalized") omdat ze hun ranking op bepaalde zoektermen op een ongeoorloofde manier verkregen. Die praktijk in het algemeen staat bekend als "search engine spamming" en er bestaat een hele waslijst van inventieve en minder inventieve methoden om deze speciale variant van spamming te realiseren.
Een van de methoden op die lijst is "cloaking", waarmee wordt bedoeld dat aan de spiders van de zoekmachines een andere pagina wordt gepresenteerd dan aan de gebruiker. Een speciale vorm daarvan is dan weer Javascript cloaking, waarbij de gebruiker -- met Javascript aan -- op een visueel aantrekkelijke homepage wordt vergast, met de tekst aan het oog onttrokken, terwijl de spiders van de zoekmachines dezelfde pagina met allerlei tekst te zien krijgen, vervolgens die tekst indexeren, op basis daarvan de pagina een hoge ranking geven en ten slotte de visueel aantrekkelijke pagina zonder de tekst vertonen als de link in het resultaat wordt aangeklikt.
Bij Jeroen.com is goed te zien hoe dit werkt. Je vindt daar twee pagina's van AMEV, een die werd getoond met Javascript aan, en een met Javascript uit. Beide pagina's zijn nog altijd te bekijken door ze resp. met Javascript aan en uit via Archive.org op te roepen. In Firefox zet u Javascript aan en uit via Tools, Options, Web Features.
Wie de pagina bekijkt zoals de spiders van de zoekmachines die te zien krijgen, begrijpt meteen dat -- in elk geval bij de pagina van AMEV -- cloaking op zichzelf niet het grote probleem is; per slot van rekening is het voor ons gebruikers wel prettig als we onze zoektermen in de pagina's terugvinden die de zoekmachines ons als de meest relevante resultaten voor de opgegeven zoektermen presenteren, maar zolang meteen duidelijk is dat zulke pagina's toegang geven tot relevante sites is het allemaal niet zo erg als dat niet zo is. Maar bij de AMEV-pagina is sprake van een aanzienlijk ergere zonde, namelijk het overladen van de pagina met keywords en phrases die de pagina een hoge ranking moeten bezorgen ("keyword stuffing"). Dat overladen gebeurt in een mate die AMEV ons als gebruikers niet zou willen aandoen, en is dus zeker bedoeld om de zoekmachines te misleiden. Dat Google bedrijven die zich aan zulke praktijken schuldig maken straft, vind ik dan ook volkomen terecht. Ze ondermijnen het vertrouwen van gebruikers in de resultaten die zoekmachines bieden en hinderen hen bij het vinden van de beste resultaten.
Overigens was AMEV, met een aantal andere verzekeraars, al in mei de klos, en vind je de site van deze verzekeraar alweer boven in de resultatenlijst van Google als je op AMEV "financieel adviseur" zoekt. Javascript cloaking blijkt hier nu niet meer te worden toegepast, kijk maar naar de source van http://www.amev.nl/amev/; weliswaar probeert AMEV de pagina nog met een heleboel tekst die de gebruiker niet ziet aan de man te brengen, maar dat is allemaal tekst in het Meta-gedeelte van de pagina, en dat wordt door Google toch niet in zijn ranking gebruikt (wel door MSN Search bijvoorbeeld). Vergelijk vervolgens de tekst van deze pagina met de source van de gearchiveerde pagina bij Archive.org, hierboven vermeld. Kwam daar de phrase "financieel adviseur" nog dertig keer (!) voor, in de huidige pagina is dat aantal teruggebracht tot drie.

Permalink

3.8.05

Overlap tussen zoekmachines II

Mijn vorige stukje over de overlap tussen de eerste zoekresultaten van de grote zoenmachines stond nog maar net op de site van IP Online of SearchDay meldde dat Dogpile een nieuwe studie had uitgebracht, waarin ook resultaten van MSN Search waren opgenomen. Daarbij was het aantal vragen van 10.316 uitgebreid naar 12.570, en het aantal unieke zoekresultaten van ruim 336.000 naar ruim 485.000.
Het onderzoeksrapport telt ditmaal dertig bladzijden. Voordat ik daar -- een van de komende dagen -- op inga moet ik echter eerst een ernstige rekenfout rechtzetten die ik in mijn vorige stukje over de overlap tussen Google, Yahoo! en Ask Jeeves heb gemaakt. Ik schreef daar: "De reden van dat hoge aantal treffers is niet dat de eerste dertig algoritmische treffers van elke zoekmachine zijn geteld, maar dat algoritmische en betaalde zoekresultaten bij elkaar zijn opgeteld. Aangezien het aantal algoritmische resultaten ruim 100.000 zal hebben bedragen, hebben de resultaten van dit onderzoek dus voor meer dan twee derde betrekking op de "sponsored results" en kan voor dat deel van de resultaten eigenlijk alleen de conclusie worden getrokken dat de overlap tussen de adverteerders bij Google, Yahoo! en Ask Jeeves klein is." Dat is natuurlijk niet waar. Bij een onderzoek naar drie zoekmachines die op 10.316 vragen tien algoritmische treffer per zoekmachine opleveren, bedraagt het totale aantal algoritmische treffers maximaal ca. 310.000. Hoe groot het aantal "sponsored results" is, weten we niet, want het (eerste) onderzoeksrapport van Dogpile meldt alleen dat het aantal "unieke" resultaten ruim 336.000 bedroeg. Het verschil van 26.000 zit 'm in de "sponsored results", maar of dit alle "sponsored results" zijn of slechts een deel ervan, weten we niet, omdat het totale aantal resultaten ons niet gemeld wordt. Omdat alleen de "unieke" resutaten worden vermeld, kan het aantal "unieke" algoritmische treffers (aanzienlijk) lager liggen dan 310.000, wat binnen de opgegeven aantallen meer ruimte laat voor "sponsored results". Hoe dan ook, de invloed van deze treffers op de bevindingen van Dogpile moeten veel kleiner zijn dan ik aannam. Gelukkig geeft het tweede onderzoeksrapport hierover wel uitsluitsel. Op p. 13 van dit rapport wordt een percentage van 18-27 opgegeven.

Binnenkort hierover meer.

Permalink