Send As SMS

16.1.06

Een eigen LASE

In een ver verleden, toen dat nog zinvol leek, heb ik eens een overzicht van speciale zoekmachines samengesteld. Dat overzicht omvatte zoekmachines over allerlei onderwerpen en vakgebieden, maar ook diverse typen zoekmachines, bijvoorbeeld site search engines, metazoekmachines, databases en LASEs. De laatste acroniem staat voor Limited Area Search Engines en duidt een type zoekmachine aan waarvan ik lang heb gedacht dat het een belangrijke rol op het Web zou gaan spelen: het zijn zoekmachines die alleen een geselecteerd aantal servers of delen van servers met informatie over een bepaald vakgebied of onderwerp indexeren en doorzoekbaar maken.
Voorbeelden van zulke LASEs waren Argos (oudheid en middeleeuwen) en Hippias (filosofie), beide van de University of Evansville, en MedHunt (geneeskunde) en ISN LASE (internationale betrekkingen), twee uit Zwitserland afkomstige LASEs. Van deze vier zijn de eerste twee inmiddels al weer enige jaren verdwenen, de andere twee bestaan nog, en speciaal MedHunt is een mooi voorbeeld van een goed doordachte LASE.
Een onverdeeld succes zijn LASEs dus niet geworden, en je kunt je daar wel iets bij voorstellen. In de traditionele opzet hebben ze bijvoorbeeld als nadelen dat er veel mensenwerk in moet worden gestoken de servers te identificeren en te selecteren die door de spiders van de LASE moeten worden bezocht, en dat ze altijd achter zullen lopen bij de dynamische ontwikkelingen -- opkomst, verhuizing en ondergang van servers -- op het Web. Anderzijds: LASEs hebben wel degelijk voordelen boven algemene zoekmachines: in termen van recall en precision kunnen ze de precision van een zoekresultaat aanzienlijk verhogen ten koste van een relatief geringe verlaging van de recall. Ook voor webmasters, die met een site search engine doorgaans alleen de eigen site ontsluiten, heeft het aanbieden van een LASE boven dat van een site search engine voordelen: een goede LASE, die ook de informatie op verwante sites ontsluit, kan meer bezoekers naar de eigen site trekken dan het aanbod op de site zelf zou doen.
Dat LASEs nog altijd een aantrekkelijk concept zijn blijkt wel uit het feit dat er nog altijd een markt lijkt te zijn voor zoekmachines waarin dit idee vorm krijgt. Sinds ongeveer medio 2005 bestaat er een zoekmachine met de naam Rollyo: Roll Your Own Search Engine. Het idee is simpel: de zoekmachine maakt gebruik van de database en de zoektechnologie van Yahoo! en biedt gebruikers de mogelijkheid hun eigen "searchrolls" samen te stellen. Searchrolls zijn lijstjes van sites met gespecialiseerde informatie die door de samensteller van de searchroll worden gekozen, exact het concept dus dat we hierboven bij een LASE hebben gezien. In feite komt het erop neer dat u door in een searchroll van Rollyo te zoeken, een zoekactie met Yahoo! doet, beperkt tot de sites die in de searchroll staan opgesomd.
Wie de site van Rollyo bezoekt treft daar dus een flink aantal van die searchrolls bij elkaar, onder meer die van bekende namen als Gary Price (Library Orgs) en John Battelle (The Search Search). Mijn indruk is overigens dat deze en andere bekende personen door Rollyo zijn aangezocht om zo'n searchroll te openen, maar dat tussen haakjes. Alleen, zo'n heel stel verder ongeordende speciale zoekmachines bij elkaar, daar heeft natuurlijk niemand veel aan; interessanter is als je zo'n zoekmachine op je eigen site kunt zetten, en uit diverse treffers die je vindt als met Google of Yahoo! naar de phrase "powered by Rollyo" zoekt, blijkt dat dat ook kan. De zoekmachine van een biersite, genaamd Hail the Ale! is een voorbeeld; die biedt de mogelijkheid om alleen de site zelf te doorzoeken, dan wel de searchroll van -- op deze plaats niet verder opgesomde -- biersites.
Wie de FAQ van Rollyo eens wat nader bekijkt stuit al gauw op enkele hinderlijke beperkingen: het aantal sites in de searchroll mag de 25 niet te boven gaan, en je kunt daarbij alleen sites (bijv. www.leidenuniv.nl) en subdomains (bijv. ub.leidenuniv.nl) opgeven, maar geen onderdelen daarvan (bijv. www.leidenuniv.nl/ub/). Die beide beperkingen zijn onnodig, want zoals gezegd gebruikt Rollyo Yahoo!, en die zoekmachine zelf biedt veel ruimere mogelijkheden:
  1. zoekexpressies zijn in principe onbeperkt van lengte, zodat je een zoekvraag kunt combineren met een onbeperkt aantal sites in een OF-relatie
  2. Yahoo! heeft behalve de limiter site: ook de limiter path:, die al dan niet met site kan worden gecombineerd
  3. en Yahoo! ondersteunt full Boolean, wat vragen van het type "el-medina" AND (site:uchicago.edu AND path:oi) OR (site:leidenuniv.nl AND path:nino) mogelijk maakt. Zoals bekend, zijn zulke vragen bij Google, dat wel een maximum van 32 zoektermen per vraag heeft, niet mogelijk).
We kunnen ons dus afvragen of we niet buiten Rollyo om een LASE kunnen maken die gebruik maakt van Yahoo! zonder de beperkingen die Rollyo ons oplegt. Dat kost wat meer moeite dan wanneer we Rollyo gebruiken, maar het kan wel.
Wat we daarvoor nodig hebben is een stukje HTML dat een op het oog lege zoekregel op het scherm laat zien waarin wijzelf of andere gebruikers van onze LASE de zoekvraag kunnen typen.
Dat ziet er zo uit:

<!-- Begin Yahoo Link -->

<FORM METHOD="GET" ACTION="http://search.yahoo.com/bin/search">
<INPUT SIZE="30" NAME="p" VALUE=""><INPUT TYPE="submit"
VALUE="Yahoo! Search"></FORM>

<!-- End Yahoo Link -->

De eerste VALUE in dit stukje HTML is de plaats waar in de browser de lege
zoekregel verschijnt en waar u of een andere gebruiker de zoekvraag
typt. Om nu te bereiken dat die zoekvraag alleen op de geselecteerde
sites wordt uitgevoerd laten we binnen die VALUE enige ruimte voor de
gebruiker open om zijn vraag in te typen en voegen daar, onzichtbaar
voor die gebruiker de sites etc. waartoe we de uitvoering van de vraag
willen beperken, aan toe:

<!-- Begin Yahoo Link -->

<FORM METHOD="GET" ACTION="http://search.yahoo.com/bin/search">
<INPUT SIZE="30" NAME="p" VALUE="
AND (site:uchicago.edu AND path:oi) OR (site:leidenuniv.nl AND path:nino)"><INPUT TYPE="submit"
VALUE="Yahoo! Search"></FORM>

<!-- End Yahoo Link -->

Een voorbeeld geef ik hieronder. Met de getoonde zoekregel zoekt u na het invullen van uw zoektermen met Yahoo! op de sites van enkele tientallen Amerikaanse, Canadese en Britse bibliotheek- en informatie-opleidingen:







Als voorbeeld kunt u proberen: (proximity OR adjacency).
Voor de zoektaal van Yahoo!, waarvan niet alle mogelijkheden door Yahoo! zelf zijn gedocumenteerd, zie Greg Notess' review op Searchengineshowdown.
Het moet mooier kunnen dan het voorbeeld dat ik hierboven heb gegeven: zie het artikel Yahoo's No-Limit Query Limit As Opposed to Google's -- So What? in Tara Calishains Researchbuzz van 19 augustus 2004. Alleen, Tara kent kennelijk Perl (en kan het op haar site ook gebruiken), aan mij is programmeren in wat voor vorm ook niet besteed.

Permalink