Matthijs van Otegem
Hoofd van Productie & Beheer, de backoffice van de Koninklijke Bibliotheek
Hoofd van Productie & Beheer, de backoffice van de Koninklijke Bibliotheek
Over digitalisering en de fijne kanten ervan voor toegang hoeven we het niet te hebben. Nu even met backofficers onder elkaar: hoe beheren we al die nieuwe digitale objecten in onze database? En hoe weten we of er een relatie is met een fysiek object en hoe ze zich verhouden?
Iemand publiceert een ebook. Fijn, we stoppen het record in onze database en stellen het beschikbaar. Een volgende publiceert naast het ebook een gedrukte versie. Nu kunnen we kiezen. Zijn het twee verschillende publicaties? Dan heb je ook twee nieuwe records in je database. Je zou ook kunnen zeggen dat het dezelfde publicatie is in twee versies. Dan maak je één record met twee exemplaren eraan. Want waarom zou je dezelfde metadata dubbel opslaan?
Dit is in essentie de vraag achter de keus voor de zogeheten één- of tweerecordmethode. Internationaal is de tweerecordmethode dominant en ook in Nederland hebben OCLC en UKB hiervoor gekozen. Ook al is deze keus zes jaar geleden gemaakt, gek genoeg heeft nog niemand bedacht wat de consequenties zijn. Die gaan we nu verkennen.
Op het eerste gezicht is de tweerecordmethode lekker praktisch. Je koopt een collectie ebooks en je kan de metadata zo in je catalogus pompen. Dat gaat lekker snel! Nu gaan we digitaliseren. Ook simpel toch? Zodra je de scans hebt geproduceerd, maak je een kopie van je ‘fysieke’ record. Zet er een link in en je hebt een digitaal record gemaakt. Belangrijk, want bijvoorbeeld Worldcat selecteert op materiaalcode en als je zoekt op e-only, pakt hij alleen de digitale records mee.
Andersom wil je wel dat iemand bij het fysieke record ook geattendeerd wordt op de aanwezigheid van een digitale versie. Voor je het weet, krijg je IBL-aanvragen voor iets wat iemand gewoon zelf kan downloaden. Er moet dus ook een link naar het digitale record komen in het fysieke record. Maar niet zomaar een link. Je wilt weten welk exemplaar gebruikt is voor digitalisering.
Vooral bij oude drukken kan er veel verschil zijn tussen exemplaren onderling en een wetenschapper heeft niets aan de digitale versie als niet duidelijk is wat de bron was. Nu wordt het al wat lastiger: het is een algemene eigenschap dat een titel gedigitaliseerd is, maar een exemplaargebonden eigenschap welk boek daarvoor is gebruikt. Hoe geef je dat aan? Ik zou het niet weten. Doe maar wat, het ligt niet vast.
Eigenlijk is de term tweerecordmethode misleidend: alsof het er twee zijn!? Kijkt u mee naar het volgende praktijkvoorbeeld. De KB bezit een grote pamflettencollectie. Die is ooit op microfilm gezet door IDC Publishers. Brill heeft die partij overgenomen en de microfilms gedigitaliseerd. De UB Groningen heeft een licentie genomen en alle digitale records in het GGC geladen. Naar welk record moeten zij nu linken? Het originele record van de KB, het record van de microfilm of allebei? Wacht nog maar even met antwoorden, want we gaan verder…
Op dit moment digitaliseert Proquest in de KB rechtstreeks de pamfletten vanaf het origineel. Die records komen vanzelfsprekend ook in het GGC. Van dezelfde publicatie hebben we straks vier records: het fysieke origineel, de microfilm, de scan van microfilm en het gescand origineel. Bent u er nog? Dan gaan we door…
Voor de klant maakt onze administratie niet uit, die wil gewoon informatie vinden. Misschien is van het pamflet een tweede of derde – ongewijzigde? – herdruk verschenen. Als je de tweede druk vindt, wil je weten dat de eerste druk digitaal beschikbaar is. Misschien zijn de verschillen niet zo groot dat je daarvoor naar de KB wilt komen om het origineel te raadplegen. Dus wil je ook verwijzen van latere drukken naar de digitale versie (welke?). Nog interessanter wordt het als die latere druk zich óók in de KB-collectie bevindt. Dan heb je daarvan ook weer een microfilm, scan van microfilm en scan van het origineel…
Voor elke bibliotheek die de groei van de catalogus als KPI heeft, is de tweerecordmethode fantastisch. In het beheer zitten er nog wel wat haken en ogen aan. In dit simpele voorbeeld van een pamflet met één herdruk hebben we al 4x4 relaties te leggen. Ziet u het nog voor zich? Zo ja, zou u dan het metadataschema willen tekenen en mailen? Onze dank is groot.
Lees ook:
Backoffice op de voorgrond (1): In de cloud
Backoffice op de voorgrond (2): Hebben we de ziekte van Baumol?
Backoffice op de voorgrond (3): Informatie als economisch goed
Backoffice op de voorgrond (4): Bibliothecaris leert van econoom
Backoffice op de voorgrond (5): Total cost of ownership
Backoffice op de voorgrond (6): Het proces
Backoffice op de voorgrond (7): Return on investment
Backoffice op de voorgrond (8): Wat kost digitalisering… en wat levert het op?
Backoffice op de voorgrond (9): De klant
Backoffice op de voorgrond (10): Het Kwaliteitshuis
Backoffice op de voorgrond (11): 8 vormen van verspilling
Backoffice op de voorgrond (12): Go with the flow
Backoffice op de voorgrond (13): Het raadselspel
Backoffice op de voorgrond (14): Hoeveel fout is goed?
Hartelijk dank voor je uitgebreide reactie. Wat de VU prima doet, is de signatuur van het gebruikte exemplaar vermelden bij de locatie van het origineel. Hierin zijn jullie een witte raaf volgens mij, maar dit is een voorbeeld om na te volgen.
Matthijs van Otegem @ 01-11-2012 12:34De kruisverwijzing via 4280 is ook een mooie oplossing (liever dan 4262). Het ongelukkige is dat OCLC geen duidelijke labels meegeeft in de presentatie. Bij 4280 ziet de gebruiker in het fysieke record alleen 'andere versie'; dan moet hij zelf maar bedenken dat dit een digitale versie zou kunnen zijn. Door consequent te kiezen voor hetzelfde KMC zou OCLC ook een passender label mee kunnen geven.
Of je wil linken naar andere versies die niet een directie origineel-reproductie relatie hebben is een vraag. Je wil ze bij elkaar kunnen presenteren, maar linken is daarvoor niet absolute noodzaak. Dat zou ook je probleem van de vindbaarheid van digitale 2e druk tov originele 1e druk opheffen.
Kortom, mooie aanpak bij de VU en hier kunnen we wat van leren!
Geen dataschema, maar ik zou toch graag reageren op dit prikkelende stuk ‘Backoffice op de voorgrond (15).
J.H.M. Houtkamp @ 31-10-2012 09:17Gedigitaliseerd materiaal: Matthijs schrijft 'Andersom wil je wel dat iemand bij het fysieke record ook geattendeerd wordt op de aanwezigheid van een digitale versie'. Er moet dus ook een link naar het digitale record komen in het fysieke record. Maar niet zomaar een link. Je wilt weten welk exemplaar gebruikt is voor digitalisering?
Wij, i.e. de instelling die het materiaal digitaliseert, weten éxact welk exemplaar daarvoor gebruikt is. Het ligt dan ook voor de hand dat die instelling zelf de records voor origineel en gedigitaliseerde versie linkt.
Bij de UBVU wordt gecatalogiseerd in GGC (ook het e-materiaal), via OUF komen de gegevens in ons LMS. Wij volgen de twee-recordmethode, en voor e-books en gedigitaliseerd materiaal hanteren we eigenlijk dezelfde 5-stappenprocedure; voor e-books stap 1 t/m 5, voor gedigitaliseerd materiaal volstaan stap 4+5.
4. Van A-records wordt een kopie gemaakt die omgebouwd wordt tot O-record; hier wordt behalve lokaal- en exemplaarblok ook een 4280-relatie toegevoegd naar het gebruikte A-record.
5. In de A-records wordt ten slotte een 4280-relatie toegevoegd naar het gecreëerde O-record.
De metadata van te digitaliseren exemplaren worden zo vroeg mogelijk in het hele digitaliseringstraject geregistreerd (we hebben recent ‘Metamorfoze bijgeleerd’), en zonodig op orde gebracht; de procedure wordt verder uitgevoerd met behulp van scripts die vanuit een bronbestand 1, 10 of titels achter elkaar kunnen verwerken.
Stap 5 is weliswaar een aparte stap maar behoeft geen ingewikkelde, of tijdrovende, extra zoekacties meer: de benodigde gegevens (ppn origineel, ppn O-versie) zijn bij stap 4 weggeschreven in een logbestand, en dus voorhanden. Dit soort ‘linking’ is in deze opzet geen knelpunt.
“een exemplaargebonden eigenschap welk boek daarvoor is gebruikt. Hoe geef je dat aan? Ik zou het niet weten. Doe maar wat, het ligt niet vast”
Onze eerste gedigitaliseerde materialen waren bestemd voor de Beeldbank. Omdat ook daar metadata gewenst zijn, en dubbel werk ongewenst, worden de records van de gedigitaliseerde versie in GGC ook geëxporteerd naar ContentDM. Het format van de beschrijvingen is in overleg met OCLC ontwikkeld (en wordt voor elke nieuwe materiaalsoort zonodig aangevuld). Gegevens die aan de beschrijving worden toegevoegd zijn o.a. het gebruikte exemplaar (plek+signatuur), alsmede de opdrachtgever, en de firma die het uitgevoerd heeft, en datum van digitalisering (bijv in Picarta: ppn 341357707).
Wanneer verschillende exemplaren gedigitaliseerd zijn (bijv. omdat ze in verschillende collecties zitten, of in verschillende, in zijn geheel gedigitaliseerde convoluten zitten), levert dat evenzoveel nieuwe records op, alle gerelateerd aan hetzelfde oorspronkelijke record. De verschillen zitten dan in de toegevoegde digitaliseringsgegevens.
Of dit de methode is, en of dit voor gemeenschappelijk gebruik het beste format zal verder moeten blijken.
Of een klant nu uitkomt bij de titel voor het oorspronkelijke fysieke exemplaar of bij die van het gedigitaliseerde: in onze OPC vindt hij de andere versie onder de link Uitgave op ander medium.
Nav de vraag ‘Voor de klant maakt onze administratie niet uit, die wil gewoon informatie vinden’. Misschien is van het pamflet een tweede of derde – ongewijzigde - herdruk verschenen. Als je de tweede druk vindt, wil je weten dat de eerste druk digitaal beschikbaar is’ een tegenvraag: Hoe vindt de klant nu die eerste druk vanuit die tweede druk?
Niet omdat er een link is, er is hooguit een annotatie over die eerste (eerdere) druk. Waarschijnlijker is dat beide in dezelfde set treffers zit, na zoekactie, bijv op titel/auteur? In die set zitten dan ook de gedigitaliseerde versies - tenzij materiaalsoort als zoekterm opgegeven was¦. Maar in dat geval ziet de klant, wanneer hij die eerste druk-titel bekijkt de link bij Uitgave op ander medium.
Andere vraag: Is het aanbrengen van links tussen records van verschillende drukken wel nodig of gewenst? Zou je dat dan alleen doen ingeval er digitale versies in het spel zijn, of ook bij alleen fysiek?
Er zijn natuurlijk ook andere soorten links, niet tussen A+B, A+C en B+C, maar obv, of vanuit, X naar A, B, C etc. een tekst-ingang of link naar ingangenrecord bij elk record. Voorbeeld: Uniforme hoofdwoorden - alle Beatrijs - en bij elkaar (in GGC op algemeen niveau in tekst, wij hebben op lokaal niveau hier een gethesaureerde ingang voor).
Een ontwikkeling als GLIMIR lijkt ook, nog mooiere, perspectieven te bieden: obv verschillende elementen worden titels gematched en als een cluster gepresenteerd. Toevoeging van extra links tussen, of ingangen bij niet 1-op-1 versies zou dan overbodig zijn.
Het voorbeeld van pamfletten in originele, microfilm, gedigitaliseerde microfilm, en gedigitaliseerd vanaf origineel-versie zou een mooie testcase kunnen zijn: worden ze allemaal netjes geclusterd?
Anneke Houtkamp
UBVU/Metadatabeheer
31/10/2012
Daniel van Spanje, senior product manager metadata services bij OCLC, stuurde een link naar de huidige richtlijn voor de GGC: http://support.oclc.org/ggc/richtlijnen/?id=1042&ln=nl Kies dan 'materiaalsoorten'. Onder het kopje 'Reproducties' (bijna onderaan) staat het document 'Reproducties - algemene inleiding'. De vragen staan nog open, maar we hebben wel alvast een beginnetje...!
Matthijs van Otegem @ 17-10-2012 10:32