Automatisk generering av dokument-identifikatorer
Fra Biblab
I en tid der det blir mer og mer aktuelt å koble sammen data fra ulike kilder blir behovet for identifikatorer større. Problemer oppstår når man får behov for å vite om feks to bibliografiske poster fra to ulike bibliotek-kataloger beskriver den samme "tingen" eller to forskjellige "ting". Dersom begge postene inneholder det samme ISBN-nummeret kan man være relativt trygg på at "tingene" ligner på hverandre, men hva om postene ikke inneholder ISBN-nummer, eller man ønsker å utføre sammenligningen på et annet (FRBR-)nivå?
Det finnes to hovedfremgangsmåter for å opprette nye identifikatorer:
- Tilfeldige identifkatorer, løpenummer osv tilordnes uten hensyn til hva de identifiserer. Dersom eksisterende samlinger av data skal gjøre seg nytte av disse må de legges inn manuelt, feks i en MARC-post.
- Identifkatorer som er basert på det de identifiserer, feks en kombinasjon av forfatter og tittel for å identifisere et "verk", uavhengig av ulike utgaver. Fordelen med dette er at identifkatorer kan genereres fra eksisterende metadata som MARC-poster, mer eller mindre uten behov for manuelt arbeid.
Denne siden er opprettet for å samle informasjon om ulike fremgangsmåter og algoritmer for å generere den siste typen identifikatorer for dokumenter.
Belgiske folkebibliotek
"Kombinasjonen av standardtittel og forfatter med spesialtegn fjernet, samt et løpenummer først for å skille eventuelle likelydende tittel/forfatterkombinasjoner" Kilde?
Bibliofil-ID
FRBR-nivå: ?
"Bibliofi l-ID identifiserer unike verk basert på fire felt. Tittel, materialtype, utgivelsessted og utgiverår. I tillegg har vi et felt for å skille poster som Bibliofi l-ID tror er identiske, men som ikke er det." Kilde
Biblioteksøk
?
Europeana
?
LIBRIS
?
SwissBib
The algorithm takes into account the content of the following fields: ISBN, title, author, editor, pagination, media type. For each field the algorithm assigns a number that signifies the similarity of its content. The fields mentioned above are of different importance and therefore the assigned numbers are of different values. A number between 0 and 10 signifies a duplicate. 11 and 12 are still strong indicators for duplicates. Whether a record is finally taxed as a duplicate depends onthe assignment of these values to specific fields. Numbers over 20 indicate that it could not be a duplicate. The algorithm still has potential to be refined. The zone for collection 490 and the language code of 008 or 040 could be included into the analytical framework. Kilde