Automatisk generering av dokument-identifikatorer

Fra Biblab

Gå til: navigasjon, søk

I en tid der det blir mer og mer aktuelt å koble sammen data fra ulike kilder blir behovet for identifikatorer større. Problemer oppstår når man får behov for å vite om feks to bibliografiske poster fra to ulike bibliotek-kataloger beskriver den samme "tingen" eller to forskjellige "ting". Dersom begge postene inneholder det samme ISBN-nummeret kan man være relativt trygg på at "tingene" ligner på hverandre, men hva om postene ikke inneholder ISBN-nummer, eller man ønsker å utføre sammenligningen på et annet (FRBR-)nivå?

Det finnes to hovedfremgangsmåter for å opprette nye identifikatorer:

  • Tilfeldige identifkatorer, løpenummer osv tilordnes uten hensyn til hva de identifiserer. Dersom eksisterende samlinger av data skal gjøre seg nytte av disse må de legges inn manuelt, feks i en MARC-post.
  • Identifkatorer som er basert på det de identifiserer, feks en kombinasjon av forfatter og tittel for å identifisere et "verk", uavhengig av ulike utgaver. Fordelen med dette er at identifkatorer kan genereres fra eksisterende metadata som MARC-poster, mer eller mindre uten behov for manuelt arbeid.

Denne siden er opprettet for å samle informasjon om ulike fremgangsmåter og algoritmer for å generere den siste typen identifikatorer for dokumenter.

Belgiske folkebibliotek

"Kombinasjonen av standardtittel og forfatter med spesialtegn fjernet, samt et løpenummer først for å skille eventuelle likelydende tittel/forfatterkombinasjoner" Kilde?

Bibliofil-ID

FRBR-nivå: ?

"Bibliofi l-ID identifiserer unike verk basert på fire felt. Tittel, materialtype, utgivelsessted og utgiverår. I tillegg har vi et felt for å skille poster som Bibliofi l-ID tror er identiske, men som ikke er det." Kilde

Biblioteksøk

?

Europeana

?

LIBRIS

?

SwissBib

The algorithm takes into account the content of the following fields: ISBN, title, author, editor, pagination, media type. For each field the algorithm assigns a number that signifies the similarity of its content. The fields mentioned above are of different importance and therefore the assigned numbers are of different values. A number between 0 and 10 signifies a duplicate. 11 and 12 are still strong indicators for duplicates. Whether a record is finally taxed as a duplicate depends onthe assignment of these values to specific fields. Numbers over 20 indicate that it could not be a duplicate. The algorithm still has potential to be refined. The zone for collection 490 and the language code of 008 or 040 could be included into the analytical framework. Kilde
Personlige verktøy