Persistent Identifiers, hoe zat het ook alweer?

In 2008 en 2009 zijn er twee landelijke overleggen geweest tussen SARA, DANS, 3TU en ook DEN om over hoe samengewerkt kan worden op het gebied van Persistent Identifiers en duidelijkheid te verschaffen over de toepassingen van PID’s richting de onderzoekers. De partijen passen verschillende technieken toe, maar proberen het beleid rondom PID’s af te stemmen.

  • EPIC met SARA gebruikt HANDLE als PID techniek. Dit is PID techniek die snel is op te zetten en in te richten met een goed achterliggend managment systeem.
  • DANS en de repositories gebruiken URN:NBN, dit is een IETF standaard in wording die toekomst vast is en ongevoelig voor verandering in resolutie techniek en uitwissel protocollen.
  • DataCite waar de 3TU bij zit gebruiken DOI, dat is nu sinds een maand een ISO standaard en wordt herkent als ‘citable material’ door onderzoekers.

In 2009 is in Zweden, Stockholm een workshop geweest over het samenbrengen van de verschillende URN:NBN partijen in een cluster, maar dat ook andere technieken kan resolven. John Kunze (ARK) was hier aanwezig en heeft hiervoor ter plekke een proof of concept opgezet met zijn Name to Thing meta resolver n2t.net.

Deze workshop in Stokholm heeft er toe geleidt dat het PersID initiatief is gestart vanuit Knowledge Exchange. Het doel van PersID is om met de URN:NBN initiatieven uit verschillende landen de krachten te bundelen en een cluster te maken, en het beleid van URN:NBN af te stemmen en aan te scherpen. Daarnaast was het de bedoeling om open te zijn richting andere PID initiatieven, en te delen wat de PersID deelnemers hebben geleerd van de samenwerking op het gebied van beleid.

Deze open houding heeft vorig jaar in 2011 geleidt tot een internationale Persistent Object Identifier workshop bij NWO. Deze workshop georganiseerd door Knowledge Exchange, waar deze drie initiatieven (DOI, HANDLE, URN:NBN) en haar gebruikers bij elkaar zijn gebracht. (zie onderstaande foto) Hier werd overeengestemd in de “Den Haag Manifesto” dat de initiatieven meer met Linked Open Data (LOD) te gaan doen en via LOD meer onderling interoperabel te worden.

 

cc-by http://digitaalduurzaam.blogspot.nl/2011/06/persistent-identifiers-policy-and-will.html

Het beleid van de drie initiatieven verschillen onderling waardoor de toepassing ook verschilt. Voor een DataObject kun je dus verschillende PID’s aan toe kennen, afhankelijk wat je er mee wilt.

De positie van SURF is om een neutrale houding aan te nemen t.o.v. deze technieken en niet een van de drie te bevoordelen, maar toe te lichten om de wetenschapper van dienst te zijn zo een weloverwogen keuze te maken.

In EduStandaard staat momenteel de concept afspraak over Unieke Persistente Identifiers die Nationaal door het PO en VO is afgestemd. De afspraak heeft nu nog de status ‘concept’ en EduStandaard nodigt belanghebbenden uit om hierover verder te praten om volwassenheid te bereiken. Momenteel zijn de afspraken over de UPI’s gefocussed op de Educatieve Content Keten (ECK). Hierbij is het van belang dat de objecten uniek identificeerbaar zijn om re-mixen van content mogelijk te maken. De identifier is persistent, maar het beleid over de persistentie van het object en het resulutie meschanisme blijven onderbelicht. Hier moet het Wetenschappelijk Onderzoeksveld zijn stem laten horen voordat de afspraak definitief wordt.

In het Wetenschappelijk Onderzoek worden verschillende PID’s gebruikt om verschillende redenen. Hieronder een overzicht van de belangrijkste spelers.

URN:NBN richt zich niet alleen op de persistentie van de Identifier, maar ook van de persistentie van het geïdentificeerde materiaal en het resolutie mechanisme. Hiervoor is het noodzakelijk dat het materiaal is opgeslagen in een data archief bestemd voor lange termijn opslag dat voldoet aan minstens de Data Seal of Approval. URN is een IETF standaard in wording, en is bedoeld om onafhankelijk te zijn van een uitwisselprotocol. Momenteel is het http -protocol erg populair, maar dat kan in de toekomst veranderen. Alle identifiers die in feite beginnen met http:// zijn afhankelijk van het protocol, en daarmee niet persistent genoeg voor toekomstige verandering.

HANDLE is zeer eenvoudig in gebruik, snel toe te passen en het is bijna gratis. Zeer geschikt om in no-time persistente identifiers te genereren. Nadeel is dat er geen beleid op zit voor metadatatering en de persistentie van de objecten. Het is in feite heel plat. Het handle systeem heeft een goed PID management mechanisme, en rond de software zit een grote user community.

DOI is zeer geschikt om objecten citable en herkenbaar als ‘wetenschappelijk’ te bestempelen. Je moet wel een flinke zak met geld meebrengen. Maar dat kun je weer verdelen over deelnemers, zoals DataCite doet. Recentelijk heeft de DOI hun business model veranderd, zodat je niet meer per ID hoeft te betalen. Dit maakt het mogelijk een grote data volumes op een fijn granulair niveau te identificeren.

Als ik een data archief was dan zou ik het zo met de diversiteit aan PID’s om gaan:

  1. Default: Geef al je objecten een HANDLE
  2. Long term: Wil je het object voor de lange termijn bewaren, gebruik daarnaast ook URN:NBN; identificeer dat object of die data volume ook met een URN:NBN. Nadeel is dat het niet meer mag veranderen. Het is een snapshot in de tijd van het databestand
  3. Citable: Wil je het object citeren, daarnaast ook een DOI. Ook hier geldt het snapshot principe. Een citatie wordt gedaan op een dataset in een bepaalde time frame of een bepaalde query die geldig is voor dat onderzoek.

Meer informatie:

Meer achtergrond, n.a.v. reacties:

DOI is gebaseerd op het HANDLE mechanisme en heeft daarnaast een aanvullend business model. De toegevoegde waarde van DOI brengt ook kosten met zich mee. Afhankelijk van de verdeelsleutel betalen deelnemers per registration agency meer of minder. Registration Agencies zijn onder meer Crossref en DataCite.

URN heeft default geen resolutie mechanisme. Dat zijn oude discussies bij de IETF. (URI resolution en URN resolution with HTTP) Partijen die nu URN:NBN voeren moeten dit zelf regelen. In Nederland verzorgt de KB en DANS deze rol voor onder andere de repository gemeenschap. Darin werken ze samen om een resolutie cluster te maken met andere partijen uit landen die ook URN:NBN voeren. Idealiter zou ik voorstellen om het HANDLE systeem te gebruiken voor de URN:NBN resolutie cluster. HANDLE is voor zover ik weet geen OpenSource software, maar er is wel een HANDLE OpenSource alternatief dat met de Global HANDLE node kan communiceren.

Er zijn ook ideeën om URN op te nemen in het DNS systeem. Dit idee stamt uit begin jaren 2000 door John Kunze. Hij stelde voor om het Naming Authority Pointer (NAPTR record) te gebruiken dat aanwezig is in DNS, maar veelal ongebruikt. Om dit werkelijkheid te laten worden is het noodzakelijk dat URN een internet standaard wordt, waardoor het kan worden geadopteerd door alle partijen die zorgen voor de internet infrastrucuur, incl web browsers. URN is nu nog een internet draft. De IETF is op zoek naar mensen die URN gebruiken en het tot een internet standaard kunnen verheffen.

SURF en EduStandaard stelt een werkgroep in om afspraken rondom het gebruik van URN:NBN Persistent Identifiers voor Repositories vast te leggen als Nationale afspraak voor Hogeronderwijsinstellingen. Mocht iemand zich geroepen voelen om deel uit te maken van deze werkgroep neem dan contact op met mij. vanderfeesten@surf.nl


Posted

in

by

Tags:

Comments

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.