Maurice Vanderfeesten

Category: Web Technologies

Author Identifiers, hoe zat het ook al weer?

vs

Dinsdag 16 oktober heeft ORCID (Open Researcher and Contributor ID) hun register geopend. Elke onderzoeker, instelling, uitgever en funder kan identifiers maken om een onderzoeker te identificeren. Het idee is dat deze id’s in de workflows van onderzoeks-, publicatie- en financieringsprocessen worden opgenomen om op deze manier efficienter de flow van research information in kaart te brengen.
Lees meer hierover op orchid.org …

Na het registreren en het toestaan voor commercieel gebruik van mijn gegevens, krijg ik een 16 cijferig nummer: 0000-0001-6397-4759 dit is nu mijn ORCID! Al mijn publicaties in een overzicht plaatsen wordt straks alleen een google search result met mijn ORCID. 😉

Update: Na wat uitzoekwerk ben ik er inmiddels achter dat ORCID een on-officiële Registration Agent is van ISNI’s. ISNI heeft een aantal ID’s gereserveerd voor ORCID gebruik. Dat komt er op neer dat mijn bovenstaande ORCID voldoet aan de ISNI standaard, maar (nog) niet opgenomen is in de ISNI database.

Maar ik heb ook een DAI (Digital Author ID, een 9-cijfering nummer), en ik kan me ook al authoriseren met SURFconext, en hoe zit dat nou met de ISNI (International Standard for Name Identifier; ook een 16-cijferig nummer)?
Vind hier je ISNI …

Update: Mijn DAI heeft de potentie om opgenomen te worden als ISNI. (zie onderstaand verhaal) Daarmee heb ik dus twee ISNI’s. Ik heb gevraagd aan een van de medewerkers van Bowker, een ISNI registration Agent, welke maatregelen worden genomen in de situatie als een persoon twee ISNI’d heeft: Als je het aangeeft dat jij twee ISNI’s hebt, dan wordt het gecontroleerd en dan wordt de ene als ‘verouderd’ verklaard, en doorverwezen naar de andere.

Het landschap van ‘name’ identifiers

In 2005 is de DAI ontwikkeld door Rijksuniversiteit Groningen, met subiside van SURF. In 2006 is de DAI uitgerold naar de rest van de Nederlandse METIS en repository-systemen. De reden om een DAI in te voeren was precies dezelfde als ORCID; de ID’s in de workflows opnemen om makkelijker de juiste informatie boven water te krijgen, en om er voor te zorgen dat niet steeds dezelfde gegevens meerdere keren ingevuld moeten worden.

De DAI (Digitale Auteurs Identifier) is een onderdeel van de NTA (Nationale Thesaurus van Auteursnamen), dat een aparte tabel is van de GGC (Gemeenschappelijk Geautomatiseerd Catalogiseersysteem). Het functioneelbeheer va de DAI wordt gedaan door de KB, het technisch beheer door OCLC.

De VIAF (Virtual International Authority File) is een catalogus die wordt gevuld met geauthoriseerde informatie uit systemen van nationale instanties. Het systeem wordt beheerd door OCLC, evenals de GGC, wat in theorie de vulling van VIAF kan versoepelen met informatie uit de GGC.

OCLC maakt ook deel uit van ISNI als een authoritive registration agency. OCLC zorgt er voor dat de namen van personen en organisaties uit de VIAF een ISNI krijgen. OCLC zorgt er zelfs voor dat ze de database van ISNI beheren, en de ISNI doorzoekbaar aanbieden voor het publiek. Ik heb mijn DAI hier niet ik kunnen vinden, dus ik vermoed dat de koppeling tusen de GGC en de VIAF nog niet rond is.

OCLC is een Participating Organisation van ORCID, en zou in theorie ook de VIAF kunnen gebruiken om ORCID te vullen. In de API specs van ORCID staat dat een ORCID member namens een auteur een ID kan aanmaken. Echter OCLC is nog geen ORCID Member.

Knowledge Exchange, een organisatie waar SURF, JISC, DFG en DEFF aan deelnemen, heeft een Author Identifier Summit gehouden in maart 2012. Tijdens de summit heeft de research information community er op aangedrongen dat de partijen ISNI en ORCID moeten samenwerking en zorgen voor interoperabiliteit. (Lees meer hierover in dit artikel.) Beide partijen melden dat dit niet mogelijk was omdat beide mechanismen gestoeld zijn op twee verschillende business modellen die niet verenigbaar zijn met elkaar. ORCID richt zich op alleen researchers, en het registratie mechanisme is gericht op ‘self-registry’, en ‘registry-by-proxy’ (door member organisations). ISNI richt zich op -alle- personen en organisaties, en het geristratieproces wordt uitbesteed aan ‘registration agencies’, zoals OCLC. ISNI biedt matching, de-dublication en dis-ambiguation services, ORCID niet.

En dan hebben we nog SURFconext. Hoe past SURFconext in dat plaatje? SURFconext zorgt voor federatieve authenticatie middels je eigen instellingsaccount / logingegevens. In het LDAP systeem van een instelling, waar SURFconext mee verbonden is, kan ruimte worden gemaakt voor additionele attributen. Deze attributen kunnen zijn: de DAI, ScopusID, ResearcherID en nu ook de ORCID en de ISNI.

Stel al deze ID velden zijn ingevuld, dan zou je in theorie kunnen inloggen met je instellingsaccount bij bijvoorbeeld een dienst als Mendeley. Mendeley kan je toestemming vragen om je additionele ID’s op te vragen, en met bijvoorbeeld je ID van ORCID bij ORCID te vragen wat je publicaties, grants en affiliations zijn, en op deze manier je Mendeley profiel verder automatisch te vullen.

Stel je DAI-attribuut is wel ingevuld, maar je ORCID-attribuut nog niet, en je wilt graag een ORCID. Dan kun je in theorie inloggen met SURFconext bij ORCID, en ORCID toestemming geven om je profielgegevens over te nemen. Hiermee kan bijvoorbeeld het DAI-attribuut gebruikt worden om gegevens over je publicaties en grants automatisch binnen te halen.

ID-attributen kunnen niet door de gebruiker zelf worden ingevuld, maar door de systeem administrator van het LDAP-systeem bij de instelling zelf. En ik zeg in bovenstaande paragrafen nadrukkelijk ‘in theorie’, omdat Mendeley en ORCID aangesloten moeten zijn aan SURFconext, en de instelling moet Mendeley en ORCID toewijzen als dienst die instellingsmedewerkers mogen gebruiken.

ISNI en ORCID willen beiden voor hun designated community dé canonical global identifier zijn. In de informatie wereld waar elke identifier systeem hét identifier systeem wil zijn, biedt SURFconext wellicht een uitkomst voor het toegankelijk maken van uiteindelijk de diensten waar het voor de eindgebruikers uiteindelijk om gaat.

Uit verdere informatie is gebleken dat ISNI dé canonical global identifier is, en een speciale ‘range’ beschikbaar heeft gesteld aan ORCID. Dus je ORCID is ook een ISNI. 😉

2012-10-17
Persistent Identifiers, hoe zat het ook alweer?
In 2008 en 2009 zijn er twee landelijke overleggen geweest tussen SARA, DANS, 3TU en ook DEN om over hoe samengewerkt kan worden op het gebied van Persistent Identifiers en duidelijkheid te verschaffen over de toepassingen van PID’s richting de onderzoekers. De partijen passen verschillende technieken toe, maar proberen het beleid rondom PID’s af te stemmen.
- EPIC met SARA gebruikt HANDLE als PID techniek. Dit is PID techniek die snel is op te zetten en in te richten met een goed achterliggend managment systeem.
- DANS en de repositories gebruiken URN:NBN, dit is een IETF standaard in wording die toekomst vast is en ongevoelig voor verandering in resolutie techniek en uitwissel protocollen.
- DataCite waar de 3TU bij zit gebruiken DOI, dat is nu sinds een maand een ISO standaard en wordt herkent als ‘citable material’ door onderzoekers.
In 2009 is in Zweden, Stockholm een workshop geweest over het samenbrengen van de verschillende URN:NBN partijen in een cluster, maar dat ook andere technieken kan resolven. John Kunze (ARK) was hier aanwezig en heeft hiervoor ter plekke een proof of concept opgezet met zijn Name to Thing meta resolver n2t.net.

Deze workshop in Stokholm heeft er toe geleidt dat het PersID initiatief is gestart vanuit Knowledge Exchange. Het doel van PersID is om met de URN:NBN initiatieven uit verschillende landen de krachten te bundelen en een cluster te maken, en het beleid van URN:NBN af te stemmen en aan te scherpen. Daarnaast was het de bedoeling om open te zijn richting andere PID initiatieven, en te delen wat de PersID deelnemers hebben geleerd van de samenwerking op het gebied van beleid.

Deze open houding heeft vorig jaar in 2011 geleidt tot een internationale Persistent Object Identifier workshop bij NWO. Deze workshop georganiseerd door Knowledge Exchange, waar deze drie initiatieven (DOI, HANDLE, URN:NBN) en haar gebruikers bij elkaar zijn gebracht. (zie onderstaande foto) Hier werd overeengestemd in de “Den Haag Manifesto” dat de initiatieven meer met Linked Open Data (LOD) te gaan doen en via LOD meer onderling interoperabel te worden.

Het beleid van de drie initiatieven verschillen onderling waardoor de toepassing ook verschilt. Voor een DataObject kun je dus verschillende PID’s aan toe kennen, afhankelijk wat je er mee wilt.

De positie van SURF is om een neutrale houding aan te nemen t.o.v. deze technieken en niet een van de drie te bevoordelen, maar toe te lichten om de wetenschapper van dienst te zijn zo een weloverwogen keuze te maken.

In EduStandaard staat momenteel de concept afspraak over Unieke Persistente Identifiers die Nationaal door het PO en VO is afgestemd. De afspraak heeft nu nog de status ‘concept’ en EduStandaard nodigt belanghebbenden uit om hierover verder te praten om volwassenheid te bereiken. Momenteel zijn de afspraken over de UPI’s gefocussed op de Educatieve Content Keten (ECK). Hierbij is het van belang dat de objecten uniek identificeerbaar zijn om re-mixen van content mogelijk te maken. De identifier is persistent, maar het beleid over de persistentie van het object en het resulutie meschanisme blijven onderbelicht. Hier moet het Wetenschappelijk Onderzoeksveld zijn stem laten horen voordat de afspraak definitief wordt.

In het Wetenschappelijk Onderzoek worden verschillende PID’s gebruikt om verschillende redenen. Hieronder een overzicht van de belangrijkste spelers.

URN:NBN richt zich niet alleen op de persistentie van de Identifier, maar ook van de persistentie van het geïdentificeerde materiaal en het resolutie mechanisme. Hiervoor is het noodzakelijk dat het materiaal is opgeslagen in een data archief bestemd voor lange termijn opslag dat voldoet aan minstens de Data Seal of Approval. URN is een IETF standaard in wording, en is bedoeld om onafhankelijk te zijn van een uitwisselprotocol. Momenteel is het http -protocol erg populair, maar dat kan in de toekomst veranderen. Alle identifiers die in feite beginnen met http:// zijn afhankelijk van het protocol, en daarmee niet persistent genoeg voor toekomstige verandering.

HANDLE is zeer eenvoudig in gebruik, snel toe te passen en het is bijna gratis. Zeer geschikt om in no-time persistente identifiers te genereren. Nadeel is dat er geen beleid op zit voor metadatatering en de persistentie van de objecten. Het is in feite heel plat. Het handle systeem heeft een goed PID management mechanisme, en rond de software zit een grote user community.

DOI is zeer geschikt om objecten citable en herkenbaar als ‘wetenschappelijk’ te bestempelen. Je moet wel een flinke zak met geld meebrengen. Maar dat kun je weer verdelen over deelnemers, zoals DataCite doet. Recentelijk heeft de DOI hun business model veranderd, zodat je niet meer per ID hoeft te betalen. Dit maakt het mogelijk een grote data volumes op een fijn granulair niveau te identificeren.

Als ik een data archief was dan zou ik het zo met de diversiteit aan PID’s om gaan:
1. Default: Geef al je objecten een HANDLE
2. Long term: Wil je het object voor de lange termijn bewaren, gebruik daarnaast ook URN:NBN; identificeer dat object of die data volume ook met een URN:NBN. Nadeel is dat het niet meer mag veranderen. Het is een snapshot in de tijd van het databestand
3. Citable: Wil je het object citeren, daarnaast ook een DOI. Ook hier geldt het snapshot principe. Een citatie wordt gedaan op een dataset in een bepaalde time frame of een bepaalde query die geldig is voor dat onderzoek.
Meer informatie:
Meer achtergrond, n.a.v. reacties:

DOI is gebaseerd op het HANDLE mechanisme en heeft daarnaast een aanvullend business model. De toegevoegde waarde van DOI brengt ook kosten met zich mee. Afhankelijk van de verdeelsleutel betalen deelnemers per registration agency meer of minder. Registration Agencies zijn onder meer Crossref en DataCite.

URN heeft default geen resolutie mechanisme. Dat zijn oude discussies bij de IETF. (URI resolution en URN resolution with HTTP) Partijen die nu URN:NBN voeren moeten dit zelf regelen. In Nederland verzorgt de KB en DANS deze rol voor onder andere de repository gemeenschap. Darin werken ze samen om een resolutie cluster te maken met andere partijen uit landen die ook URN:NBN voeren. Idealiter zou ik voorstellen om het HANDLE systeem te gebruiken voor de URN:NBN resolutie cluster. HANDLE is voor zover ik weet geen OpenSource software, maar er is wel een HANDLE OpenSource alternatief dat met de Global HANDLE node kan communiceren.

Er zijn ook ideeën om URN op te nemen in het DNS systeem. Dit idee stamt uit begin jaren 2000 door John Kunze. Hij stelde voor om het Naming Authority Pointer (NAPTR record) te gebruiken dat aanwezig is in DNS, maar veelal ongebruikt. Om dit werkelijkheid te laten worden is het noodzakelijk dat URN een internet standaard wordt, waardoor het kan worden geadopteerd door alle partijen die zorgen voor de internet infrastrucuur, incl web browsers. URN is nu nog een internet draft. De IETF is op zoek naar mensen die URN gebruiken en het tot een internet standaard kunnen verheffen.

SURF en EduStandaard stelt een werkgroep in om afspraken rondom het gebruik van URN:NBN Persistent Identifiers voor Repositories vast te leggen als Nationale afspraak voor Hogeronderwijsinstellingen. Mocht iemand zich geroepen voelen om deel uit te maken van deze werkgroep neem dan contact op met mij. vanderfeesten@surf.nl
2012-08-08
Persistent Identifiers – their need and usage

Presentation on the ELPUB 2009 conference in Milan about Persistent Identifiers in the Knowledge Exchange context.

2009-10-03