LSID. Life Science Identificator

Estava llegint un article sobre gestió de dades en bioinformàtica quan en Xevi m'ha fet conèixer l'existència del projecte LSID (Life Science Identificator) que em sona haver-ne sentit a parlar potser arran de l'O'Really Bioinformatics Technology Conference 2003.
Qualsevol que hagi treballat amb gran quantitat de dades en bioinformàtica, sap que sovint és un caos gestionar totes les diferents fonts d'informació que has de tractar i es perd molta estona adaptant-se a noves necessitats a mesura que van sortint. La creació de moltes ràpides seqüències (scripts) d'ús ràpid i particular és una tònica diària. A mi m'ha fet la vida més fàcil Bioperl, no obstant, encara frisaria per estalviar més temps i dedicar-lo només en aquells aspectes més interessants de la recerca.

Aquest projecte amb gran implicació d'IBM, i coordinat col·laborativa i obertament des de l'Open Management Group i l'Interoperable Informatics Infrastructure Consortium es basa en l'elaboració d'uns protocols i estàndards de com accedir i intercanviar informació biològica rellevant de diferents fonts i formats. Tot rau en treballar amb Uniform Resource Name (URN) que no són més que un tipus URI com els ben coneguts URL dels enllaços web.
La informació biològica d'interès (seqüència, article, estructura, etc.) tindria una referència URN on hi constaria el format, la font com la mateixa versió de la informació.
Com apareix a la pàgina del projecte:

urn:lsid:pdb.org:1AFT:1
Primera versió de l'estructura 1AFT del Protein Data Bank.
urn:lsid:ncbi.nlm.nih.gov:pubmed:12571434
Referència a un article al Pumed (base de dades de biblografia en Biociències)
urn:lsid:ncbi.nlm.nig.gov:GenBank:T48601:2
Segona versió de l'entrada de la seqüència T48601 al GenBank

Si els servidors que proporcionen aquestes dades fan que siguin compatibles amb les especificacions que es proposen, l'intercanvi i l'obtenció es facilitaria utilitzant les mateixes eines de la xarxa com ara els servidors DNS (si la referència és una URL és l'únic necessari) i servidors amb autoritat LSID (per a assignacions més complexes) que actuarien d'intermediaris.
Llavors un client adequat, dels quals ja en trobem propostes en molts llenguatges de programació a la pàgina del projecte, és tot el que necessitem per a rebre i intercanviar tot tipus de fonts de diferent origen.
A Bio-IT trobem un article sobre el projecte (en anglès).

Comments

The question is whether or not labs will invest in the infrastructure necessary to make the LSID proposal work. I've argued previously that HTTP URIs are better than URNs for identifying life sciences resources as the infrastructure is well established.