Российской Государственной Библиотеки Название доклад

Вид материалаДоклад

Содержание


PURL может быть постоянным в одном и только в одном случае, если кто-либо отслеживает взаимосвязь между PURL
PURL и URN. Стандарт PURL
DOI начинаются с цифры «10» для того, чтобы различить DOI
DOI присваивается ресурсу раз и навсегда вне зависимости от владельца ресурса. Хотя издатели и присваивают свои уникальные префи
DOI статье или другому какому-либо ресурсу необходимо действовать по определенной схеме. Поскольку префикс DOI
DOI. Схема преобразования DOI
DOI, использовать её в РГБ не удалось. Дело в том, что DOI
DOI возможна, но она платная (один номер стоит от 1 000$), даже для тестов.Handle SystemDOI
Подобный материал:


Международная конференция «Румянцевские чтения 2005

Т е м а: Электронные библиотеки России


Автор доклада: Харланенков Д.В., Верещака Д.И.


Данные об авторе: ведущий специалист Российской Государственной Библиотеки


Название доклада: Обзор существующих pre-URN технологий (технологий по постоянному идентификатору ресурса). Перспективы выбора.

__________________________________________________________________________________


Текст доклада

Концепция WWW «указать и кликнуть» сделала просмотр содержимого Интернет таким же лёгким, как и открыть дверь нажав на неё пальцем-индексом, но каждый новый сетевой сёрфер скоро узнаёт, что очень часто запросы остаются без ответа. Широко известный URL может поменяться из-за изменения конфигурации компьютера, реорганизации файловой системы или изменения в организационной структуре и … выдать пользователю ошибку 404 – Файл Не Найден!

Коллекции современных библиотек, архивов, музеев содержат постоянно увеличивающееся количество цифрового контента – текстов, изображений, аудио-визуальной информации. Непредсказуемая мобильность перемещения ресурсов Интернет является для них серьёзной проблемой. Необходимы инструменты позволяющие управлять подобными хранилищами и решать проблемы местоположения ресурса. Одним из решений является развитие системы URI (Universal Resource Indificator – универсальный идентификатор ресурса) и взаимодействие её на прикладном уровне с системой URN (Universal Resource Name – универсальное имя ресурса), разрабатываемой комитетом IETF (Internet Engineering Task Force). Стандарт ещё окончательно не выработан, хотя корпорация Микрософт, например, уже включила поддержку URN начиная с версии Internet Explorer 6.0. Необходимо принятие единого стандарта, который также потребует реорганизации существующей системы DNS.

На сегодня существует несколько проектов, основанных на принципе URN – Универсального Имени Ресурса.


PURL: Persistent Uniform Resource Locator (Постоянный URL)

OCLC (Online Computer Library Center) для дальнейшего развития и распространения URN технологии разработала Persistent (постоянный) URL (PURL). PURL может быть использован как в адресе Web-страниц, в отдельных документах, так и в системных каталогах. PURL увеличивает вероятность нахождения ресурса и снижает стоимость управления каталогом. PURL выглядит как URL и на самом деле функционально PURL и является URL. Но в отличие от прямой ссылки на Интернет ресурсы, PURL обращается к промежуточному серверу ссылок (resolution server), который связывает PURL с актуальным URL и возвращает этот URL пользователю, который может работать уже с нормальным URL. На языке WWW это называется стандартная HTTP – переадресация.

PURL выглядит как URL и состоит из трёх частей: (1) протокол, (2) адрес сервера ссылок и (3) имя конкретного ресурса.

.org/keith/home

.org/OCLC/PURL/FAQ

.org/OCLC/OLUC/32127398/1

---- ------------- --------------------

  

протокол | адрес сервера ссылок | имя

Следует иметь ввиду, что поиск адреса сервера ссылок осуществляется средствами стандартного DNS, а имя присваивается пользователем, после регистрации в OCLC.

PURL может быть постоянным в одном и только в одном случае, если кто-либо отслеживает взаимосвязь между PURL и соответствующим ему URL. Следовательно, каждый PURL должен иметь владельца, ответственного за то, что связка PURL – URL работает. При изменении URL веб-мастер должен внести соответствующее изменение в базу данный на сервере ссылок, в то время как для конечного пользователя всё останется по-прежнему. Следует подчеркнуть, что Постоянство (Persistent) является свойством организации, а не технологии. Такими организациями являются, например, национальные библиотеки, так как они имеют стабильное финансирование и государственную поддержку.

PURL и необходимое для его функционирования программное обеспечение распространяется OCLC по схеме public domain с учётом текущих требований предъявляемых комитетом IETF. OCLC считает, что только общественные институты, такие например, как библиотеки, музеи и т.д. позволят PURL действительно стать постоянным адресом ресурса.

Взаимосвязь PURL и URN. Стандарт PURL является результатом работы OCLC в системе URN и консультаций с библиотечным сообществом. Создание PURL является промежуточным результатом на пути включения URN в информационную архитектуру Интернет. Синтаксис URN позволяет безболезненно переводит в него PURL. Например:

PURL

.org/keith/home

---- ------------- -----------

  

протокол|адрес сервера ссылок|имя

может быть переписан используя синтаксис URN, следующим образом:

URN:/org/oclc/purl/keith/home

------------- ------------

 

владелец ресурса имя

где URN является иерархическим именем, первая часть является адресом сервера ссылок, а вторая именем ресурса. Как видно из вышеизложенного для преобразования PURL в URN нужно совсем немного усилий. Если будут изменены коды Web – браузеров или написаны плагины для распознавания синтаксиса URN, тот при вводе в строке браузера адреса URN:/org/oclc/purl/keith/home он будет соединяться с сервером ссылок по адресу purl.oclc.org и сервер найдёт ресурс с необходимым именем /keith/home.

DOI


DOI (Digital Object Identifier – Цифровой Идентификатор Объекта) – уникальный номер созданный для идентификации части интеллектуальной собственности в онлайновой среде. DOI состоит из двух частей – префикса и суффикса, разделённых левым слэшем. DOI пострен на основе Handle System’ы.

Все префиксы DOI начинаются с цифры «10» для того, чтобы различить DOI от других Handle System (при необходимости префикс может быть длиннее). Общий подход таков, что каждый зарегистрированный пользователь DOI владеет одним префиксом, но если это необходимо, то может быть несколько префиксов (например, отдельный префикс для каждого названия журнала).




Суффикс определяется издателем. Система DOI разрешает запись как в верхнем, так и в нижнем индексе – 10.1006/abc тоже самое, что и 10.1006/ABC. Единственное условие – суффикс с префиксом должны быть уникальны.

DOI присваивается ресурсу раз и навсегда вне зависимости от владельца ресурса. Хотя издатели и присваивают свои уникальные префиксы, но как только этот DOI присвоен, контроль и право собственности на индивидуальный DOI может быть изменено. Например, если право на журнал «Good Science» перешло от Издателя А к Издателю Б, контроль за индексами DOI для статей в «Good Science» будет передан Издателю Б, который должен будет обновить метаданные и URL’ы для этих DOI. В свою очередь Издатель А продолжит присваивать свой префикс для других своих изданий. Т.о. префикс DOI не является надежным идентификатором издателя.

Для присвоения DOI статье или другому какому-либо ресурсу необходимо действовать по определенной схеме. Поскольку префикс DOI уже присвоен, то следующим шагом является суффикс DOI. (Необходимо отметить, что присваивание суффикса должно осуществляться издателем или организацией, владеющей правами на этот ресурс).

«DOI является непрозрачной последовательностью нацеленной на то, чтобы остаться уникальной и постоянной, несмотря на смену местоположения и/или владельца ресурса, и поэтому дополнительной специфической или описательной информации для индекса DOI не нужно». Такая информация формирует метаданные, которые ассоциируются с каждым DOI. Библиографическая информация может быть использована в индексе DOI, но она не имеет никакого значения для системы DOI. Метаданные передаются вместе с DOI и URL. Существующие у издателя или владельца ресурса идентификаторы могут быть использованы в качестве суффикса DOI (например ISBN или номер из какой либо внутренней системы).

Любой DOI зарегистрирован со стандартным URL. В настоящий момент один URL зарегистрирован для одного DOI.



Схема преобразования DOI схожа с системой PURL, кроме того DOI позволяет использовать т.н. «многократное решение», когда DOI ссылается сразу на несколько URL’ов, DOI или ресурсов с другими типами данных.

DOI предлагает перечень ссылок/ресурсов предоставляя конечный выбор автору запроса, но уже сейчас ведутся работы по автоматизации отбора предоставленных ссылок, чтобы система автоматически подбирала «нужные» пользователю ссылки.

DOI представляет из себя одну из разновидностей т.н. Handle System. В системе возможно два варианта: набор адреса в обычном формате или, после установки Java-аплета, пользователь набирает в браузере цифровой индекс ресурса и перекодировщик.


Тип обращения Сторона Клиента Сторона Сервера

 

ссылка скрыта прокси – сервер  сервер ресурсов


(Пользователю ничего дополнительно не нужно для доступа к ресурсу.)


Тип обращения Сторона Клиента Сторона Сервера

 

hdl:4562345/s4fd перекодировщик сервер ресурсов


Однако при всех видимых преимуществах DOI, использовать её в РГБ не удалось. Дело в том, что DOI создана издателями для получения прибыли при предоставлении пользователям доступа к электронной версии книги или статьи, в то время как библиотека предоставляет доступ к своим электронным ресурсам бесплатно. В такой ситуации выбор пользователя очевиден. Тем не менее, номера DOI можно найти в библиотеках, но это ссылки на ресурсы поступившие от издателей с уже присвоенным номером.

Теоретически регистрация любой библиотеки в DOI возможна, но она платная (один номер стоит от 1 000$), даже для тестов.


Handle System


DOI является успешной коммерческой реализацией Handle System’ы. Получение handle в отличие от DOI бесплатно. Единственное условие состоит в том, чтобы номер был зарегистрирован на сервере ссылка скрыта.

Программа работает как под Windows, так и под UNIX (в отличии от PURL и DOI), для установки требуется версия SUN Java 1.2 и выше.

Для того, чтобы создать свою запись, т.е. присвоить handle, необходимо авторизоваться в программе. Существует три типа handle с индексами 100, 200, 300, различающихся правами: для администратора, группы администраторов и пользователей. Нужно отметить, что в данном релизе программы пользователь может создавать и редактировать свои handl’ы (самые полные права у администратора), но в следующих версиях разработчиками планируется оставить только редактирование для handl’ов с индексом 300 (т.е. пользователям).

Теоретически программа позволяет присвоить один handle двум файлам, например – *.pdf и *.doc, при этом имеется в виду, что содержание документов идентично.

Необходимо зарегистрировать свой handle-сервер у разработчиков, для того, чтобы можно было искать handle созданные в РГБ глобально. Для этого нужно переслать разработчикам определенный файл, после этого при изменении файла конфигурации на сервере и получении глобального номера система доступна в Интернет.

Казалось бы вот идеальный вариант на текущий момент, но к сожалению заставить работать Handle System’у в РГБ нам так и не удалось из-за несовершенства самой программы.


Выводы.


Следует учитывать, что когда мы говорим о времени хранения цифрового контента мы подразумеваем только одно – «хранить вечно». Предшественник ныне существующей системы DNS просуществовал 20 лет, уже сейчас идут разговоры по изменению нынешней системы (так называемая xDNS), поэтому кажется логичным сделать постоянный идентификатор максимально независимым. И PURL и DOI не совсем отвечают требованию по вечному хранению. Поэтому следует ориентироваться на независимые индексы (такие например как ISSN или ISBN), однако их необходимо доработать с учётом особенностей электронных изданий.