Нудель С. А. Верещака Д. И

Вид материалаДокументы
Подобный материал:
Нудель С.А. Верещака Д.И.


К вопросу об архивировании электронных ресурсов

(Проект поддержан РФФИ, грант 04-07-90056-в)


Количество электронных публикаций в сети Интернет растет огромными темпами, т.к. Интернет предоставляет универсальный доступ к информации и возможность быстрой ее передачи, а также легкий способ хранения данных в электронном виде и предоставления доступа к ним для всех желающих. Библиотеки не могут оставаться в стороне от этих тенденций, потому как именно библиотеки являются хранителями наследия человечества. Поэтому им необходимы средства для поиска, обеспечения доступа и хранения электронных публикаций. Для создания архива электронных журналов был изучен опыт зарубежных специалистов.

Архивирование цифровых материалов зародилось в США и Европе в 1960-х гг. Архив сегодня – это источник информации и набор некоторых связанных с ней услуг.

Сегодня существуют два похода к архивированию электронных документов, размещенных в сети Интернет.

Первый подход ставит своей целью собрать всю информацию в Интернете. Для этого обычно используется программное обеспечение, работающее в автоматическом режиме. Назовем этот подход всесторонним. Второй подход заключается в сохранении только тех документов, которые отобраны людьми и считаются достойными сохранения, т.е. является выборочным подходом.

Пионером первого подхода является организация “Internet Archive”, которая начала архивировать сайты в 1996 г. Архив этой компании является одним из самых больших архивов в мире. С 2001 г. архив Internet Archive доступен через Интернет на сайте ссылка скрыта. Кроме того, эта компания создала специальные коллекции по различным темам, например, архивы сайтов посвященных выборам разных годов. Такие коллекции обычно создаются в сотрудничестве с другими организациями. Навигация в этих коллекциях обычно проводится с помощью механизма, аналогичного основному архиву, но иногда коллекция использует свой собственный интерфейс доступа к данным.

Архив Internet Archive содержит сайты самого разного содержания и качества, что может быть ценным в будущем. Для скачивания данных используется специальная программа-робот. Каждый создатель сайта может специальным образом указать этой программе разрешенные и запрещенные для скачивания страницы своего сайта.

Архив Internet Archive хранится на постоянно расширяющемся кластере под управлением ОС LINUX. Работа программы-робота постоянно улучшается и адаптируется к современным условиям в сети Интернет.

Проект Королевской библиотеки Швеции Kulturarw3 основывается на следующих соображениях при выборе подхода к архивированию. Во-первых, неизвестно, какую информацию будущие поколения посчитают важной. Кроме того, отбор информации требует задействовать трудовые ресурсы. Известно, что среди печатных документов, поступающих в библиотеки, отбор не проводится.

Проект NEDLIB (Сетевая европейская депозитная библиотека) ведется несколькими европейскими библиотеками, национальными архивами и издательствами. Одной из задач проекта было создание и тестирование программы сбора информации с сайтов сети Интернет. Эта программа получила название харвестер (i/sovellus/nedlib/). Программный комплекс предоставляет также услуги по сжатию информации, средства для избежания дублирования. В архив скачиваются только модифицированные или созданные с момента последнего архивирования документы.

Рассмотрим проекты, использующие второй, выборочный подход. Очевидно, что этот подход позволяет достигнуть следующих важных целей: каждый элемент архива качественно оценен, может быть полностью каталогизирован и стать частью национальной библиографии. Каждый элемент архива может быть сделан доступным (хотя бы частично). Выработка правильной стратегии архивирования, основанной на свойствах элементов архива, возможна только при этом подходе.

Проект Национальной библиотеки Австралии основан на выборочном подходе. Все элементы архива этой библиотеки или доступны в настоящий момент, или (в случае коммерческих публикаций) будут доступны в будущем, когда перестанут представлять коммерческую ценность, в соответствии с законом об авторском праве. Этот подход наиболее жизнеспособен для библиотек, так как элементы архивов, полученных подобным образом, могут быть найдены, доступны и функциональны для нынешних и будущих читателей. Но национальная библиотека Австралии признает, что этот подход имеет свои недостатки. Суждения о ценности того или иного ресурса, включаемого в архив, носят субъективный характер. Кроме того, неясно сейчас как информационные ресурсы в сегодняшней сети Интернет будут использоваться в дальнейшем.

Библиотека Конгресса США в процессе изучения проблемы архивирования Интернет-ресурсов в рамках проекта MINERVA пришла к выводу, что ей необходимо использовать оба подхода. Выборочное собрание позволяет уделить особое внимание их хранению и управлению ими. Опытный образец ПО MINERVA позволил предоставить пользователям все преимущества каталога. Но и полное собрание имеет свои преимущества. Будущие поколения могут иначе оценивать информацию, которая сейчас легко может быть проигнорирована и в архив не включена. Есть и еще одна проблема: вновь созданные сайты будут попадать в выборочный каталог не сразу, а лишь по мере признания их важными. Но все же, видимо, именно выборочный подход будет выбран приоритетным направлением развития проекта MINERVA.

Такой же подход поддерживает и Британская библиотека. В 2001-2002 гг. она начала проект «Британия в Интернете». В рамках этого проекта были выбраны 100 сайтов, посвященных Англии. Кроме того, от владельцев сайтов были получены права на скачивание содержимого из Интернет-ресурсов. Архив сайтов периодически обновлялся. После окончания этой стадии проекта Британской библиотеке было рекомендовано расширить проект вплоть до пробной скачки всех сайтов домена .uk. Одним из важнейших направлений этой работы было признано сотрудничество с другими организациями. Британская библиотека собирается выбрать и сохранить около 10 000 ресурсов Интернет дополнительно к тем, которые будут получены скачкой всех сайтов домена .uk. Для проведения в жизнь этого проекта Британская библиотека просит расширить закон об обязательном экземпляре на цифровые материалы, включая и Интернет-публикации. Английские документы, которые подпадают под определение публикации, должны считаться обязательными для сохранения, и депозитарии должны иметь право отбора и хранения тех материалов, которые считаются уместными и значащими для национальных архивов публикаций. Кроме того, в Англии был создан свод правил для желающих передать свои цифровые материалы в архив.


При создании архива электронных ресурсов остаются актуальными два вопроса: Что архивировать? и Какую выбрать стратегию для архивирования?

Вопрос Что? Состоит в определении национальной принадлежности электронных документов, размещенных в сети Интернет. Разные проекты по-разному решают эту проблему.

Проект Kulturarw3 считает шведскими те документы, которые расположены на серверах с доменным именем .se или .nu,а также если при регистрации сервера были указаны шведские контактные адреса и телефоны. Очевидно, собрать полный архив в таком случае очень трудно, т.к. сервера могут не отвечать на запросы, а также часть документов может быть расположена на серверах из доменов других стран.

Национальная библиотека Австралии считает документ австралийским и достойным сохранения, если он:
  • содержит информацию об Австралии
  • имеет социальное, политическое, культурное, религиозное, научное или экономическое значение для Австралии и написан австралийцем
  • написан австралийцем, который признан авторитетом и внес вклад в международное знание


При этом документ может быть расположен на любом сервере. Именно содержание, а не авторство – решающий фактор для отбора документа для национального хранения.

Национальная библиотека Канады выработала свои критерии отбора документов:
  • документ должен быть канадским (создан в Канаде, размещен на канадском сервере, обработан канадским редактором и пр.)
  • все документы, изданные федеральными властями Канады, включаются в архив

электронные документы сохраняют на всех доступных носителях информации и во всех стандартных сетевых форматах.


Еще одна важная задача – поддержка актуальности архива или Как архивировать? В идеале, время сбора информации, т.е. время создания «снимка», должно быть минимально. Но очевидно, что если снимок включает в себя тысячи сайтов, то процесс копирования займет насколько месяцев. Таким образом, обновление проводят несколько раз в год. Но для, например, on-line газет и журналов такой способ не подходит. Скорее всего, программа-робот должна автоматически проверять частоты изменения документов на сайте и в соответствующее время создавать архивную копию.

При выборочном архивировании документы могут быть разбиты на категории, и каждой категории ставится в соответствие своя частота обновления. Например, Национальная библиотека Австралии делит документы следующим образом:
  • публикации правительства
  • публикации учреждений высшего образования
  • протоколы конференций
  • электронные журналы
  • документы, на которые ссылаются поисковые и аналитические агентства
  • тематические сайты (по выбранным предметным областям)

Кроме того, эта библиотека включает в свой архив сайты, имеющие высокую научную ценность, даже если они не входят в вышеперечисленные категории. Кроме того, некоторые категории сайтов в архив не включаются (блоги, web-камеры, сайты дискуссий, чатов и пр.).

Рассмотрим некоторые другие проекты.

Проект STORS – проект библиотеки Тасмании. Этот проект нацелен на архивирование всех документов, опубликованных в Тасмании, включая правительственные, общественные, коммерческие и частные документы. Архив STORS – это хранилище полного web-архива, сложных многомодульных программ и наборов данных, которые требуют специального ПО для работы с ними. Библиотека надеется на помощь специалистов в области архивирования в поиске приемлемых решений. Кроме того, для привлечения к проекту как можно большего числа издателей, им предоставляется возможность хранить и архивные, и текущие документы. Государственная библиотека предоставляет издателям постоянный URL – уникальный идентификатор для документа, и издатели, таким образом, играют роль и производителя, и потребителя. С издателей снимается проблема хранения и управления версиями документов в их собственных файловых системах.

Кроме того, STORS способствует поиску документов для архивирования: ПО проводит выборочную индексацию документов, собранных харвестерами и поисковыми машинами.

Для обозначения контекста, актуальности и области, охватываемой документом, STORS использует контекстные метаданные. Эти метаданные создаются в процессе помещения данных в архив. С помощью специальной формы пользователь при запросе документа получает информацию о контексте, актуальности и ссылки на заменяющие или замещаемые версии в хранилище.

Для обеспечения широкого доступа к информации проект STORS предлагает услуги по представлению документов в формате HTML4. Библиотека стремится сделать процесс конвертации автоматическим, но сейчас эта проблема решена не для всех форматов (например, PDF). Конвертация может стать особенно важной в будущем, когда существующие сейчас форматы перестанут быть актуальными.

Для привлечения издателей официальных документов, проект STORS ввел специальную услугу для проверки подлинности и легитимности электронных документов. После размещения документа в архиве, издатель получает от STORS контрольную сумму MD5 для своего документа. Кроме того, доступ к документу может быть ограничен по требованию издателя. В там случае открытый доступ будет предоставляться к таким документам только с компьютеров, расположенных в здании Государственной библиотеки Тасмании.

Для предотвращения появления в архиве случайных или умышленно неподходящих документов введено два типа регистрации издателей.

Любой тасманский издатель может зарегистрироваться и и получить логин и пароль. Документы зарегистрированных издателей поступают в архив без проверок и сразу получают постоянный URL.

Кроме того, возможен анонимный вход без пароля. Это самый простой способ для тех издателей, который хотят лишь иногда, время от времени помещать свои материалы в архив, но документы таких издателей до принятия их в архив проходят предварительный просмотр сотрудниками библиотеки.

Любое размещение информации в архиве подразумевает, что издатель владеет правами на размещаемый документ или действует от лица владельца авторских прав. Кроме того, издатель должен также принять соглашение STORS о том, что STORS имеет право копировать или переводить документы в другой формат в целях хранения.

ПО STORS собирает данные в формате XML и сами объекты в отдельной файловой системе. Это ПО действует с середины 2003 г.

Проект STORS – первое начинание Государственной библиотеки Тасмании в области цифровых хранилищ. Этот проект позволил Государственной библиотеке приобрести опыт общения и информирования издателей о существующих возможностях архивирования, а также расширения и развития функциональности архивов в будущем.

Но наиболее важно сохранение существенных цифровых документов, которые могут быть потеряны иначе.

SDA – Sociological Data Archive – постоянно пополняет свою коллекцию. Архив создан Пражским институтом социологии. Это пополнение осуществляется за счет активного поиска общедоступных социологических данных и принятия документов от исследователей, которые хотят обеспечить широкий доступ к своим файлам. Проект SDA обеспечивает хранение данных, защита данных от возможных повреждений и доступность данных для вторичных пользователей. Пользователи архива SDA подчиняются следующим правилам:
  • информация может быть использована только в некоммерческих или образовательных целях
  • любая публикация информации из архива должна содержать ссылку на источник
  • пользователь (без особого разрешения) не имеет права передавать свои права на пользование другим пользователям
  • пользователь обязан уведомлять Архив о своих публикациях, основанных на данных, полученных из Архива.
  • Архив не несет ответственность за надежность данных и правильность их интерпретации.

Кроме того, каждый владелец информации может особо оговорить правила предоставления его данных конечным пользователям. На основании такого соглашения данные могут быть помещены в следующие категории:
  • 0 – доступны для всех пользователей.
  • А – стандартные ограничения на доступ
  • В – стандартные и особые ограничения, устанавливаемые владельцем информации
  • С – только для пользователей, имеющих письменное разрешение владельца
  • Х – только для специальных организаций и особых людей


Целью данного проекта является предоставление социологической информации в академических, образовательных и некоммерческих целей. Кроме того, проект способствует расширению области распространения информации и проводит вторичный анализ данных, а также поддерживает специальные исследования. Архив доступен с сентября 1998 г. До создания этого архива большая часть файлов с данными находилась у различных групп исследователей, и формат и состояние этих файлов также было различно. Отсутствовал систематический каталог существующих файлов, а также из-за плохой защиты бал велик риск потери или повреждения данных. Пользователь должен был сначала найти, где находится интересующая его информация, а потом вести переговоры с владельцами для предоставления ему доступа к данным. Архив:
  • Собрал данные в одном месте, систематически обрабатывает и документирует информацию, делая доступ к ней простым и удобным
  • Архив стал источником недоступных ранее данных для университетов
  • Архив предохраняет данные от потери и повреждения
  • Широкая доступность информации обеспечивает общий контроль за ее качеством и огромное многообразие интерпретаций
  • Данные не пропадают из архива даже в случае если команда создавших их исследователей более не существует
  • Архив является средством общения чешских и зарубежных исследователей
  • Архив может стать основой для контактов с коммерческими организациями и проводить исследования и для коммерческих, и для научных целей одновременно.


Архив собирает следующую информацию:
  • информацию исследовательских проектов Института социологии
  • информацию других проектов, которые ведутся государственными институтами Чехии.
  • Информацию, полученную на основе соглашению по обмену данными в педагогических и исследовательских целях
  • Информацию об общепринятых выводах различных исследовательских проектов


Обработка информации, начатая с проекта «Социальные тенденции», была направлена на выявление основных направлений развития социальных структур чешского общества. Далее в проект включили информацию от ранних исследовательских проектов Института социологии. Кроме того, сотрудничество с другими чешскими институтами, особенно университетами и правительственными организациями, повлекло за собой расширение коллекции.


Проект университета в Луисвеилле The Writing Centers Research Project ставит перед собой следующие цели:
  • Предоставление устных исторических интервью в текстовом и цифровом форматах
  • Предоставление исторически важных документов в формате PDF
  • Архив включает в себя различные web-сайты, как существующие ныне, так и уже исчезнувшие: национальные, интернациональные и региональные конференции.



Многие библиотеки склоняются к выбору всестороннего подхода, т.к. при таком подходе затраты, очевидно, гораздо меньше. Штат специалистов, обслуживающих даже такой огромный архив как Internet Archive, состоит всего лишь из 30 человек. Выборочный подход, напротив, требует большего числа специалистов для оценки содержимого документов, принятия решения об архивировании и описании документа.

Видно, что каждый из этих подходов имеет свои преимущества и недостатки и ни один из них в чистом виде не является полностью удовлетворительным. Возможно, решение может быть найдено в комбинировании этих подходов.


Для создания архива электронных журналов в рамках гранта РФФИ были изучены возможности ПО для создания электронных архивов Greenstone (ссылка скрыта).

ПО позволяет создавать архивы сайтов журналов исходя их всестороннего подохода, что в применении к сайту журнала означает скачивание всех материалов электронного журнала, размещенных в интернете. Тем не менее, коллектив разработчиков поставил перед собой цель модифицировать ПО таким образом, чтобы материалы, уже включённые в архив, не скачивались повторно.


В процессе эксплуатации ПО Greenstone оказалось, что возможности пакета не позволяют создавать полностью функциональные архивы сайтов. Причинами этого являются нерациональное использование программы скачки сайтов wget и некорректная поддержка кодировок русского языка. Так, в дистрибутив greenstone 2.51 включена устаревшая версия программы wget 1.5.3, в то время как разработчики уже выпустили версию 1.9.1, доступную и под ОС Windows. Это значительно усложняет скачивание и включение в коллекции greenstone Web-сайтов, т.к. за последние 2-3 года (именно такая разница во времени между версиями 1.5.3 и 1.9.1) получили широкое распространение языки разметки HTML 4.0, XHTML, CSS 1/2, динамические сайты, реализованные на языках программирования PHP, ASP, JSP. Параметры, с которыми запускался wget, не позволяли сохранять ряд сайтов в файловой системе ОС Windows, т.к. содержали запрещенные в данной ФС символы (?, * и другие). Расширения файлов динамических сайтов не преобразовывались автоматически в .php, что не позволяло распознавать их как файлы гипертекстовых документов и, таким образом, они исключались из обработки соответствующими модулями пакета Greenstone.


В связи с вышеизложенным, а так же по ряду причин, изложенных ниже, было принято решение выделить процесс скачивания сайтов в отдельный программный модуль. Этот модуль был написан на языке PHP и использовал более совершенную версию программы wget 1.9.1, в том числе и в ОС Windows. Основной задачей модуля было скачивание сайта и подготовка его для дальнейшей обработки пакетом Greenstone. В процессе скачивания HTML-документы дополнялись информацией (метаданными) как о самом процессе скачивания (например, дата скачивания документа), так и самом документе (кодировка документа, язык документа). Эти метаданные извлекались из заголовков протокола HTTP, выдававшихся сервером.


Помещение метаданных о языке и кодировке HTML-документа в сам документ позволило решить проблему с поддержкой кодировок русского языка пакетом Greenstone. В первоначальном виде решение о том, в какой кодировке и на каком языке составлен документ принималось на основе специального алгоритма, который, как оказалось, корректно работает не во всех случаях, а только для файлов относительно большого объёма (это связано с вероятностной природой алгоритма). В случае же предварительной обработки документов и добавления в них информации об используемом языке и кодировке, вероятностная составляющая исключается и точность определения кодировок существенно повышается.


К сожалению, оказалось, что пакет Greenstone не поддерживает извлечение метаданных о языке и кодировке из HTML-документа, в связи с чем пришлось доработать алгоритм модуля обработки HTML-документов.


Помимо вышеперечисленного оказалось, что пакет Greenstone не позволяет указать «заглавную» страницу для сайта, что значительно усложняет просмотр сайта, находящегося внутри коллекции, как единого целого – сайт рассматривается как простой набор его страниц. Просматривая такой архив сайта, пользователь в ряде случаев должен обладать значительными познаниями в структуре интересующего его сайта, чтобы обнаружить оглавление содержащихся на сайте материалов. Для решения этой проблемы также пришлось внести изменения в модуль обработки HTML-документов пакета Greenstone.


Среди сделанных доработок ПО Greenstone также хочется отметить поддержку скриптов " onclick="return false">

В целом, работа с пакетом Greenstone производит приятное впечатление, среди достоинств пакета можно указать его цену (он бесплатный), поддержку платформ Windows и Linux, наличие подробной документации на русском языке, наличие оперативной и бесплатной технической поддержки со стороны разработчиков в специальных списках рассылки, протоколов Z39.50 и OAI. Неявным достоинством пакета можно считать поддержку проекта со стороны UNESCO, что для обычных пользователей означает определённые гарантии существования пакета, его поддержки и выпуска новых версий в среднесрочной, а скорее всего и в долгосрочной, перспективе, что является немаловажным фактором при выборе программного обеспечения.


Среди недостатков пакета можно отметить:
  • Относительную громоздкость. Дистрибутив пакета занимает значительный объём, установленное ПО требует повышенных вычислительных ресурсов системы.
  • Сложную внутреннюю структуру. ПО представляет собой собранный воедино набор программ различных разработчиков, что усложняет обнаружение ошибок и сопряжение различных модулей ПО.
  • Использование различных языков программирования. В случае необходимости внесения доработок потребуется программист достаточно высокого уровня.
  • На данный момент не реализованна возможность накопительного индексирования документов коллекции – в случае добавления или изменения документов требуется пересоздание поисковых индексов, что является непримелимым в случае значительного размера коллекции.
  • Избыточность сохраняемых данных. При сохранении HTML-документа происходит сохранение и всех связанных с ним файлов, причём в случаях, если разные HTML-страницы ссылаются на один и тот же файл (а такая ситуация встречается повсеместно, т.к. оформление сайтов реализуется при помощи графических и стилевых файлов), происходит многократное его дублирование. Учитывая значительный размер и количество графических файлов на современных сайтах, объём, занимаемый архивной версией сайта, может отличаться от исходного весьма ощутимо


Приложение


Страна

Проект

способ

Наличие лоступа

размер

стоимость

Австралия

НБА1

В*

Да

353 Гб

$700 000

Австрия

АНБ2

А**

нет

448 гб




Финляндия

БХУ3

А

нет

401 гб




Франция

НБФ4

А и В

нет

< 1 Тб

>$1800000

Швеция

КБ5

А

огр.

4.5 Тб




англия

ББ6

В

нет

30 мб

$1100000

США

ИА7

А

да

> 150 тб




США

БК8

В

Н

35 сайтов