Проблемы и перспективы развития исторической информатики

Вид материалаАнализ

Содержание


Особенности современных Интернет-публикаций исторических документов
Активность, аналитичность.
Н.И. Серый (Кострома)
Подобный материал:
1   ...   50   51   52   53   54   55   56   57   ...   70
^

Особенности современных Интернет-публикаций
исторических документов 


Повсеместное распространение и легкий доступ к Интернет-ресурсам, а также бурное развитие самих Интернет-технологий позволяет переосмыслить подход к использованию Интернета как площадки для создания электронных публикаций исторических источников. Первоначальный переход к цифровой форме публикаций в виде сканированных изображений и цифровых транскрипций текстов для источников удобен сейчас лишь как средство удаленного и простого доступа к ним. По своему составу и функциональности электронная публикация на данный момент копирует или даже уступает бумажной публикации.

На наш взгляд необходимо применять при подготовке цифровых публикаций древних печатных или рукописных памятников культурного наследия возможности современных языков структурной и семантической разметки, таких как XML, RDF, OWL и др. Также необходимо строить интеллектуальные web-системы и сервисы, предоставляющие инструментарий для работы с размеченными цифровыми текстами, и встраивать тексты и инструменты в Интернет нового поколения – Семантический веб. Это становится возможным за счет того, что размеченный текст может быть прочитан и проанализирован машиной. Причем если в разметке заключена информация не только о структуре, но и о смысле текста (семантике), то становится возможным построение интеллектуальных анализаторов текста и более совершенных поисковых механизмов.

Опишем принципы формирования и функционирования электронных научных текстов в рамках некоторой интеллектуальной системы, позволяющей работать с ними.

Попробуем проиллюстрировать с помощью описания свойств электронных публикаций их характерные особенности и появляющиеся возможности исследовательской работы с ними.

Полнотекстовость. Историки хотят работать с цифровым образом объекта также как и с этим объектом в реальном мире. Поэтому необходимо хранить исторические источники как цельные отдельные сущности, содержащие как сам текст, так и метаинформацию о нем. Логично сопоставлять реальному документу его XML-копию. В такой XML-документ можно также включать отдельными блоками рассуждения и справочный аппарат исследователя-публикатора, получая законченную научную публикацию.

Наглядность. Работа с цифровым объектом должна быть максимально приближена к натуральной. То есть необходимо вместе с транскрипциями текстов хранить и их оригинальные изображения (сканированные или сфотографированные). Отображать на изображениях областями и цветами разметку, сделанную на цифровых документах и наоборот – размечать картинки, извлекая таким образом из них слова. Кроме того, при создании электронных копий рукописных или древних печатных документов можно формировать наборы векторных шрифтов (SVG), которые будут максимально точно воспроизводить оригинал.

^ Активность, аналитичность. Размеченный текст, его метаинформация и описание составляющих его символов становятся доступными для анализа с помощью различных инструментов интеллектуальной системы, в которой они заведены, а также любой другой Интернет-системы, способной разбирать такую разметку. Сама цель публикации смещается с чисто археографической – сохранение культурного наследия, на аналитическую – использование источников как базы для проведения исследований.

Междисциплинарность. Разметка может быть сделана различными способами и для различных целей. Многие гуманитарные дисциплины, такие как история, источниковедение, лингвистика, текстология, так или иначе выделяют в текстах интересующие их объекты и связи между ними и на сформированной формальной модели проводят дальнейшее исследование.

Многомерность. Даже в рамках одной дисциплины разметка может быть сделана несколькими способами исходя из потребностей задачи. Поэтому появляется бесконечное количество вариантов текста, структурированного в различных разрезах. Например, один историк выделяет в тексте характерные блоки или разделы для построения формулярного анализа, а другой выделяет семантически значимые единицы, такие как персоналии и географические объекты.

Интерактивность. Наличие нескольких вариантов текста позволяет менять его отображение на экране в зависимости от выбранной схемы разметки и параметров отображения. Кроме того, современные Интернет-инструменты и сервисы обработки текстовой информации позволяют работать в онлайн режиме, как это делается в настольных приложениях.

Социальность. Использование Интернет-инструмента (системы) позволяет организовывать распределенное сетевое сообщество исследователей, которые могут разделить между собой обязанности и эффективно выполнять рутинную работу ввода и разметки текстов, обмениваться результатами и методиками исследований друг с другом, явно и неявно передавать собственный опыт и экспертные знания.

Вариативность. Становится возможным проведение параллельных исследований на базе определенной схемы разметки одного и того же материала несколькими исследователями. После чего можно сравнивать результаты, получать усредненное или взвешенное решение.

Связность. Указание взаимосвязи объектов не только на уровне Интернет-страниц как этот традиционно делается с помощью гиперссылок, но и на уровне отдельных элементов текста наделяет цифровую публикацию мощной функциональностью. Использование связей позволяет строить сложные модели структуры и семантики как отдельно взятого текста, так и модели коллекции документов, а на более высоком уровне – моделей семантических сетей, интеллектуальных систем и различных хранилищ и архивов текстов.

Открытость. Тексты и результаты исследований хранятся в виде XML-документов и поэтому могут быть легко получены из системы хранения и использованы в других интеллектуальных системах. Также система сетевых публикаций должна быть готова к получению извне текстов в неструктурированном или структурированном стандартным образом формате (например, размеченным с помощью TEI).
^

Н.И. Серый (Кострома)