Вэпоху всеобщей компьютеризации доступ широких слоев исследователей к оцифрованному культурному наследию по прежнему является нерешенной задачей
Вид материала | Документы |
СодержаниеАссоциированные понятия 1. Перевод Тезауруса по архитектуре и искусству на русский язык Заключение и дальнейшее развитие |
- Темы контрольных работ по историко-культурному наследию Псковского края для студентов-заочников, 201.13kb.
- Аны окружающей среды Администрации Волгоградской области с целью привлечения внимания, 170.85kb.
- Икт на уроках музыки, 65.72kb.
- Национальные костюмы адыгов, 123.91kb.
- Дальнего Востока Института археологии и этнографии со ран была создана уникальная музейная, 49.6kb.
- Проблема экологического воспитания является в настоящее время актуальной. Экологические, 69.19kb.
- Руководство подготовкой и проведением Фестиваля осуществляется Организационным комитетом, 143.49kb.
- Доклад (Основные тезисы, приложения, опорные конспекты), 44.63kb.
- Программа «Толерантность» Автор: Клименко О. Л., зам директора, 264.99kb.
- Санкт-Петербургский Научный центр ран, 20.36kb.
Автоматизированное индексирование описаний музейных предметов на
базе русскоязычной версии Тезауруса по архитектуре и искусству
(Тезауруса AAT)
Б.В.Добров 1, Н.В.Лукашевич 1, В.Д.Соловьев2
В эпоху всеобщей компьютеризации доступ широких слоев исследователей к оцифрованному культурному наследию по прежнему является нерешенной задачей.
Организация эффективного доступа к цифровым ресурсам по культурному наследию является актуальной задачей – достаточно проанализировать тематику поддержанных Европейским сообществом в 2006 году исследовательских проектов в сфере культуры (см., например, ссылка скрыта).
Трудность доступа к цифровым ресурсам по культурному наследию определяется необходимостью поиска информационных ресурсов:
- либо нетекстовой природы (мультимедиа образы реальных предметов - изображения, аудио, видео),
- либо изложенных текстовым образом, но в традициях другой культуры (с частично утраченными связями с повседневной практикой),
- либо на иностранном языке.
В такой ситуации основным средством организации доступа является описание артефактов на промежуточном концептуальном языке, при этом для использования в информационном поиске по большим коллекциям данный ресурс должен иметь связи с естественным языком пользователя.
Те же проблемы стоят и перед российским обществом. Количество музейных экспонатов в РФ оценивается величинами 50-70 миллионов единиц хранения, при этом только 1-5% музейных экспонатов выставлено в экспозициях.
Самым востребованным [1] является разработка специального лингвистического ресурса и соответствующего, основанного на лингвистическом ресурсе программном обеспечении, которые позволят построить информационные системы нового типа:
- снижающие трудоемкость описания музейного предмета;
- позволяющие эффективно искать музейные предметы по их разнообразным характеристикам, в том числе в многоязычной среде;
- на основе эффективного поиска и иерархии понятий осуществлять нетривиальный вывод при исследовании свойств музейного предмета.
Важным фактором для развития новых лингвистических и программных средств может стать перевод и адаптация к русскому языку и русской культуре Тезауруса по архитектуре и искусству (The Art and Architecture Thesaurus, далее - тезаурус AAT), развиваемого фондом П. Гетти для описания предметов материальной культуры [2].
В настоящее время тезаурус AAT содержит около 30 тысяч дескрипторов и более 130 тысяч англоязычных терминов. Терминология тезауруса охватывает искусство, архитектуру, декоративное искусство, материальную культуру, архивные материалы с античности до наших дней.
Дескрипторы тезауруса подразделяются на 7 фасетов: АССОЦИИРОВАННЫЕ ПОНЯТИЯ, ФИЗИЧЕСКИЕ СВОЙСТВА, СТИЛИ И ПЕРИОДЫ, АГЕНТЫ (люди и организации), ДЕЯТЕЛЬНОСТЬ, МАТЕРИАЛЫ, ОБЪЕКТЫ.
Наиболее полное покрытие тезаурус обеспечивает для терминологии по искусству Западной Европы и Америки, включает широкий круг межкультурных понятий, однако в настоящее время недостаточно описывает терминологию по культуре Российской Федерации.
В работе [1] подчеркивается, что первоочередное значение для описания музейных предметов в российских музеях имеют два фасета: МАТЕРИАЛЫ и ОБЪЕКТЫ.
1. Перевод Тезауруса по архитектуре и искусству на русский язык
С 2006 в рамках действий по формированию инфраструктуры научно-образовательного центра по лингвистике, создаваемого при Казанском госуниверситете решением Минобрнауки РФ, начаты работы по переводу на русский язык тезауруса AAT. НИВЦ МГУ была получена лицензия на использование тезауруса AAT для некоммерческих целей. После подписания соглашения с фондом Гетти разработчиками авторам проекта были предоставлены данные Тезауруса в формате XML.
-
…
- biotite – биотит
- lepidolite – лепидолит
- muscovite (mica) – мусковит ТЕЗ 133835
- phlogopite – флогопит ТЕЗ 133836
- olivine – хризолит ТЕЗ 108751
- opal – опал ТЕЗ 110324
- pyrite – пирит ТЕЗ 133526
- quartz (mineral) – кварц (минерал) ТЕЗ 109128
- amethyst – аметист ТЕЗ 8949
- aventurine – авантюрин ТЕЗ 135751
- chalcedony – халцедон ТЕЗ 109312
- agate – агат ТЕЗ 8074
- moss agate – моховой агат
…
- biotite – биотит
Рис. 1 Фрагмент файла перевода фасета «Материалы» с
указанием ссылок на дескрипторы тезауруса РуТез
В настоящее время переведено 8 тысяч дескрипторов тезауруса (Рис.1), входящих в состав фасетов МАТЕРИАЛЫ и ОБЪЕКТЫ.
Для функционирования системы автоматизированного индексирования описаний музейных предметов недостаточно перевести тезаурус AAT на русский язык, необходимо снабдить дескрипторы тезауруса русскоязычными синонимами, терминологическими вариантами.
Для этого переводимый дескриптор ищется в большом ресурсе русского и языка тезаурус РуТез [3], и если он находится, то снабжается отсылкой на соответствующий дескриптора РуТез. Ссылки на дескриптор тезауруса РуТез позволяют сразу же присоединить набор русскоязычных синонимов, приписанных в тезаурусе данному дескриптору, что важно для стабильного распознавания дескриптора в текстах описаний. В среднем порядка четверти дескрипторов тезауруса AAT получают ссылки на дескрипторы тезауруса РуТез.
В дальнейшем предполагается тестирование ресурса на основе русскоязычных описаний музейных коллекций и пополнение списка русскоязычных синонимичных рядов.
Рис.2. Пример экрана оболочки ведения тезауруса,
в которую загружены русские переводы Тезауруса AAT
2. Загрузка переводов Тезауруса по Архитектуре и искусству в оболочку ведения тезаурусов
Для преобразования переводов дескрипторов тезауруса в двуязычный лингвистический ресурс, способный использоваться в автоматической обработке текстов были разработаны три программы:
- одна программа конвертирует данные Тезауруса AAT (основной файл в XML формате размером 248 Мб) в формат базы данных Borland Paradox в структуры таблиц ведения тезауруса РуТез;
- вторая программа считывает файлы переводов, осуществленных лингвистами-переводчиками, и формирует русскоязычные названия дескрипторов;
- третья программа пополняет русскоязычные синонимические ряды нового двуязычного тезауруса текстовыми входами соответствующих понятий тезауруса РуТез (Рис.2).
3. Подготовка предварительной версии автоматизированной системы индексирования по Тезаурусу по Архитектуре и искусству
Для исследования, насколько сделанные переводы соответствуют реальным музейным коллекциям, была подготовлена предварительная версия автоматизированной системы индексирования на основе перевода Тезауруса AAT.
Рис.3. Окно веб-сервиса системы автоматизированного индексирования по тезаурусу AAT
Для формирования автоматизированной системы индексирования используются следующие технологии:
- автоматическая лингвистическая обработка русскоязычных и англоязычных текстов, применяемая в информационной системе УИС РОССИЯ (ссылка скрыта) [4], где в качестве терминологических словарей используется новый лингвистический ресурс;
- веб-сервис АЛОТ (Автоматическая Лингвистическая Обработка Текстов), позволяющий получать тексты на обработку АЛОТ через HTTP запрос и отсылающий обратно результаты обработки;
- интерфейс пользователя, взаимодействующий с веб-сервисом АЛОТ.
Для штатного функционирования системы должен быть запущен веб-сервис АЛОТ . Пользователь может ввести текст описания (описаний) в веб-форму (Рис.3) и нажать на клавишу «Обработать!». В текущем примере в окно обработки помещены фрагменты реальных описаний экспонатов Этнографического музея Казанского университета.
Данные из веб-формы ввода передаются веб-сервису АЛОТ, который сразу запускает обработку поступившего текста, производятся морфологический анализ и терминологический анализ.
Результаты АЛОТ форматируются с помощью динамического HTML и возвращаются пользователю (Рис.4).
Пользователь может видеть, какие фрагменты текста соответствуют дескрипторам Тезауруса AAT - они подсвечены разными цветами.
Если подвести курсор устройства «мышь» к выделенным фрагментам обработанного текста, то во всплывающих окошках отображаются наименования найденных дескрипторов Тезауруса AAT.
Рис.4. Результаты обработки файла описаний музейных предметов. Сопоставленные термины выделяются цветом. Мышь подведена к слову кафтан, высвечивается соответствующий дескриптор в тезаурусе AAT – caftans.
Заключение и дальнейшее развитие
Для создания полноценного двуязычного лингвистического ресурса и системы автоматизированного индексирования описаний музейных предметов предстоит еще выполнить ряд шагов.
Во-первых, необходимо пополнить русскоязычную часть полученного ресурса. Пополнение должно осуществляться в двух направлениях. Первое направление – это пополнение русскоязычными синонимами, терминологическими вариантами. Богатство синонимических рядов необходимо для стабильного распознавания соответствующего дескриптора в текстах.
Кроме того, необходимо пополнить набор дескрипторов тезауруса дескрипторами в области русского искусства, искусства народов России, которые в настоящее время в тезаурусе AAT представлены явно недостаточно.
Во-вторых, необходима доработка создаваемого программного и лингвистического обеспечения на основе реальных музейных описаний, контактов и демонстраций для специалистов ведущих музеев Российской Федерации; проведение ряда экспериментов по интерактивному описанию музейных предметов, двуязычному поиску в музейных коллекциях на основе созданного программно-лингвистического комплекса.
Литература
1. Е.С. Кузьмина, Л.Я. Ноль, В.В. Черненко, Е.Л. Кощеева, И.Ю. Хургина, Краткое описание музейного предмета: информационно-лингвистическое обеспечение // Стандарты описания объектов культурного наследия (Культура: политика модернизации. Вып. 2) Псков-Москва 2001. С.35-62.
(ссылка скрыта)
2. Art and Architecture Thesaurus. Second Edition. Toni Petersen, Director. New York: Oxford University Press, 1994. 5 vols.
(ссылка скрыта).
3. Лукашевич Н.В., Добров Б.В., Тезаурус русского языка для автоматической обработки больших текстовых коллекций // Компьютерная лингвистика и интеллектуальные технологии. Труды Международного семинара Диалог'2002 / Под ред. А.С.Нариньяни - М.: Наука - 2002. - Т.2 - С.338-346.
(ссылка скрыта)
4. Добров Б.В., Лукашевич Н.В., Тезаурус и автоматическое концептуальное индексирование в университетской информационной системе РОССИЯ // Третья Всероссийская конференция по Электронным Библиотекам «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - Петрозаводск, 2001 – С.78-82.
1 НИВЦ МГУ им. М.В.Ломоносова
2 Казанский государственный университет им. В.И.Ленина