Н. А. Забелина октября 2000 г. «Утверждаю»

Вид материалаДокументы

Содержание


4.3. Лингвистическое обеспечение кспбм
Подобный материал:
1   ...   16   17   18   19   20   21   22   23   ...   29

4.3. ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ КСПБМ


4.3.1. В автоматизированных информационных системах выделение лингвистического обеспечения (ЛО) из состава информационного обеспечения и оформление его в качестве самостоятельной подсистемы было фактически завершено к концу 70-х гг. и получило закрепление в следующих документах, выпущенных ГКНТ: Единый порядок разработки и развития автоматизированных систем научно-технической информации (М.,1981), Положение о лингвистическом обеспечении ГАСНТИ (М., 1986). В настоящее время лингвистическое обеспечения формируется с учетом этих документов, сложившейся практики и действующих стандартов:
  • ГОСТ 7.1-84 Библиографическое описание документа. Общие требования и правила составления.
  • ГОСТ 7.19-85 Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Содержание записи.
  • ГОСТ 7.24-90 Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению.
  • ГОСТ 7.25-80 Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления
  • ГОСТ 7.47-84 Коммуникативный формат для словарей информационных языков и терминологических данных. Содержание записи.
  • ГОСТ 7.49-84 Рубрикатор ГАСНТИ. Структура, правила использования и ведения.
  • ГОСТ 7.52-85 Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Поисковый образ документа.
  • ГОСТ 7.59-90 Индексирование документов. Общие требования к систематизации и предметизации.
  • ГОСТ 7.66-92 Индексирование документов. Общие требования к координатному индексированию.
  • ГОСТ 7.73-96 Поиск и распространение информации. Термины и определения.
  • ГОСТ 7.74-96 Информационно-поисковые языки. Термины и определения.
  • ГОСТ 34.003-90 Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения.
  • ГОСТ 34.201-89 Информационная технология. Комплекс стандартов на автоматизированные системы. Виды, комплектность и обозначение документов при создании автоматизированных систем.
  • ГОСТ 16876-71 Правила транслитерации букв кирилловского алфавита буквами латинского алфавита.

4.3.2. Лингвистическое обеспечение определяется с учетом указанных документов, как совокупность применяемых в технологии АБИС информационных языков (ИЯ), словарных и авторитетных баз данных, лингвистических процессоров. Основные функции ЛО АБИС связаны с обеспечением следующих процессов:
  • индексирование документов и запросов;
  • эффективный поиск в документальных и фактографических базах данных АБИС по тематическим запросам;
  • выпуск информационных изданий;
  • обеспечение межсистемного информационного взаимодействия.

4.3.3. Информационные языки в функциональном аспекте подразделяются следующим образом:
  • языки индексирования (ЯИ), т.е. языки, на которых строятся исходные поисковые образы документов (ПОДы) и тематические поисковые предписания;
  • информационно-поисковые языки (ИПЯ), т.е. языки, на которых представляются ПОДы и тематические поисковые предписания для их непосредственной информационно-поисковой идентификации, реализующей критерий тематического соответствия документов запросам;информационные языки-посредники (ЯП), т.е. языки, на которых представляются ПОДы в записях документов в коммуникативных форматах.

В документальных БД КСПБМ необходимо обеспечить поиск как по широкотематическим запросам, так и по запросам, сформулированным с точностью до детальных понятий. Эффективными для поиска по широкотематическим запросам являются классификационные ЯИ, для поиска по детальным запросам – вербальные ЯИ. ПОДы на вербальных и классификационных ЯИ не представляются взаимотранслируемыми. Следовательно, в составе ЛО требуется наличие хотя бы одного вербального и хотя бы одного классификационного ЯИ.

Использование в составе ЛО российских автоматизированных информационных систем ЯИ ГРНТИ обусловлено ГОСТом 7.49 – 84. Одного этого классификационного ЯИ недостаточно, поскольку основная масса публичных библиотек его не использует. Предлагается следующий набор классификационных ЯИ, обеспечивающий достаточно большое покрытие потребностей информационного взаимодействия отечественных и зарубежных библиотек: УДК, ББК и ДКД.

Наиболее эффективным для поиска среди вербальных ИЯ является язык ключевых терминов. Наиболее распространенным вербальным ЯИ в библиотеках является язык предметных рубрик. Использование в АБИС языка предметных рубрик в качестве основного ЯИ представляется проблематичным (сложности с ведением и использованием словаря предметных рубрик, а также синтаксические трудности). Кроме того в системе публичных библиотек Москвы и России наиболее широкое распространение приобрел ЯИ ключевых терминов. Поэтому в состав ЛО КСПБМ язык предметных рубрик включен только как один из допустимых ЯИ, а как основной ЯИ – язык ключевых терминов.

4.3.4. Лингвопроцессорный состав ЛО КСПБМ, является логическим следствием его информационно-языкового состава.

К числу лингвистических процессоров (ЛП) относятся:
  • внутренние трансляторы, в том числе трансляторы ПОДов с одних ЯИ на другие ЯИ;
  • коммуникативные трансляторы, в том числе прямые коммуникативные трансляторы, т.е. трансляторы ПОДов с ЯИ на ЯП, и обратные коммуникативные трансляторы, т.е. трансляторы ПОДов с ЯП на ЯИ;
  • поисковые лингвистические процессоры, в том числе процессоры обогащения запросов с использованием словарных баз данных, трансляторы ПОДов с ЯИ на соответствующие ИПЯ, процессоры тематической идентификации ПОДов и поисковых предписаний, представленных на ИПЯ;
  • словарные процессоры, в том числе процессор словарно-грамматической фильтрации новых слов в ПОДах, процессор тезаурусной фильтрации новых терминов в ПОДах, процессоры актуализации словарей;
  • процессоры транслитерации.

Состав используемых средств этого вида на последующих этапах развития Сети будет определён в процессе её технического и рабочего проектирования.

4.3.5. Лингвистическое обеспечение системы КСПБМ должно обеспечить:
  • индексирование документов и запросов;
  • эффективный поиск в документальных базах данных по тематическим запросам;
  • внутрисистемную лингвистическую совместимость электронных каталогов и БД библиотек Москвы, а также лингвистическую совместимость КСПБМ с наиболее развитыми библиотечно-информационными сетями регионов России и западных стран, в первую очередь – с OCLC.

4.3.6. Полный состав средств ЛО, в наибольшей степени соответствующий этим задачам, помимо упомянутых выше языков индексирования и лингвистических процессоров, должен также включать:

1. Авторитетные базы данных, используемые при каталогизации и поиске и охватывающие имена лиц, названия организаций и мероприятий, географические названия, унифицированные заглавия, предметные рубрики.

2. Словарные базы данных, используемые в процессах индексирования документов и запросов, лексикографического и терминологического контроля входных записей документов и запросов пользователей, трансляции ПОДов с одних языков индексирования на другие:
  • База данных ГРНТИ,
  • База данных УДК,
  • База данных ДКД,
  • Базу данных ББК,
  • Тезаурусная база данных,
  • Базы данных грамматических словарей.

4.3.7. Функции поддержки ЛО в организационно-технологической структуре КСПБМ должна взять на себя небольшая группа специалистов (2-3 чел.) в составе службы администрации сети Базового центра-провайдера совместно с выделенными для этой цели представителями библиотек, представляющих различные узлы КСПБМ.


***