Учебное пособие для студентов библиотечного факультета Кемерово 1981 г
Вид материала | Учебное пособие |
СодержаниеОсновные разделы КГС Информационно-поисковые тезаурусы Продукция кабельная. |
- Учебное пособие Для студентов вузов Рекомендовано методической комиссией механического, 1136.53kb.
- Учебное пособие для студентов специальности 260202 «Технология хлеба, кондитерских, 1941.61kb.
- Учебное пособие для студентов специальности 271200 «Технология продуктов общественного, 2012.38kb.
- Учебное пособие Кемерово 2004 удк, 1366.77kb.
- Учебное пособие для студентов географического факультета специальностей, 2383.47kb.
- Учебное пособие (Правление в России с IX по XXI век) для студентов всех специальностей, 1157.71kb.
- Учебное пособие для студентов факультета иностранных языков / Сост. Н. В. Дороднева,, 393.39kb.
- Учебное пособие Кемерово 2007 удк, 1748.31kb.
- Учебное пособие для самостоятельной работы студентов 5 курса факультета иностранных, 1438.69kb.
- Учебное пособие для студентов всех форм обучения специальности 271200 «Технология продуктов, 1107.93kb.
Основные разделы КГС
А Горное дело. Полезные ископаемые.
Б Нефтяные продукты.
В Металлы и металлические изделия.
Г Машины, оборудование, инструмент.
Д Транспортные средства. Тара.
Е Энергетическое и электротехническое оборудование.
Ж Строительство. Стройматериалы.
И Силикатно-керамические материалы и изделия.
К Лесоматериалы. Изделия из древесины. Целлюлоза.
Л Химические продукты и резиноасбестовые изделия.
М Текстильные и кожевенные материалы и изделия.
Н Пищевые и вкусовые продукты.
П Измерительные приборы. Средства автоматизации и вычислительной техники.
Р Здравоохранение. Предметы санитарии и гигиены.
С Сельское и лесное хозяйство.
Т Общетехнические и организационно-методические стандарты.
У Атомная техника.
Э Электронная техника. Радиоэлектроника. Связь.
Каждый раздел КГС делится на классы. Классы обозначаются арабскими цифрами от нуля до девяти. Например:
Класс АО общие правила и нормы по горному делу.
Класс Д5 железнодорожный транспорт.
Классы делятся на группы и обозначаются составным индексом раздела, класса и группы.
Например:
А12 Антрацит
Д51 Локомотивы (тепловозы, паровозы)
Классы, группы ГКС строятся по типовым схемам. Так, например:
ЖО общие правила и нормы по стройматериалам
ПО общие правила и нормы по здравоохранению
ЖОО термины и обозначения
ПОО термины и обозначения
Ж01 техдокументация, строительные чертежи
П01 техдокументация
Ж02 нормы расчета и проектирования
П02 нормы расчета и проектирования
Ж07 техника безопасности
П07 техника безопасности
Ж08 применение и эксплуатация
П08 применение и эксплуатация
Типовые схемы построения классификаций стандартов обеспечивают высокую мнемоничность и быстрое разыскание документов в массиве, а также мощную организацию документальных фондов.
Международная классификация изобретений. Учитывая тот факт, что в базу данных АИС вводятся специфические виды изданий: описания к изобретениям, в настоящей главе целесообразно рассмотрение МКИ, как единой системы классификации, охватывающей патенты на изобретения, включая опубликованные патентные заявки, авторские свидетельства на полезные модели и свидетельства о полезности, иначе говоря, патентные документы. Международная классификация изобретений предназначена для единообразного в международном масштабе классифицирования патентных документов. МКИ представляет собой эффективный инструмент для патентных ведомств и других потребителей, осуществляющих поиск патентных документов для различных целей, в том числе установления новизны, приоритета и т.д. МКИ служит не только для раскрытия содержания патентных документов и их поиска, но и является инструментом для упорядоченного хранения патентной документации, что в свою очередь облегчает доступ к ним. Международная классификация изобретений может послужить достаточно хорошей основой для организации системы избирательного распространения информации, реализуемой в АИС. МКИ создает хорошую основу для выявления и определения современного уровня развития техники и технологии, а также получения статистических данных в области промышленной собственности, что позволяет определять уровни развития различных отраслей в различных странах МКИ, как и УДК, имеет иерархическую структуру и охватывает все области знаний, объекты которой могут принадлежать защите охранными документами. МКИ разделена не на десять классов, как УДК, а на восемь разделов. Каждый раздел обозначен заглавной буквой латинского алфавита.
Разделы МКИ
А Удовлетворение жизненных потребностей человека
В Различные технологические процессы; транспортирование
С Химия и металлургия
Д Текстиль и бумага
Е Строительство; Горное дело.
F Механика; освещение; отопление; двигатели и насосы: оружие, боеприпасы; взрывные работы.
Физика
Н Электричество
Каждый из восьми разделов МКИ делится на классы, подклассы, основные группы или подгруппы, как показано на рис.
Е раздел 21 1/00
Класс 1/12
Подкласс
Основная группа (подгруппа)
Классы в МКИ обозначаются двузначным числом (Е21); классы разделяются на подклассы и обозначаются заглавной буквой латинского алфавита (Е21 ). Заголовок любого раздела в МКИ, например, раздела Е – строительство, горное дело – лишь приблизительно отражает его содержание. Заголовок же подкласса Е21 – средства техники безопасности; транспорт, закладка выработанного пространства; оборудование для спасательных работ; вентиляция или дренаж рудников или туннелей – наиболее полно раскрывает содержание подкласса, Заголовок любого подкласса МКИ должен с максимальной полнотой характеризовать круг вопросов, входящих в подкласс. Каждый подкласс МКИ может иметь группы или подгруппы, называемые в МКИ рубриками. Рубрика должна обеспечить принятие решения о целесообразности поиска информации во множестве патентных документов, помеченных числом группы с косой чертой. Например Е21 1/12 – устройство для автоматического открывания вентиляционных дверей. Иерархические отношения между рубриками подгрупп в МКИ помечены точками. Поставленные точки перед рубриками, указывают на место рубрики в иерархии. Например:
А 63 Н 3/00 Куклы
3/36. Детали и принадлежности
3/38.. Глаза
3/39… Подвижные
Взаимодействие международной классификации изобретений с другими классификационными языками в автоматизированных ИПС обеспечивается двумя способами. Это прежде всего совместное использование МКИ и других ИПЯ (национальных классификаций) в массивах патентной документации, или путем разработки таблиц соответствия, например, между МКИ и УДК, МКИ и ББК, МКИ и рубрикатором ГАСНТИ.
Рубрикатор международной системы научной и технической информации МСНТИ) разрабатывался в соответствии с требованиями международного центра научно-технической информации (МЦНТИ). Эти требования предъявлялись ко всему комплексу языков МСНТИ.
Основной целью рубрикатора являлось прежде всего решение задачи минимизации затрат стран – участниц МЦНТИ на организацию и выполнение технологических процессов, требующих использования ИПЯ при условии обеспечения заданной эффективности информационного обслуживания потребителей МСНТИ, реализуемого на основе широкого применения средств механизации и автоматизации.
Известно, что МСНТИ включает два типа систем:
А) международные специализированные системы, например, АИС: по промышленным каталогам, опубликованным документам, научно-исследовательским работам;
Б) международные отраслевые системы, например, по химической технологии, электронике, сельскому хозяйству. В МСНТИ включаются и многоотраслевые и проблемные АИС.
Функционирование специализированных и отраслевых международных АИПС обеспечивают соответствующие выделенные национальные информационные центры на основе кооперации и интеграции АИС. В рамках каждой отдельной системы НТИ циркулируют информационные массивы документов, написанных на различных языках (русском, английском, немецком, чешском, польском, испанском и т.д.). При этом ввод документов в АИС в каждой национальной системе осуществляется с помощью различных ИПЯ, что делает практически несовместимым системы. Поэтому составители и разработчики рубрикатора МСНТИ преследовали две цели:
А) снизить или преодолеть языковый барьер на уровне использования естественных языков;
Б) обеспечить однозначность распределения документов в информационных массивах.
Общеизвестен тот факт, что почти 75% всех затрат в автоматизированных ИПС связано с подготовкой и вводом документов в систему. Снизить по возможности эти затраты как известно можно путем однократной обработки документов на основе международного разделения труда с использованием принципа специализации и кооперирования смысловой обработки документов. А это можно сделать тогда, когда в системах используется единый ИПЯ.
Использование единого рубрикатора уменьшает дублирование документов на машиночитаемых носителях информации, увеличивает многофункциональное использование и воспроизведение однажды введенного документа в различных информационных изданиях (РЖ, СИ и т.д.), а также в ответах на запросы потребителей. Рубрикатор МСНТИ нужно рассматривать как один из компонентов комплекса ИПЯ в международной автоматизированной информационной системе. Кроме рубрикатора в комплексе ИПЯ МСНТИ входят макротезаурус, таблицы соответствия для связи рубрикатора с УДК, МКИ и другими классификациями.
В тот же комплекс входят набор грамматических средств, рубрикаторы и тезаурусы международных специализированных информационных систем, а также рубрикаторы и тезаурусы международных отраслевых систем. В комплекс ИПЯ МСНТИ входят нормативно-технические и методические материалы, регламентирующие разработки, использование и ведение ИПЯ. Рубрикатор отражает понятия верхних уровней иерархии, ограниченную глубину и предназначен главным образом, как принято говорить, для расфасовки документов по блокам.
Органы информации выполняют много функций, в том числе: осуществляют ретроспективный поиск, избирательное распространение информации, сигнальное информирование, подготавливают и издают библиографические и реферативные издания, снабжая их многочисленными вспомогательными указателями (предметный, языковый, именной, пермутационный, формульный, географический и т.д.), обеспечивают выдачу фактографических справок. Поэтому рубрикатор и имеет многоцелевое назначение, которое позволяет реализацию любой одной или нескольких функций, которые возложены на службы информации.
Рубрикатор не является классификацией наук и отраслей. Он предмет соглашения органов НТИ и предназначен для решения конкретных прагматических задач, которые возникают в процессе обмена информацией между АИС. Построение рубрикатора осуществлено не путем механического объединения отраслевых рубрикаторов МОСНТИ, что привело бы к неоправданному дублированию при обмене и хранении информации, а путем разработки логической структуры, указывающей на степень обобщения информационных материалов и не отражает структуры отраслей народного хозяйства, не указывает на степень важности тот или иной отрасли. Рубрикатор МСНТИ отличается от рубрикаторов отраслевых систем тем, что он отражает отраслевые ядра без учета смежных отраслей, по которым в отраслевых АИС формирует справочно-информационные фонды. Рубрикатор представлен тремя иерархическими уровнями. В пределах одного и того же уровня рубрики располагаются примерно с равными объемами содержания. Разделы одного и того же уровня не могут находиться в иерархических отношениях. Рубрики первого уровня рубрикатора соответствуют, как правило крупным областям науки и техники, группам отраслей народного хозяйства, комплексным проблемам. Для создания условий по дальнейшему совершенствованию рубрикатора путем внесения добавлений, а также поддержания рубрикатора на соответствующем научном уровне в нем оставлены резервные рубрики, наибольшее число которых сосредоточено вблизи точек возможного роста. Рубрикатор МСНТИ не заменяет и не отменяет другие классификационные системы, а существует с ними одновременно. Функциями рубрикатора являются:
- определение тематического охвата подсистем МСНТИ;
- формирование информационных массивов в подсистемах;
- систематизация информационных массивов в фондах подсистем и для целей информационных изданий;
- нормативная функция для рубрикаторов подсистем;
- описание тематического профиля тезаурусов подсистем;
- поиск по рубрикам;
- организация распределенных автоматизированных фондов документов;
- организация обмена информационными массивами на машинных носителях и по каналам связи между последними;
- обеспечение автоматизированного формирования отраслевых информационных массивов;
- обеспечение единства разработки рубрикаторов подсистем;
- повышение эффективности информационных изданий;
- способствование взаимодействию и совместимости тезаурусов различных подсистем МСНТИ.
Рубрикатор МСНТИ представляет собой политематическую классификационную схему, имеющую не более трех уровней иерархии. Первый уровень содержит не более ста рубрик, условно разделенных на следующие группы:
00/26 Общественные науки
27/43 Естественные и точные науки
44/81 Технические и прикладные науки, отрасли народного хозяйства
82/99 Общеотраслевые и комплексные проблемы (межотраслевые проблемы)
Каждая рубрика в рубрикаторе может быть поделена не более, чем на сто рубрик следующего уровня. На каждом уровне деления предусматриваются резервные позиции, что позволяет в процессе совершенствования и развития рубрикатора дополнять его новыми рубриками. Если рассматривать рубрики в рубрикаторе, то их можно разделить на две группы. Одни рубрики, имеющие коды, называются используемыми рубриками, а те рубрики, которые не имеют кодов, называются условными.
Рубрики в Рубрикаторе построены по типовым схемам. Для каждой группы отраслей разработаны свои типовые схемы: рубрики для общественных наук, рубрики для естественных и точных наук, а также рубрики для технических, прикладных наук и отраслей народного хозяйства. Для иллюстрации условных рубрик к общественным наукам приводим их типовую схему:
ХХ.01 Общие вопросы
ХХ.07 Теория и методология наук
ХХ.09 История науки
ХХ.21 Разделы науки
По другой схеме строятся условные рубрики для технических, прикладных наук и отраслей народного хозяйства. Эта схема имеет вид:
ХХ.01 Общие вопросы
ХХ.03 Теоретические основы
ХХ.09 Материалы и сырье
ХХ.13 Технология и оборудование. Проектирование, конструирование, моделирование
ХХ.15 Деление по технологическим процессам
ХХ.29 Деление по видам продукции или подотраслям
ХХ.75 Прочие рубрики
Условные рубрики для естественных и точных наук строятся по схеме:
ХХ.01 Общие вопросы
ХХ.03 Теория и методология науки
ХХ.15 Разделы науки
ХХ.51 Применение данной науки
Каждая условная рубрика в группе наук строится по типовой схеме, которая характерна для данной группы наук.
Рубрика «Общие вопросы» в группе рубрик для естественных и точных наук построена по схеме:
ХХ.01.01 Руководящие материалы в науке
ХХ.01.05 Материалы, характеризующие науку в целом и ее взаимосвязь с другими науками
ХХ.01.09 История науки персоналии
ХХ.01.13 Научные общества, съезды, конгрессы, конференции, симпозиумы, семинары, выставки и т.д.
ХХ.01.17 Международное сотрудничество в науке
ХХ.01.21 Организация научно-исследовательской работы в науке
ХХ.01.29 Информационная деятельность в науке
ХХ.01.33 Терминология, справочники, словари, учебная литература по науке
ХХ.01.37 Стандартизация в науке
ХХ.01.75 Экономика, организация, управление, планирование. Прогнозирование в науке.
Система аннотаций в Рубрикаторе разработана с учетом следующих требований:
- введение новых рубрик без изменения кодов старых;
- независимость от алфавитов естественных языков;
- соблюдение мнемонических правил, обеспечивающих быстроту запоминания кодов рубрик, сходных по смыслу;
- защита от случайных ошибок при написании и вводе информации в ЭВМ или переносе на машиночитаемые носители информации.
Для повышения однозначности для присвоения рубрик (кодов) информационным материалам; разграничения содержания пересекающихся по смыслу рубрик и отражения полииерархических связей различных разделов в Рубрикаторе имеется справочно-ссылочный аппарат, в котором приведен список помет, ссылок и отсылок: используй – («исп.»); использует вместо – («исп. вместо»); смотри – («см.»); отсылка от («ОТС. от»); эквивалентно – («экв.»); смотри также – («см. также»); используй также – («исп. также»); (смотри рис. 1-5).
Среди комплекса информационно-поисковых языков, входящих в лингвистическое обеспечение автоматизированных систем, Рубрикатор занимает особое место потому, что он является важнейшей системообразующей частью ИПЯ международной системы научно-технической информации. Исходя из тех функций, которые должны решаться в АИС при использовании Рубрикатора, его взаимоотношения и взаимодействие с другими ИПЯ, которые используются в АИС, можно охарактеризовать следующим образом: через таблицы соответствия Рубрикатор взаимодействует с Универсальной Десятичной классификацией, международной классификацией изобретений. На первых трех уровнях иерархии рубрики Рубрикатора составляют основу Рубрикаторов международных специализированных систем, а также международных отраслевых АИС. Уровни иерархии Рубрикатора в отраслевых системах учитывают (отражают) не только профиль отрасли, в которой создается ИПЯ, но и смежные отрасли, по которым обычно формируются информационные массивы в локальных и отраслевых АИС.
Рубрикатор МСНТИ используется вместе с макротезаурусом, который образован из терминов, выделенных из рубрик Рубрикатора и построен в соответствии с требованиями ГОСТа ( ).
Через макротезаурус связываются в единую целую систему ИПЯ АИС как отраслевые, так и микротезаурусы.
Для того, чтобы поддерживать любой информационно-поисковый язык, в том числе и Рубрикатор, на соответствующем уровне в них вводят новые рубрики, дескрипторы и т.д. В ходе эксплуатации ИПЯ в системах обнаруживаются ошибки, которые должны быть устранены. Для поддержания заданного уровня и исправления допущенных ошибок, а также дальнейшего совершенствования Рубрикатора, МЦНТИ полученные замечания и предложения по Рубрикатору вносит на рассмотрение совещания группа экспертов – членов МЦНТИ по вопросам создания комплекса информационно-поисковых языков международных автоматизированных систем.
В состав лингвистического обеспечения АИС входят национальные Рубрикаторы, в том числе Рубрикатор Государственной автоматизированной системы научно-технической информации (ГАСНТИ). Национальные Рубрикаторы разрабатываются в соответствии с «Положение о лингвистическом обеспечении национальных систем НТИ» и нормативно-техническими предписаниями МЦНТИ «Комплекс информационно поисковых языков в МСНТИ. Требования, состав». (НТП МЦНТИ 7-75).
Рубрикатор ГАСНТИ, как и Рубрикатор МСНТИ является основным классификационным языком в комплексе лингвистического обеспечения автоматизированной системы НТИ. Лингвистическое обеспечение ГАСНТИ включает:
- ядро ЛО (общесистемное лингвистическое обеспечение, которое предназначено для органов НТИ, выполняющих системные обязательства по поставке информации в рамках ГАСНТИ и может быть использовано другими органами информации);
- совокупность ИПЯ и других лингвистических средств органов ГАСНТИ (автономное ЛО), обеспечивающих реализацию технологических процессов в автономном режиме.
В состав лингвистического обеспечения АИС включаются нормативно-методические документы, определяющие порядок разработки, эксплуатации и ведения лингвистического обеспечения, а также автоматизированную систему ведения информационно-поисковых языков, обеспечивающую справочно-информационное обслуживание сведениями о лингвистическом обеспечении и поддержании его ядра в рабочем состоянии с учетом изменений во времени.
Ядро лингвистического обеспечения кроме Рубрикатора ГАСНТИ включает базисные тезаурусы, перечни грамматических средств ИПЯ, а также таблицы соответствия Рубрикатора с информационными классификациями, которые используются в системе НТИ. Принципы построения, наполняемость рубрик соответствуют Рубрикатору МСНТИ. В процессе использования Рубрикатора ГАСНТИ при рубрицировании документов и запросов должны учитываться требования взаимного согласования использования всех средств лингвистического обеспечения. Рубрикатор предназначен для отражения самых важных аспектов документов и запросов, чтобы было возможно разделить всю совокупность информационного потока на сравнительно крупные подмассивы информационных материалов. При использовании Рубрикатора в качестве основы отраслевого направления комплектования справочно-информационных фондов с учетом использования средств вычислительной техники, машинных носителей информации необходимо отражать г л а в н о е содержание документа минимально необходимым числом рублик.
Исходя из общих принципов рубрикации документов и многофункционального назначения Рубрикатора, который используется для формирования документальных фондов и информационных массивов необходимо чтобы каждый документ, который представляет потенциальный интерес с многих точек зрения был снабжен кодами соответствующих рубрик, хотя эти рубрики принадлежат различным разделам, проблемам или отраслям. При поиске информации в информационных массивах, которые организованы в соответствии с Рубрикатором, описание индексирования (рубрикации) информационных запросов должно производиться с учетом тех рубрик, которые с достаточно высокой вероятностью могут содержать и хранят искомые документы.
Как правило список рубрик, описывающих тематический запрос, должен быть значительно шире списка рубрик, которые используются для индексирования документов. Такие рекомендации вызываются неоднозначностью рубрикации документов. Применение Рубрикатора Государственной автоматизированной системы НТИ и согласующиеся с ним Рубрикатором отраслевых и межотраслевых центров информации прежде всего преследуют цель существенного уменьшения уровня дублирования смысловой обработки документов и запросов, вводимых в отраслевые, региональные и локальные АИС. Каждый документ, который проходит смысловую обработку в соответствующем Всесоюзном центре информации, обязательно получает код или группу кодов Рубрикатора, а также список дескрипторов, взятых из макротезауруса. В рамках Всесоюзного центра информации обеспечивается индексирование не только с помощью кодов Рубрикатора, но также и с помощью дескрипторных ИПЯ, входящих в комплекс лингвистического обеспечения отраслевой автоматизированной системы. И только в отдельных случаях результаты обработки документов Всесоюзными органами будут дополняться дескрипторами взятыми из микротезаурусов, разработанных для специальных целей поиска информации.
В международных специализированных и отраслевых автоматизированных информационных системах используются как универсальные так и политематические классификации, в том числе: Рубрикаторы ВИНИТИ, ВНТИЦ, УДК, ББК, а также классификаторы Государственных стандартов, промышленной и сельскохозяйственной продукции. Совместимость Рубрикатора с перечисленными ИПЯ обеспечивается за счет их одновременного совместного использования или за счет таблиц соответствия. С Рубрикаторами и классификациями, которые используются в органах НТИ, не входящих в международные специализированные и отраслевые системы НТИ, привязка Рубрикаторов и классификаций к Рубрикатору осуществляется при условии выполнения следующих требований:
- приведения наименований совпадающих рубрик в форму, установленную Рубрикатором ГСНТИ, используемые рубрики должны являться подмножеством рубрик Рубрикатора;
- обязательным является простановка кода или кодов Рубрикатора ГСНТИ против рубрик соответствующих отраслевых или региональных Рубрикаторов или классификаций.
Справочно-ссылочный аппарат в Рубрикаторе Государственной автоматизированной системе НТИ соответствует справочно-ссылочному аппарату Рубрикатора МСНТИ.
Информационно-поисковые тезаурусы входят в комплекс информационно поисковых языков, которые эксплуатируются в интегральных информационно-поисковых системах, как обязательные элементы. С использованием в АИС информационно-поисковых тезаурусов связывают повышение качественных показателей полноты и точности функционирования АИС. Правила индексирования документов и запросов с использованием информационно-поисковых языков дескрипторного типа повышают порог неоднозначности индексирования документов и запросов. Разработка и оформление информационно-поисковых языков дескрипторного типа (тезаурусов) регламентируется требованиями ГОСТа 18.383-73 и рекомендациями ИСО/ТК 46/Т1041Е от 3.8.1971 года.
В комплексе лингвистического обеспечения АИС информационно-поисковые языки дескрипторного типа – тезаурусы занимают особое место, поэтому целесообразно изложить общие принципы разработки и оформления тезаурусов.
Информационно-поисковый тезаурус – это прежде всего словарь-справочник, в котором перечислены все лексические единицы дескрипторного информационно-поискового языка с синонимичными им словами или словосочетаниями естественного языка, где эксплицитно выражены парадигматические, синтагматические, ассоциативные отношениями между дескрипторами.
В принципе, тезаурусы могут быть универсальными, многоотраслевыми, отраслевыми или охватывать совокупность понятий какой-либо специфической части, отрасли науки, техники, проблемы, т.е. тезаурусы, которые своей терминологией охватывают небольшие отрасли науки, техники принято называть микротезаурусом. Информационно-поисковые языки дескрипторного типа, которые входят в комплекс лингвистического обеспечения АИС образуют систему тезаурусов. Тезаурусы предназначаются для детального, многоаспектного поиска, составления предметных указателей к информационным изданиям, описания информационных потребностей (профилей) ученых и специалистов для реализации системы дифференцированного информационного обслуживания (ИРИ) и ретроспективного поиска. Созданию информационно-поисковых тезаурусов обычно предшествует длительная и трудоемкая работа по отбору терминологии. Отбор терминологии для тезаурусов начинается с выявления важнейших источников, из которых можно отобрать лексику. Такими источниками являются: специальные терминологические словари, тезаурусы, предметные указатели к информационным изданиям.
Выделенная из словарей, справочников, указателей и т.д. терминология дополняется обычно терминами, выделенными из заглавий научно-технических статей и рефератам к этим статьям. Полученный первоначальный массив терминов, ключевых слов, составляет первооснову для создания тезаурусов. При отборе и оценке терминов для словника тезауруса учитываются следующие требования:
- как часто используется термин в источниках;
- как выделенные понятия обеспечивают приемлемость в качестве технических терминов;
- как широко распространен термин в обращении.
Полученный массив терминов в ходе работы с ним претерпевает изменения. В частности, в массив могут быть добавлены новые и исключены ранее вошедшие в него термины. Выделение терминов связано с некоторыми трудностями. В частности, с неразработанностью системы понятий в отрасли знания, по которой разрабатывается тезаурус. Зачастую отсутствует общепринятая точка зрения по вопросам о путях систематизации понятий (терминов), знание которых крайне необходимо при построении терминологических систем, в частности классифицированных схем понятий. При классификации предметов (явлений), при образовании терминологических систем должны учитываться только те признаки, которые отражают действительные и существенные связи между предметами, а не сосредотачивать внимание на классификации терминов, которые обеспечивают номинативную функцию.
Созданием терминологических систем и классификационных схем крайне необходимых при образовании дескрипторных систем, позволяющих установить парадигматические связи, работа над тезаурусом не заканчивается. Важнейшим аспектом при работе с терминологией, предназначенной для тезауруса является выявление и устранение синонимичности терминов, а также приведение их к однозначности. Число лексических единиц и дескрипторных статей, построенных на этой базе должно было бы быть столько, чтобы можно было описать любой объект, обслуживаемый тезаурусом, его характеристиками и в деталях. Такую способность информационно-поискового языка принято называть семантической силой. Завершающими процедурами при построении информационно-поисковых языков являются прежде всего образование дескрипторных статей и создание вспомогательных указателей к тезаурусу. В лексике дескрипторной статьи, которая составляет основу лексико-семантического указателя различают родовые, видовые, ассоциативные дескрипторы, их синонимы. Принцип построения дескрипторной статьи в любом информационно-поисковом тезаурусе осуществляется по типовой схеме:
Дескриптор Д
Синоним С
Родовой дескриптор р.д.
Ассоциативный дескриптор а.с.
Видовой дескриптор в.д.
Типовая схема построения дескрипторной статьи хорошо прослеживается на примере дескрипторных статей, взятых из информационно-поискового тезауруса по этике (разработка ИНИОН АН СССР, 1979 г.).
Д. сочувствие
Д. скупость
С. сорадование
С. крохоборство
Р.д. нравственное чувство
С. прижимистость
В.д. сострадание
С. скаредность
В.д. участливость
С. скупидомство
А.с. доброжелательность
С. скряжничество
А.с. солидарность
Р.д. морально-деловые качества
А.с. бережливость
Дескрипторные статьи в лексико-семантических указателях тезаурусов упорядочиваются (систематизируются) в алфавите статей.
Отраслевые, местные органы информации обычно формируют свои справочно-информационные фонды не только по основному профилю, но и смежным отраслям науки и техники. Для того, чтобы обслуживать такую коллекцию документов, необходимо, чтобы тезаурусы содержали в лексико-семантическом указателе дескрипторные статьи не только по профилю отрасли, но и смежным отраслям. Поэтому разработчики тезаурусов включают в отраслевые тезаурусы дескрипторные статьи из смежных отраслевых тезаурусов или образуют их на основе выделенных терминов из представительной коллекции документов справочно-информационного фонда. Лексические единицы тезаурусов кроме дескрипторных статей образуют и другие структуры: дескрипторные группы, дескрипторные поля и области. Дескрипторной группой называют такую структуру лексических единиц, где тематический подкласс словарного состава дескрипторного информационно-поискового языка включает такие дескрипторы, которые между собой имеют связи и не пересекаются с другими подклассами. Дескрипторные группы в тезаурусах располагаются обычно в алфавитном порядке, например, дескрипторная группа:
Склады
Тара
Хранение
Дескрипторы в дескрипторных группах размещаются в алфавите, например:
Тара
Канистры
Резервуары
По наполняемости дескрипторных групп можно судить об индексирующей способности информационно-поискового языка, а по дескрипторным областям (куда входит терминология отрасли) судить о коллекции документов, которые может обслуживать информационно-поисковый тезаурус.
Дескрипторное поле – это прежде всего парная ступень (уровень группировки) возможного разделения всего словарного состава тезауруса, представляющее собой более широкий тематический класс, куда может быть включена лексика нескольких дескрипторных групп. В качестве иллюстрации основных дескрипторных полей приводим их список, взятый из тезауруса по этике:
- история нравственности;
- история этики;
- категория этики;
- отдельные разделы этики;
- теория морали;
- этика и другие науки.
Дескрипторное поле «история нравственности» включает терминологию следующих дескрипторных групп:
- коммунистическая нравственность;
- нравственность капиталистического общества;
- нравственность первобытнообщинного строя;
- нравственность рабовладельческого строя;
- нравственность феодального общества;
- нравственный прогресс;
- происхождение нравственности.
Для того, чтобы облегчить пользование тезаурусов, они снабжаются указателями иерархических отношений между дескрипторами. Для построения указателя иерархических отношений обычно выделяют в дескрипторной группе такие дескрипторы, которые могут быть вершиной иерархии. Эти дескрипторы должны выражать полный объем содержания всех дескрипторов, вошедших в данную иерархию. Расположение дескрипторов в указателях иерархических отношений осуществляется по принципу от общего к частному. Как систематический, так и указатель иерархических отношений является вспомогательным указателем к тезаурусу.
Для того, чтобы показать связи отраслевых дескрипторных ИПЯ с Рубрикаторами международных специализированных систем НТИ, а также с Государственной автоматизированной системой НТИ, дескрипторы в тезаурусах снабжаются кодами Рубрикаторов этих систем. Если один и тот же дескриптор входит в несколько рубрик Рубрикатора, то такой дескриптор получает и несколько кодов.
В качестве иллюстрации приведем пример:
Дескрипторы Индексы рубрик
Нескромность 02.51.15.05.07
Несознательность 02.51.15.05.07
Нравственное 02.51.15.03
Негодование 02.51.16,05.09
02.51.15.05.15
02.51.15.05.17
Отдельные тезаурусы снабжаются пермутационными указателями. Вся система указателей признана обеспечить быстрый эффективный поиск тех дескрипторов, которые наиболее точно и наиболее полно выражают содержание документа.
Использование информационно-поисковых тезаурусов в процессе составления поискового образа документов включает этапы:
- анализ содержания документа и выявление ключевых слов;
- формирование поискового образа документа с помощью тезауруса.
Сущность формирования поискового образа документов (ПОД), поискового предписания (ПП) заключается в том, чтобы заменить выделенные из текста документа (запроса) ключевые слова дескрипторами тезауруса и при этом установить те связи, которые существуют между дескрипторами. Перевод ключевых слов в дескрипторы осуществляется по тождественной и нетождественной схемам.
В комплекс лингвистического обеспечения АИС входят общесоюзные, отраслевые, территориальные, локальные классификаторы промышленной, сельскохозяйственной продукции, а также классификаторы технологических операций.
Весь комплекс информационно-поисковых языков призван обеспечить перевод текстов документов и запросов с учетом специфических особенностей документов (запросов) как в документальных, так и в фактографических автоматизированных информационно-поисковых системах.
Если рассматривать автоматизированную систему НТИ в качестве подсистемы автоматизированной системы управления народным хозяйством, то ограничивать лингвистическое обеспечение АИС рассмотренными типами языков было бы неправомерно. Дело в том, что классификационные и дескрипторные языки обеспечивают подготовку и ввод информации в вычислительные системы, хотя и широкому кругу информационных задач, связанных с управлением научными исследованиями, проектными разработками и т.п. Автоматизированная система управления народным хозяйством, как известно, ведут обработку технико-экономической информации, связанной с планированием, а также перспективным развитием народного хозяйства. Поэтому удовлетвориться решением задач только определенного класса с помощью указанных ИПЯ АСУ не могут и здесь целесообразно указать на целый специфический класс информационно-поисковых языков, которые обеспечивают ввод и обработку в вычислительных системах информации по экономическим показателям. В качестве признаков экономических показателей выступают не только формальные характеристики, процессы, но и такие признаки как объекты, куда входят трудовые ресурсы, предметы труда, средства труда, единицы измерения натуральных величин, стоимостные единицы измерения, единицы измерения времени и т.д. Лексика таких информационно-поисковых тезаурусов призвана обслуживать массивы экономической информации и создавать возможность описания любого экономического и производственного показателя. В этой связи целесообразно рассмотреть общие принципы построения классификаторов, которые используются в качестве лингвистического обеспечения в АСУ и фактографических АИС. В основе принципов разработки отраслевых, региональных, локальных классификаторов лежит принцип, который использован при построении Общесоюзного классификатора. Промышленная и сельскохозяйственная продукция Высшие классы группировки. Отражая сложившееся общественное разделение труда и специализацию производства Общественный классификатор призван создать необходимые условия для систематизации продукции и установления ее отраслевой принадлежности. При этом обеспечивается однозначное понимание содержания различных классификационных группировок продукции, установленных в соответствии с действующими в нашей стране принципами социалистического планирования и управления народным хозяйством. Научно-обоснованная система классификации и кодирования продукции, учета и управления народным хозяйством основывается на иерархических классификационных группировках, которые по своему экономическому содержанию обеспечивают возможность выполнения расчетов, требующихся на различных стадиях и уровнях народнохозяйственного и отраслевого планирования. В соответствии с принятой системой классификации используется единая по разрядности система цифрового кодирования продукции, которая обеспечивает практическую возможность использования современной вычислительной техники для выполнения расчетов в области планирования производства, распределения и использования материальных ресурсов. Вся промышленная и сельскохозяйственная продукция в классификаторе на основании соответствующих признаков распределения, в классы, подклассы, группы, подгруппы и виды.
При этом продукция на каждой ступени иерархии конкретизируется соответствующими признаками. Например, Класс 35 Продукция кабельная. Подкласс 35 8 Кабели, провода и шнуры межотраслевого и отраслевого назначения. Группа 35 82 Провода монтажные. Подгруппа 35 821 Провода монтажные с медной жилой. Вид 35 812 Провода монтажные с медной жилой с поливинилхлоридной изоляцией.
Общая структура кодовых обозначений представлена на рис.
Видовые классификационные группировки в отраслевых разделах ОКП в полной номенклатуре получают дальнейшую конкретизацию, которая позволяет дать полное представление о предмете производства, поставках продукции на производственное и личное потребление, а также на экспорт. В ОКП первые ступени классификации составляют Высшие классификационные группировки с единым по длине кодовым обозначением в шесть разрядов.
Например,
362200 Оборудование смесительное, профилирующее и литьевой.
411000 Литье (отливки).
Конкретная продукция представлена в виде предметов в рамках отраслевых расходов в полной номенклатуре с единым кодовым обозначением в десять разрядов. Схему кодовых обозначений продукции ОКП см. на рис.
Высшие классификационные группировки | Дальнейшая конкретизация | |||||||
Класс | Подкласс | Группа | Подгруппа | Вид | Внутривидовая группировка | |||
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
За счет взаимодействия Всесоюзного научно-исследовательского института классификации и кодирования информации (которому поручено поддерживать на заданном уровне ОКП) с министерствами, ведомствами, ГВЦ, Госплана, обеспечивается на заданном уровне функционирование подсистемы ведения ОКП.
Если рассмотреть лексический состав классификатора ГАСНТИ, а также лексику отраслевых информационно-поисковых тезаурусов в сравнении с лексикой ОКП и отраслевых классификаторов, то мы заметим, что на высших уровнях иерархии она совпадает и в отдельных случаях пересекается. Совпадение и пересечение группировок лексики в классификаторах и Рубрикаторах, а также информационно-поисковых языках объясняется тем, что она обслуживает решение одинаковых в принципе задач. Группировка лексики в информационно-поисковых тезаурусах на низших уровнях не преследует цели – дать каждому объекту наименование. Обычно в информационно-поисковых тезаурусах дается общее наименование однотипным объектам, в то время как в классификаторах реализуется принцип каждому предмету, объекту – свое наименование. Уровни совпадения группировок терминов в информационно-поисковых языках дескрипторного типа и классификаторах см. на рис.
Лингвистическое обеспечение зарубежных АИС в принципе ничем не отличается от лингвистического обеспечения АИС, которое эксплуатируется в СССР. Например, лингвистическое обеспечение в системе Pascal (Франция) применяется два типа языков: Рубрикаторы (используются для формирования систематического ряда информационных изданий) и дескрипторные ИПЯ (для составления предметных указателей к информационным изданиям, а также для перевода текстов запросов с естественного языка на язык АИС в системе избирательного распространения информации и ретроспективного поиска).
В системе Medlars (США) эксплуатируется ИПЯ дескрипторного типа, который включает следующие категории и виды лексических единиц:
- Главные предметные заголовки (дескрипторы);
- Второстепенные дескрипторы;
- Подзаголовки, предметные рубрики, географические, формы изданий, названия языков.
Как видно из перечисленных лексических единиц, входящих в ИПЯ можно сделать вывод об информационном сервисе всей системы.
В системе Ynsper (физика, электроника, электротехника, вычислительная техника, управление) (Великобритания) используются следующие типы ИПЯ:
- ИПЯ с лексическим контролем;
- Единичный Рубрикатор;
- Отраслевые Рубрикаторы;
- ИПЯ с тезаурусом;
- ИПЯ без лексического контроля;
- Свободно выбираемые ключевые слова и фразы естественного языка.
Перечисленные типы ИПЯ в системе выполняют различные функции в информационном сервисе, в том числе систематизацию информации в изданиях для индексирования документов и запросов, а также в других формах информационных услуг.
Все многообразие информационно-поисковых языков в составе лингвистического обеспечения АИС призвано обеспечить многоаспектный информационный поиск и расширение сферы информационных услуг автоматизированных информационно-поисковых систем.
Для того, чтобы обеспечить совместимость всего комплекса языков необходимо их строить, исходя из общих принципов, с одной стороны, и с другой стороны – совместимость ИПЯ должна обеспечиваться за счет ИПЯ – посредников (таблиц соответствия). Создание единого универсального информационно-поискового языка, который мог бы эксплуатироваться в интегральных информационно-поисковых системах, было и пока будет оставаться проблемой в обозримом будущем.