Исследование информационных потребностей

Вид материалаИсследование

Содержание


Методика составления поисковых предписаний с применением булевой алгебры
Подобный материал:
1   2   3   4

Рис. 4



11320

- статья

04304

- научный

07706

- теория

11623

- 1971

11337

- русский



Запись информации на перфокарту (пробивки) осуществляют на 80-колонноы перфораторе при ручном кодировании и с помощью ЭВМ при автоматическом кодировании.

Текстовая и графическая информация наносится электрографи­ческими аппаратами (ЭРА, ВЭГА) или с помочью офсетных печатных машин.

Перезапись информации (пробивок) с одного массива на дру­гой массив перфокарт, на котором нанесена текстовая или графи­ческая информация, производят на репродукционном перфораторе ПР80-2.

Перфокарта рабочего массива о индексом УДК и записанной ин­формацией в виде пробивок и текста представлена на рис 5,

Опыт применения перфокарт в системе "Квантор" показал, что эти карты отвечают большинству требований, предъявлявшее ИПС "Квантор", и обеспечивают:

- надежность (устойчивость) работы системы;

- возможность продолжительного хранения и необходимую ин­формационную емкость;

- механизацию и автоматизацию час» иди большинства техно­логических процессов подготовки, поиска и выдачи информации;

- подсортировку информация в информационные массивы;

- простоту исключения из массива устаревшей информации и экономичность эксплуатации системы.

Информационные массивы по горному делу, объем вопросам хи­мической технологи, электротехнике, сельскому хозяйству, черной металлургии и технологии машиностроения представлены пер­фокартами, разделенными на подмассивы. Деление массива произво­дят для того, чтобы сократить время на поиск я сохранить пер­фокарты»

Деление массива осуществляют на сортировках C8G-6 я С9 80-3 тремя методами:





  1. Сортировка "от большего к меньшему" - сортировка перфо­карт совершается, начиная во старшие разрядов группировочного признака - цифра УДК.
  2. Сортировка от "меньшего к большему" - сортировка перфо­карт совершается, начиная с младших разрядов группировочного признака - индекса УДК.
  3. Перфокарты сортируется сначала "от большего к меньшему", затем до определенного признака "от меньшего к большему" (комби­нированный метод).
  4. При формировании рабочих подмассивов в ИПС "Квантор" исполь­зуется третий метод.


Деление массива по горному делу делают по следующим УДК: 621, 622, 622.1, 622.2, 622.3, 622.4, 622.5, 622.6, 622,7, 622.8, 622.23, 622,24, 622.25, 622.26, 622.27, 622.28, 65, 68, 69.

по химии: 66.02, 66.0В, 66.012, 628.1, 551.46.

по электротехнике: 621.3, 621.311, 62I.3D, 621.314, 621.45, 621.316, 621.317, 621.318.

по технологии машиностроения: 621.0, 621.22, 621.5, 621.7, 621.Ь, 621.9, 674.

Рассортированный массив разделяют разделителями и заклады­вают в главную справочную картотеку.

Ежегодно в межотраслевых центрах прирост объема информации составляет 150-300 тыс.документов. Естественно, что при таком росте информации ориентироваться в ней становится всё труднее. Поэтому целесообразно установить хронологические рамки хранения массива. В Кемеровском ЦНТИ проведены исследования, в результате которых определен наиболее оптимальный возраст документов, вводи­мых в систему. Наибольший процент (56,2) составляют документы, имеющие возраст 2 года. Соответственно наибольшим спросом у спе­циалистов пользуются документы, имеющие возраст также 2 года -75 проц. Спрос на документы, имеющие возраст 8-10 дет, практи­чески прекращается. Поэтому целесообразно проводить чистку мас­сива. Для этого можно использовать ШШ "Квантор" и электронную сортировку. Поиск документов, имеющих нужный возраст, осуществ­ляют по специальной программе, задаваемой машине.


Структура и построение дескрипторного словаря


Дескрипторные словари "Горное дело", "Общие вопросы хими­ческой технологии", "Сельское хозяйство", "Черная металлургия", "Технология машиностроения" и "Электротехника" состоят из двух

частей:

1. Дескрипторного словаря - алфавитного перечня дескрипторных ассоциаций (статей).

2. Индикаторного словаря - алфавитного перечня всех слов "и словосочетаний, вошедших в дескрипторный словарь.

Дескрипторный словарь предназначен для индексирования (рас­крытия содержания) документов» вводимых в информационно-поиско­вую систему (ИПС), а также для перевода запроса потребителей о естественного языка на язык ИПС.

Дескрипторным информационно-поисковый языком называется специальный ИПЯ, словарный состав которого состоит из дескрип­торов, т. е, терминов и слов естественного языка, за которыми зак­реплены объемы содержания определенных научно-технических поня­тий.

ИПЯ дескрипторного типа позволяет механизировать и автома­тизировать информационный поиск и осуществлять его по любому не заданному заранее числу характеристик.

Дескрипторный информационно-поисковый язык может быть реа­лизован на суперпозиционных перфокартах, картах Таубе, машин­ных 80-колонных перфокартах и ЭВМ.


Терминологическая основа


Отбор терминов для информационно-поисковых языков (ИПЯ) осуществляли специалисты для каждого словаря из представитель­ной отраслевой коллекций документов: отраслевых терминологичес­ких справочников, производственно-технической, учебной, научной литературы и др. источников.

В отличие от дескрипторных ИПЯ, терминологическую основу которых составляют понятия, выделенные из отраслевой коллекции документов, в дескрипторном ИПЯ по общим вопросам химической

технологии терминологическую основу составляют термины, выделен­ные из запросов потребителей информации. ИДЯ этого словаря до­полнен понятиями, выделенными специалистами при индексировании документов.

Разность терминологических основ объясняется тем, что данный словарь составляли на основе имеющегося словаря дескрипторов по химии и химической промышленности, разработанного НИИТЭХИМом.

Каждый из шести словарей включает термины из всех научных и технических дисциплин.

При отборе терминов для словарей соблюдались принципы:

- частоты использования термина в источниках;

- преемственности выделенных научно-технических понятий как технических терминов;

- распространенности термина в обращении.

При отборе терминов для шести словарей исследовано более 180 тыс. документов.

Выделение терминологической основы производится по специаль­ным правилам, учитывающим связи между выделенными словами мето­дом свободного индексирования.

Алфавитно-частотный словарь составляют на базе представительной коллекции документов. Для установления родовидовых от­ношений между дескрипторами составляют классификационные схемы.

Классификационные схемы - это схемы распределения предметов по классификационным рядам на основании общего признака, прису­щего предметам данного ряда и отличающего их от других.


Назначение классификационных схем:

- установление родовидовых связей между признаками, харак­теризующими термин;

- конкретизация термина,

На основе классификационных схем оформляют дескрипторные статьи.

Схемы разрабатывают на основе классификаций, приведенных в учебной и справочной литературе.

В качестве вспомогательных материалов используют картотеку предметных рубрик и универсальную десятичную классификацию.

По некоторому общему признаку выделяет несколько терминов и объединяют их в одну группу. Например: фрезы, резцы, сверла и т.д. объединят в группу металлорежущих инструментов. Всей этим терминам присущ один общий признак; их назначение. Класси­фицировать можно и по другим признакам. Для каждого термина дан­ной группы, исходя из предполагаемых информационных потребностей, выбирают группу признаков. Число признаков для терминов может быть различным, следовательно, различным будет и число класси­фикаций. Например, для автоматических линий таких признаков 6. Это классификация линий по количеству потоков, по виду связи между станками, по ряду станков, по способу передачи обрабаты­ваемых деталей со станка на станок, по расположению оборудова­ния, по виду обрабатываемых деталей. На классификационных схе­мах наглядно отражаются все родовидовые связи и синонимия. На основании групп признаков составляют классификационные ряды и произвольно располагают на схеме с учетом лучшей наглядности. Каждый классификационный ряд соответствует только одному призна­ку и занимает строго определенное место (приложение 9).


Построение дескрипторных статей


Под дескрипторной статьей понимается упорядоченная группа дескрипторов, связанная родовидовыми отношениями с основным дескриптором, который обозначает эту группу.

Исходным материалом для построения дескрипторных статей являются:
  1. Алфавитно-частотный словарь.
  2. Классификационные схемы.

В качестве справочного и вспомогательного материала исполь­зуют:
  1. Картотеку предметных рубрик.
  2. Сборники стандартизированных и рекомендуемых терминов.

На базе алфавитно-частотного словаря формируют классы условной эквивалентности (это группы слов, эквивалентных по смыслу в пределах сферы действия ИПС). При построении классов дескрипторы группируют по наивысшей степени абстрагирования. Одно или группа слов, входящих в класс эквивалентности, выделяют и используют для обозначения всего класса. Например, алфавитно-частотный словарь по машиностроению разбит на 9 классов условной эквивалентности:

- деревообрабатывающее производство

- детали машин, соединения, передача, приводы;

- кузнечно-штамповочное производство;

- машиностроительные материалы;

- механосборочное производство;

- общетехнические термины;

- организация, экономика и планирование производства;

- стандартизация и нормализация;

- техника безопасности.

При необходимости классы разбивают на подклассы» При этом степень абстрагирования понижается. Например, класс механосбо­рочное производство делят на следующие подклассы условной экви­валентности:

- инструменты;

- механическая обработка;

- резание;

- приспособления;

- станки;

- т.д.

В дальнейшем подклассы делят на группы и подгруппы, в кото­рых группируют термины, обладающие общими признаками. Например, подкласс станков делят на следующие группы:

- деревообрабатывающие;

- кокильные;

- металлорежущие;

- ребросклеивающие;

- и т.д.

Группу станков металлорежущих делят на следующие подгруппы:

- долбежные;

-зубообрабатывающие;
- комбинированные;

- токарные;

- и т.д.

Такое распределение понятий необходимо для более полного формирования дескрипторных ассоциаций (статей). Каждая ассоциа­ция может включать основной дескриптор, вышестоящий, нижестоящий, связанный дескрипторы и синонимы. Дескрипторную статью фор­мируют в виде списка, в котором при помощи соответствующих пометок обозначены вое родовидовые и ассоциативные связи. За основу дескрипторной статьи принимают дескрипторы.

Дескрипторные статьи могут содержать дескрипторы следующих типов:
  1. Простые дескрипторы - существительные, используемые само­стоятельно. Например, ставки.
  2. Сложные дескрипторы - существительные в сочетании с суще­ствительным, прилагательным или причастием. Например, гитара де­ления, анализ физический, действие возмущающее. В сложных дес­крипторах на первом месте стоит существительное.
  3. Групповые дескрипторы - существительные, сопровождаемые перечнем характеристик, используемые самостоятельно. Например: средства химические защиты растений, машины постоянного тока, сварка с простым циклом осевого усилия.

Характер взаимосвязей в статье фиксирует следующими услов­ными обозначениями: "в", "н", "см, "ев", "см". Характер связей следующий:

1. "в" (выше) - отношение вышестоящего термина к данному дескриптору. Вышестоящие дескрипторы обозначают родовое, более общее понятие, по отношению к которому данный дескриптор является узким, видовым. Например: Сверление

в. Обработка резанием.

Как правило, вышестоящие дескрипторы являются самостоятель­ной дескрипторной статьей.

2. "и" (ниже) - отношение нижестоящих терминов к данному дескриптору. Нижестоящие дескрипторы обозначают видовое, более узкое понятие по отношению к дескриптору. Нижестоящие термины можно выражать именами существительными и сочетанием существи­тельного с прилагательным.

Нижестоящие Термины, выраженные именем существительным, обозначают отсылкой "н". Прилагательные, образующие с дескрип­тором нижестоящий термин, отсылкой "н" не обозначают.

Например: металлы



активные

благородные




н. Железо




легкоплавкие

н. Свинец




При наличии в статье вышестоящих или нижестоящих терминов обязательны обратные отсылки. Например:

Автоматы сварочные Автоматы

в. Ароматы сварочные


3. "с" - синонимичные понятия. Отсылка "с" связывает дескрип­тор с терминами, которые сами не являются дескрипторами, а описы­ваются этим дескриптором. При наличии синонимии за основу берут одно, наиболее часто употребляемое слово. Синонимы можно выражать одним словом или группой слов. Пишут их под словом, к которому они относятся.

Например:

Нагрев Станки фрезерные карусельные

с. Нагревание с. Станки карусельно-фрезерные


4. Отсылку "см" используют для ликвидации синонимии. Она предполагает замену данного слова указанным дескриптором.

Например: Нагревание

см. Нагрев


5. "св" - связанные дескрипторы. Дескрипторы, следующие за этой отсылкой, логически связаны с основным дескриптором.

Например: Соединение




Св. Монтаж




Св. Сборка




Св. Сварка

Все связанные и нижестоящие понятия, выраженные именами су­ществительными, являются самостоятельными дескрипторными статья­ми. Если среди дескрипторов встречаются омонимы (т.е. слова, одинаковые по произношению и написанию, но различные по значению), то значение этих слов поясняют соответствующими пометками. Например: отделка (виды), отделка (процессы); пилы (инструменты), пилы (станки).

Внутри дескрипторной статьи все понятия, следующие за знач­ками "в", "н", "сн, "св", пишут в алфавитном порядке.

Например: Сварка электрошлаковая




в. Сварка электрическая

н. Сварка плавящимся мунд­штуком




н. Сварка проволокой




св. Заварка

св. Приварка




Дескрипторная статья имеет не более двух сдвижек вправо, т.е. основной дескриптор характеризуется не более чем двумя со­подчиненными характеристиками. В статье все понятия, относящиеся к одному признаку (сдвижке), в т.ч. и обозначения "в", "н", "с", "св", пишут на одном уровне.

Например: Сплавы


в. Материалы машиностроитель­ные

антифрикционные




подшипниковые

н. Баббиты




твердые

металлокерамические

с. Металлокерамика

минералокерамические

с. Минералокерамика




ферромагнитные

н. Ферросплавы

цветные




Дескрипторы, выраженные именами существительными и обозна­чающие процессы, свойства, пишут в именительном падеже единствен­ного числа. Например: точение, хрупкость, коробление. Остальные имена существительные пишут во множественном числе. Например: станки, валы, цанги. Исключение составляют существительные, не имеющие множественного числа. Например: брак, свет, шихта.

Все признаки, относящиеся к термину, которые есть в алфавитно-частотном словаре и в классификационных схемах, перечисляют в дескрипторной статье.

Графически дескрипторную статью можно представить в следую­щем виде:



Дескриптор

Термообработка

с. Синоним

с. Обработка термическая


в. Вышестоящий

с. ТО


н. Нижестоящий

в. Обработка

с. Синоним

химико-термическая

н. Нижестоящий

с. Термохимическая

с. Синоним

св. Операция

св. Связанный

св. Технология



Количественные характеристики, имеющие значение для точнос­ти поиска, в словарь не вводят, но их включают в поисковый об­раз документа в соответствии с методикой координатного индекси­рования.

Кроме специальных терминов, в словарь вводят и общенаучные термины, которые необходимы для более полного раскрытия содержа­ния документов.

Из дескрипторных ассоциаций, включающих специальные и об­щенаучные термины, строят дескрипторный словарь. Дескрипторные статьи располагают в общем алфавитном порядке.

Индикаторный словарь - это алфавитный перечень слов и сло­восочетаний и их поясняющих характеристик с соответствующими им шифрами в восьмеричной системе счисления. Если одна и та же характеристика входит в несколько дескрипторных статей, в инди­каторном словаре её указывают один раз.

При составлении индикаторного словаря соблюдали следующие правила:

I. Имена существительные записывали в именительном падеже единственного числа, кроме слов, не имеющих единственного числа (опилки, тиски).

2. Имена прилагательные записывали в именительном падеже единственного числа мужского рода (автоматический, осевой).

Слова - омонимы из дескрипторного словаря записывали с пояс­няющими пометками. Например, классификаторы (каталоги), классифи­каторы (машины); сортировка (процесс), сортировки (машины).

При первоначальном составлении словаря шифры записывали в нарастающем порядке. В дальнейшем этот порядок может нарушаться.

Первому слову первого словаря (общие вопросы химической технологии) присвоен код 00002. Количество слов каждого словаря переводят в восьмеричную систему. В дескрипторном словаре по химии это составило II627 слов. Около 30 проц. шифров добавляют с учетом возможного пополнения словаря.

Следовательно, первое слово второго словаря (Сельское хо­зяйство) будет иметь шифр I500I.

Синонимы в словаре имеют одинаковое кодовое обозначение. Слова одинакового написания и значения во всех словарях имеют одинаковый шифр. Например: слово "автомат" во всех словарях

имеет код 00030.

В процессе работы словарь может совершенствоваться, что включает в себя:

1. Углубление родовидовых связей.

2. Включение в словарь новых понятий на основе частоты употребляемости их в документах.


Дешифратор

При анализе поискового образа документа (ПОД), записанного в двоичной системе счисления на перфокарте, возникает необходи­мость по кодовому значению определить его эквивалент. Сделать это по коду в индикаторном словаре очень трудно. Поэтому для определения эквивалента разрабатывают дешифратор.

Дешифратор - это перечень всех слов и словосочетаний инди­каторного словаря, расположенных в порядке возрастания шифров.

Дешифраторы составлены по каждому отраслевому индикатор­ному словарю.

Фрагмент дешифратора по технологи машиностроения приведен в приложении 10.


В дальнейшем эти дешифраторы послужат основой для создания дешифратора по обще техническому словарю.


МЕТОДИКА СОСТАВЛЕНИЯ ПОИСКОВЫХ ПРЕДПИСАНИЙ С ПРИМЕНЕНИЕМ БУЛЕВОЙ АЛГЕБРЫ


Релевантность и полнота выдачи информационно-поисковой маши­ной (ИПМ) документов зависят от точности составления поискового предписания и выбора критерия смыслового соответствия и выбора оптимального режима поиска.

Правила составления поискового предписания (ПП)

Название тем в каталогах и запросы потребителя составлены на естественном языке; чтобы осуществить поиск с помощью ИПМ, нужно запрос с естественного языка перевести на язык формализованный, язык ИПС. Информационный запрос, переведенный с естественного на информационно-поисковый язык, является поисковым предписанием.

Пример I.

Имеется информационный запрос "Использование асинхронного трехфазного двигателя в однофазном режиме".

Поисковое предписание для него будет таково:


А асинхронный 22632

В трехфазный 26565

С двигатель 0I6I4

Д однофазный 12.146

Е режим 06526


Чтобы перевести запрос с естественного языка на ИПЯ, индек­сатору необходимо прочитать запрос и вникнуть в его смысл, затем выписать ключевые слова в единственном числе, именительном паде­же; по дескрипторному словарю подобрать нижестоящие термины. Если некоторых ключевых слов в индикаторном словаре нет, то по словарю нужно подобрать слова, близкие по смыслу. Затеи надо поставить каждому слову соответствующий цифровой код из индика­торного словаря и приступить к выбору критерия смыслового соот­ветствия.


Выбор критерия смыслового соответствия (КСС)

Машина реализует любой КСС между поисковым образом документа и поисковым предписанием, если этот КСС можно представить в виде булевой функции, отвечающей следующим условиям:
  1. Количество переменных в функции не должно превышать 12.
  2. Наибольшее количество импликант 12.
  3. Наибольшее количество переменных в каждой импликанте 6.
    Кроме того, в машину можно вводить особый класс функций, оп­ределяемых парой чисел