Исследование информационных потребностей
Вид материала | Исследование |
СодержаниеМетодика составления поисковых предписаний с применением булевой алгебры |
- Рабочая учебная программа по Исследование информационных моделей Класс (параллель), 172.82kb.
- Факультет математики и информационных технологий, 598.82kb.
- Тавом объектов отражаемой предметной области, задач, данных и совокупностью информационных, 72.92kb.
- Курсового проекта актуальна, так как маркетинговое исследование – это исследовательская, 216.2kb.
- Пояснительная записка Состав учебно-методического комплекса. Исследование информационных, 69.4kb.
- Исследование потребителей, 154.94kb.
- В. В. Таркин, И. В. Третьякова, 97.81kb.
- И и реализации туристского продукта, важность которого еще не до конца осознана многими, 67.99kb.
- Методические рекомендации по выполнению курсовой работы по курсу «Проектирование информационных, 76.85kb.
- Л. В. Шипова направления коррекциИ агрессии подростков Исследование, 87.48kb.
Рис. 4
11320 | - статья |
04304 | - научный |
07706 | - теория |
11623 | - 1971 |
11337 | - русский |
Запись информации на перфокарту (пробивки) осуществляют на 80-колонноы перфораторе при ручном кодировании и с помощью ЭВМ при автоматическом кодировании.
Текстовая и графическая информация наносится электрографическими аппаратами (ЭРА, ВЭГА) или с помочью офсетных печатных машин.
Перезапись информации (пробивок) с одного массива на другой массив перфокарт, на котором нанесена текстовая или графическая информация, производят на репродукционном перфораторе ПР80-2.
Перфокарта рабочего массива о индексом УДК и записанной информацией в виде пробивок и текста представлена на рис 5,
Опыт применения перфокарт в системе "Квантор" показал, что эти карты отвечают большинству требований, предъявлявшее ИПС "Квантор", и обеспечивают:
- надежность (устойчивость) работы системы;
- возможность продолжительного хранения и необходимую информационную емкость;
- механизацию и автоматизацию час» иди большинства технологических процессов подготовки, поиска и выдачи информации;
- подсортировку информация в информационные массивы;
- простоту исключения из массива устаревшей информации и экономичность эксплуатации системы.
Информационные массивы по горному делу, объем вопросам химической технологи, электротехнике, сельскому хозяйству, черной металлургии и технологии машиностроения представлены перфокартами, разделенными на подмассивы. Деление массива производят для того, чтобы сократить время на поиск я сохранить перфокарты»
Деление массива осуществляют на сортировках C8G-6 я С9 80-3 тремя методами:
- Сортировка "от большего к меньшему" - сортировка перфокарт совершается, начиная во старшие разрядов группировочного признака - цифра УДК.
- Сортировка от "меньшего к большему" - сортировка перфокарт совершается, начиная с младших разрядов группировочного признака - индекса УДК.
- Перфокарты сортируется сначала "от большего к меньшему", затем до определенного признака "от меньшего к большему" (комбинированный метод).
- При формировании рабочих подмассивов в ИПС "Квантор" используется третий метод.
-
Деление массива по горному делу делают по следующим УДК: 621, 622, 622.1, 622.2, 622.3, 622.4, 622.5, 622.6, 622,7, 622.8, 622.23, 622,24, 622.25, 622.26, 622.27, 622.28, 65, 68, 69.
по химии: 66.02, 66.0В, 66.012, 628.1, 551.46.
по электротехнике: 621.3, 621.311, 62I.3D, 621.314, 621.45, 621.316, 621.317, 621.318.
по технологии машиностроения: 621.0, 621.22, 621.5, 621.7, 621.Ь, 621.9, 674.
Рассортированный массив разделяют разделителями и закладывают в главную справочную картотеку.
Ежегодно в межотраслевых центрах прирост объема информации составляет 150-300 тыс.документов. Естественно, что при таком росте информации ориентироваться в ней становится всё труднее. Поэтому целесообразно установить хронологические рамки хранения массива. В Кемеровском ЦНТИ проведены исследования, в результате которых определен наиболее оптимальный возраст документов, вводимых в систему. Наибольший процент (56,2) составляют документы, имеющие возраст 2 года. Соответственно наибольшим спросом у специалистов пользуются документы, имеющие возраст также 2 года -75 проц. Спрос на документы, имеющие возраст 8-10 дет, практически прекращается. Поэтому целесообразно проводить чистку массива. Для этого можно использовать ШШ "Квантор" и электронную сортировку. Поиск документов, имеющих нужный возраст, осуществляют по специальной программе, задаваемой машине.
Структура и построение дескрипторного словаря
Дескрипторные словари "Горное дело", "Общие вопросы химической технологии", "Сельское хозяйство", "Черная металлургия", "Технология машиностроения" и "Электротехника" состоят из двух
частей:
1. Дескрипторного словаря - алфавитного перечня дескрипторных ассоциаций (статей).
2. Индикаторного словаря - алфавитного перечня всех слов "и словосочетаний, вошедших в дескрипторный словарь.
Дескрипторный словарь предназначен для индексирования (раскрытия содержания) документов» вводимых в информационно-поисковую систему (ИПС), а также для перевода запроса потребителей о естественного языка на язык ИПС.
Дескрипторным информационно-поисковый языком называется специальный ИПЯ, словарный состав которого состоит из дескрипторов, т. е, терминов и слов естественного языка, за которыми закреплены объемы содержания определенных научно-технических понятий.
ИПЯ дескрипторного типа позволяет механизировать и автоматизировать информационный поиск и осуществлять его по любому не заданному заранее числу характеристик.
Дескрипторный информационно-поисковый язык может быть реализован на суперпозиционных перфокартах, картах Таубе, машинных 80-колонных перфокартах и ЭВМ.
Терминологическая основа
Отбор терминов для информационно-поисковых языков (ИПЯ) осуществляли специалисты для каждого словаря из представительной отраслевой коллекций документов: отраслевых терминологических справочников, производственно-технической, учебной, научной литературы и др. источников.
В отличие от дескрипторных ИПЯ, терминологическую основу которых составляют понятия, выделенные из отраслевой коллекции документов, в дескрипторном ИПЯ по общим вопросам химической
технологии терминологическую основу составляют термины, выделенные из запросов потребителей информации. ИДЯ этого словаря дополнен понятиями, выделенными специалистами при индексировании документов.
Разность терминологических основ объясняется тем, что данный словарь составляли на основе имеющегося словаря дескрипторов по химии и химической промышленности, разработанного НИИТЭХИМом.
Каждый из шести словарей включает термины из всех научных и технических дисциплин.
При отборе терминов для словарей соблюдались принципы:
- частоты использования термина в источниках;
- преемственности выделенных научно-технических понятий как технических терминов;
- распространенности термина в обращении.
При отборе терминов для шести словарей исследовано более 180 тыс. документов.
Выделение терминологической основы производится по специальным правилам, учитывающим связи между выделенными словами методом свободного индексирования.
Алфавитно-частотный словарь составляют на базе представительной коллекции документов. Для установления родовидовых отношений между дескрипторами составляют классификационные схемы.
Классификационные схемы - это схемы распределения предметов по классификационным рядам на основании общего признака, присущего предметам данного ряда и отличающего их от других.
Назначение классификационных схем:
- установление родовидовых связей между признаками, характеризующими термин;
- конкретизация термина,
На основе классификационных схем оформляют дескрипторные статьи.
Схемы разрабатывают на основе классификаций, приведенных в учебной и справочной литературе.
В качестве вспомогательных материалов используют картотеку предметных рубрик и универсальную десятичную классификацию.
По некоторому общему признаку выделяет несколько терминов и объединяют их в одну группу. Например: фрезы, резцы, сверла и т.д. объединят в группу металлорежущих инструментов. Всей этим терминам присущ один общий признак; их назначение. Классифицировать можно и по другим признакам. Для каждого термина данной группы, исходя из предполагаемых информационных потребностей, выбирают группу признаков. Число признаков для терминов может быть различным, следовательно, различным будет и число классификаций. Например, для автоматических линий таких признаков 6. Это классификация линий по количеству потоков, по виду связи между станками, по ряду станков, по способу передачи обрабатываемых деталей со станка на станок, по расположению оборудования, по виду обрабатываемых деталей. На классификационных схемах наглядно отражаются все родовидовые связи и синонимия. На основании групп признаков составляют классификационные ряды и произвольно располагают на схеме с учетом лучшей наглядности. Каждый классификационный ряд соответствует только одному признаку и занимает строго определенное место (приложение 9).
Построение дескрипторных статей
Под дескрипторной статьей понимается упорядоченная группа дескрипторов, связанная родовидовыми отношениями с основным дескриптором, который обозначает эту группу.
Исходным материалом для построения дескрипторных статей являются:
- Алфавитно-частотный словарь.
- Классификационные схемы.
В качестве справочного и вспомогательного материала используют:
- Картотеку предметных рубрик.
- Сборники стандартизированных и рекомендуемых терминов.
На базе алфавитно-частотного словаря формируют классы условной эквивалентности (это группы слов, эквивалентных по смыслу в пределах сферы действия ИПС). При построении классов дескрипторы группируют по наивысшей степени абстрагирования. Одно или группа слов, входящих в класс эквивалентности, выделяют и используют для обозначения всего класса. Например, алфавитно-частотный словарь по машиностроению разбит на 9 классов условной эквивалентности:
- деревообрабатывающее производство
- детали машин, соединения, передача, приводы;
- кузнечно-штамповочное производство;
- машиностроительные материалы;
- механосборочное производство;
- общетехнические термины;
- организация, экономика и планирование производства;
- стандартизация и нормализация;
- техника безопасности.
При необходимости классы разбивают на подклассы» При этом степень абстрагирования понижается. Например, класс механосборочное производство делят на следующие подклассы условной эквивалентности:
- инструменты;
- механическая обработка;
- резание;
- приспособления;
- станки;
- т.д.
В дальнейшем подклассы делят на группы и подгруппы, в которых группируют термины, обладающие общими признаками. Например, подкласс станков делят на следующие группы:
- деревообрабатывающие;
- кокильные;
- металлорежущие;
- ребросклеивающие;
- и т.д.
Группу станков металлорежущих делят на следующие подгруппы:
- долбежные;
-зубообрабатывающие;
- комбинированные;
- токарные;
- и т.д.
Такое распределение понятий необходимо для более полного формирования дескрипторных ассоциаций (статей). Каждая ассоциация может включать основной дескриптор, вышестоящий, нижестоящий, связанный дескрипторы и синонимы. Дескрипторную статью формируют в виде списка, в котором при помощи соответствующих пометок обозначены вое родовидовые и ассоциативные связи. За основу дескрипторной статьи принимают дескрипторы.
Дескрипторные статьи могут содержать дескрипторы следующих типов:
- Простые дескрипторы - существительные, используемые самостоятельно. Например, ставки.
- Сложные дескрипторы - существительные в сочетании с существительным, прилагательным или причастием. Например, гитара деления, анализ физический, действие возмущающее. В сложных дескрипторах на первом месте стоит существительное.
- Групповые дескрипторы - существительные, сопровождаемые перечнем характеристик, используемые самостоятельно. Например: средства химические защиты растений, машины постоянного тока, сварка с простым циклом осевого усилия.
Характер взаимосвязей в статье фиксирует следующими условными обозначениями: "в", "н", "см, "ев", "см". Характер связей следующий:
1. "в" (выше) - отношение вышестоящего термина к данному дескриптору. Вышестоящие дескрипторы обозначают родовое, более общее понятие, по отношению к которому данный дескриптор является узким, видовым. Например: Сверление
в. Обработка резанием.
Как правило, вышестоящие дескрипторы являются самостоятельной дескрипторной статьей.
2. "и" (ниже) - отношение нижестоящих терминов к данному дескриптору. Нижестоящие дескрипторы обозначают видовое, более узкое понятие по отношению к дескриптору. Нижестоящие термины можно выражать именами существительными и сочетанием существительного с прилагательным.
Нижестоящие Термины, выраженные именем существительным, обозначают отсылкой "н". Прилагательные, образующие с дескриптором нижестоящий термин, отсылкой "н" не обозначают.
Например: металлы
активные
благородные
н. Железо
легкоплавкие
н. Свинец
При наличии в статье вышестоящих или нижестоящих терминов обязательны обратные отсылки. Например:
Автоматы сварочные Автоматы
в. Ароматы сварочные
3. "с" - синонимичные понятия. Отсылка "с" связывает дескриптор с терминами, которые сами не являются дескрипторами, а описываются этим дескриптором. При наличии синонимии за основу берут одно, наиболее часто употребляемое слово. Синонимы можно выражать одним словом или группой слов. Пишут их под словом, к которому они относятся.
Например:
Нагрев Станки фрезерные карусельные
с. Нагревание с. Станки карусельно-фрезерные
4. Отсылку "см" используют для ликвидации синонимии. Она предполагает замену данного слова указанным дескриптором.
Например: Нагревание
см. Нагрев
5. "св" - связанные дескрипторы. Дескрипторы, следующие за этой отсылкой, логически связаны с основным дескриптором.
Например: Соединение
Св. Монтаж
Св. Сборка
Св. Сварка
Все связанные и нижестоящие понятия, выраженные именами существительными, являются самостоятельными дескрипторными статьями. Если среди дескрипторов встречаются омонимы (т.е. слова, одинаковые по произношению и написанию, но различные по значению), то значение этих слов поясняют соответствующими пометками. Например: отделка (виды), отделка (процессы); пилы (инструменты), пилы (станки).
Внутри дескрипторной статьи все понятия, следующие за значками "в", "н", "сн, "св", пишут в алфавитном порядке.
Например: Сварка электрошлаковая
в. Сварка электрическая
н. Сварка плавящимся мундштуком
н. Сварка проволокой
св. Заварка
св. Приварка
Дескрипторная статья имеет не более двух сдвижек вправо, т.е. основной дескриптор характеризуется не более чем двумя соподчиненными характеристиками. В статье все понятия, относящиеся к одному признаку (сдвижке), в т.ч. и обозначения "в", "н", "с", "св", пишут на одном уровне.
Например: Сплавы
в. Материалы машиностроительные
антифрикционные
подшипниковые
н. Баббиты
твердые
металлокерамические
с. Металлокерамика
минералокерамические
с. Минералокерамика
ферромагнитные
н. Ферросплавы
цветные
Дескрипторы, выраженные именами существительными и обозначающие процессы, свойства, пишут в именительном падеже единственного числа. Например: точение, хрупкость, коробление. Остальные имена существительные пишут во множественном числе. Например: станки, валы, цанги. Исключение составляют существительные, не имеющие множественного числа. Например: брак, свет, шихта.
Все признаки, относящиеся к термину, которые есть в алфавитно-частотном словаре и в классификационных схемах, перечисляют в дескрипторной статье.
Графически дескрипторную статью можно представить в следующем виде:
Дескриптор | Термообработка |
с. Синоним | с. Обработка термическая |
в. Вышестоящий | с. ТО |
н. Нижестоящий | в. Обработка |
с. Синоним | химико-термическая |
н. Нижестоящий | с. Термохимическая |
с. Синоним | св. Операция |
св. Связанный | св. Технология |
Количественные характеристики, имеющие значение для точности поиска, в словарь не вводят, но их включают в поисковый образ документа в соответствии с методикой координатного индексирования.
Кроме специальных терминов, в словарь вводят и общенаучные термины, которые необходимы для более полного раскрытия содержания документов.
Из дескрипторных ассоциаций, включающих специальные и общенаучные термины, строят дескрипторный словарь. Дескрипторные статьи располагают в общем алфавитном порядке.
Индикаторный словарь - это алфавитный перечень слов и словосочетаний и их поясняющих характеристик с соответствующими им шифрами в восьмеричной системе счисления. Если одна и та же характеристика входит в несколько дескрипторных статей, в индикаторном словаре её указывают один раз.
При составлении индикаторного словаря соблюдали следующие правила:
I. Имена существительные записывали в именительном падеже единственного числа, кроме слов, не имеющих единственного числа (опилки, тиски).
2. Имена прилагательные записывали в именительном падеже единственного числа мужского рода (автоматический, осевой).
Слова - омонимы из дескрипторного словаря записывали с поясняющими пометками. Например, классификаторы (каталоги), классификаторы (машины); сортировка (процесс), сортировки (машины).
При первоначальном составлении словаря шифры записывали в нарастающем порядке. В дальнейшем этот порядок может нарушаться.
Первому слову первого словаря (общие вопросы химической технологии) присвоен код 00002. Количество слов каждого словаря переводят в восьмеричную систему. В дескрипторном словаре по химии это составило II627 слов. Около 30 проц. шифров добавляют с учетом возможного пополнения словаря.
Следовательно, первое слово второго словаря (Сельское хозяйство) будет иметь шифр I500I.
Синонимы в словаре имеют одинаковое кодовое обозначение. Слова одинакового написания и значения во всех словарях имеют одинаковый шифр. Например: слово "автомат" во всех словарях
имеет код 00030.
В процессе работы словарь может совершенствоваться, что включает в себя:
1. Углубление родовидовых связей.
2. Включение в словарь новых понятий на основе частоты употребляемости их в документах.
Дешифратор
При анализе поискового образа документа (ПОД), записанного в двоичной системе счисления на перфокарте, возникает необходимость по кодовому значению определить его эквивалент. Сделать это по коду в индикаторном словаре очень трудно. Поэтому для определения эквивалента разрабатывают дешифратор.
Дешифратор - это перечень всех слов и словосочетаний индикаторного словаря, расположенных в порядке возрастания шифров.
Дешифраторы составлены по каждому отраслевому индикаторному словарю.
Фрагмент дешифратора по технологи машиностроения приведен в приложении 10.
В дальнейшем эти дешифраторы послужат основой для создания дешифратора по обще техническому словарю.
МЕТОДИКА СОСТАВЛЕНИЯ ПОИСКОВЫХ ПРЕДПИСАНИЙ С ПРИМЕНЕНИЕМ БУЛЕВОЙ АЛГЕБРЫ
Релевантность и полнота выдачи информационно-поисковой машиной (ИПМ) документов зависят от точности составления поискового предписания и выбора критерия смыслового соответствия и выбора оптимального режима поиска.
Правила составления поискового предписания (ПП)
Название тем в каталогах и запросы потребителя составлены на естественном языке; чтобы осуществить поиск с помощью ИПМ, нужно запрос с естественного языка перевести на язык формализованный, язык ИПС. Информационный запрос, переведенный с естественного на информационно-поисковый язык, является поисковым предписанием.
Пример I.
Имеется информационный запрос "Использование асинхронного трехфазного двигателя в однофазном режиме".
Поисковое предписание для него будет таково:
А асинхронный 22632
В трехфазный 26565
С двигатель 0I6I4
Д однофазный 12.146
Е режим 06526
Чтобы перевести запрос с естественного языка на ИПЯ, индексатору необходимо прочитать запрос и вникнуть в его смысл, затем выписать ключевые слова в единственном числе, именительном падеже; по дескрипторному словарю подобрать нижестоящие термины. Если некоторых ключевых слов в индикаторном словаре нет, то по словарю нужно подобрать слова, близкие по смыслу. Затеи надо поставить каждому слову соответствующий цифровой код из индикаторного словаря и приступить к выбору критерия смыслового соответствия.
Выбор критерия смыслового соответствия (КСС)
Машина реализует любой КСС между поисковым образом документа и поисковым предписанием, если этот КСС можно представить в виде булевой функции, отвечающей следующим условиям:
- Количество переменных в функции не должно превышать 12.
- Наибольшее количество импликант 12.
- Наибольшее количество переменных в каждой импликанте 6.
Кроме того, в машину можно вводить особый класс функций, определяемых парой чисел