Зированной информационно-поисковой системы, предназначенной для информационного обслу­живания инженерно-технических работников угольной промышлен­ности Кузбасса

Вид материалаДокументы

Содержание


Источники информации
Обеспечение системы избирательного распределения информации оригиналами или копиями первичных документов
Дескрипторный словарь
Полные синонимы
Относительные синонимы
Индикаторный словарь
Построение дескрипторного словаря
Подобный материал:
1   2   3   4   5   6   7   8

ИСТОЧНИКИ ИНФОРМАЦИИ


В информационно-поисковую систему вводится информация из следующих источников:
  • картотека «Местный опыт», издаваемая ЦБТИ Российской Федерации;
  • реферативная информация на карточках ЦНИИТАУгля;
  • реферативная информация по разделу горнорудная промышленность института «Черметинформация»;
  • реферативная информация по разделу разработка рассыпных место­рождений полезных ископаемых института «Цветметинформация»;
  • реферативная информация республиканских институтов научно-технической информации;
  • реферативная информация по разделу горные и транспортные маши­ны «Информатяжмед» (частично);
  • реферативный журнал «Горное дело».
  • реферативный журнал «Горные машины».

Распределение источников информации по удельному весу вид­но из следующей таблицы:


Источник

Количество рефератов

Удельный весв%

Реферативная информация региональных органов (региональных институтов в ЦБТИ)

5000

16,7

Центральные отраслевые органы информации

5000

16,7

Реферативный журнал «Горные машины»

3000

10,0

Реферативный журнал «Горное дело»

17000

56,6

Всего:

30000

100,0


Источники информации обеспечивают в данное время наиболее полное формирование информационного массива и ввод в систему информации о достижениях не только отечественной, но и зарубежной науки.


Удельный вес в %


39,7

24,6

24,6

6,5

3,6

0,9

34,6
Состав информационных документов по видам изданий характе­ризуются следующими данными:


Вид издания

Журналы

Продолжающие издания

Непубликуемая информация

Книги и брошюры

Описание к авторским свидетельствам

Информация об изделиях

Всего:

По видам изданий информационный массив пополняется ин­формацией, отражающей новые и новейшие достижения науки и тех­ники. Анализ показывал, что информационный массив системы фор­мируется из следующих отраслей знаний и тематических направлений:

Отрасли знания и тематические направления Удельный вес в %


Горное дело 87,0

Техника организации и управления производством 3,5

Транспортирующие устройства 3,0

Геология, геологические науки 2,0

Геодезические инструменты и оборудование 0,5

Химическая технология и другие отрасли химической

промышленности 1,0

Электротехника 1,0

Другие 12 отраслей знания 0,5

Всего: 100,0

Таким образом, в информационно-поисковой системе домини­рующим является отраслевой характер. В то же время каждая отрасле­вая система, как подтверждает приведенная выше таблица, должна быть способна в какой-то мере вести обработку информации из других отраслей знания и тематических направлений.

Вводимый в механизированную информационно-поисковую систему массив по языковому признаку распределяется следующим образом:

Язык Удельный вес в %

Русский 76

Английский 9,8

Немецкий 5,0

Французский 2,1

Польский 2,2

Чешский 1,0

Венгерский 0,5

Румынский 0,1

Испанский и др. 3,2

Большинство вводимой в систему информации по языку доступ­но потребителю. В то же время из-за языкового барьера потребитель не может ознакомиться с оригиналами значительной части информа­ции. Отсутствие организации, которая могла бы быстро, в течение 2-3 дней, делать переводы, снижает эффективность информации по зару­бежным источникам.


ОБЕСПЕЧЕНИЕ СИСТЕМЫ ИЗБИРАТЕЛЬНОГО РАСПРЕДЕЛЕНИЯ ИНФОРМАЦИИ ОРИГИНАЛАМИ ИЛИ КОПИЯМИ ПЕРВИЧНЫХ ДОКУМЕНТОВ


Система механизированного поиска и выдачи информации, ко­торая обеспечивает по плану 1968 г. выдачу 4800 тематических подбо­рок и рассылку их в 9517 адресов, по полноте документов вторичной информации и источникам является наиболее оптимальной.

ИПС как бы гарантирует потребителю, что по его теме-запросу исключаются при осмотре и отборе пропуски информации.

Информационно-поисковые системы, работая в режиме избира­тельного распределения информации, должны базироваться и на оп­тимальное наличие числа оригиналов или копий первичных докумен­тов. Это относится в первую очередь к механизированным ИПС.

Эксплуатируемая ИПС за счет наличия первичных документов в справочно-информационном фонде удовлетворяет информационные потребности только в 17 случаях из 100.

Документальные фонды предприятий и организаций, где рабо­тают потребители информации, могут выдать за счет наличия доку­ментов в фондах только 5 документов из 100 запрашиваемых.

Развитие системы избирательного распределения информации с использованием современных средств подготовки, поиска, копирова­ния документов требует решения вопроса о наиболее полном удовле­творении информационных потребностей в документах за счет нали­чия, прежде всего, в местных органах научно-технической информации. А это в свою очередь требует решение вопроса создания сводных ре­гиональных каталогов и развития системы МБ А.


ДЕСКРИПТОРНЫЙ СЛОВАРЬ


В дескрипторный словарь включены термины, выбранные на основе статистического метода их частичного повторения почти в де­сяти тысячах документов, относящиеся к различным научно-техническим дисциплинам горного дела: шахтная геология, системы разработок, рудничное крепление и управление горным давлением, проведение горных выработок, буровзрывные работы, рудничный транспорт, открытые работы, водоотлив и водоосушение, вентиляция и горноспасательное дело, обогащение и др.

Кроме специальных терминов, в словаре имеются общетехниче­ские и общенаучные термины, используемые в горнотехнической лите­ратуре (автоматизация, величина, коэффициент, механизм и др.). И, на­конец, в словарь включены отдельные слова естественного языка (вода, воздух, земля, рабочий и т.д.), необходимые для раскрытия предметного содержания информационных документов по горному делу.

Помимо указанных слов, в словарь введены обозначения раз­личных единиц измерения, встречающихся в горном деле (ватт, вольт, градус и др.).

Общее количество терминов, включенных в словарь, составляет около 5000.

Включенные в словарь термины и слова естественного языка, за которыми закреплены определенные научно-технические понятия, не­обходимые для описания документа, называются дескрипторами.

Термины и слова естественного языка, обладающие системати­зирующими свойствами (обычно они выражены именами существи­тельными) и имеющие самостоятельное значение для поиска инфор­мации, в ИПС принято называть базисными или основными дескрипторами. Однако, основные дескрипторы, имея большие систематизи­рующие свойства, сами нуждаются в уточнении некоторых характери­стик. Например, основной дескриптор КРЕПЬ имеет 53 поясняющих характеристики: анкерная, деревянная, металлическая, забивная, по­датливая, тюбинговая, шагающая и т.д. Такие характеристики получи­ли название поясняющих.

Поясняющие характеристики, как правило, самостоятельного значения для поиска информации не имеют. Чтобы не увеличивать объем словаря, отдельные поясняющие характеристики, которые отно­сятся ко многим основным дескрипторам, вынесены в разряд базис­ных. Например, механический, автоматический, воздушный и т.д.

Основные дескрипторы в тексте документа вступают во взаимо­связь не только между собой (крепление - штрек), но и между своими поясняющими характеристиками (крепление - крепь - металлическая - штрек - однопутевой). В этом случае происходит образование новых дескрипторов: крепь металлическая - штрек однопутевой.

Информационно-поисковая система и средства ее реализации обеспечивают возможность осуществить поиск не только по основно­му дескриптору или их совокупности, но и по вновь образуемым деск­рипторам.

Дескрипторный словарь состоит из расположенных в алфавит­ном порядке дескрипторных ассоциаций (статей). Каждая ассоциация в словаре может включать основной дескриптор, вышестоящий деск­риптор (он указывает на родовую связь основного дескриптора с ним), связанный дескриптор, синонимы основного дескриптора, а затем по­ясняющие характеристики1 их синонимы и базисные отношения.
Ниже приводятся примеры дескрипторных ассоциаций.


Лава Крепь

Выработка горная ** Крепление*

безлюдная

встречная анкерная

длинная с. болтовая

комбайновая с. штанговая,

где знак «*» указывает на связанные (близкие) дескрипторы,

знак «**» - на вышестоящие дескрипторы,

буква «с» - на синонимические слова.


1 В словаре не приводится подразделение поясняющих характеристик по степени их значимости (первая, вторая, третья и т.д.) из-за отсутствия научных принципов подобного подразделения


Синонимы - термины, в той или иной степени равнозначные данному дескриптору или его поясняющей характеристике (если они приводятся следом за ними). Имеется несколько разновидностей синонимов. По содержанию синонимы подразделяются на полные и отно­сительные.

Полные синонимы - это такие термины, которые могут взаимозамещать друг друга в любых ситуациях в пределах данной ИПС. Например, аккумуляция - накопление, асбест - лен горный и т.д.

Относительные синонимы - такие термины, которые могут замещать друг друга не всегда, а только в определенных случаях. На­пример, бункер и емкость, величина и размер. Терминологическое со­четание «емкость погрузочного устройства» может быть заменено си­нонимом «бункер», но для выражения «емкость вагонетки» «бункер» синонимом не является. То же самое можно сказать относительно си­нонимов «величина» и «размер». Термин «размер» всегда может быть замещен термином «величина», но обратная замена возможна не во всех случаях. Например, можно сказать «величина стыка между рель­сами», но в выражении «величина горного давления» заменить термин «величина» термином «размер» нельзя.

Кроме содержания, синонимы могут различаться по своей структуре. Здесь возможны следующие случаи:
  1. термин, выраженный одним словом, синонимичен термину, выра­женному также одним словом (котловина - мульда, аккумуляция -накопление, гидросмесь - пульпа и т.д.);
  2. термин, выраженный одним словом, синонимичен терминологиче­скому сочетанию слов (озокерит - воск горный, перфоратор - мо­лоток бурильный, аппарат загрузочный - питатель);
  3. термин, выраженный сочетанием слов, синонимичен другому тер­мину, выраженному также сочетанием слов (аппарат газотеплозащитный - скафандр тепловой, волна взрывная - волна ударная, разубоживание истинное - коэффициент разубоживания).

Словарь снабжен двухсторонней системой ссылок, позволяющей легко отыскать синонимичные слова.

Все синонимы в словаре получили одинаковые кодовые обозна­чения, в результате чего они имеют одинаковое значение в ИПС.

Связанные термины - это термины не синонимичные, но близ­кие по значению дескриптору. Например, аварийность - авария, водопонижение - осушение, выемка - добыча, гидромеханизация - способ гидравлический.

Термины вышестоящие обозначают родовое, более общее поня­тие, по отношению к которому данный дескриптор является более уз­ким. Например, вышестоящий для термина «комбайн добычной» -«машина выемочная».

Поясняющие характеристики перечисляют не все возможные разновидности дескриптора, а только те из них, которые представляют интерес для данной ИПС. Они располагаются в алфавитном порядке в конце дескрипторной ассоциации после основного дескриптора и от­носящихся к нему синонимов, а также связанных и вышестоящих тер­минов.

Наличие в дескрипторной ассоциации поясняющих характери­стик дает возможность индексатору в случае надобности дополнить описание поискового образа документа характеристиками, недостаю­щими в этом документе.

ПРИМЕЧАНИЕ: Одни и те же поясняющие характеристики мо­гут уточнять различные основные дескрипторы. Например, характери­стика воздушный используется для уточнения дескрипторов забойка, система, струя, пульсатор; характеристика ударный - для уточнения дескрипторов бурение, вязкость, механизм, нагрузка и т.д.

Графическое оформление словаря показано на следующем при­мере:

Дескриптор Дескриптор

Вышестоящий с. синоним

Связанный Характеристика

Характеристика с. синоним

Характеристика Характеристика


ИНДИКАТОРНЫЙ СЛОВАРЬ


Индикаторный словарь представляет собой список расположен­ных в алфавитном порядке отдельных дескрипторов, включенных в дескрипторный словарь. Например, дескриптор камера взрывная в ин­дикаторном словаре расчленен на две самостоятельные части: камера и взрывной, каждая из которых имеет свое кодовое обозначение. В восьмеричной системе счисления в данном случае кодовые обозначе­ния соответственно будут 02373 и 00511.

В связи с тем, что в словаре, кроме дескрипторов, записаны их кодовые значения, индикаторный словарь получил название кодового указателя.

В том случае, если одна и та же поясняющая характеристика варе она указывается только один раз. Например, из дескрипторов каретка буровая и скважина буровая в кодовый указатель взяты три составные части: каретка, скважина и поясняющая характеристика бу­ровой.

Компоненты с кодами в словаре оформлены списком. Ниже приведен образец кодового указателя:

Вруб 00740

Врубовый 00742

Врубо-навалочный 00743

Врубо-погрузочный 00744

При составлении индикаторного словаря соблюдались следую­щие правила словесного оформления. Имена существительные (деск­рипторы) в кодовом указателе записаны в форме именительного паде­жа единственного числа. В некоторых случаях имена существитель­ные ставятся в форме множественного числа. Например, аппараты (как предмет) в отличие от аппарата (административного), чаши бегунные (употребительная форма этого термина). Имена прилагательные (по­ясняющие характеристики) стоят в форме именительного падежа единственного числа мужского рода. Если среди слов, используемых в словаре, встречаются омонимы (т.е. два слова, одинаковых по произ­ношению и написанию, но различных по значению), то значение этих слов поясняется соответствующими пометками, причем кодовые зна­чения у них совершенно различные между собой. Например, рабочий (сущ.), рабочий (прил.), простой (сущ.), простой (прил.).

В связи с тем, что при индексировании могут встретиться труд­ности в кодировании синонимов, ниже рассмотрены способы кодиро­вания всех трех случаев структурных разновидностей синонимов.
  1. Два однословных синонима получают одно и то же кодовое обо­значение. Например, бок - 00336, его синоним крыло имеет тот же кодовый индекс 00336.
  2. Однословный термин, синонимичный терминологическому сочета­нию из двух, трех и т.д. слов, получает двойное, тройное и т.д. ко­довое значение. Например, псевдоплывун имеет шифр 04716, 03171, потому что его синоним плывун ложный имеет сложное кодовое обозначение, состоящее из обозначения плывун - 04716 и ложный -03171.

Терминологические сочетания, синонимичные друг другу, в инди­каторном словаре имеют одинаковые индексы, в то время как их составные компоненты имеют другие индексы. Например, индекс синонимичных дескрипторов «оклад дверной» и «крепь штрековая» будет 02246, а индексы составных компонентов соответственно бу­дут 04163, 01414, 03011, 10426. Такие терминологические сочета­ния в кодовом указателе снабжаются знаком дефис (-), например:

Крепь 03011

- штанговая 01510

- штрековая 11227

Для облегчения процесса индексирования в индикаторном сло­варе помещены все связанные и вышестоящие термины, относящиеся к основному дескриптору, например:

Костер 02753

в. крепь 03011

В том случае, если связанные и вышестоящие дескрипторы от­носятся к дескриптору, выраженному словосочетанием, то у основного дескриптора поставлен знак «+», что означает необходимость про­смотра индикатором всей дескрипторной ассоциации в дескрипторном словаре с целью установления имеющихся связанных и вышестоящих терминов. Особый случай представляет кодирование относительных синонимов. Термин, обладающий более широким объемом содержа­ния, принято разбивать на два термина меньшего объема содержания, один из которых синонимичен другому термину, а второй не является его синонимом. Например, термин «газ горючий» разбивается на два термина:

1. Термин «газ горючий», синонимичный термин «горючее газооб­разное», получающий общее с ним кодовое обозначение (00450).

2. Термин «газ горючий», не синонимичный термину «горючее газо­образное» и имеющий отличительный от него код (01506).


ПОСТРОЕНИЕ ДЕСКРИПТОРНОГО СЛОВАРЯ


Построение дескрипторного словаря проводилось методом от­бора характеристик, которыми могут быть описаны информационные объекты с последующим переводом отобранных характеристик - слов и словосочетаний - в дескрипторы.

В связи с тем, что информационно-поисковая система должна об­служивать коллекцию документов (она систематически пополняется), охватывающую все отрасли знания по горному делу, для отбора харак­теристик документов была выбрана их представительная коллекция. Эта коллекция документов, по возможности, была представлена равно­великим количеством документов по всем разделам горного дела, в том числе системам разработки, креплению горных выработок, вентиляций, водоотливу и т.д.

Характеристики выписывались не только из документов пред­ставительной коллекции, но и из ряда других документов, например, терминологических словарей, энциклопедий, а также из общих и от­раслевых таблиц Универсальной десятичной классификации (УДК).

Методы выявления характеристик из документов осуществля­лись по общим существующим правилам разработки ИПС дескрип­торного типа. В результате обработки почти 10 тыс. документов по горному делу, входивших в представительную коллекцию, было полу­чено свыше 80-ти процентов всех характеристик. Соотношение выяв­ленных характеристик из различных видов документов, представлен­ных в коллекции, показано в таблице:

Виды документов в представительной коллекции

Показатели

Абсолютное кол. характеристик

Относит., в процентах

1. Рефераты из РЖ «Горное дело»

7721

80

2. Терминологические словари

965

10

3. Тексты 400 оригинальных ста­тей но горному делу, опублико­ванные в английских журналах

483

5

4 Универсальная десятичная клас­сификации (УДК)

486

5

Итого:

9655

100


В результате анализа выбранных характеристик и их частого повторения в документах можно сделать вывод: чем количественно больше коллекция документов и разнообразней ее документы по видам, тем полнее может быть произведен отбор необходимых характеристик для включения их в словник.

После отбора характеристик для ИПС была выявлена частота их повторения в экспериментальном информационном массиве. В резуль­тате установлено, что в 1000 документов характеристики по их час­тотному повторению могут быть разбиты на 4 группы, а именно:

с повторением:

До 12 раз 30 %

До 24 раз 31%

До 40 раз 20%

Свыше 41 раза 19%
  1. Выявлены и некоторые стороны влияния частотного повторения отдельных характеристик на информационный поиск. Например, ха­рактеристики с частотным повторением свыше 41 раза при многоаспектном поиске по 5 и более характеристикам не влияют на точность поиска, значительно принижена роль при поиске характеристик с час­тотным повторением от 24 до 40 раз. При анализе влияния частотного повторения характеристик на глубину информационного поиска уста­новлено, что по своему терминологическому значению они обладают большими систематизирующими свойствами.

Было замечено, что в горнотехнической литературе отдельные характеристики вступают между собой во взаимность и образуют ус­тойчивые словосочетания. Например, лента конвейерная, реагент фло­тационный, очистной забой, горная выработка и т.п.

При анализе характеристик по их принадлежности к частям речи значительное преимущество по частотности повторений принад­лежит именам существительным.

После перевода характеристик в дескрипторы было проведено "пробное индексирование, целью которого являлась проверка полноты характеристик в дескрипторном словаре, выявление характеристик, относящихся по своему терминологическому значению к горному де­лу и выработка правил ограничений вносимых в словник характери­стик, относящихся по своей терминологической значимости к другим отраслям знаний.

Методика проверки заключаюсь в подсчете количества харак­теристик, недостающих в словаре на каждую сотню обработанных до­кументов, а также принадлежность этих характеристик к частям речи.

Недостающие характеристики после обработки каждой сотни документов вносились в отдельную картотеку -словарь.

Пробное индексирование показало, что если количество недос­тающих характеристик, относящихся к горному делу, снижается в первых сотнях документов скачкообразно, то. начиная с десятой сот­ни, снижение идет постепенно. Если на 20-й сотне обработанных до­кументов недостающих характеристик было 5, то на 25-30-й сотнях документов их не хватает только 3-2; эти характеристики относятся к характеристикам, выраженным именем прилагательным. Число харак­теристик, относящихся к другим отраслям знаний, для отдельных со­тен документов различно, и заметно снижение их числа с увеличением объема обработанных документов. Учитывая, что информационно-поисковая система эксплуатируется в условиях, когда общим для всех документов является их принадлежность к горному делу, для характе­ристик, относящихся к другим отраслям знаний, были наложены ис­кусственные ограничения при включении их в словарь.