Зированной информационно-поисковой системы, предназначенной для информационного обслуживания инженерно-технических работников угольной промышленности Кузбасса
Вид материала | Документы |
- Сборник научных трудов, 3225.32kb.
- Общественнополитическая жизнь Свердловской области в условиях курса на обновление, 182.51kb.
- Пособие к сниП 03. 11-85 по контролю состояния, 2191.02kb.
- Методические указания по курсовому проектированию для студентов специальности 210100, 395.17kb.
- Учебник для вузов, 4251.03kb.
- Региональная целевая программа Информатизация системы образования Ленинградской области, 1115.91kb.
- Разработка принципов создания информационно-поисковой интернет-системы в области наук, 328.8kb.
- Методический комплекс для студентов специальности 271200, 27124. 00 всех форм обучения, 1207.22kb.
- «Анализ pr деятельности интернет ресурсов на примере Информационно поисковой Системы, 583.54kb.
- Конспект лекций кемерово 2003 удк: 637. 992, 1167.63kb.
ИСТОЧНИКИ ИНФОРМАЦИИ В информационно-поисковую систему вводится информация из следующих источников:
Распределение источников информации по удельному весу видно из следующей таблицы:
Источники информации обеспечивают в данное время наиболее полное формирование информационного массива и ввод в систему информации о достижениях не только отечественной, но и зарубежной науки. Удельный вес в % 39,7 24,6 24,6 6,5 3,6 0,9 34,6 Состав информационных документов по видам изданий характеризуются следующими данными: Вид издания Журналы Продолжающие издания Непубликуемая информация Книги и брошюры Описание к авторским свидетельствам Информация об изделиях Всего: По видам изданий информационный массив пополняется информацией, отражающей новые и новейшие достижения науки и техники. Анализ показывал, что информационный массив системы формируется из следующих отраслей знаний и тематических направлений: Отрасли знания и тематические направления Удельный вес в % Горное дело 87,0 Техника организации и управления производством 3,5 Транспортирующие устройства 3,0 Геология, геологические науки 2,0 Геодезические инструменты и оборудование 0,5 Химическая технология и другие отрасли химической промышленности 1,0 Электротехника 1,0 Другие 12 отраслей знания 0,5 Всего: 100,0 Таким образом, в информационно-поисковой системе доминирующим является отраслевой характер. В то же время каждая отраслевая система, как подтверждает приведенная выше таблица, должна быть способна в какой-то мере вести обработку информации из других отраслей знания и тематических направлений. Вводимый в механизированную информационно-поисковую систему массив по языковому признаку распределяется следующим образом: Язык Удельный вес в % Русский 76 Английский 9,8 Немецкий 5,0 Французский 2,1 Польский 2,2 Чешский 1,0 Венгерский 0,5 Румынский 0,1 Испанский и др. 3,2 Большинство вводимой в систему информации по языку доступно потребителю. В то же время из-за языкового барьера потребитель не может ознакомиться с оригиналами значительной части информации. Отсутствие организации, которая могла бы быстро, в течение 2-3 дней, делать переводы, снижает эффективность информации по зарубежным источникам. ОБЕСПЕЧЕНИЕ СИСТЕМЫ ИЗБИРАТЕЛЬНОГО РАСПРЕДЕЛЕНИЯ ИНФОРМАЦИИ ОРИГИНАЛАМИ ИЛИ КОПИЯМИ ПЕРВИЧНЫХ ДОКУМЕНТОВ Система механизированного поиска и выдачи информации, которая обеспечивает по плану 1968 г. выдачу 4800 тематических подборок и рассылку их в 9517 адресов, по полноте документов вторичной информации и источникам является наиболее оптимальной. ИПС как бы гарантирует потребителю, что по его теме-запросу исключаются при осмотре и отборе пропуски информации. Информационно-поисковые системы, работая в режиме избирательного распределения информации, должны базироваться и на оптимальное наличие числа оригиналов или копий первичных документов. Это относится в первую очередь к механизированным ИПС. Эксплуатируемая ИПС за счет наличия первичных документов в справочно-информационном фонде удовлетворяет информационные потребности только в 17 случаях из 100. Документальные фонды предприятий и организаций, где работают потребители информации, могут выдать за счет наличия документов в фондах только 5 документов из 100 запрашиваемых. Развитие системы избирательного распределения информации с использованием современных средств подготовки, поиска, копирования документов требует решения вопроса о наиболее полном удовлетворении информационных потребностей в документах за счет наличия, прежде всего, в местных органах научно-технической информации. А это в свою очередь требует решение вопроса создания сводных региональных каталогов и развития системы МБ А. ДЕСКРИПТОРНЫЙ СЛОВАРЬ В дескрипторный словарь включены термины, выбранные на основе статистического метода их частичного повторения почти в десяти тысячах документов, относящиеся к различным научно-техническим дисциплинам горного дела: шахтная геология, системы разработок, рудничное крепление и управление горным давлением, проведение горных выработок, буровзрывные работы, рудничный транспорт, открытые работы, водоотлив и водоосушение, вентиляция и горноспасательное дело, обогащение и др. Кроме специальных терминов, в словаре имеются общетехнические и общенаучные термины, используемые в горнотехнической литературе (автоматизация, величина, коэффициент, механизм и др.). И, наконец, в словарь включены отдельные слова естественного языка (вода, воздух, земля, рабочий и т.д.), необходимые для раскрытия предметного содержания информационных документов по горному делу. Помимо указанных слов, в словарь введены обозначения различных единиц измерения, встречающихся в горном деле (ватт, вольт, градус и др.). Общее количество терминов, включенных в словарь, составляет около 5000. Включенные в словарь термины и слова естественного языка, за которыми закреплены определенные научно-технические понятия, необходимые для описания документа, называются дескрипторами. Термины и слова естественного языка, обладающие систематизирующими свойствами (обычно они выражены именами существительными) и имеющие самостоятельное значение для поиска информации, в ИПС принято называть базисными или основными дескрипторами. Однако, основные дескрипторы, имея большие систематизирующие свойства, сами нуждаются в уточнении некоторых характеристик. Например, основной дескриптор КРЕПЬ имеет 53 поясняющих характеристики: анкерная, деревянная, металлическая, забивная, податливая, тюбинговая, шагающая и т.д. Такие характеристики получили название поясняющих. Поясняющие характеристики, как правило, самостоятельного значения для поиска информации не имеют. Чтобы не увеличивать объем словаря, отдельные поясняющие характеристики, которые относятся ко многим основным дескрипторам, вынесены в разряд базисных. Например, механический, автоматический, воздушный и т.д. Основные дескрипторы в тексте документа вступают во взаимосвязь не только между собой (крепление - штрек), но и между своими поясняющими характеристиками (крепление - крепь - металлическая - штрек - однопутевой). В этом случае происходит образование новых дескрипторов: крепь металлическая - штрек однопутевой. Информационно-поисковая система и средства ее реализации обеспечивают возможность осуществить поиск не только по основному дескриптору или их совокупности, но и по вновь образуемым дескрипторам. Дескрипторный словарь состоит из расположенных в алфавитном порядке дескрипторных ассоциаций (статей). Каждая ассоциация в словаре может включать основной дескриптор, вышестоящий дескриптор (он указывает на родовую связь основного дескриптора с ним), связанный дескриптор, синонимы основного дескриптора, а затем поясняющие характеристики1 их синонимы и базисные отношения. Ниже приводятся примеры дескрипторных ассоциаций. Лава Крепь Выработка горная ** Крепление* безлюдная встречная анкерная длинная с. болтовая комбайновая с. штанговая, где знак «*» указывает на связанные (близкие) дескрипторы, знак «**» - на вышестоящие дескрипторы, буква «с» - на синонимические слова. 1 В словаре не приводится подразделение поясняющих характеристик по степени их значимости (первая, вторая, третья и т.д.) из-за отсутствия научных принципов подобного подразделения Синонимы - термины, в той или иной степени равнозначные данному дескриптору или его поясняющей характеристике (если они приводятся следом за ними). Имеется несколько разновидностей синонимов. По содержанию синонимы подразделяются на полные и относительные. Полные синонимы - это такие термины, которые могут взаимозамещать друг друга в любых ситуациях в пределах данной ИПС. Например, аккумуляция - накопление, асбест - лен горный и т.д. Относительные синонимы - такие термины, которые могут замещать друг друга не всегда, а только в определенных случаях. Например, бункер и емкость, величина и размер. Терминологическое сочетание «емкость погрузочного устройства» может быть заменено синонимом «бункер», но для выражения «емкость вагонетки» «бункер» синонимом не является. То же самое можно сказать относительно синонимов «величина» и «размер». Термин «размер» всегда может быть замещен термином «величина», но обратная замена возможна не во всех случаях. Например, можно сказать «величина стыка между рельсами», но в выражении «величина горного давления» заменить термин «величина» термином «размер» нельзя. Кроме содержания, синонимы могут различаться по своей структуре. Здесь возможны следующие случаи:
Словарь снабжен двухсторонней системой ссылок, позволяющей легко отыскать синонимичные слова. Все синонимы в словаре получили одинаковые кодовые обозначения, в результате чего они имеют одинаковое значение в ИПС. Связанные термины - это термины не синонимичные, но близкие по значению дескриптору. Например, аварийность - авария, водопонижение - осушение, выемка - добыча, гидромеханизация - способ гидравлический. Термины вышестоящие обозначают родовое, более общее понятие, по отношению к которому данный дескриптор является более узким. Например, вышестоящий для термина «комбайн добычной» -«машина выемочная». Поясняющие характеристики перечисляют не все возможные разновидности дескриптора, а только те из них, которые представляют интерес для данной ИПС. Они располагаются в алфавитном порядке в конце дескрипторной ассоциации после основного дескриптора и относящихся к нему синонимов, а также связанных и вышестоящих терминов. Наличие в дескрипторной ассоциации поясняющих характеристик дает возможность индексатору в случае надобности дополнить описание поискового образа документа характеристиками, недостающими в этом документе. ПРИМЕЧАНИЕ: Одни и те же поясняющие характеристики могут уточнять различные основные дескрипторы. Например, характеристика воздушный используется для уточнения дескрипторов забойка, система, струя, пульсатор; характеристика ударный - для уточнения дескрипторов бурение, вязкость, механизм, нагрузка и т.д. Графическое оформление словаря показано на следующем примере: Дескриптор Дескриптор Вышестоящий с. синоним Связанный Характеристика Характеристика с. синоним Характеристика Характеристика ИНДИКАТОРНЫЙ СЛОВАРЬ Индикаторный словарь представляет собой список расположенных в алфавитном порядке отдельных дескрипторов, включенных в дескрипторный словарь. Например, дескриптор камера взрывная в индикаторном словаре расчленен на две самостоятельные части: камера и взрывной, каждая из которых имеет свое кодовое обозначение. В восьмеричной системе счисления в данном случае кодовые обозначения соответственно будут 02373 и 00511. В связи с тем, что в словаре, кроме дескрипторов, записаны их кодовые значения, индикаторный словарь получил название кодового указателя. В том случае, если одна и та же поясняющая характеристика варе она указывается только один раз. Например, из дескрипторов каретка буровая и скважина буровая в кодовый указатель взяты три составные части: каретка, скважина и поясняющая характеристика буровой. Компоненты с кодами в словаре оформлены списком. Ниже приведен образец кодового указателя: Вруб 00740 Врубовый 00742 Врубо-навалочный 00743 Врубо-погрузочный 00744 При составлении индикаторного словаря соблюдались следующие правила словесного оформления. Имена существительные (дескрипторы) в кодовом указателе записаны в форме именительного падежа единственного числа. В некоторых случаях имена существительные ставятся в форме множественного числа. Например, аппараты (как предмет) в отличие от аппарата (административного), чаши бегунные (употребительная форма этого термина). Имена прилагательные (поясняющие характеристики) стоят в форме именительного падежа единственного числа мужского рода. Если среди слов, используемых в словаре, встречаются омонимы (т.е. два слова, одинаковых по произношению и написанию, но различных по значению), то значение этих слов поясняется соответствующими пометками, причем кодовые значения у них совершенно различные между собой. Например, рабочий (сущ.), рабочий (прил.), простой (сущ.), простой (прил.). В связи с тем, что при индексировании могут встретиться трудности в кодировании синонимов, ниже рассмотрены способы кодирования всех трех случаев структурных разновидностей синонимов.
Терминологические сочетания, синонимичные друг другу, в индикаторном словаре имеют одинаковые индексы, в то время как их составные компоненты имеют другие индексы. Например, индекс синонимичных дескрипторов «оклад дверной» и «крепь штрековая» будет 02246, а индексы составных компонентов соответственно будут 04163, 01414, 03011, 10426. Такие терминологические сочетания в кодовом указателе снабжаются знаком дефис (-), например: Крепь 03011 - штанговая 01510 - штрековая 11227 Для облегчения процесса индексирования в индикаторном словаре помещены все связанные и вышестоящие термины, относящиеся к основному дескриптору, например: Костер 02753 в. крепь 03011 В том случае, если связанные и вышестоящие дескрипторы относятся к дескриптору, выраженному словосочетанием, то у основного дескриптора поставлен знак «+», что означает необходимость просмотра индикатором всей дескрипторной ассоциации в дескрипторном словаре с целью установления имеющихся связанных и вышестоящих терминов. Особый случай представляет кодирование относительных синонимов. Термин, обладающий более широким объемом содержания, принято разбивать на два термина меньшего объема содержания, один из которых синонимичен другому термину, а второй не является его синонимом. Например, термин «газ горючий» разбивается на два термина: 1. Термин «газ горючий», синонимичный термин «горючее газообразное», получающий общее с ним кодовое обозначение (00450). 2. Термин «газ горючий», не синонимичный термину «горючее газообразное» и имеющий отличительный от него код (01506). ПОСТРОЕНИЕ ДЕСКРИПТОРНОГО СЛОВАРЯ Построение дескрипторного словаря проводилось методом отбора характеристик, которыми могут быть описаны информационные объекты с последующим переводом отобранных характеристик - слов и словосочетаний - в дескрипторы. В связи с тем, что информационно-поисковая система должна обслуживать коллекцию документов (она систематически пополняется), охватывающую все отрасли знания по горному делу, для отбора характеристик документов была выбрана их представительная коллекция. Эта коллекция документов, по возможности, была представлена равновеликим количеством документов по всем разделам горного дела, в том числе системам разработки, креплению горных выработок, вентиляций, водоотливу и т.д. Характеристики выписывались не только из документов представительной коллекции, но и из ряда других документов, например, терминологических словарей, энциклопедий, а также из общих и отраслевых таблиц Универсальной десятичной классификации (УДК). Методы выявления характеристик из документов осуществлялись по общим существующим правилам разработки ИПС дескрипторного типа. В результате обработки почти 10 тыс. документов по горному делу, входивших в представительную коллекцию, было получено свыше 80-ти процентов всех характеристик. Соотношение выявленных характеристик из различных видов документов, представленных в коллекции, показано в таблице:
В результате анализа выбранных характеристик и их частого повторения в документах можно сделать вывод: чем количественно больше коллекция документов и разнообразней ее документы по видам, тем полнее может быть произведен отбор необходимых характеристик для включения их в словник. После отбора характеристик для ИПС была выявлена частота их повторения в экспериментальном информационном массиве. В результате установлено, что в 1000 документов характеристики по их частотному повторению могут быть разбиты на 4 группы, а именно: с повторением: До 12 раз 30 % До 24 раз 31% До 40 раз 20% Свыше 41 раза 19%
Было замечено, что в горнотехнической литературе отдельные характеристики вступают между собой во взаимность и образуют устойчивые словосочетания. Например, лента конвейерная, реагент флотационный, очистной забой, горная выработка и т.п. При анализе характеристик по их принадлежности к частям речи значительное преимущество по частотности повторений принадлежит именам существительным. После перевода характеристик в дескрипторы было проведено "пробное индексирование, целью которого являлась проверка полноты характеристик в дескрипторном словаре, выявление характеристик, относящихся по своему терминологическому значению к горному делу и выработка правил ограничений вносимых в словник характеристик, относящихся по своей терминологической значимости к другим отраслям знаний. Методика проверки заключаюсь в подсчете количества характеристик, недостающих в словаре на каждую сотню обработанных документов, а также принадлежность этих характеристик к частям речи. Недостающие характеристики после обработки каждой сотни документов вносились в отдельную картотеку -словарь. Пробное индексирование показало, что если количество недостающих характеристик, относящихся к горному делу, снижается в первых сотнях документов скачкообразно, то. начиная с десятой сотни, снижение идет постепенно. Если на 20-й сотне обработанных документов недостающих характеристик было 5, то на 25-30-й сотнях документов их не хватает только 3-2; эти характеристики относятся к характеристикам, выраженным именем прилагательным. Число характеристик, относящихся к другим отраслям знаний, для отдельных сотен документов различно, и заметно снижение их числа с увеличением объема обработанных документов. Учитывая, что информационно-поисковая система эксплуатируется в условиях, когда общим для всех документов является их принадлежность к горному делу, для характеристик, относящихся к другим отраслям знаний, были наложены искусственные ограничения при включении их в словарь. |