Рассказы об информации
Вид материала | Рассказ |
- Произведения для 10 а класса выделены, 11.05kb.
- Василий Макарович Шукшин рассказы, 3282.5kb.
- Современные русские писатели евгений Попов Рассказы, 246.11kb.
- «Донские рассказы», 11.38kb.
- Рекомендательная библиография для внеклассного чтения, 151.61kb.
- Примерные экзаменационные билеты по Информатике и икт, 57.84kb.
- Билеты по информатике, 53.93kb.
- Образ учителя в художественной литературе, 53.58kb.
- А. П. Чехов Рассказы «Попрыгунья», «Ионыч», «Человек в футляре», «О любви», «Крыжовник»,, 13.99kb.
- Натуральные Билеты Билет, 47.52kb.
^ Тезаурус, созданный на основе определений
из нормативных правовых актов
Тезаурус - нормативный словарь-справочник, служащий для информационного поиска, содержащий дескрипторы с важнейшими парадигматическими отношениями, а также синонимичные им ключевые слова. Необходимость тезауруса объективна: он снимает проблему синонимии и дает возможность расширять информационные запросы близкими по смыслу словами, что улучшает поисковые характеристики информационной системы - принципиально повышает точность и уменьшает шум при поиске. А это особенно важно для правовых систем, которые должны обеспечивать максимальную пол ноту и точность выдачи нормативного материала. Однако именно в юридической сфере тезаурус с трудом пробивает себе дорогу.
По опыту работы известно, что даже само слово "тезаурус" много лет пугает юристов, да и многих работников информационной сферы, которым трудно дается классификационный подход. А если оказывается, что в тезаурусе "Генеральный прокурор" стоит "ниже" просто "Прокурора", то такой словарь вызывает настоящий протест. К тому же если показатель точности пользователь воспринимает непосредственно, то потери релевантных документов чаще остаются незамеченными.
Обеспечить приемлемую полноту и высокую точность без специальных лингвистических средств и методов невозможно. Информация - это общая смысловая составляющая однородных высказываний. Качественный поиск по словам предполагает подбор многих вариантов выражения одного смысла, требует расширения запроса видовыми и ассоциативными словами. Однако имеющиеся системы правовой информации не обладают средствами, обеспечивающими обязательное представление необходимой информации всеми возможными способами.
Проблему синонимии при работе с текстами на естественном языке обойти нельзя. Если система бестезаурусная, то пользователь при формулировании запроса фактически изобретает тезаурусные статьи на ходу, в процессе поиска, что, естественно, далеко не всегда удается сделать качественно. Без привлечения тезаурусных сведений, то есть сведений о способах выражения заданного смысла, работа по составлению поискового предписания затруднительна для большинства пользователей, которые и просто запрос на естественном языке грамотно сформулировать зачастую не в состоянии.
В случае, когда поисковая система включает тезаурус, вопрос со снятием синонимии, расширением запросов пользователей решается автоматически. Качество поиска при хорошем тезаурусе высокое, процесс поиска облегчен.
Однако если зачастую непонятна сама идея тезауруса, то тем более кажутся непомерными сложность и трудоемкость его подготовки и огромными - затраты времени, требующегося для его создания. Это останавливает информационных работников в их намерении иметь в системе тезаурус. Трудности по его подготовке, отсутствие квалифицированных специалистов, вечная гонка пугают разработчиков систем.
Снять такие страхи можно, предложив создать тезаурус справочного типа. Традиционные подходы к тезаурусу можно определить формулой "Все или ничего". Как ни странно, не рассматривается другой подход к созданию и употреблению тезауруса в информационных системах - аналогичный подходу к рубрикатору, который является справочным средством: он подсказывает направления поиска, демонстрируя в явном виде формулировки тем, о которых пользователь мог и не догадываться.
Неограниченные возможности современной техники позволяют решить проблему заметного повышения качества информационно-поисковой системы малыми усилиями. Если у абонента будет перед глазами справочный тезаурус (пусть даже на бумажном носителе) - с наиболее частотными и сложными случаями синонимии и родовидовых связей слова, которое он придумал для поискового предписания, он сможет составлять запрос терминами тезауруса и их расширениями - синонимами, видовыми и ассоциативными терминами. Произойдет повышение точности за счет определения круга понятий и снижение потерь информации путем использования близких основному терминов.
Семантическое поле - совокупность лексических единиц, объединенных общностью содержания и отражающих сходство обозначаемых явлений. Семантические поля связывают язык с действительностью, соотносят его с внеязыковой реальностью. Знание семантического поля термина, используемого для поиска информации, необходимо для информационно-поисковой работы в сфере законодательства, так как юридический документ представляет правовые нормы жизни общества, регулирует взаимодействие с окружающей действительностью в различных ситуациях или формах ее проявления. Тезаурус представляет полное семантическое поле термина связной иерархической сетью. Дескрипторы, которые связаны между собой по тезаурусу, считаются тематически близкими. Обнаруженные в тексте тематически близкие дескрипторы обычно поддерживают некоторую тему этого текста.
Потребителю дается возможность оглядеть всю совокупность слов, которыми может быть сформулирована искомая тема, выбрать нужные ему и провести уже по этим дополняющим словам стандартный информационный поиск. Или автоматически расширить свой запрос всеми предложенными в тезаурусной статье словами. Или вообще, наконец, понять, чего он хочет, обозревая в явном виде интересующее его семантическое поле.
Работа со справочным тезаурусом может основываться на уже полностью отработанных механизмах поиска информации по рубрикатору. Выбрав термин для формулировки своего запроса, пользователь может обратиться к словарю-тезаурусу и раскрыть словарную статью этого слова (его синонимы, родовые, видовые и ассоциативные термины) - аналогично раскрытию содержания рубрики и демонстрации подрубрик. И пользователь по желанию может расширить свой запрос терминами, которые его заинтересуют (в автоматическом или ручном режиме, используя словарь как подсказку).
Программное обеспечение для справочного тезауруса является аналогичным тому, которое отвечает за функционирование в системе рубрикатора.
Проблема вроде бы заключается в объеме работы по подготовке тезауруса. Однако, прежде всего, при описанном справочном подходе вовсе не обязательно дожидаться подготовки тезауруса в его полном объеме (а такого и не бывает), а возможно вводить в систему отдельные его статьи (при этом можно начать с приоритетных понятий, наиболее частотных или востребованных).
Кроме того, ниже предлагается способ простого и быстрого создания основы тезауруса, введение которого в информационную систему даст несомненные и немедленные результаты в плане повышения качества информационного поиска.
Создание тезауруса сложный процесс. Однако наличие в настоящее время большого количества качественного "сырья" словарей терминов нормативных актов с определениями, других тезаурусов - в принципе, позволяет быстро и качественно подготовить тезаурус для задач правовых систем. Тем более, что тезаурус - открытая, постоянно пополняющаяся система, так что возможно взять за основу тезаурус небольшого объема.
При составлении тезаурусов самое сложное - установление смысловых связей между словами, для чего обращаются к различным видам анализа текстов - с помощью специалистов или ЭВМ по совместной частоте встречаемости терминов в тексте и др. Однако этот путь очень трудоемкий, для объективности метода необходимо обрабатывать большие объемы текста. Избежать труд ностей при создании тезауруса позволяет обращение к источникам, дающим ОПРЕДЕЛЕНИЕ термина. В толкованиях семантика слов раскрывается с помощью других слов, близких им по значению. Определения отражают в большой степени парадигматические связи между словами, и они вполне обозримы, в силу чего позволяют сделать исследование менее трудоемким.
Дефиниция (определение) термина на естественном языке - это наиболее удобный, привычный, простой, емкий и краткий тип представления семантики термина. Это основной вид сжатого семантического представления знания в словарях. Дефиниция осуществляет связь между понятиями и терминами посредством понятийного приравнивания языкового выражения к определяемому. Определение - раскрывает или уточняет содержание понятия. Его основная задача - отличить и отграничить определяемый объект от всех иных.
Для целей классификации наиболее подходящим является объективное, явное определение через род и видовое отличие. Это в явном виде предлагают дефиниции: определяемое понятие приравнивается к более общему, родовому понятию, уточненному специфическими видовыми признаками определяемого понятия.
Понятно, что в определениях семантическая связь зачастую фиксируется субъективно, но привлечение нескольких источников смягчает эту проблему. Кроме того, потребитель конкретно выбирает только те слова, которые его интересуют и устраивают, но для этого он должен иметь из чего выбирать.
В большинстве законодательных актов, имеющих специальный раздел "Термины и определения", используются определения-предписания, волевое назначение данному понятию определенного смыслового содержания. Специфика таких определений заключается в том, что они являются не фиксирующими, а предписывающими, то есть как понятие определяется законодателем, так только в этом смысле оно и будет употребляться в данной сфере. Так, если законодатель приравняет в каких-то условиях алюминий к драгоценным металлам, так он и будет рассматриваться в нормативных предписаниях. В этом есть минус - ограничение понятия сферой употребления, но этот минус снимается получением определения одного и того же понятия из разных источников. Но имеется и очень специфичный большой юридический плюс - повышение качества поиска, его точности и полноты в конкретной правовой области.
Отбор единиц тезауруса из определений является основой дальнейшего анализа и может дополняться самыми разными способами.
Хорошую формальную информацию о связях терминов дают названия нормативных актов, их тоже можно использовать для создания тезаурусных статей.
Ниже приводятся примеры тезаурусных статей, образованных из определений терминов, взятых из нормативных актов. Для нашей работы имеется удобное "сырье" - подготовленные разными ответственными органами справочники таких определений (например, словари-справочники по российскому законодательству, созданные в Совете Федерации Российской Федерации и многие другие словари), но определения нетрудно выделять и самостоятельно. В качестве дополнительных услуг можно приписывать термину тезауруса название актов, в которых он определяется (эта информация также есть в словарях).
Данные примеры (актуальность актов в данном случае не принципиальна) дают представление о том, что имеется в виду в нашем предложении.
^ Несчастный случай - травма, острое профессиональное заболевание (отравление), тепловой удар, ожог, обморожение, утопление, поражение электрическим током или молнией, повреждение вследствие аварии, пожара, стихийного бедствия (землетрясения, оползня, наводнения, урагана и т. д.), контакта с животными, насекомыми и другими представителями флоры и фауны.
Правительство РФ, СОГЛАШЕНИЕ от 09.09.94 г. «Соглашение о порядке расследования несчастных случаев на производстве, происшедших с работниками при нахождении их вне государства проживания».
Получаются словарные статьи:
^ Несчастный случай
н.
обморожение
ожог
острое профессиональное заболевание
отравление
тепловой удар
травма
утопление
а.
авария
животные
молния
насекомые
несчастный случай на производстве*
(* показывает на дальнейшее раскрытие термина)
пожар
стихийное бедствие*
электрический ток
^ Стихийное бедствие
н.
землетрясение
оползень
наводнение
ураган
Несчастный случай на производстве
а.
работник
расследование
---------------------------
^ Валютные ценности:
а) иностранная валюта;
б) ценные бумаги - платежные документы (чеки, векселя, аккредитивы и другие) и фондовые ценности (акции, облигации и другие) в иностранной валюте;
в) драгоценные металлы - золото, серебро, платина и металлы платиновой группы (палладий, иридий, родий, рутений и осмий) в любом виде и состоянии, за исключением ювелирных и других бытовых изделий из этих металлов и лома таких изделий;
г) природные драгоценные камни в сыром и обработанном виде (алмазы, бриллианты, рубины, изумруды, сапфиры, а также жемчуг), за исключением ювелирных и других бытовых изделий из этих камней и лома таких изделий.
^ ОСНОВНЫЕ ПОЛОЖЕНИЯ о регулировании валютных операций на территории СССР Утверждены Госбанком СССР, май 1991 года
Получаются словарные статьи:
^ Валютные ценности н. драгоценные металлы* иностранная валюта ценные бумаги* природные драгоценные камни* в. ценности | ^ Драгоценные металлы н. золото серебро платина* в. валютные ценности металлы а. ювелирные изделия |
^ Ценные бумаги н. платежные документы* фондовые ценности* в. валютные ценности | Платина н. иридий палладий родий рутений осмий в. драгоценные металлы |
^ Платежные документы н. чеки векселя аккредитивы в. ценные бумаги | Природные драгоценные камни н. алмазы бриллианты рубины изумруды сапфиры жемчуг в. валютные ценности а. ювелирные изделия |
^ Фондовые ценности н. акции облигации в. ценные бумаги | Иностранная валюта в. валютные ценности |
Справочный тезаурус, подготовленный с помощью обработки дефиниций, облегчит пользователю сложную задачу формулирования своего запроса, явно повысит точность и неявно, но сильно полноту информационного поиска.
Облегчить процессы подготовки тезауруса можно разнообразными путями. Например, известны формальные показатели связи терминов, такие как слова "другие, иные, прочие, остальные" (устанавливаемое отношение является родовидовым: "Газеты, журналы и другие периодические издания", соответственно в тезаурусе: "Периодические издания" - ниже "газеты", "журналы") и многие другие показатели. Автоматическое их определение позволит пополнить тезаурусные статьи.
Для выражения смысла в тезаурусе должны использоваться нестандартные слова. Так, в словарной статье "Обязанность" должны находиться слова типа "должен", "обязан", так как только в этом случае на запрос, скажем, об "обязанностях" милиционера выдадутся документы, где говорится о том, что "милиционер должен", "милиционер обязан", "милиционеру необходимо".
Наличие тезауруса в информационно-поисковой системе, на наш взгляд, не просто желательно, а настоятельно необходимо, тем более учитывая специфику правовой отрасли. Только система, решившая проблему синонимии и расширения запроса может считаться качественной и вообще корректной.
РУБРИКАТОР
Рубрикатор, или тематический классификатор - это средство, наиболее полно и содержательно организующее правовую область. Рубрикатор является важнейшим системообразующим элементом, от которого зависит в значительной степени систематизация, индексирование и поиск правовой информации, эффективное и согласованное взаимодействие банков данных между собой, а также со всеми категориями пользователей. Рубрикатор предлагает тематическое членение какой-либо области действительности в явном виде, что упрощает восприятие и информационную работу с данной сферой.
В ГОСТах определяется, что "рубрикатор - это словарь для рубрик в виде иерархической классификации, предназначенный для формирования справочно-информационного фонда, информационных изданий и информационного поиска. Рубрикатор как классификационная система строится путем деления понятий - объектов классификации - на основе установленных связей между признаками этих объектов в соответствии с определенными логическими принципами. Под этими принципами подразумевается характеристика объекта, позволяющая устанавливать его сходство или различие по отношению к другим рассматриваемым объектам. Признак, принимаемый за основной в процессе деления, принято называть основанием деления".
Таким образом, можно сформулировать, что рубрикатор - это информационно-лингвистическое средство, определенным образом организующее предметную область. Рубрикатор членит информационное пространство на тематические элементы, которые представлены в виде рубрик. Рубрики могут быть включены в иерархическую цепочку.
Рубрикатор представляет собой совокупность рубрик. Каждая рубрика состоит из кода и наименования. Рубрика может иметь при себе элементы ссылочно-отсылочного аппарата и примечания. Рубрикатор тем качественнее, чем более соответствуют названия рубрик самым важным и частотным запросам пользователя.
Особую роль играет рубрикационное представление действительности в правовой сфере. Законодательство - одна из сложнейших областей функционирования общества, затрагивающая практически все его стороны. Необходимость представления законодательства в систематизированном обозримом виде не вызывает сомнений, а одной из наиболее удобных, проверенных практикой форм такой организации законодательного массива является рубрикатор. Эксплицитное выражение правовых аспектов позволяет удовлетворять различные потребности в юридической сфере. Рубрикатор является одним из основных лингвистическо-информационных средств в автоматизированных информационно-правовых системах. Общеправовой рубрикатор охватывает весь массив законодательства, другие виды правовых рубрикаторов отражают локальные правовые сферы.
Правовой рубрикатор - структурированный многоуровневый перечень разделов/подразделов права или тематик, используемый для классификации и поиска юридических документов по интересующей пользователя проблеме.
Рубрикатор представляет собой совокупность рубрик, организованных иерархически. Рубрики первого уровня соответствуют крупным устоявшимся областям законодательства и права, рубрики второго уровня отражают комплексные проблемы и отрасли деятельности. Нижестоящие уровни отражают специальные вопросы и конкретные понятия.
Общеправовой рубрикатор представляет собой структурное описание предметной области законодательства и права и сфер действия законодательных актов, типизации и иерархической подчиненности законодательных актов и органов власти их утверждающих.
Общеправовой рубрикатор - это иерархическая классификационная система юридических понятий с универсальным тематическим охватом отраслей законодательства. Он отражает информационный поток и информационные потребности пользователей. Обычно общеправовой рубрикатор основывается на разбиении массива законодательства по его отраслям и институтам.
Общеправовой классификатор, действующий в настоящее время, основан на разбиении массива законодательства по его отраслям и институтам. Это иерархическая классификационная система юридических понятий с универсальным тематическим охватом. Рубрикатор является прагматической классификацией и отражает информационный поток и информационные потребности пользователей.
Хорошо характеризует поисковую систему наличие совокупности совместимых Рубрикаторов локальных баз, созданных на основе Общеправового рубрикатора по одному принципу.
Ведение Рубрикатора предполагает совершенствование его содержания и структуры, а также подготовку его актуализированных версий, отвечающих современному состоянию законодательства.
Рубрикатор предназначается для выполнения, в частности, следующих задач:
- определение тематического охвата информационных служб, систем, банков и баз знаний;
- формирование информационых массивов правовой информации (для их ведения, обмена, информационного обслуживания );
- рубрицирование нормативно-правовых документов и поиск их по рубрикам;
- адресация запросов в информационных сетях;
- выполнение нормативной функции при разработке и совершенствовании локальных рубрикаторов и пр.
Реализация указанных функций Рубрикатора позволяет:
- повысить эффективность информационного обслуживания в традиционных и автоматизированных режимах;
- унифицировать структуру и методы ведения локальных рубрикаторов, обеспечить их совместимость в рамках сети;
- упорядочить структуру и ведение правовых информационных систем, банков и баз данных;
- установить взаимно-однозначное соответствие запроса содержанию нормативно-правовых документов, что повышает точность и полноту поиска информации;
- минимизировать дублирование при обработке документов и запросов;
- вести статистический анализ информационных массивов и потоков и т.п.
Приоритетным направлением использования Рубрикатора является рубрицирование по нему нормативно-правовых актов.
Рубрицирование по Рубрикатору - это выражение содержания (темы) документа и формулирование запроса кодами Рубрикатора и установление таким образом взаимно-однозначного соответствия между ними.
Рубрицирование документа осуществляется однократно и позволяет его многократно и многофункционально использовать. Рубрицирование имеет хорошее качество, если тема документа прямо соответствует названию какой-либо рубрики. Однако из-за одноаспектности Рубрикатора возникают трудности при рубрицировании комплексных или новых проблем.
Поиск информации в нормативно-правовых актах производится с помощью Рубрикатора установлением соответствия содержания рубрик содержанию правовых норм, отраженных в документах. Данная операция может осуществляться с помощью вспомогательных средств - алфавитно-предметного указателя, тезауруса терминов Рубрикатора, ключевых слов, раскрывающих смысл рубрики и др.
Важным средством стратегии поиска является аппарат ссылок и примечаний. Он позволяет расширять поле поиска, может быть использован для проверки корректности составления запроса и т.п. При создании Рубрикатора (особенно для локальных баз) необходимо исходить из текстов документов, а не из умозрительного или доктринального членения сферы регулирования
Рубрикатор сам по себе является ценным информационным средством и может быть использован для анализа законодательства - определения удельного веса интересующего юридического понятия, его места в системе законодательства, выявления противоречий и пробелов, уточнения связей между отдельными частями законодательства и др.