Московский Государственный Университет Культуры и Искусств Факультет: Менеджмента и социально-информационных технологий курсовая

Вид материалаКурсовая
Подобный материал:
1   2   3

О методике создания правового информационно-поискового языка дескрипторного типа

Необходимость создания информационно-поисковой системы (ИПС) нормативно-правового материала не вызывает сомнений. Актуальность машинного поиска правовой информации особенно возросла в связи с развертыванием в нашей стране работ по созданию автоматизирован­ных систем управления (АСУ), причем значительную часть информаци­онного обеспечения составляет законодательный материал. Создание ИПС законодательства, помимо прочих преимуществ, о которых уже говорилось в советской юридической литературе,позволит сократить расходы на проектирование производственных, отраслевых и территори­альных АСУ, а также создаст предпосылки, по крайней мере в области кодирования и машинной обработки правовой информации, для их по­следующей стыковки в единую общегосударственную систему.

Процесс поиска информации условно можно разбить на два этапа. Первый начинается с поступления запроса и заканчивается выдачей адреса документа, например номера статьи и названия акта, в котором она находится. Здесь решаются задачи Юридической семантики. Второй этап начинается с поступления адреса требуемого документа и закан­чивается его выдачей. Решаемые при этом задачи к семантике отноше­ния не имеют и целиком относятся к сфере техники.

Как в специальной, так и в юридической литературе системы, обес­печивающие каждый этап раздельно, и системы, обеспечивающие оба этапа вместе, зачастую называются одинаково — информационно-поис­ковыми. Между тем один и тот же термин употребляется для обозначе­ния разных систем.

Первый этап определяется методом, положенным в основу органи­зации информационного поиска, или, иными словами, языком, в терми­нах которого осуществляется индексация документов; критерием соот­ветствия найденного документа искомому и алгоритмом поиска адреса — программой реализации критерия соответствия. Это информационно-поисковая система в абстрактном виде, под которой понимается сово­купность информационно-поискового языка (ИПЯ) с правилами пере­вода с естественного языка на ИПЯ и наоборот, а также критерия смыслового соответствия между поисковыми образами правовых актов и по­исковыми предписаниями.

В настоящее время для целей информационного поиска использу­ются четыре основных типа информационно-поискового языка: библиотечно-библиографических классификаций, алфавитно-предметной клас­сификации, дескрипторные языки и смешанные языки, объединяющие положительные стороны классификационных и дескрипторных ИПЯ. Не­обходимость многоаспектного поиска правовых актов, т. е. поиска по любому, заранее не заданному сочетанию признаков, требует использо­вания метода координатного индексирования и основанного на нем деск­рипторного ИПЯ.

Но для того чтобы метод координатного индексирования был эф­фективен, нужно обеспечить единообразное индексирование одинаковых по содержанию документов и информационных запросов, т. е. необходи­мо устранить такие явления естественного языка, как синонимия, омо­нимия и полисемия. Осуществить это можно лишь путем установления контроля за употреблением слов и словосочетаний естественного языка, выступающих в качестве ключевых. Такой контроль обеспечивается со­ставлением специального юридического словаря-справочника. Специфика его в том, что ключевые слова в нем сгруппированы в классы экви­валентности, т. е. группы, обозначающие близкие сто смыслу понятия. Из каждой такой группы выбирается одно слово или словосочетание (нор­мативное слово), которым я обозначается вся группа. Такое норматив­ное слово принято называть дескриптором, а словарь дескрипторов по­лучил название тезауруса (от греческого thesaurus — сокровищница, кладовая, клад).

Структура тезауруса сочетает признаки классификационных схем и перечней предметных рубрик. Термины его должны располагаться в алфавитном порядке, отражая в то же время иерархические отношения между терминами посредством указания более широких — родовых и более узких — видовых, синонимичных или связанных по значению тер­минов.

Необходимость в таком словаре возникает вследствие наличия множе­ства слов с неточно определенным объемом значения, что отрицательно сказывается на результатах индексирования и поиска. Правовой те­заурус должен быть единым в масштабах страны или по крайней мере союзной республики с тем, чтобы была возможность последующей сты­ковки разрабатываемых в настоящее время отраслевых ИПС в области права. Перед нормированным перечнем терминов не стоит задача стан­дартизации терминологии, он должен лишь устранить встречающиеся в практике терминологические расхождения применительно к разработке и функционированию информационно-поисковой системы.

Точность и определенность юридического языка, отсутствие (за достаточно редким исключением) расплывчатых, двусмысленных и мно­гозначных терминов значительно облегчают задачу создания правового тезауруса. Последнее, однако, не означает, что в юридический инфор­мационно-поисковый язык нет необходимости вводить искусственные средства для отражения связей между понятиями.

Перед составителями тезауруса стоит сложная задача — произве­сти отбор терминов, сгруппировать их в классы и увязать между собой сложные иерархические деревья с тем, чтобы тезаурус обеспечивал удовлетворительную полноту и точность поиска.

Сбор терминов осуществляется путем детального свободного индек­сирования поискового массива (в машем случае нормативно-правовых актов, составляющих тот или иной институт права).

При индексировании актов, когда создаются их поисковые образы, выписываются существительные, отчасти прилагательные, преобразован­ные по мере возможности в существительные; глаголы, преобразован­ные в отглагольные существительные, причем все слова выписываются в единственном числе. Возьмем, например, текст п. 9 Положения о по­рядке назначения и выплаты государственных пенсий, утвержденного постановлением Совета Министров СССР от 3 августа 1972 г. № 590: «Граждане, имеющие право на государственную пенсию, могут обра­щаться за назначением пенсии в любое время после возникновения пра­ва на пенсию, без ограничения каким-либо сроком» и проанализируем его. Из этого текста выписываются термины и наиболее устойчивые сло­восочетания, принятые в индексируемом институте права: гражданин, право, пенсия, обращение, назначение, время, возникновение права, огра­ничение, срок. Далее выберем ключевые слова с помощью которых под­черкивается основной смысл документа, а также отражающие место на­хождения и характер документа (пункт, параграф, статья, раздел, на­звание акта, его номер, число, месяц и год издания). Столь значительная глубина индексирования вызывается многоаспектностью запросов и необходимостью наиболее полного отражения смыслового содержания текста.

В каждом документе неупорядоченное множество ключевых слов со­единяется с помощью указателей связи и указателей роли. Указателями связи соединяются все ключевые слова.

На каждое ключевое слово может быть заведена унитерм-карта М. Таубе, имеющая формат библиографической карточки, на которой записывается унитерм, т. е. слово, термин, характеризующий или обо­значающий какое-то понятие и все номера документов (по поисковому массиву), в поисковый образ которых входит этот унитерм. Карточка разбивается на 10 колонок, в первую записываются последовательно номера документов, оканчивающихся на нуль, во вторую — на единицу и т. д. Такие унитерм-карты составляют поисковый массив документов. Предположим, что в данном фонде необходимо найти все документы по предоставлению жилых помещений. В алфавитной картотеке унитермов находим три карточки с терминами «предоставление», «помеще­ние», «жилое», сравниваем их и находим одинаковые номера.

Унитерм-карты необходимы как для обработки ключевых слов, объединения их в классы условной эквивалентности и выявления деск­рипторов, так и для последующего проведения экспериментального по­иска.

На основе заиндексированных документов мы получаем набор тер­минов, из которых составлен алфавитный список ключевых слов. Допол­нительные ключевые слова выбираются из словарей, монографий, учеб­ников и других видов юридической литературы. При выборе терминов из этих источников учитываются значимость слов, их полезность при поиске, частота употребления,   а также необходимая глубина   поиска и неопределенность некоторых терминов.

Однако подобная глубина индексирования текстов вовсе не означает, что правовой тезаурус должен включать в себя чуть ли не весь словарный запас естественного языка. Создание такого тезауруса неце­лесообразно, ибо даже при фактографическом поиске получаемая рас­печатка текста документа, составленная в отобранных нами ключевых словах, не будет официальным текстом и пользоваться ею в правопри­менительной практике нельзя. Создаваемые же сейчас (и, по-видимому, в будущем) ИПС законодательства рассчитаны на адресный поиск, т. е. поиск исходных данных документа. В данном же случае тезаурус требу­ется для создания поискового образа того или иного законодательного акта.

Для облегчения выделения дескрипторов массив в виде списка клю­чевых слов разбивается на тематические поля. В массиве по льготному пенсионному обеспечению выделены, например, следующие группы или семантические классы: 1) отрасль промышленности, 2) производство, 3) предприятие. 4) цех, 5) участок, 6) профессия, 7) выходные данные документов.

Дескрипторный язык состоит из нормативных ключевых слов, у ко­торых искусственно, при помощи соответствующих ссылок и знаков устранены синонимия, омонимия, полисемия. Необходимость подобных искусственных преобразований вызвана тем, что вышеперечисленные особенности естественного языка, хотя и сокращенные, но не устранен­ные полностью в юридическом языке, не позволяют решить задачу одно­значного описания смыслового содержания документов, особенно в по­исковых предписаниях.

Устранение синонимии может проходить следующим образом. Пос­ле группировки слов, условно считаемых синонимами, выбирается сло­во (семантическая доминанта), которым обозначается вся группа слов. Выбранный на основе частотности употребления и значимости в иссле­дуемой группе ключевых слов данный термин становится дескрипто­ром. Каждый синоним на улитерм-карте, а впоследствии и в алфавит­ном списке ключевых слов, связывается с соответствующим дескрипто­ром с помощью знака «син». Подчас ключевое слово может фигуриро­вать в качестве частичного синонима, тогда оно должно быть связано с несколькими дескрипторами. Каждый дескриптор при помощи обрат­ных отсылок (помета «см.»), соединяется на унитерм-картах или в лексико-семантическом указателе со всеми его синонимами. В словар­ной статье лексико-семантического указателя эта система отсылок мо­жет иметь следующий вид:

Хищение — см. кража (син.)

                    см. грабеж (син.)

                      см. разбой (син.)

                      см. присвоение (син.)

                      см. растрата (син.)

                      см. злоупотребление служебным положением (син.)

                      см. мошенничество (син.)

В алфавитном списке ключевых слов синоним не подчеркивается (в отличие от дескриптора) и справа от него всегда находится деск­риптор (без знаков), к которому он относится.

Устранение омонимии производится с помощью специальных лек­сикографических средств. Все омонимы должны сопровождаться спе­цифическими словарными знаками, предотвращающими совпадение пер­вых. Например:

акт — документ

акт — действие

следствие — юридическое действие

следствие — результат

лицо — часть тела

лицо — субъект права

спекуляция — правонарушение

спекуляция — метод познания

В дескрипторном словаре при кодировании омонимы должны полу­чать разные коды.

Омонимия — явление достаточно редкое в юридическом языке, и ее устранение не представляет трудности, по крайней мере с точки зре­ния затрат времени.

Полисемия — это перенос названия одного явления на другие, имею­щие с ним какие-либо общие признаки или свойства. Ликвидация ее в поисковом языке происходит так же, как и устранение омонимов. На­пример:

государство — аппарат

государство — страна

государство — субъект права.

Все три значения слова должны быть закодированы различными кодами.

После устранения синонимии, омонимии и полисемии между деск­рипторами устанавливаются парадигматические отношения, при выявле­нии которых может быть использовано сочетание лексикографического и аналитического приемов. В тезаурусе должны быть зафиксированы по меньшей мере следующие связи:

род — вид

отрицание

функциональная связь

подчиненность

ассоциативная связь

Ввиду того, что первоначально с тезаурусом имеет дело индекса­тор, для наглядности родовидовые отношения могут быть выражены с помощью помет: «р. д.» — родовой дескриптор, «в. д.» — видовой де­скриптор.

В то же время, поскольку ИПС реализуется на вычислительной ма­шине, список дескрипторов должен быть представлен одновременно и в виде кодовой книги с аналитическим выражением парадигматических отношений между дескрипторами, которые предназначены для преобра­зования поисковых документов и поисковых предписаний в форму, удоб­ную для ввода в машину.

Родовидовые отношения устанавливаются внутри каждой группы дескрипторов с помощью черновых классификационных деревьев. Чис­ло иерархических уровней в родовидовых деревьях дескрипторов мо­жет быть жестко установленным, однако в подобном случае задача получения дополнительной информации из соответствующего массива бу­дет затруднена. Поэтому в зависимости от ситуации в иерархическое дерево следует включить все дескрипторы, которые соединяются базис­ными отношениями.

В некоторых случаях может встретиться ситуация, когда часть дескриптеров иерархического дерева входит в состав двух и более деревь­ев. В таком случае от общего дескриптора пунктиром строится восходя­щая от него иерархия ко второму, заглавному для него дескриптору. Это делается для того, чтобы документы, содержание которых выраже­но данным общим дескриптором, выпадали при поиске по запросам, со­держащим любой из заглавных для него дескрипторов.

Помимо родо-видовых в тезаурусе указываются также связи под­чинения, отрицания, функциональные, а иногда и ассоциативные, цель этих связей — увеличить полноту выдачи информации благодаря перекрестным связям.

По структуре тезаурус состоит из трех частей: алфавитного списка ключевых слов (словника), лексико-семантического указателя дескрип­торов и набора схем с иерархическими деревьями.

Словник представляет собой словарь всех ключевых слов (вклю­чая и дескрипторы), которые приводятся в общем алфавитном списке в левой части страницы. Все ключевые слова даны в единственном числе. Дескрипторы в списке подчеркнуты, остальные ключевые слова — Нет. На том же уровне, справа от ключевых слов, приводятся дескрипторы, к которым относятся синонимы или соответствующие им видовые де­скрипторы, расположенные слева.

Лексико-семантический указатель — это список словарных слов (кодов). Все заглавные дескрипторы нумеруются в определенной систе­ме счисления, и эти собственные номера выделяются красным. Под эти­ми номерами перечисляются коды всех вышестоящих дескрипторов со ссылкой «см.». Если дескриптор имеет иные связи с каким-либо дру­гим дескриптором, то код последнего приводится с пометой «см. так­же». На одном уровне с дескриптором, справа от него, располагают си­нонимы (без помет), видовые, родовые, функциональные, отрицающие, подчиняющие и ассоциативные дескрипторы с соответствующими поме­тами.

Создание правового информационно-поискового языка дескрипторного типа вышеприведенным способом, с грамматикой и указателями связи — задача трудоемкая.[12] Облегчить ее можно, только отказавшись от грамматики, однако в этом случае, судя по тезаурусам, созданным в других областях знания, значительно снижается точность (до 30%) и повышается в 3—4 раза уровень шума при поиске. Шум вызывается главным образом появлением ложных комбинаций дескрипторов, что неизбежно при поиске без грамматики, и ошибками при обработке за­просов, вызванными преимущественно тем же фактором.

Поскольку достоверность правовой информации в АСУ может су­щественно повлиять на качество и оптимальность принимаемых реше­ний, более целесообразно разрабатывать ИПЯ, обеспечивающие макси­мально возможную полноту и точность поиска, нежели корректировать решения, принятые в условиях недостоверной юридической информа­ции