Московский Государственный Университет Культуры и Искусств Факультет: Менеджмента и социально-информационных технологий курсовая

Вид материала

Подобный материал:

Московский Государственный Индустриальный Университет (мгиу) Факультет экономики, менеджмента, 549.09kb.
-, 556.26kb.
Факультет менеджмента и социально-информационных технологий Кафедра менеджмента и корпоративной, 182.68kb.
Московский Государственный Университет Экономики, Статистики и Информатики Факультет, 146.34kb.
Московский Государственный Университет Культуры и Искусств иэуп специальность: управление, 274.77kb.
Московский Государственный Университет технологий и управления Факультет: Экономики, 283.38kb.
«Пензенский государственный педагогический университет имени В. Г. Белинского», 412.83kb.
Московский Государственный Университет технологий и управления курсовая, 5.68kb.
Библиотечно-функциональный анализ отечественных автоматизированных библиотечно-информационных, 161.73kb.
«О формировании толерантности в развитии межнационального общения и борьбе с ксенофобией, 182.01kb.

1 2 3

О методике создания правового информационно-поискового языка дескрипторного типа

Необходимость создания информационно-поисковой системы (ИПС) нормативно-правового материала не вызывает сомнений. Актуальность машинного поиска правовой информации особенно возросла в связи с развертыванием в нашей стране работ по созданию автоматизированных систем управления (АСУ), причем значительную часть информационного обеспечения составляет законодательный материал. Создание ИПС законодательства, помимо прочих преимуществ, о которых уже говорилось в советской юридической литературе,позволит сократить расходы на проектирование производственных, отраслевых и территориальных АСУ, а также создаст предпосылки, по крайней мере в области кодирования и машинной обработки правовой информации, для их последующей стыковки в единую общегосударственную систему.

Процесс поиска информации условно можно разбить на два этапа. Первый начинается с поступления запроса и заканчивается выдачей адреса документа, например номера статьи и названия акта, в котором она находится. Здесь решаются задачи Юридической семантики. Второй этап начинается с поступления адреса требуемого документа и заканчивается его выдачей. Решаемые при этом задачи к семантике отношения не имеют и целиком относятся к сфере техники.

Как в специальной, так и в юридической литературе системы, обеспечивающие каждый этап раздельно, и системы, обеспечивающие оба этапа вместе, зачастую называются одинаково — информационно-поисковыми. Между тем один и тот же термин употребляется для обозначения разных систем.

Первый этап определяется методом, положенным в основу организации информационного поиска, или, иными словами, языком, в терминах которого осуществляется индексация документов; критерием соответствия найденного документа искомому и алгоритмом поиска адреса — программой реализации критерия соответствия. Это информационно-поисковая система в абстрактном виде, под которой понимается совокупность информационно-поискового языка (ИПЯ) с правилами перевода с естественного языка на ИПЯ и наоборот, а также критерия смыслового соответствия между поисковыми образами правовых актов и поисковыми предписаниями.

В настоящее время для целей информационного поиска используются четыре основных типа информационно-поискового языка: библиотечно-библиографических классификаций, алфавитно-предметной классификации, дескрипторные языки и смешанные языки, объединяющие положительные стороны классификационных и дескрипторных ИПЯ. Необходимость многоаспектного поиска правовых актов, т. е. поиска по любому, заранее не заданному сочетанию признаков, требует использования метода координатного индексирования и основанного на нем дескрипторного ИПЯ.

Но для того чтобы метод координатного индексирования был эффективен, нужно обеспечить единообразное индексирование одинаковых по содержанию документов и информационных запросов, т. е. необходимо устранить такие явления естественного языка, как синонимия, омонимия и полисемия. Осуществить это можно лишь путем установления контроля за употреблением слов и словосочетаний естественного языка, выступающих в качестве ключевых. Такой контроль обеспечивается составлением специального юридического словаря-справочника. Специфика его в том, что ключевые слова в нем сгруппированы в классы эквивалентности, т. е. группы, обозначающие близкие сто смыслу понятия. Из каждой такой группы выбирается одно слово или словосочетание (нормативное слово), которым я обозначается вся группа. Такое нормативное слово принято называть дескриптором, а словарь дескрипторов получил название тезауруса (от греческого thesaurus — сокровищница, кладовая, клад).

Структура тезауруса сочетает признаки классификационных схем и перечней предметных рубрик. Термины его должны располагаться в алфавитном порядке, отражая в то же время иерархические отношения между терминами посредством указания более широких — родовых и более узких — видовых, синонимичных или связанных по значению терминов.

Необходимость в таком словаре возникает вследствие наличия множества слов с неточно определенным объемом значения, что отрицательно сказывается на результатах индексирования и поиска. Правовой тезаурус должен быть единым в масштабах страны или по крайней мере союзной республики с тем, чтобы была возможность последующей стыковки разрабатываемых в настоящее время отраслевых ИПС в области права. Перед нормированным перечнем терминов не стоит задача стандартизации терминологии, он должен лишь устранить встречающиеся в практике терминологические расхождения применительно к разработке и функционированию информационно-поисковой системы.

Точность и определенность юридического языка, отсутствие (за достаточно редким исключением) расплывчатых, двусмысленных и многозначных терминов значительно облегчают задачу создания правового тезауруса. Последнее, однако, не означает, что в юридический информационно-поисковый язык нет необходимости вводить искусственные средства для отражения связей между понятиями.

Перед составителями тезауруса стоит сложная задача — произвести отбор терминов, сгруппировать их в классы и увязать между собой сложные иерархические деревья с тем, чтобы тезаурус обеспечивал удовлетворительную полноту и точность поиска.

Сбор терминов осуществляется путем детального свободного индексирования поискового массива (в машем случае нормативно-правовых актов, составляющих тот или иной институт права).

При индексировании актов, когда создаются их поисковые образы, выписываются существительные, отчасти прилагательные, преобразованные по мере возможности в существительные; глаголы, преобразованные в отглагольные существительные, причем все слова выписываются в единственном числе. Возьмем, например, текст п. 9 Положения о порядке назначения и выплаты государственных пенсий, утвержденного постановлением Совета Министров СССР от 3 августа 1972 г. № 590: «Граждане, имеющие право на государственную пенсию, могут обращаться за назначением пенсии в любое время после возникновения права на пенсию, без ограничения каким-либо сроком» и проанализируем его. Из этого текста выписываются термины и наиболее устойчивые словосочетания, принятые в индексируемом институте права: гражданин, право, пенсия, обращение, назначение, время, возникновение права, ограничение, срок. Далее выберем ключевые слова с помощью которых подчеркивается основной смысл документа, а также отражающие место нахождения и характер документа (пункт, параграф, статья, раздел, название акта, его номер, число, месяц и год издания). Столь значительная глубина индексирования вызывается многоаспектностью запросов и необходимостью наиболее полного отражения смыслового содержания текста.

В каждом документе неупорядоченное множество ключевых слов соединяется с помощью указателей связи и указателей роли. Указателями связи соединяются все ключевые слова.

На каждое ключевое слово может быть заведена унитерм-карта М. Таубе, имеющая формат библиографической карточки, на которой записывается унитерм, т. е. слово, термин, характеризующий или обозначающий какое-то понятие и все номера документов (по поисковому массиву), в поисковый образ которых входит этот унитерм. Карточка разбивается на 10 колонок, в первую записываются последовательно номера документов, оканчивающихся на нуль, во вторую — на единицу и т. д. Такие унитерм-карты составляют поисковый массив документов. Предположим, что в данном фонде необходимо найти все документы по предоставлению жилых помещений. В алфавитной картотеке унитермов находим три карточки с терминами «предоставление», «помещение», «жилое», сравниваем их и находим одинаковые номера.

Унитерм-карты необходимы как для обработки ключевых слов, объединения их в классы условной эквивалентности и выявления дескрипторов, так и для последующего проведения экспериментального поиска.

На основе заиндексированных документов мы получаем набор терминов, из которых составлен алфавитный список ключевых слов. Дополнительные ключевые слова выбираются из словарей, монографий, учебников и других видов юридической литературы. При выборе терминов из этих источников учитываются значимость слов, их полезность при поиске, частота употребления,   а также необходимая глубина   поиска и неопределенность некоторых терминов.

Однако подобная глубина индексирования текстов вовсе не означает, что правовой тезаурус должен включать в себя чуть ли не весь словарный запас естественного языка. Создание такого тезауруса нецелесообразно, ибо даже при фактографическом поиске получаемая распечатка текста документа, составленная в отобранных нами ключевых словах, не будет официальным текстом и пользоваться ею в правоприменительной практике нельзя. Создаваемые же сейчас (и, по-видимому, в будущем) ИПС законодательства рассчитаны на адресный поиск, т. е. поиск исходных данных документа. В данном же случае тезаурус требуется для создания поискового образа того или иного законодательного акта.

Для облегчения выделения дескрипторов массив в виде списка ключевых слов разбивается на тематические поля. В массиве по льготному пенсионному обеспечению выделены, например, следующие группы или семантические классы: 1) отрасль промышленности, 2) производство, 3) предприятие. 4) цех, 5) участок, 6) профессия, 7) выходные данные документов.

Дескрипторный язык состоит из нормативных ключевых слов, у которых искусственно, при помощи соответствующих ссылок и знаков устранены синонимия, омонимия, полисемия. Необходимость подобных искусственных преобразований вызвана тем, что вышеперечисленные особенности естественного языка, хотя и сокращенные, но не устраненные полностью в юридическом языке, не позволяют решить задачу однозначного описания смыслового содержания документов, особенно в поисковых предписаниях.

Устранение синонимии может проходить следующим образом. После группировки слов, условно считаемых синонимами, выбирается слово (семантическая доминанта), которым обозначается вся группа слов. Выбранный на основе частотности употребления и значимости в исследуемой группе ключевых слов данный термин становится дескриптором. Каждый синоним на улитерм-карте, а впоследствии и в алфавитном списке ключевых слов, связывается с соответствующим дескриптором с помощью знака «син». Подчас ключевое слово может фигурировать в качестве частичного синонима, тогда оно должно быть связано с несколькими дескрипторами. Каждый дескриптор при помощи обратных отсылок (помета «см.»), соединяется на унитерм-картах или в лексико-семантическом указателе со всеми его синонимами. В словарной статье лексико-семантического указателя эта система отсылок может иметь следующий вид:

Хищение — см. кража (син.)

                    см. грабеж (син.)

                      см. разбой (син.)

                      см. присвоение (син.)

                      см. растрата (син.)

                      см. злоупотребление служебным положением (син.)

                      см. мошенничество (син.)

В алфавитном списке ключевых слов синоним не подчеркивается (в отличие от дескриптора) и справа от него всегда находится дескриптор (без знаков), к которому он относится.

Устранение омонимии производится с помощью специальных лексикографических средств. Все омонимы должны сопровождаться специфическими словарными знаками, предотвращающими совпадение первых. Например:

акт — документ

акт — действие

следствие — юридическое действие

следствие — результат

лицо — часть тела

лицо — субъект права

спекуляция — правонарушение

спекуляция — метод познания

В дескрипторном словаре при кодировании омонимы должны получать разные коды.

Омонимия — явление достаточно редкое в юридическом языке, и ее устранение не представляет трудности, по крайней мере с точки зрения затрат времени.

Полисемия — это перенос названия одного явления на другие, имеющие с ним какие-либо общие признаки или свойства. Ликвидация ее в поисковом языке происходит так же, как и устранение омонимов. Например:

государство — аппарат

государство — страна

государство — субъект права.

Все три значения слова должны быть закодированы различными кодами.

После устранения синонимии, омонимии и полисемии между дескрипторами устанавливаются парадигматические отношения, при выявлении которых может быть использовано сочетание лексикографического и аналитического приемов. В тезаурусе должны быть зафиксированы по меньшей мере следующие связи:

род — вид

отрицание

функциональная связь

подчиненность

ассоциативная связь

Ввиду того, что первоначально с тезаурусом имеет дело индексатор, для наглядности родовидовые отношения могут быть выражены с помощью помет: «р. д.» — родовой дескриптор, «в. д.» — видовой дескриптор.

В то же время, поскольку ИПС реализуется на вычислительной машине, список дескрипторов должен быть представлен одновременно и в виде кодовой книги с аналитическим выражением парадигматических отношений между дескрипторами, которые предназначены для преобразования поисковых документов и поисковых предписаний в форму, удобную для ввода в машину.

Родовидовые отношения устанавливаются внутри каждой группы дескрипторов с помощью черновых классификационных деревьев. Число иерархических уровней в родовидовых деревьях дескрипторов может быть жестко установленным, однако в подобном случае задача получения дополнительной информации из соответствующего массива будет затруднена. Поэтому в зависимости от ситуации в иерархическое дерево следует включить все дескрипторы, которые соединяются базисными отношениями.

В некоторых случаях может встретиться ситуация, когда часть дескриптеров иерархического дерева входит в состав двух и более деревьев. В таком случае от общего дескриптора пунктиром строится восходящая от него иерархия ко второму, заглавному для него дескриптору. Это делается для того, чтобы документы, содержание которых выражено данным общим дескриптором, выпадали при поиске по запросам, содержащим любой из заглавных для него дескрипторов.

Помимо родо-видовых в тезаурусе указываются также связи подчинения, отрицания, функциональные, а иногда и ассоциативные, цель этих связей — увеличить полноту выдачи информации благодаря перекрестным связям.

По структуре тезаурус состоит из трех частей: алфавитного списка ключевых слов (словника), лексико-семантического указателя дескрипторов и набора схем с иерархическими деревьями.

Словник представляет собой словарь всех ключевых слов (включая и дескрипторы), которые приводятся в общем алфавитном списке в левой части страницы. Все ключевые слова даны в единственном числе. Дескрипторы в списке подчеркнуты, остальные ключевые слова — Нет. На том же уровне, справа от ключевых слов, приводятся дескрипторы, к которым относятся синонимы или соответствующие им видовые дескрипторы, расположенные слева.

Лексико-семантический указатель — это список словарных слов (кодов). Все заглавные дескрипторы нумеруются в определенной системе счисления, и эти собственные номера выделяются красным. Под этими номерами перечисляются коды всех вышестоящих дескрипторов со ссылкой «см.». Если дескриптор имеет иные связи с каким-либо другим дескриптором, то код последнего приводится с пометой «см. также». На одном уровне с дескриптором, справа от него, располагают синонимы (без помет), видовые, родовые, функциональные, отрицающие, подчиняющие и ассоциативные дескрипторы с соответствующими пометами.

Создание правового информационно-поискового языка дескрипторного типа вышеприведенным способом, с грамматикой и указателями связи — задача трудоемкая.[12] Облегчить ее можно, только отказавшись от грамматики, однако в этом случае, судя по тезаурусам, созданным в других областях знания, значительно снижается точность (до 30%) и повышается в 3—4 раза уровень шума при поиске. Шум вызывается главным образом появлением ложных комбинаций дескрипторов, что неизбежно при поиске без грамматики, и ошибками при обработке запросов, вызванными преимущественно тем же фактором.

Поскольку достоверность правовой информации в АСУ может существенно повлиять на качество и оптимальность принимаемых решений, более целесообразно разрабатывать ИПЯ, обеспечивающие максимально возможную полноту и точность поиска, нежели корректировать решения, принятые в условиях недостоверной юридической информации