31 ФГБУФГБУФГБУ Президентская библиотека имени Б. Н. Ельцина. 190000, Санкт-Петербург, Сенатская

Книги по разным темам Pages: | 1 | ... | 29 | 30 | 31 | 32 | 33 | ... | 43 |

Несмотря на то, что сайт ориентирован на детей и подростков в возрасте от 6 до 16 лет, их родители также почерпнут для себя много новой и полезной информации.

В заключение необходимо отметить, что в Республике Беларусь на государственном уровне решены вопросы формирования информационно-правовых ресурсов и их использования как государственными органами, так и всеми заинтересованными юридическими и физическими лицами.

Единая платформа агрегации нормативных документов государственных органов и органов местного самоуправления (Предпосылки создания системы Право.ru) А.аМ.аПелевин* Мы прежде всего уверены, что без свободного и удобного доступа к правовой информации невозможно создать нормальное общество, для которого девиз Борьба с правовым нигилизмом не был бы очередным пустым звуком в череде политических обещаний. И вот что важно: требовать от общества исполнения законов, не предоставив им удобной возможности их узнать, - это как минимум несправедливо. За два года работы над справочной системой был выявлен ряд сложностей, связанных с доступом к нормативно-правовым документам. Хочется сказать: незнание закона не избавляет от ответственности, но только если знаешь, где этот закон узнать. Куда податься человеку, чтобы найти необходимый документ или ответ на волнующий вопрос.

Одним из самых надежных источников является бумажный носитель.

Однако, что написано пером, не может актуализироваться согласно внесенным поправкам. Приходится следить за новостями и собирать макулатуру.

Пожалуй, единственным реальным способом получить доступ к достоверной правовой информации будет обратиться к официальным сайтам ведомств и учреждений. Тем более что в 2009 году был принят специальный закон (8-ФЗ) об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления.

Но здесь есть и недостатки. Прежде всего это полная разрозненность внешнего оформления сайтов, которая не способствует нормальному восприятию документов. Кроме того, на множестве сайтов представлены так называемые графические копии документов, в которых невозможно осуществить контекстный поиск или, например, скопировать текст. Также отсутствуют * ПелевинаАлексейаМихайлович, директор компании Parcsis (Pravo.ru).

различные удобные инструменты для работы с текстом и документами.

И самое неприятное - это полнота предоставляемой информации. По нашей статистике, некоторые ведомства не публикуют до 50% документов на своих сайтах.

Часто за правовой информацией граждане обращаются к традиционным поисковым системам, например, Яндекс или Гугл. Тут тоже есть свои проблемы. Прежде всего это достоверность и актуальность документов. Все поисковые системы основаны на алгоритмах оценки релевантности, которые никак не учитывают достоверность информации, и поэтому в результатах поиска можно встретить не только устаревшие сведения, но и документы, легитимность которых находится под очень большим сомнением. Кроме того, комплектность их бывает неполной. Множество документов совсем не публикуются в открытом виде, и доступ к ним зависит от правильности настройки сайта для поисковых роботов.

Стоит отдельно выделить профессиональные системы. На сегодняшний день это наиболее достоверный источник правовой информации, и что удивительно - среди них нет ни одной государственной. Однако и эти возможности, с нашей точки зрения, не являются достаточно доступными для обычных пользователей, и вот почему.

Прежде всего, конечно, это высокая стоимость. Сегодня доступ к профессиональным СПС стоит от 5000 рублей в месяц, что в принципе является достаточно высокой ценой даже для юридических лиц, не говоря уже о простых гражданах. Все это приводит к пиратству и желанию купить полную версию КонсультантПлюс за 900 рублей в палатке.

Кроме того, чтобы начать использовать любую систему, нужно заключить договор, ежемесячно платить деньги. Отдельно хочется упомянуть ручное обновление базы документов и отсутствие полноценных интернет-версий. Ни одна из СПС на сегодняшний день не имеет мобильных версий ни для одной из платформ. Любая система обособлена и не способствует интерактивному взаимодействию между пользователями. Отсутствует возможность и общения, и обсуждения нормативных документов. Ну и последнее - это низкое качество дизайна систем, эстетика и юзабилити которых остались в 90-х годах.

Все вышеперечисленное и подтолкнуло нас к созданию принципиально новой справочной системы, которая могла бы стать альтернативным инструментом для юристов и бухгалтеров.

Технологии сбора Первое, с чем мы столкнулись, - это проблема сбора документов.

С судебной практикой вопросов не было. Право.ru поддерживает картотеку арбитражных дел, и свежие судебные акты мы получаем ежедневно. Однако с нормативными документами было немного посложнее, и нам, конечно, очень помог 8-ФЗ, который обязал все государственные органы публиковать информацию об их деятельности на официальных сайтах. Мы создали большое количество грабберов и парсеров, которые в автоматическом режиме обходят сайты и собирают новые документы. При этом документы в зависимости от их исходного качества поступают либо на ручную обработку, либо сразу напрямую в систему. Ежедневно мы обрабатываем порядка 1000 официальных источников, собирая и публикуя свежие документы в онлайн-режиме.

Каждый документ разбивается в системе на смысловые блоки. Из блоков выделяются необходимые атрибуты, такие как дата принятия, тип документа, принявший орган, номер, фамилия и должность чиновника, принявшего документ. В отдельных случаях, например, в таблицах, формулах и диаграммах, требуется ручное вмешательство. Табличные данные до сих пор в большинстве случаев оформляются так называемой ASCII - графикой в лучших традициях печатных машинок. Подобное мы конвертируем в нормальные таблицы, понятные стандартным офисным приложеням. Конечно, именно этап сбора и обработки документов представляет одну из самых сложных задач. Например, для того, чтобы получить все американское законодательство и судебную практику, нам пришлось потратить около недели на скачивание порядка 20 тб документов из открытого источника, доступного любому специалисту.

Однако кроме сбора документов мы задались достаточно амбициозными целями - это внесение изменений в автоматическом режиме, новые алгоритмы поиска с учетом опыта ведущих поисковых систем и специфичных требований, таких как, например, юридическая сила документа или его популярность среди пользователей. И, конечно, автоматическое связывание документов между собой с помощью гиперссылок.

Что получилось Х Сегодня в системе зарегистрированно более 150 000 пользователей.

Количество новых пользователей увеличивается в геометрической прогрессии. И это только в первый год нашей работы.

Х В системе представлено более 6 000 000 нормативных документов и судебной практики. Причем как арбитражных судов, так и судов общей юрисдикции.

Х Ежедневно ресурс посещает более 30 000 пользователей.

Х Каждому пользователю доступен ряд сервисов для результативной работы с документами. Среди них удобный поиск и сортировка результатов, возможность добавить НПА в избранное, оставить комментарий ко всему документу или к его части, общение и обмен документами с другими пользователями и многое другое.

Х Приложение для iPhone за полгода скачало около 50 000 человек.

Х Приложение для iPad за 2 месяца - 30 000, и оно продолжает остаiPad за 2 месяца - 30 000, и оно продолжает остаза 2 месяца - 30 000, и оно продолжает оставаться в топе среди самых полезных программ в appstore.

Что в планах Х Наладить с импортерами данных автоматическую выгрузку нормативных актов. Уже сейчас к нам обращаются различные ведомства и учреждения с предложениями организовать автоматическую выгрузку.

Х Также мы готовы стать единым центром доступа к нормативным актам и предоставить API для разработчиков и различных бизнес-решений, где востребованы нормативные акты.

Х Предоставить профессиональным справочным системам доступ к полной базе документов.

SOPHIA: система семантического поиска и анализа текстовых коллекций - опыт поиска в коллекции правовых документов США В.аЮ.аДобрынин*,а А.аА.аМатвеев Введение Система SOPHIA [2] основана на применении алгоритма выделения тем из корпуса документов и последующей кластеризации (Contextual Document ClusContextual Document ClusDocument ClusDocument ClusClusClustering, CDC [3]), разработанного в результате сотрудничества между СПбГУ (факультет прикладной математики - процессов управления) и Университетом Ольстера (Северная Ирландия, Соединенное Королевство) в 2003 году.

После ряда лет исследований с целью коммерциализации проекта в 2007 году был создан стартап Sophia Search Ltd. (

Кластеры документов, порождаемые в процессе работы CDC, можно интерпретировать как дискурсы, порожденные различными дискурсивными сообществами (профессиональными группами). Различные дискурсы характеризуются наборами тем, обсуждаемыми в соответствующих дискурсивных сообществах, стилями, лексическими особенностями (терминология, жаргон) [1].

Метод CDC основан на анализе коллекции текстовых документов, в проCDC основан на анализе коллекции текстовых документов, в прооснован на анализе коллекции текстовых документов, в процессе которого происходит выявление жаргонизмов и терминологии, специфичной для различных дискурсивных сообществ. При этом используются методы теории информации, позволяющие отделить жаргонизмы и терминологию от менее специфических слов. Контексты выделенных терминов (на уровне всего корпуса документов) используются в качестве аттракторов кластеров, объединяя тексты, порожденные соответствующим дискурсивным сообществом.

* ДобрынинаВладимираЮрьевич, к. ф.-м. н., доцент кафедры технологии программирования факультета прикладной математики, МатвееваАндрейаАнатольевич, к. ф.-м. н., и. о. зав. отдела интеллектуальной собственности и трансфера технологий, Санкт-Петербургский государственный университет.

Построение кластеров документов обеспечивает возможность выполнения одного из вариантов семантического поиска - поиска, основанного на кластерах. В отличие от обычного поиска по ключевым словам, в рамках которого пользователь получает список всех релевантных документов (содержащих слова запроса), где различные темы перемешены, SOPHIA предъявляет список кластеров, релевантных запросу. Пользователь выбирает кластер для более детального анализа и может просматривать содержащиеся в нем документы, релевантные как в обычном смысле (по наличию слов из запроса), так и семантически (могут не содержать слов из запроса, но семантически быть близкими релевантным документам). В отличие от систем, выполняющих кластеризацию нескольких сотен документов, выбранных из результата поиска по ключевым словам [11], SOPHIA выполняет кластеризацию всех документов коллекции на этапе индексирования и использует эту структуру на этапе представления результатов пользователю.

CDC был протестирован на стандартных тестовых коллекциях (Reuters-21578, Reuters-RCV1, OHSUMED) [4-10], а также применялся при кластеризации больших коллекций документов в реальных приложениях:

рефераты патентов - 4 500 000 документов, рефераты статей из области биомедицины (Medline) - 18 000 000 документов.

В данной работе описывается пример применения системы SOPHIA для поиска Описание метода В соответствии с вышеизложенными понятиями дискурса и дускурсивного сообщества важной проблемой является задача автоматического выявления жаргонизмов и терминологии в больших коллекциях текстовых документов.

Для поиска таких термов выполняется построение контекстов для всех слов словаря коллекции, за исключением очень редких и очень популярных.

Под контекстом слова понимается распределение вероятностей всех слов, которые встречаются совместно с данным словом в одном документе. Иными словами, контекст слова z определяется, как:

tf (x, y) xX( z), p(y | z) = tf (x,t) xX( z),tY где p(y | z) есть вероятность слова y в контексте слова z, tf (x, y) есть частота встречаемости слова y в документе x, X(z) есть множество всех документов, содержащих слово z, и Y есть словарь коллекции.

Слова, специфические для отдельных сообществ, должны иметь контексты с относительно невысокой энтропией:

H (Y | z) = - p(y | z)log( p(y | z)) y Выбор таких слов основан на вычислении энтропии всех построенных контекстов с учетом частоты встречаемости слов в коллекции. Учет частоты встречаемости слова связан с тем, что сообщества могут быть представлены в данной коллекции как большим, так и малым числом документов и учет одной только энтропии приведет к преимущественному выделению слов, специфических для малых сообществ. Множество всех слов Y (за исключением очень редких и очень популярных) разбивается на заданное число r непересекающихся подмножеств:

Y = UYi i Yi = {z : z Y,dfi df (z) < dfi+1} i =1..r где параметры Zi разбивают интервал частот документов для слов коллекции на r интервалов, порождающих разбиение слов на r непересекающихся подмножеств.

Последним этапом является выбор заданного числа N слов с относительно малой энтропией из каждого подмножества слов пропорционально мощности подмножества. Из подмножества слов Zi выделяется подмножество Zi, обладающее следующими свойствами:

N.| Yi |, | i |= | Yj | j=1,..r z1 i, z2 Yi - i H (Y | z1) H (Y | z2) Иллюстрация применения системы SOPHIA В целях иллюстрации используется коллекция англоязычных документов, посвященных налоговому законодательству США. Эта коллекция содержит несколько сотен тысяч документов. Более детальное описание коллекции не приводится в связи с тем, что доступ к ней был получен в рамках коммерческого проекта.

В качестве запроса было выбрано словосочетание Уvisiting professorФ в связи с тем, что вопросы налогообложения для данной категории граждан в свое время представляли определенный интерес для авторов. Всего было найдено 32 документа, содержащих указанную фразу буквально (при поиске по фразам стемминг не используется). Первая страница результатов приведена на рис. 1. Видны описания первых 5 релевантных кластеров, содержащих по крайней мере один релевантный документ (всего имеется 15 релевантных).

Для каждого кластера указаны:

Х число релевантных документов в кластере;

Х динамическое описание кластера (названия нескольких релевантных документов);

Х статическое описание кластера (автоматически выделенные фразы, отражающие содержание кластера без привязки к конкретному запросу).

Риса1.аРелевантныеакластеры В таб. 1 приведены статические описания первых 5 кластеров и метки, которые мы назначили этим кластерам для удобства.

Pages: | 1 | ... | 29 | 30 | 31 | 32 | 33 | ... | 43 |

Книги по разным темам