На правах рукописи
Евсюткин Александр Сергеевич
Развитие методов и моделей формирования интеллектуального контента
08.00.13 - Математические и инструментальные методы экономики
Автореферат диссертации на соискание ученой степени кандидата экономических наук
Москва - 2012
Работа выполнена на кафедре информационных систем ФГБОУ ВПО Государственный университет управления
Научный консультант: кандидат экономических наук, доцент, доцент кафедры Информационные системы ФГБОУ ВПО Государственного университета управления Лобанова Надежда Михайловна
Официальные оппоненты: доктор экономических наук, профессор, заведующий кафедрой Менеджмент ФГБОУ ВПО Московского государственного университета приборостроения и информатики Белоусов Владимир Леонидович, кандидат экономических наук руководитель проектов ООО ИБС Экспертиза Прохорова Екатерина Андреевна
Ведущая организация: ФГБОУ ВПО Национальный исследовательский университет Московский авиационный институт
Защита состоится 25 апреля 2012 г. в 15 часов 00 минут на заседании диссертационного совета Д.212.049.09 в ФГБОУ ВПО Государственный университет управления по адресу: 109542, г. Москва, Рязанский проспект, 99, бизнес-центр, аудитория 211.
С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО Государственный университет управления.
Автореферат разослан л марта 2012 г.
Ученый секретарь диссертационного совета Д.212.049.кандидат экономических наук, доцент Алтухова Н. Ф.
I.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования.
Рост информационных потребностей в современном обществе связан с повышением сложности управления экономическими процессами и необходимостью принятия оптимальных решений на всех уровнях управления, поэтому современный этап развития экономики и управления требует новых форм информационного обеспечения пользователей с предоставлением им достоверной, качественной, своевременной и интеллектуально обработанной информации в соответствии с их потребностями.
В настоящее время существует большое количество поисковых систем по базам данных, по локальным ресурсам, по локальным и глобальным сетям, в которых применяются разнообразные математические модели и инструментальные средства для получения релевантных данных, удовлетворяющих заданным критериям поиска. Задача поиска информации осложняется тем, что по запросу пользователя, как правило, выводится огромное множество документов, а также с широко распространенными сегодня копипастерскими ресурсами, тайпсквоттерами и другими представителями черного и серого контента. Однако даже если детально рассмотреть результаты поиска, то часто в них обнаруживается изобилие так называемого мусора, т.е. той информации, которая не имеет ощутимой пользы для пользователя. Все это говорит о необходимости совершенствования поисковых систем, самих алгоритмов поиска, а также о расширении существующего функционала.
Целью данной работы является развитие инструментария и математического аппарата для формирования интеллектуального контента при поисковом пользовательском запросе с целью повышения релевантности поиска и качества принимаемых управленческих решений на основе полученной в результате поиска информации.
Основными задачами
исследования являются:
1. Проведение анализа и сравнительной характеристики современных поисковых систем и технологий поиска.
2. Разработка инновационных методов формирования и обработки контента.
3. Разработка метода обучения классификатора при автоматическом реферировании поисковой выдачи.
4. Разработка модели формирования интеллектуального контента.
5. Разработка механизма функционирования системы формирования интеллектуального контента.
Область исследования. Диссертация выполнена по профилю специальности 08.00.13 - Математические и инструментальные методы экономики и соответствует областям исследования паспорта специальности 08.00.13 Высшей аттестационной комиссии л2.6. Развитие теоретических основ методологии и инструментария проектирования, разработки и сопровождения информационных систем субъектов экономической деятельности: методы формализованного представления предметной области, программные средства, базы данных, корпоративные хранилища данных, базы знаний, коммуникационные технологии и л2.8. Развитие методов и средств аккумуляции знаний о развитии экономической системы и использование искусственного интеллекта при выработке управленческих решений.
Предметом исследования являются методы и модели формирования интеллектуального контента.
Объектом исследования является информационное обеспечение деятельности государственных, муниципальных органов самоуправления, а также субъектов бизнеса.
Методологические и теоретические основы диссертационного исследования.
Диссертационное исследование основывается на информационной, методологической и теоретической базе математического анализа, прикладной математики, маркетинговых исследований, разработок в области поиска и обработки информации и высокоуровневого программирования, а так же трудов ведущих отечественных и зарубежных специалистов в области искусственного интеллекта, поиска и обработки информации, таких как, Журавлв Ю.И., Рязанов В.В., Сенько О.В., Загоруйко Н. Г., Круглов В. В., Борисов В. В., Уоссермен Ф., Роберт К., Розенблатт Ф., Дж. Солтон., Федоровский А.Н, Костин М. Ю., Губин М. В., Колисниченко Д. Н.
Научная новизна. Научная новизна диссертационного исследования заключается:
- в развитии и комбинации методов повторного автоматического ранжирования, автоматического реферирования, латентно-семантического индексирования и стемминга с использованием экологического подхода для формирования интеллектуального контента;
- в разработке метода извлечения значимого текста из исходного html - документа с применением классификатора на основе нейронной сети и построении модели формирования интеллектуального контента при осуществлении релевантного поиска, как в глобальных, так и в локальных сетях.
Основными результатами диссертационного исследования, обладающими элементами научной новизны, являются следующие:
1. Проведен анализ и сравнительная характеристика современных поисковых систем и технологий поиска, в результате которого установлено, что на сегодняшний день не существует ни одной поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования.
2. Предложена комбинация методов формирования и обработки контента с использованием экологического подхода к осуществлению поиска.
3. Разработана конфигурация нейронной сети для обучения классификатора при автоматическом реферировании, применение которой позволяет исключить участие пользователя для извлечения значимого текста из исходного html - документа.
4. Предложена модель формирования интеллектуального контента, алгоритм функционирования которой основан на применении предлагаемых в диссертационном исследовании методов и реализован в виде надстройки для поискового модуля системы управления контентом Drupal.
5. Разработан механизм функционирования системы формирования интеллектуального контента на базе Интернет-портала, представляющий инструментальное средство, реализующее функции поиска и обработки информации, позволяющее обеспечить дружественный интерфейс пользователя и повысить эффективность и оперативность обработки запросов при принятии экономических и управленческих решений.
6. Разработаны методические рекомендации по организации процесса поиска и формированию интеллектуального контента.
7. Проведена оценка эффективности от внедрения системы формирования интеллектуального контента в Администрации г. Реутов Московской области.
Практическая значимость полученных в исследовании выводов и рекомендаций определяется возможностью повышения эффективности поиска необходимой релевантной информации внутри локальных и глобальных сетей при хозяйственной деятельности за счет комплексного интегрированного применения современных информационных технологий.
Разработанные методические рекомендации по организации процесса поиска и формирования интеллектуального контента можно использовать в рамках осуществления хозяйственной деятельности и процесса управления как для органов государственного и муниципального управления, так и для коммерческих организаций малого, среднего и крупного бизнеса.
Достоверность научных результатов подтверждается опытом применения разработанных методов и моделей в повседневной деятельности экономического управления Администрации города Реутова Московской области. Основные результаты диссертации опубликованы в печатных работах и обсуждались на международных и всероссийских конференциях и получили одобрение специалистов.
Апробация результатов исследования. Основные положения диссертации докладывались на научных конференциях: 15-я Всероссийская научно-практическая конференция "Актуальные проблемы управления - модернизация и инновации в экономике", Москва, ГУУ, 27-28 октября 2010г.; 21-ая ежегодная выставка-конференция информационных и коммуникационных технологий Softool, Москва, ВВЦ, 26-29 октября 2010г.;
третья ежегодная научно-практическая конференция Информационные бизнес системы, Академия IBS, Институт информационных бизнес систем НИТУ МИСиС, Факультет информационных бизнес систем МФТИ, апреля 2011 г.; 23-я международная выставка-конференция телекоммуникационного оборудования, систем управления, информационных технологий и услуг связи Связь-Экспокомм-2011, Москва, ЦВК Экспоцентр, 10-13 мая 2011 г.; 22-ая ежегодная выставкаконференция информационных и коммуникационных технологий Softool, Москва, ВВЦ, 25-28 октября 2011 г.
Внедрение результатов исследования проводилось в Администрации города Реутова Московской области.
Публикации. По теме диссертации в открытой печати опубликовано четыре научные работы общим объемом 1,4 п.л., из них две входят в рекомендованный ВАК перечень, лично автору принадлежит 1,4 п.л.
Объем работы. Диссертация состоит из введения, трех глав, заключения. Работа содержит 152 страницы основного машинописного текста, 27 рисунков, 17 таблиц. Библиографический список включает 1источников, в том числе 51 отечественный, 41 зарубежный, 19 Интернет ресурсов.
Структура диссертации. Работа состоит из введения, трех глав, заключения и списка литературы.
Во введении дано обоснование актуальности, научной новизны, целей и задач исследования, приведены наиболее существенные результаты.
В первой главе Сравнительная характеристика современных технологий поиска, методов организации поиска и поисковых систем для сети Интернет выделены основные задачи информационного поиска, рассмотрены устройство и принцип функционирования современных Интернет-поисковых систем, рассмотрена концепция информационной экологии, дана сравнительная характеристика существующих поисковых систем.
Во второй главе Теоретические и методические вопросы формирования интеллектуального контента были детально рассмотрены современные механизмы и методы формирования контента, реферирования текстовой информации, поиска и обработки текстов одинаковой тематики, был предложен механизм формирования интеллектуального контента с описанием основных принципов и алгоритма, даны методические рекомендации по разработке системы формирования интеллектуального контента с модульной структурой на основе Интернет-портала, рассмотрены современные системы управления контентом (CMS), дана их сравнительная характеристика и выбрана CMS Drupal в качестве основы будущей системы.
В третьей главе Разработка системы формирования интеллектуального контента при поисковом запросе были выделены функциональные модули и компоненты системы формирования интеллектуального контента, построена модель формирования интеллектуального контента, закладываемая в основу будущей системы, выделены классы пользователей и процессы системы, распределены права доступа, проведена оценка экономической эффективности создания системы.
В заключении диссертации даны основные выводы и предложения теоретического и практического плана.
II. ОСНОВНОЕ СОДЕРЖАНИЕ ИССЛЕДОВАНИЯ 1. Проведен анализ и сравнительная характеристика современных поисковых систем и технологий поиска.
Установлено, что основной задачей информационного поиска является помощь пользователю в удовлетворении его информационной потребности. Сегодня типичными задачами информационного поиска являются: классификация, фильтрация и кластеризация документов, проектирование архитектур поисковых систем и пользовательских интерфейсов, извлечение информации (аннотирование и реферирование документов), разработка новых и совершенствование существующих языков запросов.
В ходе анализа работы современных поисковых систем было выявлено, что при формировании выдачи, системы используют при описании документов привычные теги, использующиеся также при поисковой оптимизации (
, ), однако основная информация, по которой можно судить о релевантности документа, чаще всего, разбросана по всему документу. Ни одна из современных поисковых систем не обладает возможностью реферирования документов из выдачи, а лишь выводит заголовки и ключевые слова из найденных документов, соответственно пользователю приходится пересмотреть огромное множество страниц, анализируя предлагаемую информацию, что требует немало времени, а также значительно увеличивает трафик, стоимость которого достаточно высока.
В процессе проведения анализа выявлено, что на сегодняшний день не существует ни одной поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования.
2. Предложена комбинация методов формирования и обработки контента с использованием экологического подхода к осуществлению поиска.
Необходимость использования информационной экологии рассматривается в свете проблем, возникающих при взаимодействии человека с информационной средой. Стратегическая цель информационной экологии состоит в формировании средства фильтрации в реальном времени информационного потока, воздействующего на человека.
Концепция экологического подхода к Интернет-поиску не реализована в настоящее время ни в одной из поисковых систем. Однако следует понимать, что данную проблему невозможно решить лишь с одной стороны, поскольку концепцию экологического поиска необходимо применять еще на этапе создания сайтов и порталов.
В диссертационном исследовании при формировании интеллектуального контента предлагается использовать комбинацию из нескольких методов. В первую очередь осуществляется автоматическое реферирование первичной поисковой выдачи, за которым следует латентносемантическое индексирование и повторное ранжирование с построением результирующей выдачи (интеллектуального контента) с использованием экологического подхода к осуществлению поиска, заключающегося в удалении невостребованной пользователем информации, а также в фильтрации в реальном времени информационного потока, воздействующего на человека.
Предлагаемая концепция представляет механизм повторного автоматического ранжирования с выделением полезного текста из найденных в процессе запроса html-документов при помощи автоматического реферирования. Суть данного подхода заключается в удалении слишком общих документов из промежуточной поисковой выдачи. В настоящее время такой механизм не применяется ни одним из существующих Интернет поисковиков.
Повторное ранжирование в данном случае представляет метод учета статического качества документа из промежуточной выдачи с тем, чтобы определить попадет ли данный документ в итоговую выдачу для пользователя. Вводится понятие порога неспецифичности, представляющего из себя числовой коэффициент, который определяется в результате функционирования системы автоматического реферирования, а также опорного тестирования выдачи на различных значениях данного коэффициента, с последующим сравнением результатов.
Таким образом, характерным решением для увеличения релевантности поиска может стать либо удаление всех документов из поисковой выдачи, не удовлетворяющих установленному порогу неспецифичности, либо увеличение позиции в общей выдаче для таких документов. Необходимость повторного ранжирования с реферированием и неприменимость прямого реферирования связана с тем, что, объем поискового индекса современных систем настолько огромен, что для автоматического реферирования всего множества просто нецелесообразно тратить время и ресурсы, которые потребовались бы для хранения аннотаций документов.
Принцип функционирования предлагаемой системы автоматического реферирования html-документов предполагает, что процесс реферирования разделяется на три последовательных этапа: анализ исходного текста, полученного из поисковой выдачи, выделение фрагментов, повторное ранжирование и формирование выдачи.
В настоящее время поисковыми системами применяются так называемые сниппеты - небольшие отрывки текста из документов, найденных поисковиком по запросу. Просмотрев сниппет, можно лишь приблизительно судить о контенте веб-страницы. В лучшем случае они содержат контекст, в котором встретилось ключевое слово относительно документа, но чаще просто выводят содержимое тега Description, который у 90% сайтов не заполнен общей информацией по правилам поисковой оптимизации, соответственно для рядового пользователя эта информация носит лишь рекламный характер. Для нашей же концепции экологического поиска в сети Интернет данный подход не применим.
Задачи анализа текста и выделения фрагментов могут быть решены различными способами: составление выдержек, формирование краткого изложения. Для решения поставленной задачи метод формирования краткого изложения не применим, поскольку для его реализации требуются мощные вычислительные ресурсы, направленные на обработку естественных языков, в том числе грамматики и генерацию естественно-языковых конструкций, а в любой поисковой системе основные ресурсы затрачиваются на выполнение полнотекстового поиска и на обработку поискового индекса.
Метод составления выдержек предполагает акцент на выделение характерных фрагментов (как правило, предложений). Для этого методом сопоставления фразовых шаблонов, выделяются блоки наибольшей лексической и статистической релевантности. Создание итогового документа в данном случае - просто соединение выбранных фрагментов.
Автоматическое реферирование документов предполагает составление рефератов html-документов без активного участия пользователя.
Полезный для пользователя текст содержится в теле html документа, в основном между тегами