Развитие методов и моделей формирования интелектуального контента

Евсюткин, Александр Сергеевич

Темы диссертаций по экономике » Математические и инструментальные методы экономики

Развитие методов и моделей формирования интелектуального контента тема диссертации по экономике, полный текст автореферата

Автореферат

Ученая степень	кандидат экономических наук
Автор	Евсюткин, Александр Сергеевич
Место защиты	Москва
Год	2012
Шифр ВАК РФ	08.00.13

Автореферат диссертации по теме "Развитие методов и моделей формирования интелектуального контента"

На правах рукописи

Евсюткин Александр Сергеевич

Развитие методов и моделей формирования интелектуального контента

08.00.13 - Математические и инструментальные методы экономики

Автореферат диссертации на соискание ученой степени кандидата экономических наук

5 ДПР 2012

Москва - 2012

005020257

Работа выпонена на кафедре информационных систем ФГБОУ ВПО Государственный университет управления

Научный руководитель; кандидат экономических наук, доцент, доцент

кафедры Информационные системы ФГБОУ ВПО Государственного университета управления

Лобанова Надежда Михайловна

Официальные оппоненты: доктор экономических наук, профессор,

заведующий кафедрой Менеджмент ФГБОУ ВПО Московского государственного университета приборостроения и информатики Белоусов Владимир Леонидович,

кандидат экономических наук руководитель проектов ООО ИБС Экспертиза Прохорова Екатерина Андреевна

Ведущая организация: ФГБОУ ВПО Национальный исследовательский

университет Московский авиационный институт

Защита состоится 25 апреля 2012 г. в 15 часов 00 минут на заседании диссертационного совета Д.212.049.09 в ФГБОУ ВПО Государственный университет управления по адресу: 109542, г. Москва, Рязанский проспект, 99, бизнес-центр, аудитория 211.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО Государственный университет управления.

Автореферат разослан <Я> марта 2012 г.

Ученый секретарь

диссертационного совета Д.212.049.09 кандидат экономических наук, доцент

Атухова Н. Ф.

I. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования.

Рост информационных потребностей в современном обществе связан с повышением сложности управления экономическими процессами и необходимостью принятия оптимальных решений на всех уровнях управления, поэтому современный этап развития экономики и управления требует новых форм информационного обеспечения пользователей с предоставлением им достоверной, качественной, своевременной и интелектуально обработанной информации в соответствии с их потребностями.

В настоящее время существует большое количество поисковых систем по базам данных, по локальным ресурсам, по локальным и глобальным сетям, в которых применяются разнообразные математические модели и инструментальные средства для получения релевантных данных, удовлетворяющих заданным критериям поиска. Задача поиска информации осложняется тем, что по запросу пользователя, как правило, выводится огромное множество документов, а также с широко распространенными сегодня копипастерскими ресурсами, тайпсквоттерами и другими представителями черного и серого контента. Однако даже если детально рассмотреть результаты поиска, то часто в них обнаруживается изобилие так называемого мусора, т.е. той информации, которая не имеет ощутимой пользы для пользователя. Все это говорит о необходимости совершенствования поисковых систем, самих агоритмов поиска, а также о расширении существующего функционала.

Целью данной работы является развитие инструментария и математического аппарата для формирования интелектуального контента при поисковом пользовательском запросе с целью повышения релевантности поиска и качества принимаемых управленческих решений на основе полученной в результате поиска информации.

Основными задачами исследования являются:

1. Проведение анализа и сравнительной характеристики современных поисковых систем и технологий поиска.

2. Разработка инновационных методов формирования и обработки контента.

3. Разработка метода обучения классификатора при автоматическом реферировании поисковой выдачи.

4. Разработка модели формирования интелектуального контента.

5. Разработка механизма функционирования системы формирования интелектуального контента.

Область исследования. Диссертация выпонена по профилю специальности 08.00.13 - Математические и инструментальные методы экономики и соответствует областям исследования паспорта специальности 08.00.13 Высшей аттестационной комиссии л2.6. Развитие теоретических основ методологии и инструментария проектирования, разработки и

сопровождения информационных систем субъектов экономической деятельности: методы формализованного представления предметной области, программные средства, базы данных, корпоративные хранилища данных, базы знаний, коммуникационные технологии и л2.8. Развитие методов и средств аккумуляции знаний о развитии экономической системы и использование искусственного интелекта при выработке управленческих решений.

Предметом исследования являются методы и модели формирования интелектуального контента.

Объектом исследования является информационное обеспечение деятельности государственных, муниципальных органов самоуправления, а также субъектов бизнеса.

Методологические и теоретические основы диссертационного исследования.

Диссертационное исследование основывается на информационной, методологической и теоретической базе математического анализа, прикладной математики, маркетинговых исследований, разработок в области поиска и обработки информации и высокоуровневого программирования, а так же трудов ведущих отечественных и зарубежных специалистов в области искусственного интелекта, поиска и обработки информации, таких как, Журавлёв Ю.И., Рязанов В.В., Сенько О.В., Загоруйко Н. Г., Круглов В. В., Борисов В. В., Уоссермен Ф., Роберт К., Розенблатт Ф., Дж. Сотон., Федоровский А.Н, Костин М. Ю., Губин М. В., Колисниченко Д. Н.

Научная новизна. Научная новизна диссертационного исследования заключается:

- в развитии и комбинации методов повторного автоматического ранжирования, автоматического реферирования, латентно-семантического индексирования и стемминга с использованием экологического подхода для формирования интелектуального контента;

- в разработке метода извлечения значимого текста из исходного html -документа с применением классификатора на основе нейронной сети и построении модели формирования интелектуального контента при осуществлении релевантного поиска, как в глобальных, так и в локальных сетях.

Основными результатами диссертационного исследования, обладающими элементами научной новизны, являются следующие:

1. Проведен анализ и сравнительная характеристика современных поисковых систем и технологий поиска, в результате которого установлено, что на сегодняшний день не существует ни одной поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования.

2. Предложена комбинация методов формирования и обработки контента с использованием экологического подхода к осуществлению поиска.

3. Разработана конфигурация нейронной сети для обучения классификатора при автоматическом реферировании, применение которой позволяет исключить участие пользователя для извлечения значимого текста из исходного html - документа.

4. Предложена модель формирования интелектуального контента, агоритм функционирования которой основан на применении предлагаемых в диссертационном исследовании методов и реализован в виде надстройки для поискового модуля системы управления контентом Drupal.

5. Разработан механизм функционирования системы формирования интелектуального контента на базе Интернет-портала, представляющий инструментальное средство, реализующее функции поиска и обработки информации, позволяющее обеспечить дружественный интерфейс пользователя и повысить эффективность и оперативность обработки запросов при принятии экономических и управленческих решений.

6. Разработаны методические рекомендации по организации процесса поиска и формированию интелектуального контента.

7. Проведена оценка эффективности от внедрения системы формирования интелектуального контента в Администрации г. Реутов Московской области.

Практическая значимость полученных в исследовании выводов и рекомендаций определяется возможностью повышения эффективности поиска необходимой релевантной информации внутри локальных и глобальных сетей при хозяйственной деятельности за счет комплексного интегрированного применения современных информационных технологий.

Разработанные методические рекомендации по организации процесса поиска и формирования интелектуального контента можно использовать в рамках осуществления хозяйственной деятельности и процесса управления как для органов государственного и муниципального управления, так и для коммерческих организаций малого, среднего и крупного бизнеса.

Достоверность научных результатов подтверждается опытом применения разработанных методов и моделей в повседневной деятельности экономического управления Администрации города Реутова Московской области. Основные результаты диссертации опубликованы в печатных работах и обсуждались на международных и всероссийских конференциях и получили одобрение специалистов.

Апробация результатов исследования. Основные положения диссертации докладывались на научных конференциях: 15-я Всероссийская научно-практическая конференция "Актуальные проблемы управления -модернизация и инновации в экономике", Москва, ГУУ, 27-28 октября 2010г.; 21-ая ежегодная выставка-конференция информационных и коммуникационных технологий Softool, Москва, ВВЦ, 26-29 октября 2010г.; третья ежегодная научно-практическая конференция Информационные бизнес системы, Академия IBS, Институт информационных бизнес систем

НИТУ МИСиС, Факультет информационных бизнес систем МФТИ, 23 апреля 2011 г.; 23-я международная выставка-конференция телекоммуникационного оборудования, систем управления, информационных технологий и услуг связи Связь-Экспокомм-2011, Москва, ЦВК Экспоцентр, 10-13 мая 2011 г.; 22-ая ежегодная выставка-конференция информационных и коммуникационных технологий Softool, Москва, ВВЦ, 25-28 октября 2011 г.

Внедрение результатов исследования проводилось в Администрации города Реутова Московской области.

Публикации. По теме диссертации в открытой печати опубликовано четыре научные работы общим объемом 1,4 п.л., из них две входят в рекомендованный ВАК перечень, лично автору принадлежит 1,4 п.л.

Объем работы. Диссертация состоит из введения, трех глав, заключения. Работа содержит 152 страницы основного машинописного текста, 27 рисунков, 17 таблиц. Библиографический список включает 111 источников, в том числе 51 отечественный, 41 зарубежный, 19 Интернет ресурсов.

Структура диссертации. Работа состоит из введения, трех глав, заключения и списка литературы.

Во введении дано обоснование актуальности, научной новизны, целей и задач исследования, приведены наиболее существенные результаты.

В первой главе Сравнительная характеристика современных технологий поиска, методов организации поиска и поисковых систем для сети Интернет выделены основные задачи информационного поиска, рассмотрены устройство и принцип функционирования современных Интернет-поисковых систем, рассмотрена концепция информационной экологии, дана сравнительная характеристика существующих поисковых систем.

Во второй главе Теоретические и методические вопросы формирования интелектуального контента были детально рассмотрены современные механизмы и методы формирования контента, реферирования текстовой информации, поиска и обработки текстов одинаковой тематики, был предложен механизм формирования интелектуального контента с описанием основных принципов и агоритма, даны методические рекомендации по разработке системы формирования интелектуального контента с модульной структурой на основе Интернет-портала, рассмотрены современные системы управления контентом (CMS), дана их сравнительная характеристика и выбрана CMS Drupal в качестве основы будущей системы.

В третьей главе Разработка системы формирования интелектуального контента при поисковом запросе были выделены функциональные модули и компоненты системы формирования интелектуального контента, построена модель формирования интелектуального контента, закладываемая в основу будущей системы,

выделены классы пользователей и процессы системы, распределены права доступа, проведена оценка экономической эффективности создания системы.

В заключении диссертации даны основные выводы и предложения теоретического и практического плана.

И. ОСНОВНОЕ СОДЕРЖАНИЕ ИССЛЕДОВАНИЯ

1. Проведен анализ и сравнительная характеристика современных поисковых систем и технологий поиска.

Установлено, что основной задачей информационного поиска является помощь пользователю в удовлетворении его информационной потребности. Сегодня типичными задачами информационного поиска являются: классификация, фильтрация и кластеризация документов, проектирование архитектур поисковых систем и пользовательских интерфейсов, извлечение информации (аннотирование и реферирование документов), разработка новых и совершенствование существующих языков запросов.

В ходе анализа работы современных поисковых систем было выявлено, что при формировании выдачи, системы используют при описании документов привычные теги, использующиеся также при поисковой оптимизации (<Ы>, <ше1а>), однако основная информация, по которой можно судить о релевантности документа, чаще всего, разбросана по всему документу. Ни одна из современных поисковых систем не обладает возможностью реферирования документов из выдачи, а лишь выводит заголовки и ключевые слова из найденных документов, соответственно пользователю приходится пересмотреть огромное множество страниц, анализируя предлагаемую информацию, что требует немало времени, а:также значительно увеличивает трафик, стоимость которого достаточно высока.

В процессе проведения анализа выявлено, что на сегодняшний день не существует ни одной поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования.

2. Предложена комбинация методов формирования и обработки контента с использованием экологического подхода к осуществлению поиска.

Необходимость использования информационной экологии рассматривается в свете проблем, возникающих при взаимодействии человека с информационной средой. Стратегическая цель информационной экологии состоит в формировании средства фильтрации в реальном времени информационного потока, воздействующего на человека.

Концепция экологического подхода к Интернет-поиску не реализована в настоящее время ни в одной из поисковых систем. Однако следует понимать, что данную проблему невозможно решить лишь с одной стороны, поскольку концепцию экологического поиска необходимо применять еще на этапе создания сайтов и порталов.

В диссертационном исследовании при формировании интелектуального контента предлагается использовать комбинацию из нескольких методов. В первую очередь осуществляется автоматическое реферирование первичной поисковой выдачи, за которым следует латентно-семантическое индексирование и повторное ранжирование с построением результирующей выдачи (интелектуального контента) с использованием экологического подхода к осуществлению поиска, заключающегося в удалении невостребованной пользователем информации, а также в фильтрации в реальном времени информационного потока, воздействующего на человека.

Предлагаемая концепция представляет механизм повторного автоматического ранжирования с выделением полезного текста из найденных в процессе запроса 1ит1-документов при помощи автоматического реферирования. Суть данного подхода заключается в удалении слишком общих документов из промежуточной поисковой выдачи. В настоящее время такой механизм не применяется ни одним из существующих Интернет поисковиков.

Повторное ранжирование в данном случае представляет метод учета статического качества документа из промежуточной выдачи с тем, чтобы определить попадет ли данный документ в итоговую выдачу для пользователя. Вводится понятие порога неспецифичности, представляющего из себя числовой коэффициент, который определяется в результате функционирования системы автоматического реферирования, а также опорного тестирования выдачи на различных значениях данного коэффициента, с последующим сравнением результатов.

Таким образом, характерным решением для увеличения релевантности поиска может стать либо удаление всех документов из поисковой выдачи, не удовлетворяющих установленному порогу неспецифичности, либо увеличение позиции в общей выдаче для таких документов. Необходимость повторного ранжирования с реферированием и неприменимость прямого реферирования связана с тем, что, объем поискового индекса современных систем настолько огромен, что для автоматического реферирования всего множества просто нецелесообразно тратить время и ресурсы, которые потребовались бы для хранения аннотаций документов.

Принцип функционирования предлагаемой системы автоматического реферирования Ь1т1-документов предполагает, что процесс реферирования разделяется на три последовательных этапа: анализ исходного текста, полученного из поисковой выдачи, выделение фрагментов, повторное ранжирование и формирование выдачи.

В настоящее время поисковыми системами применяются так называемые сниппеты - небольшие отрывки текста из документов, найденных поисковиком по запросу. Просмотрев сниппет, можно лишь

приблизительно судить о контенте веб-страницы. В лучшем случае они содержат контекст, в котором встретилось ключевое слово относительно документа, но чаще просто выводят содержимое тега лDescription, который у 90% сайтов не запонен общей информацией по правилам поисковой оптимизации, соответственно для рядового пользователя эта информация носит лишь рекламный характер. Для нашей же концепции экологического поиска в сети Интернет данный подход не применим.

Задачи анализа текста и выделения фрагментов могут быть решены различными способами: составление выдержек, формирование краткого изложения. Для решения поставленной задачи метод формирования краткого изложения не применим, поскольку для его реализации требуются мощные вычислительные ресурсы, направленные на обработку естественных языков, в том числе грамматики и генерацию естественно-языковых конструкций, а в любой поисковой системе основные ресурсы затрачиваются на выпонение понотекстового поиска и на обработку поискового индекса.

Метод составления выдержек предполагает акцент на выделение характерных фрагментов (как правило, предложений). Для этого методом сопоставления фразовых шаблонов, выделяются блоки наибольшей лексической и статистической релевантности. Создание итогового документа в данном случае - просто соединение выбранных фрагментов.

Автоматическое реферирование документов предполагает составление рефератов html-документов без активного участия пользователя. Полезный для пользователя текст содержится в , теле html документа, в основном между тегами <body> и </body> и может состоять из меню, заголовков, метаданных, программного кода, скриптов, таблиц, списков и т.д. В соответствии с предложенной концепцией исходный документ разбивается на N-oe количество частей (например, строки или параграфы). В . нашем случае остановимся именно на строках, поскольку далеко не все документы разбиваются по параграфам, да и чем крупнее части используются для анализа, тем больше полезной информации пропускается.

В данном случае возникает проблема: могут быть пропущены некоторые из строк, содержащих полезную для пользователя информацию, если в данной строке оказалось много разметки или сама строчка была слишком короткой. Для того, чтобы избежать описанной проблемы и тем самым улучшить фильтрацию полезного текста, при анализе текущей строки документа, следует рассматривать не только данную строку, но и соседние с ней, применив модель определения критериев адекватного выбора фрагментов.

Для этого на аналитическом этапе обработки документа применяется модель линейных весовых коэффициентов, предполагающая выпонение последовательности вычислений частоты и операций сопоставления строк или шаблонов, которые для каждого блока исходного текста выдают весовые коэффициенты четырех типов: Расположение, Частота появления, Частота

использования, Статистическая значимость. Затем эти коэффициенты суммируются для каждого блока, после чего выбираются п блоков, обладающих наивысшей суммой коэффициентов (значение п может быть определено на основании степени сжатия) для включения в реферат. 3. Разработка конфигурации нейронной сети для обучения классификатора при автоматическом реферировании.

В большинстве систем, созданных на сегодняшний день для автоматического реферирования отдельных документов, пользователь задает параметры и производит настройку вручную, и выбор параметров зависит скорее от текущих потребностей, поскольку относительная значимость различных характеристик может сильно различаться для текстов разного стиля. Для автоматизации данного процесса, необходимо ввести классификатор, способный обучаться правилам выделения фрагментов.

Для обучения классификатора предлагается использовать такой метод машинного обучения, как нейронная сеть. В данном случае при проверке является ли текущая строка текста полезной информацией или мусором используется нейронная сеть, предварительно натренированная на некотором наборе данных.

В результате анализа данных, полученных в ходе тестирования агоритма на одной из статей, можно сформулировать следующие недостатки: в тексте сохранилась подпись (теги), а также могут быть пропущены строки значимого текста, если в данной строке оказалось очень много разметки или сама строка была слишком короткой. Данные недостатки не отвечает требованию универсальности предлагаемого метода. Поэтому, с целью улучшения фильтрации текста, следует рассматривать не только текущую строку, но и соседние с ней.

Основная идея состоит в том, чтобы при проверке очередной строки на наличие значимого текста, обратиться к предварительно натренированной на тестовом наборе данных нейронной сети.

В качестве входных параметров для нейронной сети используются следующие характеристики: порядковый номер строки в документе, плотность Ь1тп1-разметки в данной строке, длина строки, плотность ЬНп1-разметки в предыдущей строке, длина предыдущей строки, плотность Ыт1-разметки в следующей строке, длина следующей строки.

Длины всех строк (strleng) следует предварительно нормировать относительно максимальной длины строки в документе, а номер строки в документе 0) относительно общего количества строк N. Таким образом, каждый из перечисленных входных параметров принимает значение от 0 до 1 включительно.

Для решения задачи была выбрана простая нейронная сеть с прямым распространением ошибки, а в качестве активирующей функции, с целью введения нелинейной зависимости, гиперболический тангенс.

Для выбора оптимальной конфигурации нейронной сети применяется агоритм прореживания, позволяющий последовательно упрощать, либо усложнять нейронную сеть, в поисках варианта с наименьшей ошибкой. В итоге лучшие результаты получились с нейронной сетью из трех невидимых уровней, с семью нейронами в первых двух и с тремя в последнем. Стоит отметить, что слишком большое количество невидимых уровней позволит слишком точно настроить сеть на конкретные данные, что в итоге скажется на ухудшении результатов работы агоритма. Схема нейронной сети представлена на рисунке 1.

Входные параметры Входной уровень

Первый невидимый уровень

Второй невидим уровень

\ \\\ Третий невидимый уровень

М01НПС|Ь |||||-р;)'!М

предыдущей СфОКУ

Д щт шш -

Выходной уровень

Результат

| Яаднито! ли ароил

щей строки V 7_,

Ш - Р Ш

Рисунок 1 - Схема нейронной сети

Для тренировки нейронной сети были созданы тренировочный и проверочный наборы данных. По двадцать Ь1т1-документов экономической направленности для каждого, выбранных случайным образом. В результате анализа созданной нейронной сети получились следующие параметры: количество ложных срабатываний 0.3%, количество пропусков события 0%. 4. Предложена модель формирования интелектуального контента.

В результате комбинирования существующих методов обработки текстовой информации, применяемых современными поисковыми системами, таких как, латентно-семантический анализ, стемминг, с предложенными методами повторного ранжирования и автоматического реферирования, была построена модель формирования интелектуального контента с использованием принципов экологического подхода к поиску.

Агоритмическая схема предлагаемой модели формирования интелектуального контента представлена на рисунке 2. Для реализации предлагаемого метода формирования интелектуального контента далее необходимо определиться с системой управления контентом. На базе

выбранной CMS (системы управления контентом) возможно разработать поисковый модуль, в функционал которого заложить рассмотренный выше агоритм формирования интелектуального контента.

Рисунок 2 - Агоритмическая схема модели формирования интелектуального контента

Математическая модель агоритма формирования интелектуального контента имеет следующий вид: str = str + str []

кз [i] = htmlleng [] / strleng [i], при

кз < const и i е [1; N], где

NeZ,N>0, const = 0,3 5

str - переменная, включающая текст реферата

str [i] - вектор, значения которого - текущие строки

кз - коэффициентом значимости

В качестве константы, опытным путем, в ходе эксперимента, лучший результат был получен при const = 0,35

5. Разработан механизм функционирования системы формирования

интелектуального контента на базе Интернет-портала.

Для функционирования системы формирования интелектуального контента предполагается создание ряда модулей на базе Интернет-портала. Эти функциональные модули позволят решить задачи обеспечения информационного поиска, формирования поисковой выдачи, формирования поискового индекса, формирования интелектуального контента из выдачи, реализации экологического подхода к поиску, обеспечить интерфейс пользователя с информационной системой. Варьируя набор модулей, можно допонять или ограничивать функциональность информационного портала, для максимального соответствия потребностям пользователей. Для системы формирования интелектуального контента необходимы следующие модули:

1. Web-браузер - для корректной работы с информационной системой подойдёт любой современный Интернет-браузер, поддерживающий языки html и java.

2. phpMyAdmin - веб-интерфейс для администрирования СУБД MySQL, позволяет через браузер осуществлять администрирование сервера MySQL, запускать команды SQL и просматривать содержимое таблиц и баз данных.

3. СУБД MySQL - СУБД, управляющая реляционными базами данных. В его задачу входит работа с данными (хранение, выдача и т.д.).

4. Web-сервер Apache - HTTP-сервер. Apache принимает запрос и генерирует ответ (например, в виде html - страницы), передавая его обратно браузеру. Он позволяет подключать внешние модули для предоставления данных, использовать СУБД для аутентификации пользователей, модифицировать сообщения об ошибках.

5. PHP 5.0 - язык программирования (интерпретатор), созданный для генерирования HTML-страниц на веб-сервере и работы с базами данных. В его задачу входит подготовка (трансляция) программного кода и его испонение (интерпретация).

6. Ядро CMS Drupal - основа системы управления контентом, организующая общее взаимосвязанное функционирование модулей и осуществляющая интерфейс с web-сервером.

7. Модуль Admin - осуществляет доступ к административному разделу CMS, в котором осуществляются основные настройки системы, подключение допонительных модулей, а также напонение Интернет-портала и поискового индекса контентом.

8. Модуль Profile - осуществляет создание и управление профилями пользователей портала, содержит пользовательские настройки.

9. Модуль Menu - позволяет формировать пользовательское меню для проекта, отвечает за навигацию по порталу.

10. Модуль Search - осуществляет поиск информации по порталу.

11. Модуль UserRange - позволяет организовывать систему пользовательских рейтингов контента.

12. Модуль Stemm - выпоняет функции по выделению основы из слова.

13. Модуль Neuralnet - реализовывает нейронную сеть для модуля Referate, используемую при автоматическом реферировании.

14. Модуль LSI - реализовывает агоритм латентно-семантического индексирования при анализе поисковой выдачи с целью выделения одинаковых документов.

15. Модуль Referate - основной модуль, отвечающий за автоматическое реферирование поисковой выдачи

16. Модуль Rerange Ч отвечает за повторное ранжирование документов из поисковой выдачи.

Схема взаимодействия модулей представлена ниже, на рисунке 3.

Рисунок 3 - Диаграмма модулей системы формирования интелектуального контента

Создаваемая система формирования интелектуального контента на базе Интернет-портала состоит из трёх основных компонентов: Удалённый сервер, Автоматизированное рабочее место администратора системы и Автоматизированное рабочее место пользователя, соединение между которыми будет осуществляться через сеть Интернет. Кроме того, компонентами информационной системы могут являться локальные вычислительные сети любых заинтересованных организаций, в которые будут объединяться АРМ пользователей информационной системы, работающих в данных организациях, ВС дожны будут построены по принципу клиент-сервер, а сервер дожен иметь подключение к сети

Интернет. На рисунке 4 представлена общая схема взаимодействия компонентов создаваемой информационной системы.

Удаленный сервер

<остинг-проваидера

ПК Администратора системы

Интернет

ПК Пользователи системы 1 ПК Пользователя системы N

Сервер Пользователи системы 1 Сервер Пользователи системы N

( Ламг.ь, щ сеть. J)

Локальная сеть J

ПК Пользователя системы 1 ПК Пользователя

ПК Пользователи системы 1 ПК Пользователи системы N

Рисунок 4 - Диаграмма размещения компонентов

6. Разработаны методические рекомендации по организации процесса поиска и формированию интелектуального контента.

Ниже представлены рекомендации по реализации функций, выпоняемых каждым компонентом информационной системы.

1. Удалённый сервер хостинг-провайдера. На удалённом сервере устанавливаются сервер баз данных MySQL Server для работы с базой данных информационной системы на базе Интернет-портала, программный интерпретатор PHP для трансляции и интерпретации файлов с исходным кодом информационной системы, веб-сервер Apache для обеспечения интерфейса создаваемой информационной системы и будущих пользователей по протоколу HTTP. Кроме того, на удалённый сервер устанавливается контрольная администраторская панель, обеспечивающая доступ к пользовательскому аккаунту услуг хостинга, позволяющая производить основные настройки программных серверов, а также работать с исходными файлами информационной системы. Также на сервер хостинг-провайдера крайне необходимо установить FTP-сервер, позволяющий работать с исходными и прочими файлами информационной системы через программу-клиент по технологии FTP. Кроме системного программного обеспечения на удалённый сервер провайдера будут загружаться как сами исходные файлы CMS Drupal, так и прочие файлы, необходимые для поноценного

функционирования будущей информационной системы на базе Интернет-портала, т.е. сервер будет также выпонять функцию хранения информации.

2. Автоматизированное рабочее место (ПК) администратора системы. АРМ администратора представляет персональный компьютер с определённым набором установленного программного обеспечения, имеющий высокоскоростное подключение к сети Интернет. АРМ администратора выпоняет все основные функции по настройке информационной системы, по напонению Интернет-портала контентом, а также по обновлению данного контента и поддержке общего функционирования системы.

3. Автоматизированное рабочее место (ПК) пользователя системы. АРМ пользователя представляет персональный компьютер с установленным веб-браузером, поддерживающим протокол HTTP. Кроме того, ПК пользователя дожен иметь подключение к сети Интернет, достаточно скоростное для комфортной работы с порталом. Число АРМ пользователей, одновременно работающих с Интернет-порталом ограничивается лишь техническими возможностями удалённого сервера, а также программных серверов, и пропускной способностью Интернет-канала.

7. Проведена оценка эффективности от внедрения системы формирования интелектуального контента в Администрации г. Реутов Московской области.

Поскольку основной упор при внедрении системы делается на органы самоуправления муниципальных образований, а так же на субъекты малого и среднего бизнеса, то внедрение системы рассмотрено на примере Администрации города Реутов Московской области и ООО Социально-деловой центр Инициатива. В процессе внедрения системы была проведена классификация пользователей и определены их права доступа при эксплуатации системы формирования интелектуального контента.

Использование системы предполагается экономическим управлением Администрации города Реутов Московской области. Основными задачами управления являются:

- разработка мероприятий по расширению налогооблагаемой базы, оказание поддержки предприятиям города, подготовка отчетов по социально-экономическим показателям развития города,

- подготовка доклада о достигнутых значениях показателей для оценки эффективности деятельности Администрации города за отчетный год и их планируемых значениях на трехлетний период.

Основными источниками экономической эффективности разрабатываемой системы являются:

1. Снижение нагрузки на сотрудников за счет автоматизации рутинной работы с помощью интелектуальных агоритмов.

2. Снижение времени на поиск документа, повышение своевременности, достоверности получаемой информации благодаря экологическому подходу и снижению количества мусора в поисковой выдаче.

3. Уменьшение времени подбора необходимой экономической информации за счет автоматизации и простоты поиска.

4. Ускорение ввода основных данных в информационную систему за счет применения шаблонов и классификаторов.

5. Небольшая трудоемкость и простота расширения системы с помощью незначительных изменений существующих компонентов и организации взаимодействия с другими информационными системами через стандартные протоколы обмена информацией (HTML, XML, ODBC).

6. Повышение оперативности и удобства взаимодействия с системой в результате формирования дружественного интерфейса пользователя с помощью Интернет-портала.

Для оценки эффективности была рассчитана трудоемкость создания системы формирования интелектуального контента и определены основные количественные показатели эффективности. При ожидаемой команде разработчиков из 5 человек, 8-часовом рабочем дне и 5-дневной рабочей неделе система формирования интелектуального контента будет готова через 4 месяца с учётом добавления месяца для непредвиденных ситуаций.

Чистый дисконтированный доход составляет 993923 руб., внутренняя норма доходности системы формирования интелектуального контента составит 47 %, что намного выше нормы дисконта, которая при расчётах принималась равной 12 %. Срок окупаемости равен 3 года.

При оценке трудоемкости и эффективности действующие лица, типы пользователей и весовые коэффициенты, единовременные и текущие затраты, норма дисконта, экономия на заработной плате сотрудникам, выраженная в качестве дохода, определялись с помощью экспертных оценок, в роли экспертов выступали: Руководитель Администрации, заместители Руководителя Администрации, а также начальник экономического управления. Экономия на заработной плате стала возможной благодаря снижению нагрузки на сотрудников, экономии времени на поиск документов, автоматизации процессов поиска и подбора требуемой экономической информации.

III. ВЫВОДЫ

В процессе диссертационного исследования получены следующие основные результаты и сформулированы выводы:

1. В результате проведенного анализа и сравнительной характеристики современных поисковых систем и технологий поиска установлено, что поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования, в настоящее время не существует.

2. Концепция экологического подхода к Интернет-поиску, заключающегося в формировании средства фильтрации в реальном времени информационного потока, воздействующего на человека, является важной составляющей системы формирования интелектуального контента.

3. Разработаны инновационные методы формирования и обработки контента в соответствии с экологическим подходом к поиску, которые представляют комбинацию из нескольких методов, а именно, автоматическое реферирование первичной поисковой выдачи, за которым следует латентно-семантическое индексирование и повторное ранжирование с построением результирующей выдачи (интелектуального контента) с использованием экологического подхода к осуществлению поиска, заключающегося в отбросе невостребованной пользователем информации, а также в фильтрации в реальном времени информационного потока, воздействующего на человека.

4. Для обучения классификатора предлагается использовать нейронную сеть, конфигурация которой позволяет исключить участие пользователя при анализе и обработке исходного текста документа из поисковой выдачи.

5. Предложена модель формирования интелектуального контента, построенная на основе комбинации методов, применяемых современными поисковыми системами, таких как, латентно-семантический анализ, стемминг, и предлагаемых в диссертационном исследовании методов повторного ранжирования и автоматического реферирования с использованием принципов экологического подхода к поиску.

6. Разработан механизм функционирования системы формирования интелектуального контента на базе Интернет-портала, состоящего из функциональных модулей, позволяющих решать задачи обеспечения информационного поиска, формирования поисковой выдачи, формирования поискового индекса, формирования интелектуального контента из выдачи с использованием экологического подхода к поиску, обеспечивая интерфейс пользователя с информационной системой.

7. Дана оценка экономической эффективности от внедрения системы формирования интелектуального контента на примере экономического управления Администрации города Реутов Московской области.

8. Теоретические положения и практическая реализация результатов исследования ориентированы на широкое использование в хозяйственной деятельности органов муниципального самоуправления субъектов РФ, а также субъектов малого и среднего бизнеса.

IV.Работы, опубликованные автором в ведущих рецензируемых научных журналах и журналах, рекомендованных ВАК Министерства образовании и науки РФ

1. Евсюткин A.C. Интелектуальные технологии . поддержки современного бизнеса. // Вестник университета №19. - Москва: ГУУ -2011.-С. 169-171.-0,3 пл.

2. Евсюткин A.C. Формирование интелектуального контента при поисковом запросе. // Вестник университета №21. - Москва: ГУУ -2011.-С. 39-42.-0,3 п.л.

Другие работы, опубликованные автором по теме кандидатской диссертации

3. Евсюткин A.C. Формирование контента на базе CMS Drupal. // Материалы 15-ой Всероссийской научно-практической конференции " Актуальные проблемы управления - модернизация и инновации в экономике ". Вып. 4. - Москва: ГУУ - 2010. - С. 30-33,- 0,4 п.л.

4. Евсюткин A.C. Анализ систем управления контентом. // Материалы конференции Третья ежегодная научно-практическая конференция Информационные бизнес системы.- Москва: Академия IBS, Институт информационных бизнес систем НИТУ МИСиС, Факультет информационных бизнес систем МФТИ - 2011.- С. 188-191. - 0,4 п.л.

Подписано в печать: 20.03.2012

Заказ № 6850 Тираж - 75 экз. Печать трафаретная. Типография л11-й ФОРМАТ ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Развитие методов и моделей формирования интелектуального контента тема диссертации по экономике, полный текст автореферата

Автореферат

Автореферат диссертации по теме "Развитие методов и моделей формирования интелектуального контента"

Похожие диссертации