Роль поисковых технологий в крупных информационных системах и системах документооборота

Вид материалаДокументы

Содержание


1.1.Типовые проблемы корпоративных пользователей
1.2.SoftInform Search Technology
Как быстро найти нужную информацию
1.3.Основные возможности SoftInform Search Technology
SoftInform Search Technology
1.4.Тестирование скорости индексирования
1.6.Клиенты и партнеры
Частный корпоративный сектор
Консалтинговые компании и информационно-справочные службы
1.6.2.Встраивание в системы других производителей
Подобный материал:
Роль поисковых технологий в крупных информационных системах и системах документооборота


Одной из важнейших задач, которую приходится решать компаниям на сегодняшний день, является быстрый поиск документов в больших объемах данных. Организация доступа к данным напрямую зависит от технологий и программ, обеспечивающих скорость и качество обработки информации.

Наш опыт работы с корпоративными потребителями показал, что на крупном предприятии существует ряд проблем, напрямую связанных с поиском информации. Остановимся на них подробнее.


^

1.1.Типовые проблемы корпоративных пользователей



- Поиск документов похожих по содержанию на текст запроса (сокращение времени на подбор ключевых фраз и на просмотр ненужных документов)

Скорость поиска информации в больших объемах данных является критичным фактором для крупных предприятий. Речь идет не о скорости работы самой системы-поисковика, а о времени поисковой сессии – т.е. времени, которое затрачивает сотрудник на получение нужной ему информации из десятков гигабайт доступных ему данных, находящихся в локальной сети предприятия и в различных информационных системах. Обычный фразовый поиск, реализованный во всех существующих системах (как настольных и корпоративных решениях, так и в Интернете) не предоставляет никаких особых условий для снижения временных затрат при поиске. Основные проблемы: подбор правильных ключевых слов и просмотр ненужных документов, полученных в списке результатов по не слишком корректному слову (фразе) запроса. Сократить время поиска можно. И одним из вариантов [самым действенным] является использование поиска документов, похожих по содержанию. Это позволяет сократить время поисковой сессии до минимума и дает точные результаты похожести.


- Решение проблемы размытости информационного наполнения (использование в работе одного нужного документа, а не нескольких его дублей или похожих на него, но из других источников)

В базе данных или информационной системе предприятия могут содержаться документы из различных источников, содержащие похожую или идентичную информацию. Один и тот же текст может быть с разными заголовками, с небольшими изменениями или дополнениями, что вносит определенную путаницу при его использовании. Например, в базе содержится два или три похожих документа, практически идентичных по содержанию, но с разными заголовками и незначительными изменениями в самом тексте. И может случиться ситуация, когда один специалист даст комментарии к документу №1, другой специалист – к документу №2 и так далее. Во-первых, это двойная работа (зачем комментировать дважды или трижды все тот же документ?), а во-вторых, при дальнейшем использовании (если, предположим, комментарии разные) часть обработанной и введенной специалистами информации может оказать невостребованной. Решить эту проблему можно при помощи технологий поиска похожих по содержанию документов путем сравнения поступающих в базу предприятия документов с уже содержащимися там данными и выявления дублей.


- Консолидация информации из различных источников (поиск и обработка информации из различных баз данных, информационных систем и так далее)

На этой проблеме необходимо заострить внимание, так как по мере роста информации окружающей нас она становится все актуальней, и крупные предприятия вынуждены затрачивать огромные средства, на совмещение информации из различных систем в единую. Причем кроме высокой стоимости разработки нового решения еще огромной проблемой является внедрение на предприятие, что может крайне болезненно сказаться на работе управляющего персонала в течении определенного времени после внедрения.

Современные технологии поиска и структуризации информации могут являться консолидирующим элементом для различных информационных систем на предприятии. Поиск, автокатегоризация и работа не вместо, а в связке с уже установленными системами позволяет структурировать информационные составляющие любого крупного предприятия под управлением одной программы. Притом, без нужды переводить документы и данные в какой-либо единый формат. Вся информация, доступная для индексирования и дальнейшего поиска может быть распределена, структурирована и отображена в удобном виде.

Технологию можно и нужно (для сокращения затрат) встраивать поверх уже функционирующих на предприятии информационных систем, что позволит без перестройки всей информационной инфраструктуры предприятия решить проблемы консолидации и поиска информации и различных подсистемах.


- Обработка и создание отчета похожести документов, уже находящихся в базе (выявление дублей)

Достаточно распространенное явление – содержащиеся в информационной базе предприятия дублирующие друг друга документы из различных источников или внесенные разными людьми. Так как информация, как правило, накапливалась годами, то чтобы полностью использовать все преимущества новых технологий поиска необходимо вначале избавить систему от ненужных дублей. Как показывает практика после проведения этой работы руководители подразделений «хватаются за голову», видя какой беспорядок был в организации работы с информацией.

^

1.2.SoftInform Search Technology



Все эти, а также множество других проблем позволяет решать технология поиска SoftInform Search Technology от компании СофтИнформ. Она включает в себя все инструменты, необходимые для структуризации разрозненной информации в рамках предприятия и предоставляет собой эффективное решение любых проблем поиска и консолидации информации.

Основным преимуществом и отличием SoftInform Search Technology от существующих аналогичных технологий и систем поиска является запатентованная компанией СофтИнформ функция поиска документов, похожих по содержанию на текст запроса. Именно эта уникальная возможность технологии СофтИнформ и позволяет наиболее эффективно решать большинство проблем обработки и поиска информации на предприятии.

^
- Как быстро найти нужную информацию

Одной из самых важных проблем на данный момент является скорость поиска информации. И дело не столько в скорости работы поисковой системы, сколько в затратах времени на просмотр ненужной информации в списке результатов до получения требуемого документа.

Допустим, нам понадобилось найти документы (в частности, новости) о приобретении какими-либо IT-компаниями своих конкурентов или перспективных фирм, содержащиеся в информационной системе или базе данных. Набираем фразу «покупка компаний» и в итоге получаем большой список документов (причем не обязательно именно то, что нам надо). Далее, например на 10-ом месте стоит нужный нам документ. После его просмотра мы понимаем, что неплохо бы еще поискать по фразам «слияние компаний» и «приобретение компаний» и т.д. И в итоге приходится подбирать нужные ключевые фразы для поиска и перерабатывать большое число документов.

В случае же применения технологий СофтИнформ сразу как находим интересующий нас документ и жмем кнопку «найти документы похожие по содержанию», и сразу видим релевантный список документов именно на заданную тему (похожие по содержанию). Таким образом, человек вместо того чтоб затратить на поиск нужной информации несколько часов (просмотр списков результатов и побор нужных ключевых фраз) сможет все это сделать за пару минут.


- Избавление от размытости информационного наполнения

Дублирование документов приводит к серьезным временным затратам на работу с ними (просмотр, редактирование и т.д.) что в итоге снижает производительность персонала. Технологии поиска похожих по содержанию документов от СофтИнформ решают эту проблему путем сравнения поступающих в базу предприятия документов с уже содержащимися там данными и выявления дублей. Причем поиск похожих по содержанию документов идет очень быстро. Так в частности на базе в 100 гигабайт на компьютере стандартной офисной комплектации на поиск похожих документов затрачивается всего 3-4 секунды. После этого система предлагает принять пользователю решение: надо ли водить документ, дублирующий уже находящиеся в базе.


- Первичное наведения порядка в документах

Для определения дублей и ненужных «похожих» файлов можно использовать функцию построения отчета анализа похожести. Притом эта операция занимает в десятки раз меньше времени, чем при обычном сравнении. Для примера, сравнение документов в информационной базе, в которой содержится, скажем, несколько миллионов документов займет около месяца. А при использовании функции построения анализа похожести – порядка суток!

Часто дублирующие документы находятся в различных информационных источниках (файлы на диске, информация в базе данных или какой либо системе управления знаниями). Построение отчета о дублирующих друг друга документах – это одна из составляющих общего аудита информационных потоков на предприятии, который могут провести наши специалисты. После проведения такого аудита мы можем предложить компании наиболее оптимальное решение различного рода проблем, связанных с поиском и структуризацией информации в рамках предприятия.


- Консолидация информации из разных источников

Системы на базе SoftInform Search Technology легко интегрируются в информационную структуру предприятия, подключая различные источники данных, и имеют архитектуру клиент-сервер. Еще одним преимуществом технологий поиска СофтИнформ является то, что данная система легко и без продолжительной доработки встраивается [надстраивается] в любую информационную систему. Ничего менять (что связано с дополнительными затратами) не надо. Наш поисковик работает совместно с любым установленным на предприятии ПО – будь то CRM системы, СУБД или системы управления знаниями.

Так на данный момент SoftInform Search Technology, а в частности поиск похожих по содержанию документов, внедрен в систему Hummingbird DM. Также ведутся окончательные доработки по интеграции поисковика СофтИнформ в программные продукты компании Лоция Софт.

Внедрение поиска похожих документов дает мгновенный эффект. Так, в частности, внедрение поиска похожих в одном из наших проектов (юридический call-центр) снизило время ответа на вопрос клиенту с 10-12 минут до 2-3. Схема проста: клиент задает какой-либо вопрос, а при помощи поиска похожих в базе (чем дольше работает предприятие, тем больше у него база вопросов и ответов – тем лучше для клиентов) находится несколько документов по тематике вопроса. Притом именно тех документов, которые наиболее близки и востребованы в данный момент – ничего лишнего (как при фразовом поиске). Таким образом можно добиться значительного сокращения времени разговора с клиентов. Что в случае с оплатой услуг за разговор однозначно выгоднее, а в случае с оплатой поминутно просто расположит клиентов скорость реагирования сервиса и обеспечит приток новых звонящих.

При помощи данной разработки можно оперативно и, главное, дешево решать любые вопросы работы с клиентами (не обязательно из сферы юриспруденции). Можно организовать любую информационную службу.

Внедрение таких систем не требует изменения существующих бизнес-процессов и позволяет максимально сохранить инвестиции компании, вложенные в существующую информационную инфраструктуру. В тоже время поисковые системы от СофтИнформ позволяют объединить разрозненные корпоративные приложения и данные в единую информационную систему, что приводит к более эффективному решению бизнес-задач.

^

1.3.Основные возможности SoftInform Search Technology



На данный момент ПО на основе SoftInform Search Technology является наиболее функциональным и быстрым по сравнению с различного рода аналогичными технологиями и разработками.
  • Высокая скорость индексирования информации. Оптимизация процесса индексации и структуры создания индекса позволили увеличить скорость индексации данных до 30 Гб в час даже на не очень производительных офисных компьютерах.
  • Размер создаваемого индекса 20-25% от размера чистой текстовой информации
  • Поддержка более 60 распространенных форматов файлов (включая архивы, PDF, MHT, CHM, MDB и т.д.). Количество поддерживаемых форматов обновляется в каждой новой версии ПО на базе технологии SoftInform Search Technology
  • Индексирование и поиск информации в электронных сообщениях MS Outlook, Outlook Express и TheBat!, а также в логах программ мгновенного обмена сообщениями ICQ 99-2005 и MS Messenger)
  • Основным преимуществом масштабирования в поисковой системе от СофтИнформ является то, что оно осуществляется без изменения структуры существующей сети.
  • Возможность консолидации информации на предприятии из различных источников (поиск и обработка информации из различных баз данных, информационных систем и так далее)
  • Языконезависимость. Технология не зависит от языка, все языковые компоненты могут присоединяться как плагины

Организация ядра технологии позволяет адаптировать ^ SoftInform Search Technology (при внесении минимальных корректировок) под любую базу данных или информационную систему, благодаря концепции источников данных. Причем, источники данных, доступные для индексации нашей программой могут быть различны и могут находиться в разных местах.

^

1.4.Тестирование скорости индексирования



Как показали многочисленные тесты, скорость индексирования поисковой системы SearchInform составляет от 15 до 30 гигабайт в час, в зависимости от того, какая именно информация индексируется.


С увеличением количества индексируемых данных, в отличии от основных конкурентов, скорость индексации у SearchInform падает незначительно.


SearchInform на одном компьютере может проиндексировать от 2 до 5 терабайт данных (в зависимости от того, в каком они формате), это 30 – 50 миллионов документов.


1.5.Масштабируемость



Также важной особенностью корпоративного программного обеспечения является отсутствие проблемы масштабирования. Информации с каждым годом становится всё больше, и первоначальной мощности ПО может уже не хватать. Идеальным вариантом является параллельное увеличение мощности без изменения существующей структуры.

Для индексирования больших объемов информации потребуется несколько компьютеров. Если взять за предел одного компьютера 1-5 терабайт информации, а нужно проиндексировать гораздо больше, то потребуется несколько кластеров. Но, так как поиск должен вестись по всей информации, то их нужно объединить, для создания чёткой структуры для работы, под руководством управляющего сервера. Компьютеры под сервером называются кластерами, и управляющий сервер будет решать, какому кластеру на индексацию будут отправлены данные и т.д.

Кластерная система используется для создания чёткой структуры для работы, под руководством управляющего сервера. Все компьютеры, находящиеся под руководством сервера разбиваются на кластеры. Каждый компьютер может проиндексировать от 1 до 5 терабайт текста, в зависимости от того, в каком он формате.

Количество информации на предприятии растет каждый день. Появляются новые документы, растёт объём баз данных.


При увеличении количества кластеров – система сможет индексировать большее количество информации. Увеличивая число индексирующих серверов мы можем обработать любое количество информации.


Если предприятие расширяется, и появляются новые сотрудники, то системе придётся отрабатывать большее количество запросов.

Для решения этой проблемы достаточно увеличить количество поисковых серверов в сети, увеличив количество компьютеров в кластере. Основным преимуществом масштабирования в поисковой системе от СофтИнформ является то, что оно осуществляется без изменения структуры существующей сети.


^

1.6.Клиенты и партнеры





1.6.1.Клиенты


Поисковые технологии являются ядром на базе которого реализуются крупные заказные проекты информационной направленности и позволяют решать достаточно актуальные задачи корпоративных клиентов, которые на сегодня не могут решить наши конкуренты. Спектр применения нашей поисковой системы достаточно широк.
  • Госсектор с огромными объёмами неупорядоченных данных. На данный момент нашими услугами воспользовался совет безопасности Российской Федерации и одно из министерств.
  • Проект «Электронные библиотеки Казахстана» - масштабное решение для целой сети библиотек и вузов.
  • ^ Частный корпоративный сектор в лице таких компаний, как «Билайн», «Итера», «Вега» также являются нашими клиентами. Поисковая разработка компании «СофтИнформ» призвана организовать быстрый и чёткий поиск по всему массиву документов.
  • ^ Консалтинговые компании и информационно-справочные службы также нуждаются в наших поисковых технологиях. Примером является проект ЮрКолЦентр.. Суть проекта ЮрКолЦентр заключается в организации эффективного сервиса по юридическому обслуживанию клиентов по телефону. Человек звонит с вопросом, ему сообщается сколько будет стоить минута ответа и далее юрист ищет по базе знаний нужный ответ, если таковой уже есть или среди других источников. Оплата за разговор включается в счет за телефон. Здесь наилучшим образом отражена масштабность и перспективность использования технологий СофтИнформ. ЮКЦ является удачным примером того, как несколько эффективных решений могут быть объединены в одном крупном проекте. В частности внедрение поиска похожих по содержанию документов дало в этом проекте потрясающий эффект. Благодаря этой технологии время ответа на вопрос клиенту снизилось с 10-12 минут до 2-3. Схема проста: клиент задает какой-либо вопрос, а при помощи поиска похожих в базе (чем дольше работает предприятие, тем больше у него база вопросов и ответов – тем лучше для клиентов) находится несколько документов по тематике вопроса. Притом именно тех документов, которые наиболее близки и востребованы в данный момент – ничего лишнего (как при фразовом поиске). Таким образом можно добиться значительного сокращения времени разговора с клиентом.


Система SearchInform легко интегрируется в информационную структуру предприятия, подключая различные источники данных, и имеет архитектуру клиент-сервер. Внедрение SearchInform не требует изменения существующих бизнес-процессов и позволяет максимально сохранить инвестиции компании, вложенные в существующую информационную инфраструктуру. В тоже время система позволяет объединить разрозненные корпоративные приложения и данные в единую информационную систему, что приводит к более эффективному решению бизнес-задач.

^

1.6.2.Встраивание в системы других производителей


Также поисковый модуль SearchInform легко встраивается в различные системы документооборота, а также информационно-справочные системы.

  • SST + Hummingbird, успешное внедрение поисковых технологий СофтИнформ в систему документооборота.



  • SST + Лоция Софт , успешное внедрение поисковых технологий СофтИнформ в систему проектного документооборота, ориентированного на предприятия машиностроения и производственные структуры.



  • SST + IPI HelpDesk - поисковый модуль встроен в систему поддержки и управления задачами



  • SST + Синергетика - обеспечение полнотекстового поиска в электронном архиве.