Автоматические ответы на вопросы
Вид материала | Документы |
СодержаниеGoogle во многих их проектах.OPMLФормат OPML |
- Ответы на вопросы, 90.99kb.
- Дополнение к Приложению к Сказке. Ответы на вопросы, 274.58kb.
- Масюченко Светлана Дмитриевна Ответы на вопросы Интернет конкурс, 43.06kb.
- Автоматические коробки передач, 64kb.
- Ответы на экзаменационные вопросы по истории России 11 класс, 4049.18kb.
- Крайон. Действовать или ждать? Вопросы и ответы, 13038.17kb.
- Сравнение и анализ требований тнпа республики Беларусь и Германии по противопожарной, 8.87kb.
- Тесты Вопросы и задания для самопроверки Ответы на тесты Ответы и задания для самопроверки, 429.4kb.
- Елина Елена Валентиновна, гбоу нпо «Профессиональный лицей №12» Элементы проникающей, 62.09kb.
- Задание объектом нашего исследования являются современные системы безопасности: охранная, 300.74kb.
Автоматические ответы на вопросы
Системы автоматических ответов на вопросы пользователей (ЗОС), задумывались еще на заре кибернетики. Некоторые практические наработки в этой области были получены в эпоху расцвета идеологии экспертных систем (80-90-е годы XX века). В последние годы в связи с развитием технологии Text Mining о таких системах говорят все чаще, прежде всего в связи с возможностью их практической реализации. В качестве базы знаний в этих системах предполагается использовать ресурсы Internet, обработанные современными средствами глубинного анализа текстов.
Первые работы в этой области провела корпорация Microsoft в исследовательском центре корпорации (Microsoft Research).
Разработан алгоритм работы ЗОС. В соответствии с ним, вопрос пользователя поступает модулю, переводящему его в запрос на информационно-поисковом языке. При этом на основе статистических подходов из строки, т.е. вопроса пользователя, выделяются и нормируются ключевые слова, которые затем и становятся основой запроса. После чего происходит обращение к традиционной поисковой системе.
После получения откликов от традиционных поисковых систем первые N документов (наиболее релевантные, ранжированные) обрабатываются модулем фильтрации, который выполняет дополнительный поиск и выделяет наиболее релевантные фрагменты из этих документов. Результаты фильтрации поступают на модуль, который по весовому алгоритму выбирает необходимое для ответа слово или предложение.
Была разработана первая версия системы, получившая название "Ask MSR", которая способна не только проводить поиск в Сети, но и извлекать из найденных Web-страниц полезную информацию, текст с фактами, которые используются для ответа на вопрос пользователя. При этом ответ системы представляет собой одно слово или предложение. В настоящее время система Ask MSR является всего лишь моделью, однако уже имеются планы по выводу ее на рынок под названием AnswerBot.
Сейчас ведутся исследования над развитием алгоритмов системы, дополняя их элементами искусственного интеллекта. Существующая модель Ask MSR пока обеспечивает корректные ответы только на 40% вопросов, что, тем не менее, признается сегодня большим успехом.
RSS
Для решения задачи интеграции новостной информации было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary.
RSS — семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п. Информация из различных источников, представленная в формате RSS, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами-агрегаторами.
Atom — это основанный на XML формат, предназначенный для агрегирования информации, в первую очередь с веб-сайтов. Удобен для использования в блогах, однако может применяться и для любых других новостных и периодических изданий в Интернете.
Исторически появился позже RSS и учитывал многие недостатки упомянутого формата.
Сейчас активно поддерживается компанией Google во многих их проектах.
OPML
Формат OPML(англ. Outline Processor Markup Language) — язык разметки структуры, XML-базированный формат, служащий для переноса в стандартную электронную форму информации о потоках, которые могут группироваться в ленты. Этот стандарт пригоден для создания списков, включающих как RSS-потоки, так и потоки других форматов — RDF, Atom и так далее.
Помимо OPML в настоящее время существует еще один стандарт — OCS (Open Content Syndication — открытый обмен данными), который, впрочем, уступает OPML.
RSS-агрегатор
RSS-агрегатор — клиентская программа или веб-приложение для автоматического сбора сообщений из источников, экспортирующих в форматы RSS или Atom, например заголовков новостей, блогов, подкастов и видео блогов.
Типы агрегаторов
Агрегаторы бывают двух типов. Web-агрегаторы и программные агрегаторы. Задачи их одинаковы — работа с RSS и получение обновлений.