Реферат по научно-исследовательской работе г 09 Разработка автоматизированной системы рубрицирования

Вид материалаРеферат
Подобный материал:
Реферат


по научно-исследовательской работе Г.1.3.09


Разработка автоматизированной системы рубрицирования

документов на основе самоорганизующихся карт признаков


Под рубрицированием подразумевается сопоставление тексту документа одной или нескольких рубрик на основе анализа его смыслового содержания. Этот процесс существенно отличается от внешне похожего процесса классификации документов по набору признаков, таких как фамилия автора, время создания документа и т.д. Обычно рубрикатор формируется группой экспертов на основании их знаний о предметной области.

Анализ существующих систем автоматического рубрицирования показал, что их функционирование связано с выполнением двух основных этапов: обучения и собственно рубрицирования. Последний проводится либо с привлечением экспертов, либо по принципу обучения на примерах. Суть процесса в системах такого рода заключается в формировании словарей дескрипторов, тезаурусов предметной области, формальных правил извлечения понятий из текста и т. п. Сложность формализации указанных процедур делает практически не реализуемой автоматизацию этого процесса. На обучение таких систем уходят месяцы, иногда годы.

Это делает весьма актуальной проблему обучения системы автоматического рубрицирования в масштабе реального времени. Одной из наиболее перспективных технологий в этой области является применение искусственных нейронных сетей. Нейронные сети хорошо себя зарекомендовали при решении задач распознавания образов, в частности при автоматизированной обработке графических изображений. В настоящее время появляется все больше примеров использования нейронных сетей в области аналитической обработки текстов.

В данной работе предложен метод применения нейронных сетей (которые являются классификаторами по своей природе) для автоматического рубрицирования текстовых документов, связанных с полиграфическим производством. В основе метода положен принцип обучающей выборки, представляющей собой множество примеров текстов, каждому из которых поставлены в соответствие названия одной или нескольких рубрик. В свою очередь, каждая из рубрик характеризуется набором ключевых слов.

Таким образом, задача построения системы автоматического рубрицирования сводится к построению для каждой из рубрик своего фильтра, который является, по сути, автоматической системой распознавания образов.


Руководитель НИР

дтн, профессор В.Н.Агеев