u/text/302/181130/ html Открытые системы, процессы стандартизации и профили стандартов

Вид материалаДокументы

Содержание


Популярное на эту тему
Знакомьтесь: SWEBOK / (319)
Что такое Business Intelligence? / (356)
Таблица 2. Программа 010400
Популярное на эту тему
Знакомьтесь: SWEBOK / (319)
Что такое Business Intelligence? / (356)
Открытые системы #08/2006
Middleware для лезвий
Построение архитектурной модели распределенной кэш-памяти.
Разработка модели распределения и управления распределением данных по общей системной кэш-памяти.
Разработка средств, обеспечивающих высокую готовность и отказоустойчивость.
Обеспечение гетерогенности доступа к данным.
Разработка методов взаимодействия между приложениями и распределенной системой кэш-памяти.
Разработка средства для управления системой в целом.
Открытые системы #08/2006
Middleware для лезвий
Открытые системы #06/2006
Технологии извлечения знаний из текста
Особенности аналитической обработки
...
Полное содержание
Подобный материал:
1   ...   9   10   11   12   13   14   15   16   ...   22

Данный шаблон типичен для учебных планов по программной инженерии, которые могут преподаваться на базе факультетов информатики. Преимуществом такой программы является то, что базовые курсы по информатике могут преподаваться одновременно как студентам, обучающимся информатике, так и студентам, изучающим программную инженерию. Серым фоном в шаблоне выделены курсы, посвященные собственно программной инженерии. Обучение программной инженерии начинается с курса SE201, проходящего параллельно последнему вводному курсу по информатике, CS103, и продолжается последовательностью из 6 основных курсов (SE A-F), которые мы перечислили ранее. Кроме того, в шаблон входит три нетехнических курса для покрытия важных областей SEEK.

В результате, у нас получилось следующее предложение по преподаванию программной инженерии в российских университетах на базе специальности 010400 (ссылка скрыта):
  • В первом семестре добавился курс NT181 по групповой динамике (психологии работы в коллективе). Умение работать в группе, знание основ психологии программирования необходимо студентам с самого начала обучения. Для курса NT291 по профессиональной деятельности в российской учебной программе 010400 нашелся хороший аналог - курс по социальным и этическим вопросам (в четвертом семестре).
  • В третий семестр добавляются курсы SE201 - начальный курс по программной инженерии и NT272 - по инженерной экономике. В четвертый семестр добавляются курсы SE211 "Конструирование программного обеспечения" и SE212 "Подход программной инженерии к человеко-машинному взаимодействию". Чтобы уменьшить нагрузку, в четвертом семестре вполне можно пожертвовать факультативом (4 часа) или практикумом (4 часа). Мы предпочли аннулировать практикумы в 4-6 семестрах. К этому времени студенты уже должны уметь программировать.
  • В пятый семестр мы добавили курс SE311 "Проектирование и архитектура программного обеспечения", а в шестой - еще два курса, входящих в основной набор по программной инженерии: SE321 "Обеспечение качества и тестирование программного обеспечения" и SE322 "Анализ требований к программному обеспечению". Последние два курса в нашем варианте подменяют собой единственный в шестом семестре курс по программной инженерии, на который в типовом плане учебной специальности 010400 отводится 4 часа в неделю.
  • Последний курс по программной инженерии - SE323 "Управление программными проектами" - поместился только в девятом семестре, несмотря на то, что его обозначение означает, что он должен читаться на третьем курсе.
  • Завершает программу обучения дипломный проект (SE400).

Заключение


Мы представили конкретный пример адаптации рекомендаций документа «Computing Curricula: Software Engineering» к условиям российского образования. Мотивацией стало открытие в 2006/07 учебном году специальности 010400 на математико-механическом факультете Санкт-Петербургского государственного университета, преподавание по которой будет вестись по изложенному учебному плану. Однако предложенный нами вариант преподавания далеко не единственный, и при составлении учебных планов всегда необходимо учитывать специфику конкретного университета. Поэтому мы рекомендуем университетам не столько результат нашего анализа, сколько методику построения учебных планов с учетом требований международных стандартов.

Надеемся, что статья послужит отправной точкой для дальнейшего обсуждения методик преподавания программной инженерии в России и массового внедрения данной специальности в российских университетах.

Андрей А. Терехов (andreyte@microsoft.com) – менеджер академических программ по Центральной и Восточной Европе, Microsoft (Мюнхен), Андрей Н. Терехов (ant@tercom.ru) – зав. кафедрой системного программирования Санкт-Петербургского государственного университета (Санкт-Петербург).

Литература

  1. "Рекомендации по преподаванию информатики в университетах", Издательство С.-Петербургского университета, 2002 (под ред. В.Л. Павлова и А.А. Терехова).
  2. В.А. Сухомлин, "ИТ-образование: концепция, образовательные стандарты, процесс стандартизации". М.: Горячая линия - Телеком, 2005.
  3. В.А. Сухомлин, В.В. Сухомлин, ссылка скрыта, Открытые системы, 2003, № 2.



Популярное на эту тему





   О преподавании программной инженерии / (190)



    Знакомьтесь: SWEBOK / (319)

ссылка скрыта
В последние годы программистское сообщество приложило немало усилий для упорядочения накопленных знаний и поиска способов их преобразования в учебные планы. В результате этих усилий появились проекты SWEBOK (Guide ссылка скрыта



ссылка скрыта
Любая профессия базируется на некой совокупности теоретических знаний и практического опыта. Если эту основу удается формализовать и соответствующим образом документировать, подобный свод знаний становится отправной точкой для разработки учебных программ ссылка скрыта



    Что такое Business Intelligence? / (356)



   Азы и премудрости управления бизнес-процессами / (229)

ссылка скрыта
Термин «business intelligence» существует сравнительно давно, хотя у нас он мало употребляется из-за отсутствия адекватного перевода и четкого понимания, что, впрочем, характерно и для Запада. Попытаемся разобраться в его сути. ссылка скрыта



ссылка скрыта
При подготовке рубрики «Академия ОС» мы теперь больше внимания уделяем вузовскому компоненту образования ИТ-специалистов -- несмотря на наличие в ряде ведущих российских университетов сильных программистских школ, полномасштабные программы... ссылка скрыта





Выскажите свое мнение:
* Для отправки сообщения вы должны ссылка скрыта в систему.
* Если вы незарегистрированы в системе - ссылка скрыта.

По данной статье пока нет мнений



Таблица 2. Программа 010400


ссылка скрыта :: ссылка скрыта

Примерный учебный план подготовки бакалавров по направлению 010400 "Информационные технологии"

1 курс

2 курс

3 курс

4 курс

1 семестр

2 семестр

3 семестр

4 семестр

5 семестр

6 семестр

7 семестр

8 семестр

 

 

 

 

 

 

 

 

Цикл гуманитарных и социально-экономических дисциплин (1800 общ.ч / 770 ауд.ч)

иностранный язык

 

 

 

 

4

4

4

4

 

 

 

 

история

 

философия

  

курсы по выбору студента

 

 

3

 

4

 

4

4

 

 

 

  

обязательные курсы по выбору

Нац.региональные (вуз) курсы

 

 

2

2

2

2

4

4

 

 

 

 

 

 

 

 

Цикл математических и общих естественно-научных дисциплин (2532 общ.ч / 1676 ауд. ч)

математический анализ

дифф.уравнения

теория графов

модел. инф.процес.

прикл.зад.теорвер.

ДИПЛОМ

6

6

6

4

4

2

4

 

 

 

 

 

 

 

 

 

алгебра и геометрия

алгор.и анализ сл.

матлогика и т. алгор

т.авт. и фор.языки

неклассичес. логики

спец. курсы по выбору студента

6

6

4

6

4

4

6

6

 

 

 

 

 

?

 

 

дискретная математика

языки программир.

теорвер и матстат.

нац-рег (вуз) с/к

 

интеллект. системы

 

4

4

4

4

6

 

4

 

 

 

?

 

 

 

 

 

программирование

физика

базы данных

прогр.инженирия

нац-рег (вуз) с/к

 

4

4

4

4

4

4

6

 

 

 

?

?

 

 

 

 

 

арх.выч.систем

ОС

компьютерные сети

вычисл.математика

оптимиз. и иссл. оп

 

 

 

4

4

4

4

4

 

 

 

 

 

 

 

 

 

 

комп. графика

специальные курсы

 

 

 

2

4

4

4

4

 

 

 

 

 

 

 

 

 

 

 

социал.и этич вопр.

факультативы

 

 

 

2

4

4

2

2

практикум на ЭВМ

 

 

4

4

4

4

2

2

 

 

 

 

 

факультатив

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

количество часов в неделю

31

32

36

40

38

30

30

16






Популярное на эту тему





   О преподавании программной инженерии / (190)



    Знакомьтесь: SWEBOK / (319)

ссылка скрыта
В последние годы программистское сообщество приложило немало усилий для упорядочения накопленных знаний и поиска способов их преобразования в учебные планы. В результате этих усилий появились проекты SWEBOK (Guide ссылка скрыта



ссылка скрыта
Любая профессия базируется на некой совокупности теоретических знаний и практического опыта. Если эту основу удается формализовать и соответствующим образом документировать, подобный свод знаний становится отправной точкой для разработки учебных программ ссылка скрыта



    Что такое Business Intelligence? / (356)



   Азы и премудрости управления бизнес-процессами / (229)

ссылка скрыта
Термин «business intelligence» существует сравнительно давно, хотя у нас он мало употребляется из-за отсутствия адекватного перевода и четкого понимания, что, впрочем, характерно и для Запада. Попытаемся разобраться в его сути. ссылка скрыта



ссылка скрыта
При подготовке рубрики «Академия ОС» мы теперь больше внимания уделяем вузовскому компоненту образования ИТ-специалистов -- несмотря на наличие в ряде ведущих российских университетов сильных программистских школ, полномасштабные программы... ссылка скрыта






Открытые системы #08/2006


ссылка скрыта 



Middleware для лезвий


Леонид Черняк

ссылка скрыта :: ссылка скрыта
Компания GemStone Systems предлагает программное обеспечение промежуточного слоя GemFire Enterprise, основанное на принципах Enterprise Data Fabric и позволяющее построить полноценную корпоративную информационную систему на серверах-лезвиях.

Рано или поздно центры обработки данных трансформируются в супермэйнфреймы, состоящие из множества небольших серверов. В них архитектурная иерархия, скорее всего, будет следующей: процессорные ядра — микропроцессоры — серверы — центры обработки данных.

Компьютерные технологии давно эволюционируют от отдельных серверов к вычислительным средам. В отличие от серверов, промышленные контроллеры без особых проблем можно собирать воедино, потому что они работают под управлением программ, записанных в постоянную память (EPROM), или под управлением центральной управляющей машины; однако каждый из них остается автономен. Вот уже много лет контроллеры, которыми комплектуют технологические системы управления, собирают в промышленные стойки (rack); в последнее время аналогичные конструктивы стали популярны и в обычных ИТ-системах. Эти стойки обычно называют 19-дюймовыми (их ширина составляет 19 дюймов или кратна этой величине); в качестве стандарта расстояния по высоте между полозьями была принята единица измерения rack unit, или U, равная 1,75 дюйма (44,45 мм)*. В 90-е годы появились серверы, монтируемые в стойки (rack mount), а также системы хранения данных, коммуникационное и другое оборудование. Затем появились сверхтонкие серверы в формате «коробки для пиццы» (pizza box) толщиной 1 U или 2 U; они выпускаются и в виде отдельных устройств, но большинство монтируется в стойки. В итоге сегодня большую часть оборудования центров обработки данных, за исключением самых мощных серверов и накопителей, собирают в 19-дюймовые стойки.

Продолжением этой тенденции стало появление сверхкомпактных северов-лезвий (blade), содержащих на одной плате центральный процессор, накопитель на дисках или на флэш-памяти и средства управления вводом/выводом. Первый сервер-лезвие в марте 2001 года произвела компания RLX Technologies, созданная выходцами из Compaq Computer. В одну стойку можно было установить до сотни лезвий, собрав воедино впечатляющую вычислительную мощность при относительно скромной стоимости. Неудивительно, что с момента их появления стало складываться представление о том, что сборки из лезвий, обладающие к тому же всеми достоинствами кластеров (и прежде всего надежностью), довольно скоро смогут вытеснить с рынка дорогие монолитные SMP-серверы. Однако этого не произошло; более того, прогнозы, сделанные сегодня, через пять лет после появления лезвий, не предполагают существенного роста их производства.

Почему же лезвия, несмотря на свою очевидную перспективность, до сих пор имеют ограниченное применение? Распределить приложения по серверам оказывается не такой уж сложной задачей, сложнее дело обстоит с данными. Не стоит забывать, что корпоративные приложения обычно пользуются относительно небольшим количеством централизованных источников данных, например базами данных. Обеспечить синхронизированный доступ к этим данным существенно сложнее, чем распределить вычислительную нагрузку. В SMP-серверах эту задачу решает единый образ операционной системы, а в кластерах же требуется брокер, специальное программное обеспечение промежуточного слоя, ответственное за работу с данными.

Для того чтобы построить подобный брокер, необходимо решить проблемы виртуализации данных и распределенного управления доступом к данным. Чтобы виртуализировать данные, требуется, прежде всего, построить единую схему, состоящую из метаданных. Пользуясь ею, специализированное программное обеспечение промежуточного слоя сможет поддерживать согласованный доступ к данным, устанавливая связи между программами и источниками данных не напрямую, как обычно, а опосредованно, через метаданные. Средствами виртуализации обеспечивается гибкость архитектуры, которая может изменяться незаметно для приложений, кроме того, данные могут перемещаться и реплицироваться в режиме, прозрачном для приложений.

После того как данные виртуализированы, появляется возможность построить распределенное управление ими, обеспечив примерно такую же легко изменяемую схему, которая используется в серверах приложений, где по мере возрастания нагрузки увеличивается количество включенных в процесс физических серверов. В данном случае происходит развязка данных и приложений; изменение в топологии расположения данных не влияет на приложения, а изменения в приложениях, в свою очередь, не влияют на изменение топологии данных.

Готовых решений, позволяющих решить эти две задачи, на рынке пока нет, но прототипом для них может послужить результат сотрудничества компаний IBM и GemStone, где средствами пакета GemFire Enterprise, относимого к категории программного обеспечения, связывающего данные (Data Сonnectivity Software, DCS), обеспечивается доступ к данным в IBM BladeCenter, в котором может быть установлено до 84 лезвий.

Из двух компаний-партнеров GemStone Systems известна гораздо меньше. Впрочем, и эта компания — не новичок, она обладает значительным своеобразием и богатой историей и существует почти 25 лет, оставаясь при этом частной. Преимущественное положение частной компании заключается в том, что она может следовать самостоятельной технической политике и создавать оригинальные продукты, не подчиняясь требованиям инвесторов. Эти продукты могут оставаться долгое время невостребованными, но однажды наступает момент, когда одна из разработок компании вдруг оказывается весьма кстати. Подобное случилось с флагманским продуктом компании, GemFire Enterprise, — фирменной версией механизма матрицы данных предприятия (Enterprise Data Fabric, EDF). GemFire Enterprise выполняет функцию программного обеспечения промежуточного слоя для работы с данными. Вкупе с наработками IBM программное обеспечение GemFire Enterprise позволяет реализовать основные функции корпоративной информационной системы на базе IBM eServer Blade Center.

Устройство GemFire представляет собой пример изящного инженерного решения (на сайте ссылка скрыта оно описано с достаточной полнотой). Создателям GemFire удалось свести две названные выше проблемы к решению шести задач.
  • Построение архитектурной модели распределенной кэш-памяти. В этой модели фрагменты оперативной памяти отдельных серверов представляются как составляющие «устройства» общей кэш-памяти, предназначенной для ускорения доступа к данным, размещенным на дисках. Квинтэссенцией архитектурной модели является внутренняя сеть, объединяющая кэши в оперативной памяти каждого из серверов; таким образом формируется глобальный системный кэш. В сети GemFire Enterprise используются две взаимодополняющие друг друга технологии обмена данными. Технология многоадресной рассылки IP multicast служит для массовой рассылки данных по узлам. Другая технология служит для обычного обмена данными между узлами в режиме «каждый с каждым» по протоколу TCP . Единство распределенного системного кэша достигается благодаря тому, что из кэша каждого узла выделяется специальная область, локатор (locator), и эти отдельные области объединяются сетью для нужд общего сервиса. Данные в системном кэше организованы таким образом, что обеспечивается отказоустойчивость, выключение одного сервера не приводит к потере системных данных
  • Разработка модели распределения и управления распределением данных по общей системной кэш-памяти. Данные и приложения могут различаться по требованиям к синхронизации. Естественно, чем выше требования к синхронизации, тем выше задержка. Наиболее типичным является асинхронный режим. Он предполагает, что каждое приложение работает со своим кэшем асинхронно по отношению ко всем остальным в режиме out-of-band, но периодически осуществляется синхронизация, выбранный алгоритм синхронизации обеспечивает минимизацию конфликтов. Синхронный режим с подтверждением отличается тем, что узел, инициирующий изменения, требует подтверждения, чтобы внесение изменений в кэши других узлов было подтверждено сообщением. Самый строгий синхронный режим предполагает репликацию данных между узлами. В GemFire используется несколько механизмов репликации, которые различаются по своей строгости. Самый легкий — репликация по требованию (replication on demand), в этом случае объект реплицируется по месту использования; самый тяжелый — тотальная репликация (total replication), реализуемая по модели принудительной (push) рассылки.
  • Разработка средств, обеспечивающих высокую готовность и отказоустойчивость. Основным средством для обеспечения надежности служит хорошо проверенная технология зеркалирования. В случае сбоя GemFire Enterprise автоматически переключает приложение на резервную копию кэша и восстанавливает основной кэш. В некоторых случаях для резервирования используют дисковые копии.
  • Обеспечение гетерогенности доступа к данным. В GemFire Enterprise созданы специальные интерфейсы API для доступа к объектам из клиентов, написанных на разных языках программирования и для разных платформ. Кроме работы с объектами, GemFire позволяет использовать механизм кэширования для XML-документов, используя протоколы HTTP и SOAP.
  • Разработка методов взаимодействия между приложениями и распределенной системой кэш-памяти. GemFire имеет встраиваемые интерфейсы, позволяющие устанавливать связь с базами данных и приложениями. Для этого прежде всего служит корпоративная шина JMS. Разработчики могут использовать механизм, включающий загрузчик CacheLoader, приписывающий внешние данные в кэш, а также пару, состоящую из «писателя» CacheWriter и «слушателя» CacheListener, предназначенную для синхронизации данных.
  • Разработка средства для управления системой в целом. GemFire Enterprise включает в себя целый ряд инструментов для администрирования. Специальная консоль с графическим интерфейсом позволяет осуществлять управление с одного из компьютеров, включенных в кластер. Средствами консоли можно изменять топологию системного кэша, включать или выключать отдельные фрагменты, набирать статистику, строить обобщающие диаграммы.

1    ссылка скрыта    ссылка скрыта

Открытые системы #08/2006


ссылка скрыта 

Middleware для лезвий


Леонид Черняк

ссылка скрыта :: ссылка скрыта

***

Область потенциального применения GemFire Enterprise не ограничивается использованием в качестве программного обеспечения промежуточного слоя в кластерах. В последующем она может быть распространена на сервис-ориентированные архитектуры, системы обработки сложных событий и разнообразные реализации grid.



* Данная величина фактически равна одному вершку. Вот так неожиданно старорусская единица измерения по удивительному совпадению (а может быть, и по чьему-то остроумному замыслу) обрела новую жизнь. — Прим. автора.

Открытые системы #06/2006


ссылка скрыта 

Технологии извлечения знаний из текста


Николай Ильин, Сергей Киселев, Владислав Рябышкин, Сергей Танков

ссылка скрыта :: ссылка скрыта
Основную часть знаний аналитики получают в результате сравнения, анализа и синтеза информации из разрозненных фактов, размещенных в текстах. При работе с большими потоками документов процесс автоматического структурирования текстовой информации заменяет экспертный процесс выделения фактов и объектов, выполняемый вручную. В статье рассматриваются примеры использования новых технологий извлечения знаний из текстов на русском языке, ориентированных на работу с большими хранилищами данных.

До 85% новых знаний аналитики до сих пор получают, изучая тексты. В ближайшем будущем наиболее востребованными станут системы с максимально автоматизированными ETL-процессами структурирования контента (extract, transfer, load — «извлечение, преобразование, загрузка»). Важной чертой таких систем будет функция оперативного анализа информации, полученной по запросу для выбора дальнейшего направления исследования документов (автопилотирование направления исследования), выполняемой с помощью методов интеллектуального анализа текста.

К наиболее актуальным средствам интеллектуального анализа текстов относятся технологии выделения фактографической информации об объектах с учетом анафорических ссылок на них (ссылочные местоимения на объект, поименованный в тексте); нечеткий поиск; тематическое и тональное (точное и полное) рубрицирование; кластерный анализ хранилищ и подборок документов; выделение ключевых тем; построение аннотаций; построение многомерных частотных распределений документов и их исследование с помощью OLAP-технологий; использование методов интеллектуального анализа текста для определения направления исследования больших подборок документов и извлечения новых знаний.

В современных системах используется двухфазная технология аналитической обработки. В первой фазе (ETL) производится автоматизированный анализ отдельных документов, структуризация их контента и формирование хранилищ исходной и аналитической информации. Во второй фазе (OLAP, Text Mining, Data Mining) — извлечение в оперативном режиме знаний из хранилища или из полученной по запросу подборки документов. На наш взгляд, к наиболее интересным системам аналитической обработки относятся ClearForest, Convera RetrievalWare, Hummingbird KM, IBM Text Miner, инструменты компании IQMen, Inxight Smart Discovery Extraction Server, Ontos Miner, Oracle Text, ODB-Text, TextAnalyst, инструменты компании Smartware, XANALYS Link Explorer, X-Files, инструменты компании «Гарант-Парк-Интернет» и «Медиалогия». Попробуем проанализировать современное состояние дел в области аналитических технологий на примерах конкретных систем.

Особенности аналитической обработки


Первичная аналитическая обработка в фазе ETL требует значительных вычислительных ресурсов. Наш опыт эксплуатации систем с объемом фондов 5-10 млн. единиц хранения показывает, что если объем входных документов и время построения индекса принять за единицу, а запросы дополнительной памяти на диске и времени, требуемые на каждом из следующих видов обработки, как dV и dT соответственно, то получается следующая картина:
  • выполнение индексирования: dV = 0,3-2, dT = 1;
  • построение семантической сети: dV = 0,2-0,4, dT = 2-3;
  • построение рубрик: dV = 0,001, dT = 0,1;
  • создание аннотации и ключевых тем: dV = 0,1, dT = 1-2;
  • терминологические векторы документов: dV = 0,1, dT = 0,02;
  • хранилище аналитических данных: dV = 0,3, dT = 0,5;
  • база данных фактографической информации, объединенной в досье: dV = 0,3, dT = 3.

Объем вторичных данных может быть в 3-4 раза больше объема документов, а время, необходимое на извлечение новых знаний, больше времени индексирования в семь–девять раз.

В ходе аналитической обработки происходит выделение текста фактографической информации об объекте, причем с учетом всех ссылок. Для этого сначала выделяются все предложения с упоминаниями об объекте (создается дайджест), в которых могут встречаться названия объекта («Иванов»), ссылки на него (анафория: «он», «который»…), а также обобщающие определения (кореференты: «воин», «семьянин»…). Нахождение и разрешение кореферентов и анафор дает увеличение объема дайджеста на 15-30%, а значит, и объема фактографической информации.

В начале исследования аналитики в первую очередь стремятся к полноте запроса, а не к его точности, поэтому объем релевантной подборки документов составляет сотни или тысячи единиц. Дальнейшее исследование проблемы производится уже после получения подборки документов с помощью кластерных, семантических карт или других методов. Такая технология работы аналитика сегодня типична как для работы в Internet, так и при работе со специализированными системами. Русский язык плохо поддается описанию формализмами различных уровней: морфологией, синтаксисом, семантикой. Например, для идентификации морфологических признаков лексемы на русском языке необходимо выполнить также предсинтаксический анализ предложения для снятия омонимии. В любом случае реализации этих формализмов используют нечеткую модель анализа текста.

К наиболее актуальным направлениям извлечения знаний из текста на сегодняшний день относятся:
  • аналитическая обработка фактов; ведение досье;
  • извлечение и структурирование фактографической информации;
  • поиск информации по запросам на естественном языке с использованием тезаурусов;
  • направления поиска информации, объектов в хранилище документов, в подборке документов;
  • аннотирование документов, построение дайджестов по объектам;
  • проведение тематического анализа документов (кластеризация и рубрицирование);
  • построение и динамический анализ семантической структуры текстов;
  • выделение ключевых тем и информационных объектов;
  • определение общей и объектной тональности сообщений;
  • исследование частотных характеристик текстов.

Поиск


Исторически первой и присутствующей сегодня во всех системах является векторная модель поиска, изобретенная Дж. Сэлтоном в 60-х годах. Большинство машин работают по принципу наличия в релевантном документе всех терминов запроса, учета их встречаемости в документах и их средней языковой частотности. Эта модель используется при обработке запросов на естественном языке, особенно на поисковых страницах сайтов; она же применяется для поиска похожих документов.

Продолжает активно использоваться булева модель поиска, которая позволяет вводить в запрос логические операторы, контекстные ограничения на расстояние между словами, строить разветвленные мощные запросы, использовать стоп-словарь и лексические шаблоны аналогично регулярным выражениям в скриптовых языках. Профессиональные системы, в дополнение к перечисленным базовым моделям, предоставляют поиск с использованием нечеткой булевой модели поиска, позволяющей поисковой машине доставлять документы, которые она считает релевантными, даже если некоторые «слабые» элементы запроса в них не встречаются.

Открытые системы #06/2006


ссылка скрыта 

Технологии извлечения знаний из текста


Николай Ильин, Сергей Киселев, Владислав Рябышкин, Сергей Танков

ссылка скрыта :: ссылка скрыта

Для семантического поиска широко используются тезаурусы, за счет которых происходит расширение запроса. Например, при поиске документов по автотранспортным происшествиям, запрос «ДТП» имеет фактор расширения 1:150, т. е. из одной лексемы системой фактически генерируется 150 лексем для сервера поиска (см. рис. 1, правый фрейм). Активное использование тезаурусов русского языка сдерживается сегодня отсутствием актуальных словарей синонимов.



Рис. 1. Пример расширения запроса с использованием тезауруса в системе «Аналитический курьер» компании «Ай-Теко». На левом фрейме — карта наиболее важных ключевых тем подборки документов

Многие специалисты скептически относятся к идее осмысленного диалога аналитика и системы на формальном языке, поэтому имеет смысл максимально подстраивать язык запросов к мышлению и лексике аналитика. Проблемы в том виде, в котором с ними сталкивается сотрудник, зачастую трудно сразу сформулировать с помощью поисковых запросов. Возможность исполнять запросы на естественном языке с последующим использованием технологии навигации в полученной подборке документов может дать новые результаты, поскольку исследование направляется полученной информацией, а не только знаниями эксперта.

Направления поиска


В одном из интервью Гари Флэйк, руководитель исследовательской лаборатории Yahoo!, сказал: «Если бы Web-поиск был совершенен, он бы выдавал ответ на каждый запрос, и это происходило бы так, будто на вопрос отвечает умнейший человек в мире, у которого есть под рукой вся справочная информация, и все это выполняется меньше, чем за мгновение». Пока же современные системы предоставляют визуальный интерфейс для анализа «препарированной» ими подборки документов, предоставляя аналитику выбор направления для дальнейшего анализа несколькими способами.

На рис. 1 (левый фрейм) представлен пример карты ключевых тем, полученной подборки, темы которой наилучшим образом (в математическом смысле — выделение в полученной подборке тем, имеющих максимальную дисперсию при определенном математическом ожидании) будут уточнять запрос, перемещая нужные темы в поле контекстного поиска.

Альтернативным способом поиска является поиск объектов и их взаимосвязей, выделенных автоматически из текста документов в фазе ETL-процесса. Этот способ позволяет исследовать связи объектов из документов без указания контекстного критерия на фильтрацию документов. Например, можно произвести поиск взаимосвязей объекта «Чейни» с другими объектами (рис. 2). Это можно использовать для навигации к нужным объектам, для получения и анализа документов о связях этих объектов. Дальнейшее развитие методов анализа связей объектов связано с решением задач типизации связей между объектами. В свою очередь, их решение ограничено качеством синтаксических анализаторов русского языка и тезаурусов.



Рис. 2. Навигация по сети объектов

Очень полезен метод навигации в подборке документов с использованием OLAP-технологии. Система «на лету» строит многомерное представление полученной подборки документов с измерениями из полей карточки: рубрики, авторы, дата публикации, источники и др. Аналитик может погружаться в элементы разных измерений (например, в регионы федерального округа), просматривать документы в ячейках с нужными значениями частот и др. Дополнительно могут использоваться общие методы анализа и прогноза данных. На рис. 3 показана схема получения списка публикаций из ячейки двумерного распределения публикаций по регионам и подрубрикам рубрики «Политика». Этот метод используется при анализе динамики публикаций и факторов, ее определяющих.

Автоматическое аннотирование


Открытые источники информации делают доступными огромное количество публикаций и тем самым ставят проблему эффективной работы с большими объемами документов. Предоставление сжатого смысла первоисточников в виде аннотаций в несколько раз повышает скорость анализа. Однако, наш опыт показывает, что аннотации — статичный результат, он используется при анализе «бумажных» документов, а при анализе коллекций электронных документов более наглядное и структурированное представление содержания одного или коллекции электронных документов дает интерактивная семантическая карта взаимосвязей тем документов. Современные системы аналитической обработки текстовой информации обладают средствами автоматического составления аннотаций. При этом существует два подхода к решению этой задачи [4].



Рис. 3. Пример двумерного частотного распределения публикаций о политических проблемах по регионам

В первом подходе программа-аннотатор извлекает из первоисточника небольшое количество фрагментов, в которых наиболее полно представлено содержание документа. Это могут быть предложения, содержащие термы запроса; фрагменты предложений с окружением термов несколькими словами и др. В более развитых системах выделяются предложения, прямо содержащие ключевые темы документа (но не кореферентные ссылки на них).

При втором подходе аннотация представляет собой синтезированный документ в виде краткого содержания. Аннотация, сформированная в соответствии с первым подходом, качественно уступает получаемой при синтезе. Для повышения качества аннотирования необходимо решить проблему обработки кореферентных ссылок в русском языке. Еще одной проблемой, возникающей при синтезе аннотаций, является отсутствие средств семантического анализа и синтеза текста на русском языке, поэтому сервисы аннотирования ориентированы либо на узкую предметную область, либо требуют участия человека.

Большинство программ-аннотаторов построены по принципу выделения фрагментов текста. Так, исследовательская система eXtragon [1] ориентирована на аннотирование Web-документов. Для каждого предложения документа вычисляется вес на основе информации о ключевых словах, значимых словосочетаниях, их месте в тексте и присутствии в запросе, после чего предложения ранжируются, и из нескольких фраз с максимальным весом составляется реферат. В системе «Аналитический курьер» аннотация документа автоматически формируется из его фрагментов, а ее объем зависит от главных тем документа и настроек. В аннотацию по объектам или проблемам могут включаться анафорические предложения документа. Кроме этого, имеется компонент создания общей аннотации на основе взаимосвязей тем в семантической сети этой подборки документов.