Рабочая программа Наименование дисциплины Алгоритмы и методы компьютерной лингвистики По направлению подготовки

Вид материалаРабочая программа

Содержание


По профилю подготовки
Индекс по учебному плану
Форма Обучения
Знать: Методы компьютерной лингвистики применительно к обработке текстов на естественном языке. Уметь
Владеть: Методами анализа текстов на естественном языке. 5.
Аудиторные занятия (всего)
Самостоятельная работа (всего)
Другие виды самостоятельной работы
6.2 Разделы дисциплины и междисциплинарные связи с обеспечиваемыми (последующими) дисциплинами
6.3. Разделы дисциплин и виды занятий
Подобный материал:
М

ИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ


РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ




Государственное образовательное учреждение высшего профессионального образования

«МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПЕЧАТИ»

УТВЕРЖДАЮ



Проректор по учебной работе

_______ Т.В. Маркелова


«_____» __________2011 г.


рабочая программа




Наименование дисциплины

Алгоритмы и методы компьютерной лингвистики

По направлению подготовки 230400 - Информационные системы и технологии


По профилю подготовки

Информационные системы и технологии

(указывается наименование профиля в соответствии с ПрООП)


Факультет Информационных технологий и медиасистем


Кафедра Информационные системы


Квалификация (степень) выпускника бакалавр

Москва — 2011


Разработчики:


Профессор к.т.н., доцент Чеповский А.М.

(занимаемая должность) (учёная степень и учёное звание) (инициалы, фамилия)


Рецензенты:


Зав. кафедрой МГТУ "Станкин" д.т.н., проф. Ковшов Е.Е.

(занимаемая должность) (учёная степень и учёное звание) (инициалы, фамилия)


Доцент к.т.н., доцент Зайнудинов С.З.

(занимаемая должность) (учёная степень и учёное звание) (инициалы, фамилия)



    Рабочая программа обсуждена на заседании кафедры «___________________________________________________________»

    (дата) ____________ 201 г, протокол № .

    Зав. кафедрой ________________/ /

    Одобрена Советом факультета _________________________________

    (дата) ____________ 201 г, протокол №

    Председатель______________/ /






Индекс по учебному плану

Цикл

Компонент

Базовая часть

вариативная часть

по выбору студента

Б2.Выб2

Гуманитарный и социальный

и экономический цикл










Математический и естественнонаучный цикл







Х

Профессиональный цикл













Форма

Обучения

курс

семестр

Трудоемкость дисциплины в часах

Форма

итогового

контроля

Всего часов

Аудиторных часов

Лекции

Семинарские (практически) занятия

Лабораторные занятия

Курсовая

Работа (проект)

Самостоятельная работа

Очная


3

5

108

51

34




17




57

Экзамен

Очно-заочная































Заочная


































1. Цели и задачи дисциплины:


Освоение методов и алгоритмов компьютерной лингвистики применительно к задачам обработки текстовой информации в информационных системах.



2. Место дисциплины в структуре ООП


Данная учебная дисциплина входит в раздел «Б.2.Математические и естественнонаучные дисциплины. Пункт Б2.Выб2 Вариативная часть» ФГОС по направлению подготовки ВПО «Информационные системы и технологии».

Данная учебная дисциплина взаимосвязана с другими дисциплинами, входящими в модуль Б.2. Математический, естественнонаучный цикл ФГОС по направлению подготовки ВПО «Информационные системы и технологии», а именно: «Математика», «Информатика», «Основы современных алгоритмов».

Для направления «Информационные системы и технологии» курс «Алгоритмы и методы компьютерной лингвистики» является математической дисциплиной. Курс базируется на самых различных отраслях знаний и научных выводах математики и информатики. Изучением дисциплины достигается формирование у специалистов представления о взаимосвязи основных моделей компьютерной лингвистики с алгоритмами и методами реализации программ в современных информационных системах.

_______________________________________________________________________

(указывается цикл, к которому относится дисциплина; формулируя требования к входным знаниям, умениям и компетенциям студента, необходимым для ее изучения; определяются дисциплины, для которых данная дисциплина является предшествующей)

  1. Требования к результатам освоения дисциплины


Данная дисциплина способствует формированию следующих компетенций, предусмотренных ФГОС по направлению подготовки «Информационные системы и технологии»:

а) общекультурные (ОК):
  • Готовность использовать основные законы естественнонаучных дисциплин в профессиональной деятельности, применять методы математического анализа и моделирования, теоретического и экспериментального исследования (ОК-10);


б) профессиональные (ПК):

    Проектно-конструкторская деятельность:
  • Способность проводить моделирование процессов и систем (ПК-5);
  • Готовность разрабатывать, согласовывать и выпускать все виды проектной документации (ПК–10).

    Проектно-технологическая деятельность:
  • Способность разрабатывать средства реализации информационных технологий (методические, информационные, математические, алгоритмические, технические и программные) (ПК-12);

    Производственно-технологическая деятельность:
  • Способность использовать технологии разработки объектов профессиональной деятельности в полиграфии и издательском бизнесе (ПК-18);

    Организационно-управленческая деятельность:
  • Готовность осуществлять организацию контроля качества входной информации (ПК-22);

    Научно-исследовательская деятельность:
  • Способность обосновывать правильность выбранной модели, сопоставляя результаты экспериментальных данных и полученных решений (ПК-25);
  • Готовность использовать математические методы обработки, анализа и синтеза результатов профессиональных исследований (ПК-26);
  • Способность оформлять полученные рабочие результаты в виде презентаций, научно-технических отчетов, статей и докладов на научно-технических конференциях (ПК–27).

    Инновационная деятельность:

    Монтажно-наладочная деятельность:





  1. Объем дисциплины и виды учебной работы

    ____________________________________________________________________________ (указываются в соответствии с ФГОС ВПО)

В результате освоения дисциплины обучающийся должен:



    Знать:

    Методы компьютерной лингвистики применительно к обработке текстов на естественном языке.

    Уметь:

    Определять различные вероятностные характеристики текстов на естественном языке. Строить различного типа словари и методы их использования.

    Владеть:

    Методами анализа текстов на естественном языке.


5. Объем дисциплины и виды учебной работы


Общая трудоемкость дисциплины составляет ___3________ зачетных единиц.


Вид учебной работы

Всего часов

Семестры

5










Аудиторные занятия (всего)

51

51










В том числе:




-

-

-

-

Лекции

34

34










Практические занятия (ПЗ)
















Семинары (С)
















Лабораторные работы (ЛР)

17

17










Самостоятельная работа (всего)

57

57










В том числе:

-

-

-

-

-

Курсовой проект (работа)
















Расчетно-графические работы

21

21










Реферат
















Другие виды самостоятельной работы

36

36




























Вид промежуточной аттестации (зачет, экзамен)

экзамен

Экз










Общая трудоемкость час

зач. ед.

108

108










3

3











6. Содержание дисциплины


6.1. Содержание разделов дисциплины



№ п/п

Наименование раздела дисциплины

Содержание раздела

1.

Введение

Цели и проблемы компьютерной лингвистики. Основные задачи и методологич их решения. История возникновения и развития компьютерной лингвистики.

2.

Информационные измереня в текстах на естественном языке

Энтропия лингвистического эксперимента. Определение количества информации в текстах на естественном языке. Контекстная обусловленность и избыточность текста. Измерение смысловой информации в тексте.

3.

Статистические законы для лингвистических величин.

Частотные характеристики словника. Закон Зипфа. Закон Мандельброта. Смысловые интерпретации законов, описывающих частотные характеристики словарей и их универсальность в задачах информатики.

4.

Корпусная лингвистика

Возникновение и развитие корпусной лингвистики. Разметка корпусов текстов. Теоретические вопросы корпусной лингвистики. Противопоставление корпусной и когнитивной лингвистик. Применение в задачах автоматической обработки текстов.

5.

Вероятностные методы оценки естественных языков

Вероятностные характеристики словоупотреблений в текстах на естественных языках. Степени аналитичности и синтетичности языков. Лингвистическая типология в компьютерной лингвистике.

6.

Морфологические модели

Морфологический разбор слов естественного языка. Модели построения компьютерных морфологий. Словарные морфологии, модели и проблемы их использования. Аналитические методы морфологического разбора приавтоматической обработки текстов. Теория «Смысл-текст». Лексические функции.

7.

Электронные словари

Организация электронных словарей. Эффективные алгоритмы и форматы хранения словарей. Пословные переводчики. Псевдоморфология в задаче поиска по словарю.

8.

Синтаксические модели

Задача синтаксического разбора. Фрагментация. Эврестические алгоритмы фрагментации. Синтаксический граф предложения на естественном языке и проблема множественности.

9.

Семантический анализ текстов

Семантический и синтаксический граф предложения на естественном языке и проблема множественности. Задача выделения смысла текста. Функциональные модели описания естественного языка.

10.

Задача автоматического перевода текстов на естественых языкх

Автоматический перевод текстов с одного естественного языка на другой как центральная проблема компьютерной лингвистики. Математические аспекты: алгоритм Кока. Различные типы систем машинного перевода.

11.

Заключение

Перспективы развития систем искусственного интелекта для анализа текстов на естественном языке.

(Содержание указывается в дидактических единицах. По усмотрению разработчиков материал может излагаться не в форме таблицы)


6.2 Разделы дисциплины и междисциплинарные связи с обеспечиваемыми (последующими) дисциплинами


№ п/п

Наименование обеспе-чиваемых (последую-щих) дисциплин

№ № разделов данной дисциплины, необходимых для изучения обеспечиваемых (последующих) дисциплин

1

2

3

4

5

6

7







1.

Интеллектуальные информационные системы и технологии

Х

Х

Х

Х

Х

Х

Х







2.

Корпоративные информационные системы




Х

Х

Х

Х

Х

Х







3.

Управление информационными ресурсами













Х

Х

Х







4.

Управление программными проектами













Х

Х

Х








6.3. Разделы дисциплин и виды занятий



№ п/п

Наименование раздела дисциплины

Лекц.

Практ.

зан.

Лаб.

зан.

Семин

СРС

Все-го

час.

1.

Введение

3




1




5

9

2.

Информационные измереня в текстах на естественном языке

3




2




5

10

3.

Статистические законы для лингвистических величин.

3




2




5

10

4.

Корпусная лингвистика

3




2




6

11

5.

Вероятностные методы оценки естественных языков

3




2




5

10

6.

Морфологические модели

3




1




5

9

7.

Электронные словари

3




1




5

9

8.

Синтаксические модели

3




2




5

10

9.

Семантический анализ текстов

3




2




5

10

10.

Задача автоматического перевода текстов на естественых языкх

3




2




5

10

11.

Заключение

4










6

10


7. Лабораторный практикум


№ п/п

№ раздела дисциплины

Тематика практических занятий (семинаров)

Трудо-емкость

(час.)

1.

Введение

Основные понятия лигвистики, используемые в компьютерной лингвистики

1

2.

Информационные измереня в текстах на естественном языке

Вычисление информационных характеристик слов и текстов

2

3.

Статистические законы для лингвистических величин.

Построение закона Зипфа для словарей. Подбор параметров закона Мандельброта для заданных частотных характеристик.

2

4.

Корпусная лингвистика

Изучение корпусов текстов различных языков в сети Интернет.

2

5.

Вероятностные методы оценки естественных языков

Определение степени аналитичности заданного языка.

2

6.

Морфологические модели

Построение морфологического словаря. Аналитический разбор слов для русского и английского языков.

1

7.

Электронные словари

Разработка форматов хранения словарей и псевдоморфологий для различных естественных языков.

1

8.

Синтаксические модели

Построение примеров фрагментации предложений русского языка.

2

9.

Семантический анализ текстов

Построение семантических графов предложений на естественном языке.

2

10.

Задача автоматического перевода текстов на естественых языкх

Построение функциональных схем автоматических и полуавтоматических переводчиков, автоматизированных мест переводчиков.

2



8. Практические занятия не предусмотрены


9. Примерная тематика курсовых работ (проектов) не предусмотрена


10. Учебно-методическое и информационное обеспечение дисциплины:


а) Основная литература
  1. Баранов А.Н. Введение в прикладную лингвистику. — М.:Изд-во ЛКИ, 2007. — 360 с.
  2. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. — М.: Издательский центр «Академия», 2006 — 304 с.
  3. Марчук Ю.Н. Компьютерная лингвистика. – М.: АСТ: Восток-Запад, 2007. – 317.
  4. Осипов Г.С. Приобретение знаний интеллектуальными системами. — М.: Наука. Физматлит, 1997. — 112 с.
  5. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. – М.: Высшая школа, 1977. — 383 с.


б) Дополнительная
  1. Очерки истории информатики в России./Редакторы-составители Д.А.Поспелов, Я.И.Фет. — Новосибирск.: ОИГГМ СО РАН, 1998. — 664с.
  2. И.А.Мельчук Курс общей морфологии. Том. 1. — Москва-Вена: «Языки русской культуры», Венский славистический альманах, Издательская группа «Прогресс», 1997. — 416 с.
  3. Ю.Д.Апресян Избранные труды, том 1. — М.: «Восточная литература» РАН, 1995. — 472 с.


в) Программное обеспечение и Интернет-ресурсы не предусмотрены


г) Базы данных, информационно-справочные и поисковые системы не предусмотрены


11. Материально-техническое обеспечение дисциплины:


Учебная дисциплина должна быть обеспечена учебно-методической документацией и материалами. Ее содержание должно быть представлено в сети Интернет или локальной сети вуза (факультета). Для обучающихся должна быть обеспечена возможность оперативного обмена информацией с отечественными и зарубежными вузами, предприятиями и организациями, обеспечен доступ к современным профессиональным базам данных, информационным справочным и поисковым системам.

Возможности доступа в Internet.

Компьютерный класс, оснащенный современными компьютерами (IBM PC или МАС) с лицензионным программным обеспечением.

Комплекс технических средств, позволяющих проецировать изображение из программ подготовки презентаций (экран, медиапроектор, Notebook).


12. Методические рекомендации по организации изучения дисциплины:


(указываются рекомендуемые модули внутри дисциплины или междисциплинарные модули, в состав которых она может входить, образовательные технологии, а также примеры оценочных средств для текущего контроля успеваемости и промежуточной аттестации)