Рабочая программа по дисциплине Компьютерные технологии в лингвистическом образовании по направлению Филологические науки

Вид материалаРабочая программа

Содержание


Москва 2011_
Пояснительная записка
Основные цели и задачи дисциплины
Распределение часов учебных занятий по семестрам
Содержание дисциплины
II. Лингвистический процессор и модели парсинга.
III.Компьютерная лингвистика и интеллектуальные технологии.
IV. Корпусная лингвистика.
Nirenburg S. and Raskin V.
Ю.Д.Апресян, И.М.Богуславский, Л.Л.Иомдин
1) Raskin, Victor, Hempelmann, Christian F., Taylor Julia M.
Кибрик А.А., Добров Г.Б., Залманов Д.А.,Линник А.С., Лукашевич Н.В.
Suggested upper merge ontology (sumo)
Старостин А.С., Арефьев Н.В., Мальковский М.Г.
Недолужко А.Ю.
Важнейшая задача заключается в том, чтобы дать
Методические рекомендации по организации самостоятельной работы аспирантов в процессе изучения дисциплины
Примерный перечень вопросов к итоговому контролю
Подобный материал:
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Государственное образовательное учреждение высшего профессионального образования

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ

ИМЕНИ М.А. ШОЛОХОВА


УТВЕРЖДАЮ

Проректор по научной работе

_______________

«__»________200_г.


РАБОЧАЯ ПРОГРАММА


по дисциплине Компьютерные технологии в лингвистическом образовании


по направлению Филологические науки


10.02.01 – Русский язык

(специальности) (шифр и наименование направления, специальности)


Всего учебных часов 72


Всего аудиторных занятий, час. 18

Всего часов на самостоятельную работу аспиранта 54

Аттестация (3 семестр)


МОСКВА 2011_


Рабочая программа составлена на основании паспорта научной специальности 10.02.01 – Русский язык и учебного плана МГГУ им. М.А.Шолохова


Составители рабочей программы:


Проф., д.ф.н. Циммерлинг А.В.


Рабочая программа утверждена на заседании ученого совета филологического факультета

(наименование факультета)


Председатель ученого совета

«_11_»сентября 2011__г. _____________ Котовчихина Н.Д. _____________

(подпись) (Ф.И.О.)


СОГЛАСОВАНО:


Начальник Управления аспирантуры и докторантуры ______________ ____________

«___»_________2011_г. (подпись) Ромасевич О.А. (Ф.И.О.)


Пояснительная записка


Дисциплина «Компьютерные технологии в лингвистическом образовании» является факультативной дисциплиной 2-го года обучения в аспирантуре и входит в образовательную составляющую структуры программы послевузовского профессионального образования (ФД.А.01). Программа дисциплины разработана на основе паспорта научной специальности 10.02.01 – «Русский язык» и программы кандидатского экзамена по специальности «Русский язык». Дисциплина складывается из лекций, посвященных различным аспектам компьютерной лингвистики и корпусной лингвистики и ориентирует аспирантов на решение задач, требующих комплексного применения лингвистических методов и методов компьютерной лингвистики. Курс призван развить у аспирантов интерес к изучению взаимодействия компьютерных наук и лингвистики как смежных гуманитарных дисциплин и научить их правильно применять приложения компьютерной лингвистики к широкому кругу проблем, связанных с синтезом и анализом текста, автоматической обработкой текста и информационно-поисковыми системами.


Основные цели и задачи дисциплины


Цель данного курса - ознакомление студентов с потенциалом компьютерной лингвистики как дисциплины, возникшей на стыке вычислительной математики, кибернетики и теоретической лингвистики, и выработка у студентов навыков применения компьютерных технологий при решении конкретных задач прикладной линвгистики.

Задачи:

- знать предмет, цели и задачи изучаемой дисциплины;

- усвоить основные понятия и термины курса;

- предъявить систему понятий, показывающую важнейшие принципы компьютерной лингвистики и возможность ее приложений в информационных системах и практической деятельности прикладного лингвиста, состоящей в моделировании фрагментов естественного языка и создании формально-логических моделей, имеющих лингвистическую интерпретацию;

- ознакомить аспирантов с основными понятиями компьютерной лингвистики и принципами аннотирования корпусов текстов.


Распределение часов учебных занятий по семестрам


Название дисциплины

Вид учебной работы

Кол-во часов

Семестры

Аудитор

ные

Самост. работа

Компьютерные технологии в лингвистическом образовании

Лекции

18

54

3




Общий объем часов по дисциплине

18

54

72



Содержание дисциплины

  1. Вводная часть: Предмет и задачи математической лингвистики.

Математическая лингвистика, компьютерная лингвистика и компьютерные технологии. Основные этапы развития современной математической лингвистики и кибернетики с 1950-х гг. по настоящее время. Приложения компьютерной лингвистики в прикладных исследованиях. Понятия формального языка и формальной грамматики. Распознающие и порождающие грамматики. Классы формальных грамматик и их естественно-языковые соответствия. Неукорачивающие грамматики, грамматики непосредственных составляющих, контекстно-свободные грамматики, контекстно-зависимые грамматики. Категориальные грамматики. Структура подчинения и линеаризация. Синтаксические деревья и поддеревья. Грамматики зависимостей и грамматики составляющих. Древоприсоединяющие грамматики (Tree-adjoining grammars) Джоши и Минималистские грамматики Хомского и Стейблера. Мощность грамматики и проблема распознавания языков.

II. Лингвистический процессор и модели парсинга.

Уровневая структура естественного языка и лингвистический процессор. Модель «Смысл-Текст» как обоснование лингвистического процессора на основе грамматики зависимостей. Понятие автоматического (машинного) перевода. Системы «Этап», «Этап 2» и «Этап 3» и их применение для формализации русского языка. Понятия парсера и парсинга. Грамматически-ориентированные (grammar-driven) и корпусно-ориентированные (data-driven) модели парсера. Левое и правое ветвление синтаксической структуры. Понятие глубины памяти и гипотеза Ингве. Неоднозначные предложения и снятие омономии. Понятия перемещения поддерева (Move), слияния поддеревьев (Merge), скрэмблингов и Барьеров.


III.Компьютерная лингвистика и интеллектуальные технологии.

Информационно-поисковые системы. Понятия базы дазы данных и банка данных. Понятие информационно-поискового тезауруса. Структура статьи информационно-поискового тезауруса. Тезаурусы и базы данных в системах извлечения информации. Понятие языковой онтологии. Построение онтологии для фрагментов естественного языка. Компьютерная лингвистика и интеллектуальные технологии. Системы извлечения информации. (проходится на практических занятиях). Компьютерные технологии в распознавании речи. (проходится на практических занятиях, рекомендуется демонстрировать образцы работы компьютерных программ анализа речи). Синтез речи. Понятие речевого клона. (проходится на практических занятиях рекомендуется демонстрировать образцы работы компьютерных программ синтеза речи). Моделирование многофакторных процессов в языковой деятельности. Мультимодальные системы.

IV. Корпусная лингвистика.

Понятия корпуса текста. Аннотированные корпуса текстов естественных языков и их структура. Национальный корпус Русского языка, его структура и возможности навигации. Корпусная лингвистика и ее перспективы.


Лекционный курс



Порядковый номер лекции

Раздел, тема учебного курса, содержание лекции

Количество часов


1.


2.


3.


4.


5.


6.


7.


8.



Тема 1. Предмет и задачи математической лингвистики


1.1. Введение. Понятия математической лингвистики, кибернетики, и компьютерной лингвистики. Зарождение математической лингвистики в 1950-е гг. как новой научной дисциплины, находящейся на стыке теоретической лингвистики и теории формальных языков.

1.2. Выделение классов формальных грамматик и их естественно-языковые соответствий Н.Хомским в 1950-х. Мощность грамматики и проблема распознавания формальных и естественных языков. Нетривиальные лингвистические и математические свойства Неукорачивающих грамматик, грамматик непосредственных составляющих, контекстно-свободных грамматик, контекстно-зависимые грамматик, категориальных грамматик, грамматик с автоматной памятью. Проблема выделения в естественном языке ядра, соответствующего определенным классам формальных грамматик. Распознающие и порождающие грамматики. Категориальные грамматики.

1.3. Проблема полноты распознавания. Порождающая способность как основа языковой деятельности. Формализация естественного языка и поиск интуитивных соответствий классам формальных грамматик как основные направления развития математической лингвистики.

1.4. Понятия дерева подчинения и виды синтаксических деревьев. Грамматика зависимостей и грамматика составляющих как два основных способа представления дерева подчинения. Эквивалентность двух способов представления дерева подчинения. Соотношение линейного порядка и иерархической структуры. Бинарные проективные деревья составляющих и их линвгистические свойства. Феномен непроективности и его проявления в естественных языках. Совершенствование теории формальных грамматик и математической лингвистики в 1980-2010 гг.

1.5. Древоприсоединяющие грамматики (Tree-adjoining grammars) Джоши, и Минималистские грамматики Хомского и Стейблера. Понятия доминации, структурного приоритета, предшествования и непосредственного предшествования. Понятия перемещения поддерева (Move), слияния поддеревьев (Merge), скрэмблинга и Барьеров.


Тема 2. Лингвистический процессор и модели парсинга

2.1. Уровневая структура естественного языка и лингвистический процессор. Модель «Смысл-Текст» И.А.Мельчука – А.К.Жолковского как обоснование лингвистического процессора на основе грамматики зависи мостей.

2.2. Понятие автоматического (машинного) перевода. Системы «Этап», «Этап 2» и «Этап 3» и их применение для формализации русского языка. Достижения отечественных и зарубежных линвистов в сфере машинного перевода.

2.3. Понятия парсера и парсинга. Грамматически-ориентированные (grammar-driven) и корпусно-ориентированные (data-driven) модели парсинга. Левое и правое ветвление синтаксической структуры. Неоднозначные предложения и снятие омономии.

2.4. Понятие глубины памяти и гипотеза Ингве. Алгоритмы отбора правильной синтаксической структуры. Время решения как критерий эффективности парсинга. Машина Тьюринга. Полиноминальное время решения.


Тема 3. Компьютерная лингвистика и интеллектуальные технологии


3.1. Информационно-поисковые системы. Понятия базы дазы данных и банка данных. Реляционные базы данных и семантические сети. Глубинно-семантический уровень как семантическая сеть.

3.2. Понятие языковой онтологии. Предикатно-аргументные отношения как модель для построения языковой онтологии. Понятие информационно-поискового тезауруса. Отличие тезауруса от энциклопедического и толкового словаря. Структура статьи информационно-поискового тезауруса. Тезаурусы и базы данных в системах извлечения информации. Системы распознавания речи в прикладных исследованиях. Речевое портретирование.

3.3. Синтез речи: проблема выделения стандартных сегментных и супрасегментных блоков в корпусе текста. Речевые клоны и моделирование акцента. Сочетание лингвистических и статистических методов в интеллектуальных технологиях. Обучающие логические алгоритмы и тестирование систем.

3.4. Моделирование многофакторных процессов в языковой деятельности. Понятие мультимодальной системы. Применение виртуальных собеседников (роботов) в мультимодальных системах.

Тема 4. Корпусная лингвистика

4.1. Понятия корпуса текста и корпусной лингвистики. Аннотированные корпуса текстов естественных языков и их структура.

4.2. Национальный корпус Русского языка, его структура и возможности навигации. Соотношение традиционной и корпусной лингвистики.

4.3. Проблема языковой нормы и соотношения синхронного и диахронного срезов в корпусах текстов. Панхронические тенденции и статистическая оценка узуса.

4.4. Понятие морфологической дезамбигуации. Синтаксическая и прагматическая дезамбигуация предложений. Разрешение неоднозначности в корпусах текстов со снятой амбигуацией. Понятия лемм и тэгов, наиболее распространенные системы тэггинга.



6


4


5


3





Содержание и объем самостоятельной работы студентов


Разделы и темы рабочей программы самостоятельного изучения

Перечень домашних заданий и других вопросов для самостоятельного изучения

Сроки

выполнения

Объём часов

1

2

3

4

Тема 1. Математическая лингвистика и ее приложения.


Тема 2. Формальные грамматики и их естественно-языковые соответствия.


Тема 3. Лингвистический процессор


Тема 4. Языковые онтологии


Тема 5. Синтез речи и мультимодальные системы



Подготовка эссе на тему с конспектированием первоисточников: 1) Норберт Винер. Кибернетика, или управление и связь в животном и машине. 2-е изд., М., 1983; 2) Мельников Г.П. Системология и языковые аспекты кибернетики. М.: Советское радио, 1983. 3) А.В.Гладкий, И.А. Мельчук. Элементы математической лингвистики. М., Наука. 1969; 4) Тестелец Я.Г. Введение в общий синтаксис. М: РГГУ, 2001; 5) Хомский Н. Аспекты теории синтаксиса. Пер. с англ. М.: МГУ, 1972; 6) Математическая лингвистика. Отв. Ред. С.К.Шаумян. М., 1973; 7) Ч.Мидоу. Анализ информационных систем. М., Прогресс, 1977.

Перевод первоисточников: 1) Nirenburg S. and Raskin V. Ontological Semantics. Cambridge, MA: MIT Press, 2004; 2) Chomsky N. Rules and Representations, New York: Columbia University Press, 2005.


Реферирование: 1) Казенин К.И., Тестелец Я.Г. Исследование синтаксических ограничений в генеративной грамматике. // Фундаментальные направления современной американской лингвистики /А.А.Кибрик, И.М.Кобозева, И.А.Секерина. М: МГУ, 1997, С. 58-109; 2) А.В.Гладкий. Формальные грамматики и языки. М., Наука, 1973; 3) Язык и интеллект. Сб. Пер. с англ. и нем. Сост. и вступ.статья В.В.Петрова. М., Прогресс, 1996; 4) А.В.Гладкий, И.А. Мельчук. Элементы математической лингвистики. М., Наука. 1969; 5) Г.Е.Крейдлин, А.Д.Шмелев. Математика помогает лингвистике. Книга для учащихся. Серия «Мир Знаний». М., Просвещение, 1994; 6) Ковтунова И.И. Порядок слов в русском языке. М.: Наука, 1976.


Аннотированный обзор научной литературы по теме: 1) Лингвистический процессор для сложных информационных систем/ Ю.Д.Апресян, И.М.Богуславский, Л.Л.Иомдин и др. М., Наука, 1992; 2) Л.Л.Иомдин. Автоматическая обработка текста на естественном языке: модель согласования. М., Наука, 1990; 3) И.А.Мельчук. Русский язык в модели «Смысл – Текст». Москва-Вена: Языки славянской культуры, 1995; 4) О.С.Кулагина. Исследования по машинному переводу. М., Наука, 1979; 5) Ю.Д.Апресян, И.М.Богуславский, Л.Л.Йомдин, В.З.Санников. Теоретические проблемы русского синтаксиса. Взаимодействие грамматики и словаря.М., Языки славянских культур, 2010.


Подготовка докладов на предложенные темы на основе реферирования предложенных первоисточников: 1) Raskin, Victor, Hempelmann, Christian F., Taylor Julia M. Догадка или знание: два подхода к семантике при обработке естественного языка. // «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010, 642- 650; 2) 3) Кобозева И.М., Марушкина А.С. Онтология силовых процессов. // «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010, 192-199; 4) Лукашевич Н.В. Квазисинонимы в лингвистических онтологиях. // «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010 , 137-312.

Реферирование первоисточников: 1) А.Н.Баранов. Введение в прикладную лингвистику. М.: УРСС, 2003; 2) Б.М.Лобанов, Л.И.Цирульник. Компьютерный синтез и клонирование речи. Минск.: Белорусская наука, 2008;3) Норберт Винер. Кибернетика, или управление и связь в животном и машине. 2-е изд., М., 1983; 4) Кибрик А.А., Добров Г.Б., Залманов Д.А.,Линник А.С., Лукашевич Н.В. Референциальный выбор как многофакторный вероятностный процесс. «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010, 173-180.


Составление реферата и подготовка доклада по источникам: Кибрик А.А., Добров Г.Б., Залманов Д.А.,Линник А.С., Лукашевич Н.В. Референциальный выбор как многофакторный вероятностный процесс. «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010, 173-180.






6


8


10


12


10


5


3




Учебно-методические материалы по дисциплине


Основная литература
  • Ю.Д.Апресян, И.М.Богуславский, Л.Л.Йомдин, В.З.Санников. Теоретические проблемы русского синтаксиса. Взаимодействие грамматики и словаря.М., Языки славянских культур, 2010.
  • Б.М.Лобанов, Л.И.Цирульник. Компьютерный синтез и клонирование речи. Минск.: Белорусская наука, 2008.
  • А.Н.Баранов. Введение в прикладную лингвистику. М.: УРСС, 2003.
  • Норберт Винер. Кибернетика, или управление и связь в животном и машине. 2-е изд., М., 1983.
  • Мельников Г.П. Системология и языковые аспекты кибернетики. М.: Советское радио, 1983.
  • А.В.Гладкий, И.А. Мельчук. Элементы математической лингвистики. М., Наука. 1969.
  • Лингвистический процессор для сложных информационных систем/ Ю.Д.Апресян, И.М.Богуславский, Л.Л.Иомдин и др. М., Наука, 1992.
  • Л.Л.Иомдин. Автоматическая обработка текста на естественном языке: модель согласования. М., Наука, 1990.
  • И.А.Мельчук. Русский язык в модели «Смысл – Текст». Москва-Вена: Языки славянской культуры, 1995.
  • Математическая лингвистика. Отв. Ред. С.К.Шаумян. М., 1973.
  • Язык и интеллект. Сб. Пер. с англ. и нем. Сост. и вступ.статья В.В.Петрова. М., Прогресс, 1996.
  • Ч.Мидоу. Анализ информационных систем. М., Прогресс, 1977.
  • О.С.Кулагина. Исследования по машинному переводу. М., Наука, 1979.
  • «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010.
  • «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 8 (15). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2009.
  • «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 7 (14). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2008.
  • «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 6 (13). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2007.
  • «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 5 (12). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2006.
  • Stabler, E.: Derivational Minimalism. // LACL ’96: Selected Papers from the 1st International Conference on Logical Aspects of Computational Linguistics. Volume 1328 of Lecture Notes in Computer Science., London, UK, Springer-Verlag (1997) P. 68–95.
  • Chomsky, N.: The Minimalist Program. The MIT Press, Cambridge, USA (1995).
  • Chomsky, N.: Derivation by phase. //Kenstowicz, M., ed.: Ken Hale: A Life in Language. The MIT Press, Cambridge, USA (2001) 1–52
  • Kobele, G., Michaelis, J.: Two type 0-variants of Minimalist Grammars. Jäger, G., Monachesi, P., Penn, G., Wintner, S., eds.: FG-MOL 2005: Proceedings of the 10th conference on Formal Grammar and the 9th Meeting on Mathematics of Language, Edinburgh, Scotland (2005).
  • Frey, W., Gärtner, H.: On the treatment of scrambling and adjunction in

Minimalist Grammars. // Jäger, G., Monachesi, P., Penn, G., Wintner, S., eds.: Proceedings of the 7th Conference on Formal Grammar. (2002), 41–52.
  • Michaelis, J., Gärtner, H.: A note on countercyclicity and Minimalist Grammars. // Jäger, G., Monachesi, P., Penn, G., Wintner, S., eds.: Proceedings of the 8th Conference on Formal Grammar. (2003), 103–114.
  • Gärtner, H., Michaelis, J.: Some remarks on locality conditions and Minimalist Grammars. // Gärtner, H., Sauerland, U., eds.: Interfaces + Recursion = Language? Chomsky’s Minimalism and the View from Syntax and Semantics. Mouton de Gruyter, Berlin (2007), 161–195.
  • Champollion, L.: Lexicalized non-local MCTAG with dominance links is NP-complete. // Penn, G., Stabler, E., eds.: Proceedings of Mathematics of Language 10. CSLI On-Line Publications, UCLA (2007).
  • Sogaard, A., Lichte, T., Maier, W.: On the complexity of linguistically motivated extensions of tree-adjoining grammar. In: RANLP 2007: Proceedings of the Conference on Recent Advances in Natural Language Processing, Borovets, Bulgaria (2007).
  • Kübler, S., McDonald, R. and Nivre, J. (2009) Dependency Parsing. Morgan and Claypool.
  • Национальный корпус русского языка. ссылка скрыта


Дополнительная литература

  • Н.Хомский. Аспекты теории синтаксиса. Пер. с англ. М., МГУ, 1972.
  • С.В.Кодзасов, О.Ф.Кривнова. Общая Фонетика. М.:, РГГУ, 2001.
  • Н.В.Черемисина-Ениколопова. Законы и правила русской интонации. Учебное пособие. М.: Флинта, 1999.
  • Л.В.Бондарко, Л.А.Вербицкая, М.В.Гордина. Основы общей фонетики. 4-е изд. СПб., 2004.
  • А.В.Гладкий. Формальные грамматики и языки. М., Наука, 1973.
  • Г.Е.Крейдлин, А.Д.Шмелев. Математика помогает лингвистике. Книга для учащихся. Серия «Мир Знаний». М., Просвещение, 1994.
  • И.И.Ревзин, В.Ю.Розенцвейг. Основы общего и машинного перевода. М., 1964.
  • Основные направления структурализма. Отв. Ред. М.М.Гухман, В.Н.Ярцева. М., Наука, 1964.
  • Anna Wierzbicka. O Języku – dla wszystkich. Warsawa, 1967.
  • Raskin, Victor, Hempelmann, Christian F., Taylor Julia M. Догадка или знание: два подхода к семантики при обработке естественного языка. // «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010, 642- 650.
  • Nirenburg S. and Raskin V. Ontological Sematics. Cambridge, MA: MIT Press, 2004.
  • Кобозева И.М., Марушкина А.С. Онтология силовых процессов. // «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010, 192-199.
  • SUGGESTED UPPER MERGE ONTOLOGY (SUMO) ссылка скрыта. (SUMO)
  • ссылка скрыта (CYC)
  • ссылка скрыта (WordNet)
  • Епифанов М.А., Антонова А.Ю., Баталина А.М., Кобзарева Т.Ю. Итеративное применение алгоритмов снятия частеречной омонимии в русском тексте. // «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010119-123.
  • Лукашевич Н.В. Квазисинонимы в лингвистических онтологиях. // «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010 , 137-312.
  • Старостин А.С., Арефьев Н.В., Мальковский М.Г. Синтаксический анализатор «Treevial». Принцип динамического ранжирования гипотез. «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010, 477-490.
  • Michael I.Dehktyar, Alexander Ja. Dikovsky. Generalized Categorial Dependency Grammars // Pillars of Computer Science, 2008, P.230-255.
  • Carl Pollard, Ivan A.Sag. Head-Driven Phrase Structure Grammar. Chicago: University of Chicago Press, 1994.
  • Yorick Wilks. Is a Companion a distinctive kind of relationship with a machine? //«Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010, 659-668.
  • Wilks Y. (ed). Artificial Companions in Society: scientific, economic, psychological and philosophical perspective. Amsterdam: John Benjamins. 2010.
  • Кибрик А.А., Добров Г.Б., Залманов Д.А.,Линник А.С., Лукашевич Н.В. Референциальный выбор как многофакторный вероятностный процесс. «Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010, 173-180.
  • Недолужко А.Ю.Кореферентные отношения в тексте – сравнительный анализ размеченных данных. //«Компьютерная лингвистика и интеллектуальные технологии». Выпуск 9 (16). По материалам международной конференции «Диалог 2010». М., Изд-во РГГУ, 2010, 350-355.
  • Hajicova Eva и др. PDT 2.0- Guide, UFLA & GKL, 2006. ссылка скрыта.
  • De Groote, P., Morrill, G., Retoré, C., eds.: LACL ’01: Proceedings of the 4th International Conference on Logical Aspects of Computational Linguistics. Volume 2099 of Lecture Notes In Computer Science., London, UK, Springer-Verlag (2001).
  • Jäger, G., Monachesi, P., Penn, G., Wintner, S., eds.: FG-MOL 2005: Proceedings of the 10th conference on Formal Grammar and the 9th Meeting on Mathematics of Language, Edinburgh, Scotland (2005).
  • Harkema, H.: A characterization of Minimalist languages. // De Groote, P., Morrill, G., Retoré, C., eds.: LACL ’01: Proceedings of the 4th International Conference on Logical Aspects of Computational Linguistics. Volume 2099 of Lecture Notes In Computer Science., London, UK, Springer-Verlag (2001).193–211
  • Michaelis, J.: Transforming linear context-free rewriting systems into Minimalist Grammars. // De Groote, P., Morrill, G., Retoré, C., eds.: LACL ’01: Proceedings of the 4th International Conference on Logical Aspects of Computational Linguistics. Volume 2099 of Lecture Notes In Computer Science., London, UK, Springer-Verlag (2001). 228–244.
  • Michaelis, J.: An additional observation on strict derivational Minimalism.// Jäger, G., Monachesi, P., Penn, G., Wintner, S., eds.: FG-MOL 2005: Proceedings of the 10th conference on Formal Grammar and the 9th Meeting on Mathematics of Language, Edinburgh, Scotland (2005).
  • Michaelis, J.: Derivational Minimalism is mildly context-sensitive. //LACL ’98: Selected papers from the Third International Conference, on Logical Aspects of Computational Linguistics. Volume 2014 of Lecture Notes in Computer Science., London, UK, Springer-Verlag (2001) 179–198.
  • Nivre J. Inductive Dependency Parsing. Series “Text, Speech and Language Technology”, vol. 34. Springer Verlag, 2006.
  • Nivre, J. (2008) Algorithms for Deterministic Incremental Dependency Parsing. Computational Linguistics 34(4), 513-553.
  • Nivre, J. (2010) Dependency Parsing. Language and Linguistics Compass 4(3), 138-152.
  • Pettersson, N., Löwe, W. and Nivre, J. (2010) Evaluation of Accuracy in Design Pattern Occurrence Detection. IEEE Transactions on Software Engineering 36(4), 575-590.



Методические указания к проведению аудиторных

(лекционных) занятий


Данный курс имеет междисциплинарный характер. Аспирант, прослушавший дисциплину, должен, прежде всего, правильно выделять проблемы вычислительных наук (математики, кибернетики, логики), решение которых требует комплексного подхода с применением лингвистических методов. Он также должен овладеть ключевыми понятиями современной математической лингвистики: понятиями формального языка, формальной грамматики, лингвистического процессора, уровня представления, машинного перевода, информационно-поискового тезауруса, языковой онтологии, анализа речи, синтеза речи, парсера и парсинга, базы данных, банка данных, корпуса текстов, леммы, тэггинга, дезамбигуации.

Вузовская лекция является ведущим компонентом системы образования. Педагогическое сотрудничество на лекции имеет своей целью превращение аспирантов в соавторов преподавателя. Лекция - это сотворчество, совместное мышление, партнерство, когда слушатели, по заданию или самостоятельно, могут высказать свою точку зрения, свои суждения, сформулировать гипотезу, предложить свой вариант решения.

Лекция должна активизировать полемику, диспуты, раздумья, желание узнать больше о преподаваемой науке.

Лекция должна реализовывать систематизирующую функцию. Преподаватель должен не только давать конкретную информацию по предмету, но и обучать аспиранта методологии получения информации, объяснять внутреннюю логику науки, давать четкую систему знаний.

Одним из перспективных видов обучения аспирантов является проблемное обучение. Смысл проблемного обучения – в стимулировании поисковой деятельности аспиранта. Структурными единицами проблемного обучения являются проблемный вопрос, проблемная задача и проблемная ситуация.

Проблемная лекция – это постановка научных проблем и организация совместного с аспирантами поиска путей, средств и методов их решения.

Логические звенья конструирования проблемной лекции – постановка проблемного вопроса, формулировка проблемной задачи или создание проблемной ситуации; анализ проблемы; выдвижение гипотезы, выбор средств ее проверки и обоснования, поиск путей и способов ее подтверждения или опровержения.

При проведении аудиторных занятий необходимо активизировать внимание аспирантов на базовых понятиях курса, таких, как понятия формального языка, формальной грамматики, лингвистического процессора, древесной структуры подчинения, парсинга, зависимости, синтаксической составляющей, анализа и синтеза текста, синонимических преобразований, корпуса текста, леммы, дезамбигуации, информационно-поискового тезауруса, денотативного анализа ситуации.

Важнейшая задача заключается в том, чтобы дать правильно вычленять проблемы компьютерных наук (математической лингвистики, формальной грамматики) и компьютерных технологий (извлечение и структирование информации, создание поисковых баз данных, онтологий и тезаурусов предметных областей, машинный перевод, парсинг, создание корпусов текстов, аннотирование корпусов текстов, морфологическая и синтаксическая дезамбигуация, создание электронных словарей и электронных переводчиков, разработка и стандартизация специальной терминологии), которых требует комплексного подхода с применением аппарата современной лингвистики. Он также должен овладеть ключевыми понятиями современной компьютерной лингвистики: понятиями формального языка, формальной грамматики, лингвистического процессора, древесной структуры подчинения, парсинга, зависимости, синтаксической составляющей, анализа и синтеза текста, синонимических преобразований, корпуса текста, леммы, дезамбигуации, информационно-поискового тезауруса, денотативного анализа ситуации, реляционных баз данных, синтеза речи.


Методические рекомендации по организации самостоятельной работы аспирантов в процессе изучения дисциплины


Основной формой работы аспиранта является не только работа на лекции, изучение конспекта лекций, их дополнение рекомендованной литературой, но и большая самостоятельная научно-исследовательская работа, которая позволит глубоко проникнуть в суть рассматриваемой проблемы и подготовить почву для написания кандидатской диссертации. Но для успешной учебно-научной, научно-исследовательской деятельности, ее интенсификации необходимо учитывать следующие субъективные факторы:

1. Знание программного материала, наличие прочной системы знаний, необходимой для усвоения основных дисциплин, предусмотренных программой послевузовского профессионального образования.

2. Наличие выработанных умений, навыков умственного труда:

а) умение делать глубокий, обстоятельный анализ при работе с книгой, диссертацией, Интернет-источниками;

б) владение логическими операциями: сравнение, анализ, синтез, обобщение, определение понятий, правила систематизации и классификации.

3. Специфика познавательных психических процессов: внимание, память, речь, наблюдательность, интеллект и мышление.

4. Хорошая работоспособность, которая обеспечивается нормальным физическим состоянием.

5. Соответствие избранной деятельности, профессии индивидуальным способностям. Необходимо выработать умение саморегулировать свое эмоциональное состояние и устранять обстоятельства, нарушающие деловой настрой, мешающие намеченной работе.

6. Овладение оптимальным стилем работы, обеспечивающим успех в деятельности.

7. Уровень требований к себе, определяемый сложившейся самооценкой.

Адекватная оценка знаний, достоинств, недостатков - важная составляющая самоорганизации человека, без нее невозможна успешная работа по управлению своим поведением, деятельностью.

По наблюдениям исследователей педагогов, одна из основных особенностей обучения в аспирантуре заключается в том, что постоянный внешний контроль заменяется самоконтролем, активная роль в обучении принадлежит уже не столько преподавателю, сколько аспиранту.

Зная основные методы научной организации умственного труда, можно при наименьших затратах времени, средств и трудовых усилий достичь наилучших результатов.

Эффективность усвоения поступающей информации зависит от работоспособности человека в тот или иной момент его деятельности.

Работоспособность - способность человека к труду с высокой степенью напряженности в течение определенного времени. Различают внутренние и внешние факторы работоспособности.

К внутренним факторам работоспособности относятся интеллектуальные особенности, воля, состояние здоровья.

К внешним:

- организация рабочего места, режим труда и отдыха;

- уровень организации труда - умение получить справку и пользоваться информацией;

- величина умственной нагрузки.

Отдых не предполагает обязательного полного бездействия со стороны человека, он может быть достигнут простой переменой дела. В течение дня работоспособность изменяется. Наиболее плодотворным - является утреннее время (с 8 до 14 часов), причем максимальная работоспособность приходится на период с 10 до 13 часов, затем послеобеденное - (с 16 до 19 часов) и вечернее (с 20 до 24 часов). Очень трудный для понимания материал лучше изучать в начале каждого отрезка времени (лучше всего утреннего) после хорошего отдыха. Через 1-1,5 часа нужны перерывы по 10 - 15 мин, через 3 - 4 часа работы отдых должен быть продолжительным - около часа.

Составной частью научной организации умственного труда является овладение техникой умственного труда.

Физически здоровый молодой человек, обладающий хорошей подготовкой и нормальными способностями, должен, будучи аспирантом, отдавать учению 9-10 часов в день (из них 6 часов в вузе или библиотеке и 3 - 4 часа дома). Любой предмет нельзя изучить за несколько дней перед экзаменом (зачетом). Если аспирант в году работает систематически, то он быстро все вспомнит, восстановит забытое. Если же подготовка шла аврально, то у аспиранта не будет даже общего представления о предмете, он забудет все сданное.

Следует взять за правило: работать ежедневно.

Время, которым располагает аспирант для выполнения учебного плана, складывается из двух составляющих: одна из них - это аудиторная работа в аспирантуре по расписанию занятий, другая - внеаудиторная самостоятельная работа. Задания и материалы для самостоятельной работы выдаются во время аудиторных занятий по расписанию или во время индивидуальных консультаций. Преподаватель оказывает помощь аспирантам, если это требуется, по правильной организации работы.

Самостоятельная работа с учебниками и книгами (а также самостоятельное теоретическое исследование проблем, обозначенных преподавателем на лекциях) – это важнейшее условие формирования у себя научного способа познания. Основные советы здесь можно свести к следующим:

• Составить перечень книг, с которыми Вам следует познакомиться.

• Сам такой перечень должен быть систематизированным (что необходимо для семинаров, что для экзаменов, что пригодится для написания курсовых и дипломных работ, а что Вас интересует за рамками официальной учебной деятельности, то есть что может расширить Вашу общую культуру...).

• Обязательно выписывать все выходные данные по каждой книге - при написании диссертационной работы (составлении библиографии) это позволит очень сэкономить время.
• Разобраться для себя, какие книги (или какие главы книг) следует прочитать более внимательно, а какие – просто просмотреть.

• При составлении перечней литературы следует посоветоваться с преподавателями и научными руководителями (или даже с более подготовленными и эрудированными коллегами), которые помогут Вам лучше сориентироваться, на что стоит обратить большее внимание, а на что вообще не стоит тратить время.

•Естественно, все прочитанные книги, учебники и статьи следует конспектировать, но это не означает, что надо конспектировать «все подряд»: можно выписывать кратко основные идеи автора и иногда приводить наиболее яркие и показательные цитаты (с указанием страниц).

• Если книга – Ваша собственная, то допускается делать на полях книги краткие пометки или же в конце книги, на пустых страницах просто сделать свой «предметный указатель», где отмечаются наиболее интересные для Вас мысли и обязательно указываются страницы в тексте автора (это очень хороший совет, позволяющий экономить время и быстро находить «избранные» места в самых разных книгах).

• Если Вы раньше мало работали с научной литературой, то следует выработать в себе способность «воспринимать» сложные тексты; для этого лучший прием – научиться «читать медленно», когда Вам понятно каждое прочитанное слово (а если слово незнакомое, то либо с помощью словаря, либо с помощью преподавателя обязательно его узнать), и это может занять немалое время (у кого-то – до нескольких недель и даже месяцев); опыт показывает, что после этого магистр каким-то «чудом» начинает буквально заглатывать книги и чуть ли не видеть «сквозь обложку», стоящая это работа или нет...

• «Либо читайте, либо перелистывайте материал, но не пытайтесь читать быстро... Если текст меня интересует, то чтение, размышление и даже фантазирование по этому поводу сливаются в единый процесс, в то время как вынужденное скорочтение не только не способствует качеству чтения, но и не приносит чувства удовлетворения, которое мы получаем, размышляя о прочитанном», – советует Г. Селье.

• Есть еще один эффективный способ оптимизировать знакомство с научной литературой – следует увлечься какой-то идеей и все книги просматривать с точки зрения данной идеи. В этом случае молодой ученый будет как бы искать аргументы «за» или «против» интересующей его идеи, и одновременно он будет как бы общаться с авторами этих книг по поводу своих идей и размышлений... Проблема лишь в том, как найти «свою» идею...

Чтение научного текста является частью познавательной деятельности. Ее цель – извлечение из текста необходимой информации. От того на сколько осознанна читающим собственная внутренняя установка при обращении к печатному слову (найти нужные сведения, усвоить информацию полностью или частично, критически проанализировать материал и т.п.) во многом зависит эффективность осуществляемого действия.

Выделяют четыре основные установки в чтении научного текста:
  1. информационно-поисковый (задача – найти, выделить искомую информацию)
  2. усваивающая (усилия читателя направлены на то, чтобы как можно полнее осознать и запомнить как сами сведения излагаемые автором, так и всю логику его рассуждений)
  3. аналитико-критическая (читатель стремится критически осмыслить материал, проанализировав его, определив свое отношение к нему)
  4. творческая (создает у читателя готовность в том или ином виде – как отправной пункт для своих рассуждений, как образ для действия по аналогии и т.п. – использовать суждения автора, ход его мыслей, результат наблюдения, разработанную методику, дополнить их, подвергнуть новой проверке).


С наличием различных установок обращения к научному тексту связано существование и нескольких видов чтения:

1) библиографическое – просматривание карточек каталога, рекомендательных списков, сводных списков журналов и статей за год и т.п.;

2) просмотровое – используется для поиска материалов, содержащих нужную информацию, обычно к нему прибегают сразу после работы со списками литературы и каталогами, в результате такого просмотра читатель устанавливает, какие из источников будут использованы в дальнейшей работе;

3) ознакомительное – подразумевает сплошное, достаточно подробное прочтение отобранных статей, глав, отдельных страниц, цель – познакомиться с характером информации, узнать, какие вопросы вынесены автором на рассмотрение, провести сортировку материала;

4) изучающее – предполагает доскональное освоение материала; в ходе такого чтения проявляется доверие читателя к автору, готовность принять изложенную информацию, реализуется установка на предельно полное понимание материала;

5) аналитико-критическое и творческое чтение – два вида чтения близкие между собой тем, что участвуют в решении исследовательских задач. Первый из них предполагает направленный критический анализ, как самой информации, так и способов ее получения и подачи автором; второе – поиск тех суждений, фактов, по которым или в связи с которыми, читатель считает нужным высказать собственные мысли.

Из всех рассмотренных видов чтения основным для аспирантов является изучающее – именно оно позволяет в работе с учебной, научной литературой накапливать знания в различных областях. Вот почему именно этот вид чтения в рамках учебно-научной, научно-исследовательской деятельности должен быть освоен в первую очередь. Кроме того, при овладении данным видом чтения формируются основные приемы, повышающие эффективность работы с научным текстом.

Основные виды систематизированной записи прочитанного:
  1. Аннотирование – предельно краткое связное описание просмотренной или прочитанной книги (статьи), ее содержания, источников, характера и назначения;
  2. Планирование – краткая логическая организация текста, раскрывающая содержание и структуру изучаемого материала;
  3. Тезирование – лаконичное воспроизведение основных утверждений автора без привлечения фактического материала;
  4. Цитирование – дословное выписывание из текста выдержек, извлечений, наиболее существенно отражающих ту или иную мысль автора;
  5. Конспектирование – краткое и последовательное изложение содержания прочитанного.

Конспект – сложный способ изложения содержания книги или статьи в логической последовательности. Конспект аккумулирует в себе предыдущие виды записи, позволяет всесторонне охватить содержание книги, статьи. Поэтому умение составлять план, тезисы, делать выписки и другие записи определяет и технологию составления конспекта.


Если в процессе самостоятельной работы над изучением теоретического материала или при решении задач у аспиранта возникают вопросы, разрешить которые самостоятельно не удается, необходимо обратиться к преподавателю или научному руководителю для получения у него разъяснений или указаний. В своих вопросах аспирант должен четко выразить, в чем он испытывает затруднения, характер этого затруднения. За консультацией следует обращаться и в случае, если возникнут сомнения в правильности ответов на вопросы самопроверки.


Примерный перечень вопросов к итоговому контролю

  1. Предмет математической лингвистики. Отношение математической лингвистики к лингвистике и математике.
  2. Понятие алгоритма и вычислительной системы. Алгоритмически заданные языки.
  3. Понятия формального языка и формальной грамматики.
  4. Понятия базового и вспомогательного словаря в формальных языках.
  5. Классы формальных языков: неукорачивающие грамматики и грамматики непосредственных составляющих.
  6. Контекстно-свободные грамматики и контекстно-зависимые грамматики. КС-правила и КЗ-правила.
  7. Понятие проективности. Проективные и непроективные высказывания.
  8. Понятия графа и синтаксического дерева. Дерево зависимостей и дерево составляющих как два эквивалентные способа представления синтаксической структуры.
  9. Мягко-контекстно зависимые грамматики.
  10. Минималистские грамматики Н.Хомского и Н.Стейблера.
  11. Понятие лингвистического процессора. Уровни представления языка в лингвистическом процессоре.
  12. Модель «Смысл –Текст» как теория лингвистического процессора.
  13. Понятие машинного (автоматического) перевода.
  14. Общая характеристики лингвистических процессоров класса «Этап».
  15. Поверхностно-синтаксические отношения (ПСО) и разметка связей в тексте.
  16. Понятия сегментации текста, парсера и парсинга.
  17. Основные модели морфологического и синтаксического парсинга.
  18. Грамматически-ориентированные и текстуально-ориентированные модели парсинга.
  19. Понятия оперативной памяти и глубины памяти.
  20. Понятие ветвления и гипотеза Ингве. Левое и правое ветвление.
  21. Понятия базы данных и банка данных.
  22. Понятие семантической сети и его применение в компьютерной лингвистике.
  23. Информационно-поисковые системы и языки запросов.
  24. Гипотеза языковой относительности Сэпира-Уорфа.
  25. Понятие языковой онтологии. Онтологии высшего и среднего уровня.
  26. Общая характеристика систем WordNet и SUMO.
  27. Понятие информационно-поискового тезауруса. Структура статьи информационно-поискового тезауруса.
  28. Компьютерные технологии анализа речи и их применение.
  29. Компьютерные технологии синтеза речи.
  30. Клонирование сегментов и суперсегментных единиц.
  31. Понятие многофакторного вероятностного процесса. Моделирование многофакторных процессов в компьютерных технологиях.
  32. Диалоговые системы с виртуальными участниками (роботами).
  33. Мультимодальные системы в компьютерных технологиях.
  34. Понятия корпуса текста и корпусной лингвистики.
  35. Варьирование языка с точки зрения корпусной лингвистики.
  36. Панхронические тенденции развития языки и их статистическая оценка.
  37. Морфологическая и синтаксическая дезамбигуация в корпусе текста.
  38. Понятия леммы и аннотации. Принятые системы тэггинга в аннотированных корпусах текстов.
  39. Национальный корпус русского языка. Его состав, структура и возможности навигации.
  40. Многоязычные корпуса текстов и их особенности.