Программа дисциплины «Модели корпусной лингвистики» для направления 010400. 68 «Прикладная математика и информатика»

Вид материалаПрограмма дисциплины

Содержание


Программа дисциплины «
Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разр
1.Цели освоения дисциплины
2.Компетенции обучающегося, формируемые в результате освоения дисциплины
Системные компетенции
Социально-личностные и общекультурные
3.Место дисциплины в структуре образовательной программы
4.Тематический план учебной дисциплины
5.Формы контроля знаний студентов
Критерии оценки знаний, навыков
6.Содержание дисциплины
Часть 2. Создание корпусов (14 лекций, 16 семинаров).
7.Образовательные технологии
8.Оценочные средства для текущего контроля и аттестации студента 8.1.Вопросы для оценки качества освоения дисциплины
Примеры заданий итогового контроля
9. Порядок формирования оценок по дисциплине
10. Учебно-методическое и информационное обеспечение дисциплины Основная литература
11.XML Corpus Encoding Standard Document XCES 0.2. // ssar.edu/XCES/
Подобный материал:

ссылка скрыта

НИУ ВШЭ – Нижний Новгород

Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра




Правительство Российской Федерации


Нижегородский филиал

Федерального государственного автономного образовательного учреждения высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"



Факультет бизнес-информатики и прикладной математики


Программа дисциплины «Модели корпусной лингвистики»


для направления 010400.68 «Прикладная математика и информатика»

подготовки магистра

Магистерская программа «Прикладная математика и информатика»

Специализация «Компьютерная лингвистика»


Автор программы:

Захаров В.П., к.ф.н., ИЛИ РАН, vs1311@yandex.ru

Cибирцева В.Г., к.ф.н., НИУ ВШЭ-Нижний Новгород, vsibirtseva@hse.ru


Одобрена на заседании кафедры прикладной лингвистики и межкультурной коммуникации «17» октября 2011г

Зав. кафедрой докт. филол.н., проф.В.Г.Зусман _______________________


Рекомендована секцией УМС «Общественные науки» «18» октября 2011 г

Председатель Т.И. Бикметова _______________________


Утверждена УМС НИУ ВШЭ – Нижний Новгород «___»_____________2011г.

Председатель Н.С. Петрухин ________________________


Нижний Новгород, 2011

Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы


  1. Область применения и нормативные ссылки

Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.

Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 010400.68 "Прикладная математика и информатика", обучающихся по магистерской программе "Прикладная математика и информатика", специализация «Компьютерная лингвистика», изучающих дисциплину.

Программа разработана в соответствии с:
  • образовательным стандартом НИУ ВШЭ для направления 010400.68 «Прикладная математика и информатика»;
  • Образовательной программой направления 010400.68 «Прикладная математика и информатика» (магистерская программа "Прикладная математика и информатика" специализация «Компьютерная лингвистика»).
  • Рабочим учебным планом университета по направлению подготовки 010400.68 «Прикладная математика и информатика» (магистерская программа "Прикладная математика и информатика" специализация «Компьютерная лингвистика»), утвержденным в 2011г.

1.Цели освоения дисциплины


Цель освоения дисциплины «Модели корпусной лингвистики» состоит в том, чтобы познакомить студентов с концепциями корпусной лингвистики, дать им возможность освоить основы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационных технологий.

2.Компетенции обучающегося, формируемые в результате освоения дисциплины


В результате обучения студент:


- должен знать:

основные понятия корпусных технологий

основные типы корпусов

понятие разметки

основные стандарты разметки

средства создания корпусов

основные имеющиеся корпуса

типы программных средств для работы с корпусами в целом

поисковые средства (конкордансеры и корпусные менеджеры)


- должен уметь:

работать с программами-менеджерами и конкордансерами

осуществлять поиск и исследования на базе корпусов.


В результате освоения дисциплины студент осваивает следующие компетенции (в соответствии с ФГОС по направлению подготовки 010400.68 «Прикладная математика и информатика»):

Компетенция

Код по ФГОС/ НИУ

Дескрипторы – основные признаки освоения (показатели достижения результата)

Формы и методы обучения, способствующие формированию и развитию компетенции

Системные компетенции:

-способен рефлексировать (оценивать и перерабатывать) освоенные научные методы и способы деятельности;.

- способен к самостоятельному освоению новых методов исследования;

- способен при необходимости выполнять и синтезировать недостающую информацию.



СК-М1


СК-М3


СК-М6

Способен к обобщению, анализу, восприятию информации



Формы обучения:

-лекции,

-семинарские занятия,

-самостоятельная работа,

-реферирование научной литературы.

Социально-личностные и общекультурные:

- способен разрешать мировоззренческие, социально и личностно значимые проблемы;

Инструментальные компетенции:

- способен анализировать и воспроизводить смысл междисциплинарных текстов с использованием языка и аппарата прикладной математики;

- способен публично представлять результаты профессиональной деятельности (в том числе с использованием информационных технологий);

- способен понимать и применять в исследовательской и прикладной деятельности современный математический аппарат;

- организовывать и проводить различные исследования с целью разработки и создания инновационных электронных языковых ресурсов (корпусов текстов, словарей, языковых баз данных);

- осуществлять мониторинг массивов информации, разрабатывать краткосрочные и долгосрочные прогнозы в различных предметных областях с использованием современных компьютерных инструментов лингвистического исследования;

- проводить компаративный анализ информации из разных предметных областей.




СЛК-М6


ИК-М2.1пми


ИК-М2.5


ИК-М7.3пми



Знает содержание основных понятий корпусной лингвистики,

методологию корпусного анализа


Сопоставляет информацию из разных предметных областей

Умеет разрабатывать экспертную шкалу оценки


Владеет методикой корпусного анализа


Использует методики для корпусного анализа лингвистических компонентов интеллектуальных и информационных электронных систем

Методы обучения:

-поисковые задачи,

-проблемные ситуации,

-проектирование (например, корпуса текстов),

-моделирование.



3.Место дисциплины в структуре образовательной программы


Настоящая дисциплина относится к блоку обязательных дисциплин программы (базовая часть) для направления «Прикладная математика и информатика» (1-й год обучения,1-2 модули). Основные положения дисциплины должны быть использованы одновременно и в дальнейшем при изучении следующих дисциплин: структуры и модели когнитивной лингвистики; основы компьютерной лингвистики.


4.Тематический план учебной дисциплины




Название раздела

Всего часов

Аудиторные часы

Самостоя­тельная работа

Лекции

Семинары

Практические занятия

1
              Введение в корпусную лингвистику.
              Обзор существующих корпусов различных типов.

24

6

2




16

2
              История создания корпусов.
              Зарубежные национальные корпусы. Корпусы русского языка. Специальные корпусы.

61

12

8




41

3
              Создание корпусов.
              Корпусные менеджеры. Корпус как поисковая система. Языки запросов. Выходные интерфейсы. Сравнительный анализ.

101

14

16




41

4
              Использование корпусов. Корпусные исследования. Лексические, грамматические, семантические исследования, базирующиеся на корпусах.

37

4

8




25

5
              Использование корпусов в социологии, исторической науке и др.

25

2

2




21

6

Всего

216

36

36




144



5.Формы контроля знаний студентов





Тип контроля

Форма контроля

1 год

Параметры **








Текущий

(неделя)


Контрольная работа




12

Письменная, 90 мин










Эссе







Не предусмотрено

Реферат




17

защита в виде доклада

Коллоквиум







Не предусмотрено

Домашнее задание







Полекционное, 1 неделя на подготовку

Итоговый

Экзамен





18

Устный, 10 мин на ответ



    1. Критерии оценки знаний, навыков


Результатом проверки работы студентов является оценка, выставляемая по 10-ти балльной шкале в соответствии со следующими критериями.

Высшая оценка(10 баллов) выставляется при качественной подготовке теоретических вопросов к устной части зачёта по всему курсу, при отсутствии фактических ошибок в контрольной работе ( допускается 1-2 негрубые ошибки, которые студент сам исправляет в беседе с преподавателем).

Оценка 8-9 баллов предполагает качественную подготовку к устной части зачёта, 1-2 фактические ошибки в контрольной работе.

Оценка 6-7 баллов выставляется при наличии отдельных неточностей, допускает частичную неполноту ответа и 1-4 фактические ошибки в контрольной работе.

Оценка в 5 баллов выставляется, если контрольная работа содержит более 5 ошибок и устный ответ содержит значительное количество ошибок.

4 балла выставляется, если обнаружены значительные пробелы в области теоретических знаний и при наличии серьёзных ошибок в контрольной работе.

Оценка в 3 балла выставляется при наличии лишь отдельных положительных моментов в устном ответе или в контрольной работе.

2 балла выставляется при полном отсутствии знаний.

1;0 – неправильные ответы сопровождаются демонстративными проявлениями безграмотности или неэтичного отношения к теме и предмету в целом.

6.Содержание дисциплины


Дисциплина состоит из трех частей, которые могут изучаться как последовательно, так и каждая в отдельности:

Часть 1. Введение в корпусную лингвистику (18 лекций, 10 семинаров).

Часть 2. Создание корпусов (14 лекций, 16 семинаров).

Часть 3. Использование корпусов (10 лекций, 6 семинаров).

Все три части между собою связаны, так, например, методы создания корпусов определяются их назначением и типологией, которые рассматриваются в первой части. Языки запросов и возможности корпусных менеджеров во многом определяются разметкой, которая рассматривается в третьей части.


Краткое содержание разделов 1 части:


Раздел 1. Основные понятия корпусной лингвистики

Тема 1. Основные понятия и определения.

Тема 2. Лингвистические (языковые) и нелингвистические корпусы.


Раздел 2. История создания лингвистических корпусов

Тема 3. История лингвистических корпусов: от картотеки к корпусу.

Тема 4. Корпусная лингвистика: современное состояние.

Тема 5. Корпусная лингвистика в России.


Краткое содержание разделов 2 части:


Раздел 3. Типология корпусов

Тема 6. Классификация (типология) корпусов по различным основаниям.

Тема 7. Типы корпусов по задачам.

Тема 8. Типы корпусов по формальным признакам.

Раздел 4. Методы и средства разметки и создания корпусов.

Тема 9. Языковые средства представления размеченных текстов.

Международные стандарты и проекты (TEI, EAGLES, CDIF, XCES).

Тема 10. Экстралингвистическая разметка. Метаданные. Графематический анализ.

Тема 11. Лингвистическая разметка. Автоматическая морфологическая и синтаксическая разметка. Снятие неоднозначности. Параллельные корпусы. Многоязычие. Проблема выравнивания.


Раздел 5. Поиск в корпусах.

Тема 12. Конкордансер и корпусный менеджер как поисковая система. Сравнение с архитектурой поисковых систем в сети Интернет.

Тема 13. Языки запросов корпусных менеджеров. Выходные интерфейсы.

Тема 14. Обзор существующих корпусов различных типов. Сравнительный анализ корпусов и корпусных менеджеров.


Краткое содержание разделов 3 части:


Раздел 6. Корпусные исследования.

Тема 15. Лингвистические исследования, базирующиеся на корпусах. Использование корпусов в обучении языкам и в других гуманитарных исследованиях. Использование корпусов в настройке и самообучении лингвистических автоматов.

Тема 16. Поисковые системы Интернет как корпусные менеджеры. Специализированные корпусные интерфейсы к индексам глобальных поисковых систем.

7.Образовательные технологии


Дистанционные лекции, семинары, разбор практических задач по НКРЯ; встреча с ведущими специалистами-разработчиками НКРЯ, мастер-классы ведущих ученых.

8.Оценочные средства для текущего контроля и аттестации студента

8.1.Вопросы для оценки качества освоения дисциплины


Примерная тематика рефератов

Способы использования корпусов в лингвистических исследованиях.

Исследование способов использования корпусов в лексикографии.

Изучение средств обработки корпусных данных, представленных на языке XML.

Создание электронной хрестоматии по корпусной лингвистике.

Исследование механизмов взаимодействия корпуса текстов и электронной картотеки (корпусы цитат).

Создание веб-сайта по корпусной лингвистике.

Графематический анализ текстов.

Унификация текстов внутри корпуса 19 века.

Автоматическая морфологическая разметка текстов 19 века.

Исследование набора метаданных для корпуса 19 века.

База данных «Морфологический словарь языка 19 века».

Создание параллельного англо-русского корпуса.

Методы снятия морфологической неоднозначности.

Исследование механизмов взаимодействия корпуса текстов и электронной картотеки (корпусы цитат).

    1. Примеры заданий итогового контроля

        Вопросы к экзамену


Дать определения терминов:

Корпус

Разметка

Репрезентативность

Метаданные

Корпусный менеджер

Treebank

Лемматизация

Конкорданс

Параллельный корпус

Перечислить типы корпусов

Назвать и охарактеризовать наиболее известные корпусы.

Проблемы репрезентативности корпусов.

Проблемы хронологии в общеязыковых корпусах.

Отбор текстов для корпусов.

Графематический анализ.

Понятие разметки.

Типы разметки.

Морфологическая разметка.

Синтаксические корпуса (treebanks).

Семантическая разметка.

Технология создания корпусов. Стадии работы.

Понятие корпусоида.

Автоматическая морфоразметка.

Автоматический синтаксический анализ (parsing).

Языковые средства представления размеченных текстов (языки SGML, XML).

Международные стандарты (TEI, EAGLES, CDIF, XCES).

9. Порядок формирования оценок по дисциплине


В течение семестра студентами выполняются практические домашние работы, подготавливаются рефераты по одной из выбранных тем, которые «защищаются» в конце курса в виде докладов. В конце курса — экзамен.

Накопительная оценка по 10-ти балльной шкале за работу на семинарских и практических занятиях определяется перед итоговым контролем.

Отек. = 0,2·Одом.работы + 0,1·Оконтрольная работа + 0,2·Оаудиторная активность+ 0,25·Озащита реферата + 0,25·Орезюме статей

Оитоговый = 0,25·Оэкзамен + 0,75·Отекущий


Способ округления оценок – арифметический.

10. Учебно-методическое и информационное обеспечение дисциплины




    1. Основная литература


В.П. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. - Иркутск, ИГЛУ, 2011.

11.2. Дополнительная литература

1. Богуславский И.М. и др. Аннотированный корпус русских текстов: Концепция, инструменты разметки, типы информации // Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000». Протвино, 2000.

2. Венцов А.В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи // Научно-техническая информация. Сер. 2. 2003. № 6. С. 25–32.

3. Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002.

4. Захаров В.П. Чешский национальный корпус текстов: организация и способы использования // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002. С. 72–79.

5. Копотев М.В. Корпусная лингвистика в Финляндии (обзор ресурсов) // Научно-техническая информация. Сер. 2. 2003. № 6. С. 37–41.

6. Копотев М.В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2. 2003. № 6. С. 33–36.

7. Научно-техническая информация. Сер. 2. 2005. № 3, 6. 2003. № 6.

8. Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000», «Диалог-2001», «Диалог-2002», «Диалог-2003», «Диалог-2004», «Диалог-2005».

9. Aarts Jan. Комментарий к статье «A New Corpus of English» (Sidney Greenbaum) // Directions in Corpus Linguistics. Berlin, 1992.

10. Burnard L. The Text Encoding Initiative: an Overview. // Spoken English on Computer / Leech G., Myers G., Thomas J. (eds.) New York, 1995. P. 223–235; См. также ссылка скрыта.

11. Ball Catherine N. Tutorial: Concordances and Corpora // ссылка скрыта

12. BNC: The BNC Users Reference Guide, 2000. ссылка скрыта

13. Fillmore C.J., Atkins B.T.S. Starting Where the Dictionaries Stop: the Challenge of Corpus Lexicography // Computational Approaches to the Lexicon / Atkins B.T.S., Zampolli A. (eds.). 1994

14. Gellerstam Martin. Modern Swedish Text Corpora // Directions in Corpus Linguistics. Berlin, 1992. P. 151–159.

15. Lee D. Genres, Registers, Text Types, Domains, and Styles: Clarifying the Concepts and Navigating a Path through the BNC Jungle // Language Learning & Technology. September 2001. Vol. 5, N. 3, P. 37–72; См. также du/vol5num3/pdf/lee.pdf

16. Leech G. Corpus Annotation Schemes // Literary and Linguistics Computing. 1993. Vol. 8. N. 4. P.275–281

17. Proceedings of the LREC (Language Resource Evaluating Conference). 2002, 2003, 2004, 2005

18. Sharoff S. Towards Basic Categories for Describing Properties of Texts in a Corpus. In Proc. of Language Resources and Evaluation Conference (LREC04). May, 2004, Lisbon, Portugal // leeds.ac.uk/
ssharoff/texts/lrec-04.pdf

19. TEI P4: Guidelines for Electronic Text Encoding and Interchange. 2001 / Sperberg-McQueen C. M., Burnard L. (eds.) // x.ac.uk/
TEI/P4X/index.php.
  1. UCREL: Corpus Annotation // ссылка скрыта

11.XML Corpus Encoding Standard Document XCES 0.2. // ssar.edu/XCES/

12.Zakharov V., Volkov S. Evaluating Morphological Tagging of Russian texts of the XIXth Century // Text, Speech and Dialogue: Proceedings of the 7th International Conference TSD 2004, Brno, Czech Republic, September 2004 /

13.Petr Sojka, Ivan Kopeček, Karel Pala (eds.). Berlin; Heidelberg, 2004. P. 235–242. (Lecture Notes in Artificial Intelligence, 3206).






12. Материально-техническое обеспечение дисциплины


Для лекций и семинаров используется компьютер/ноутбук; проектор; экран.


Составители: Захаров В.П.

Сибирцева В.Г.