Программы и учебный план отделения теоретической и прикладной лингвистики Издательство Московского университета 2009

Вид материалаДокументы

Содержание


Квантитативная лингвистика 1. Описательная статистика и статистические методы анализа данных в лингвистических исследованиях.
2. Закон Ципфа-Мандельброта и его следствия.
3. Примеры применения статистических методов в основных разделах лингвистики.
4. Квантитативные методы, применяемые в корпусной лингвистике.
5. Задачи атрибуции текстов и стилеметрия. литература
Дополнительная литература
Подобный материал:
1   ...   31   32   33   34   35   36   37   38   ...   55

Квантитативная лингвистика

1. Описательная статистика и статистические методы анализа данных в лингвистических исследованиях.


1.1. Цели и организация лингвостатистических исследований. Основные статистические категории: выборка и совокупности, типы переменных, их классификация применительно к соответствующему уровню лингвистического анализа.

1.2. Частота и распределение частот встречаемости для больших и малых инвентарей. Меры центральной тенденции и рассеяния. Выборочные статистики и параметры распределения: методы оценивания.

1.3. Планирование статистического эксперимента и проверка гипотез. Параметрические критерии значимости. c2-критерий. Непараметрические критерии.

1.4. Корреляционный анализ в лингвистических исследованиях.

1.5. Дисперсионный анализ (ANOVA).

1.6. Кластерный анализ.

1.7. Факторный анализ.

2. Закон Ципфа-Мандельброта и его следствия.


2.1. Частота как характеристика употребительности слова в тексте. Закон Ципфа. Уточнение закона Ципфа: закон Ципфа-Мандельброта. Закон Ципфа и структура реального текста.

2.2. Частотные словари, словари-индексы, машинные фонды лексики. Характеристики частотных словарей и индексы покрытия текста.

2.3. Частота слова и продуктивность. Частота слова и многозначность. Частота слова и его возраст.

3. Примеры применения статистических методов в основных разделах лингвистики.


3.1. Фоностатистика.

3.2. Статистико-комбинаторные, дистрибутивно-статистические и дешифровочные методы в грамматике.

3.3. Меры автономности грамматических структур и их семантики.

3.4. Квантитативная типология Гринберга.

3.5. Опыт квантитативного обоснования морфологических типов (корреляции между морфологическими признаками).

3.6. Статистические методы в сравнительно-историческом языкознании. Глоттохронология.

3.7. Статистические методы в анализе дискурса. Статистические методы при выделении топика / фокуса внимания / максимально активированного референта. Оценка повторяемости отдельных элементов и когерентность связных текстов.

3.8. Контент-анализ, анализ метафоры.

3.9. Статистические методы в психолингвистике и социолингвистике.

3.10. Социолингвистические переменные, их оценивание.

3.11. Психометрические методы.

4. Квантитативные методы, применяемые в корпусной лингвистике.


4.1. Статистические методы оценки продуктивности аффиксов.

4.2. Корпусные статистические методы анализа лексики. Статистические методы выделения терминов, устойчивых словосочетаний, синонимических групп, семантических полей.

4.3. Статистические методы машинного перевода.

4.4. Методы самообучения в применении к частеречной разметке корпуса (автоматический тэггинг). Применение методов скрытых марковских моделей при частеречной разметке корпуса текстов.

4.5. Статистические методы синтаксической разметки корпуса. Стохастические грамматики.

5. Задачи атрибуции текстов и стилеметрия.

литература

Обязательная литература


Алексеев П. М. Статистическая лексикография. Л., 1980. [С. 13–49.]

Арапов М. В. Квантитативная лингвистика. М., 1988. [С. 1–146.]

Арапов М. В., Херц М. М. Математические методы в исторической лингвистике. [С. 104–132.]

Головин Б. Н. Язык и статистика. М., 1971. [С. 113–133.]

Гринберг Дж. Квантитативный подход к морфологической типологии языков / Пер. с англ. // Новое в лингвистике. Вып. V. М., 1960. [С. 60–94.]

Кэролл Дж. Факторный анализ стилевых характеристик прозы // Семиотика и искусствометрия. М., 1972. [С. 183–196.]

Мандельброт В. Теория информации и психолингвистика: теория частот слов // Математические методы в социальных науках. М., 1973. [С. 316–338.]

Мартыненко Г. Я. Методы статистического моделирования в языкознании // Герд А. (ред.). Прикладное языкознание. СПб., 1996. [С. 201–223.]

Марусенко М. А. Атрибуция анонимных текстов методами прикладной лингвистики // Герд А. (ред.). Прикладное языкознание. СПб., 1996. [С. 466–479.]

Носенко И. А. Начала статистики для лингвистов: Уч. пособие для студ. пединститутов. М., 1981.

Сухотин В. В. Исследование грамматики числовыми методами. М., 1990. [С. 5–15, 37–40.]

Тулдава Ю. А. Проблемы и методы квантитативно-системного анализа лексики. Таллин, 1987.

Фрумкина Р. М. Статистические методы изучения лексики. М., 1964.

Шайкевич А. Я. Гипотеза о естественных классах и возможность количественной таксономии в лингвистике // Гипотеза в современной лингвистике. М., 1980. [С. 319–357.]

Штерн А. С. Статистическая обработка экспериментальных данных // Герд А. (ред.). Прикладное языкознание. СПб., 1996. [С. 224–233.]

Church K. Hanks P. Word association norms, mutual information and lexicography // Computational linguistics. 16 (1). 1990.

Fenk-Oczlon G., Fenk A. Cognition, quantitative linguistics, and systemic typology // Linguistic typology. Vol. 3–2. 1999. [P. 151–179.]

Kenneth W. Church and Robert L. Mercer. Introduction // Using large corpora. Cambridge, 1994. [P. 3–24.]

Plag I., Dulton-Puffer C., Baayen R. H. Morphological productivity across speech and writing // English language and linguistics. V. 3. Part 2. May. Cambridge University Press, 1999. [P. 209–229.]

Smadja F. Retrieving collocations from text: Xtract // Using large corpora. Cambridge, 1994. [P. 143–177.]

Дополнительная литература


Алексеев П. М. Квантитативные аспекты речевой деятельности // Языковая норма и статистика. М., 1977.

Алексеев П. М. Методика квантитативной типологии текста. Л. 1983.

Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М., 1977.

Белый Андрей. Мастерство Гоголя. М., 1934.

Богданов В. В. Статистические концепции языка и речи // Статистика речи и автоматический анализ текста 1972. Л., 1973. [С. 9–19.]

Борода М. Г. О характере распределения информационных единиц малой частоты в художественных текстах // Семиотика и информатика. Вып. 9. М., 1977.

Веденина Л., Шор Е. Некоторые приемы стилистического исследования текста // Вопросы статистической стилистики М., 1973.

Герд А. С. (ред.). Прикладное языкознание. СПб., 1996.

Ермоленко Г. В. Анонимные произведения и их авторы. Минск, 1988.

Морозов Н. А. Лингвистические спектры // Известия Императорской АН. Отд. языка и словесности. Кн. 1–4. 1915. ХХ.

Надарейшвили И. Ш. Сравнительный статистический анализ лексики как метод изучения творчества языка писателя // Структурная и математическая лингвистика (Киев). 1978. № 6.

Плотников Б. А. Дистрибутивно-статистический анализ лексических значений. Минск, 1979.

Тулдава В. О частоте частей речи в авторской речи художественной прозы // Труды по лингвостатистике. Вып. 1. Тарту, 1976.

Тулдава ЮА. О квантитативно-системных характеристиках полисемии. Тарту, 1979.

Фрумкина Р. М. Вероятность элементов текста и речевое поведение. М., 1971.

Шайкевич А. Я. Выделение классов и парадигм посредством дистрибутивно-статистического метода // МпиПЛ. МГПИИЯ им. М. Тореза. Вып. 18. М., 1976. [C. 96–135.]

Шайкевич А. Я. Дифференциация статистических классификаций текста // Статистика речи и автоматический анализ текста. Вып. 502. Тарту, 1979.

Шайкевич А. Я. Опыт статистического выделения функциональных стилей // Вопросы языкознания. 1968. ¹ 1.

Atkins & Zampolli. Computational approach to lexicon. 1994.

Baayen R. H. and R. Lieber. Productivity and English derivation: a corpus based study. Linguistics 29. 1999. [P. 801–843.]

Baayen R. H. On frequency, transparency and productivity. Yearbook of Morphology. 1992.

Bod Rens. Enriching linguistics with statistics: Performance model of natural language. ILLC Dissertation Series 1995–14. Amsterdam, 1995.

Boguraev. Computational lexicography for natural language processing.

Charniak Eugene. Computational semantics. Amsterdam.

Doyle L. B. Some compromises between word grouping and document grouping statistical association methods for mechanized documentation. 1965.

Dyen I. Linguistic subgrouping and lexicostatistics. The Hague; Paris, 1975.

Francis W. Kuиera, H. Frequency analysis of English usage. Boston, 1982.

Garside R. & Leech G. The computational analysis of English and corpus based approach. 1987.

Herdan G. Language as chance and choice. Groningen, 1956.

Herdan G. Quantitative linguistics. London, 1964.

Leed J. (ed.). The computer & literary style. Introductory essays & studies. Kent study in English. ¹ 2. Kent, 1966.

Pustejovsky J. (ed.). Semantics and the lexicon. Dodrecht. Studies in linguistics and philosophy. Vol. 49. 1993.

Woods A., Fletcher P., Hughes A. Statistics in language studies. Cambridge, 1986.

www.statsoft.ru/home/textbook.

Yule G. The statistic study of literary vocabulary. 1944.

Zipf G. K. The psycho-biology of language: An introduction to dynamic philology. London; Routledge, 1936.

Программу составила С. Ю. Толдова