Н. Ф. Катанова В. А. Яцко компьютерные технологии в лингвистике специальность 10. 02. 04 Германские языки Программа курса

Вид материалаПрограмма курса

Содержание


2.1. Содержание курса
2.2. Тематический план
3. План лекций
Подобный материал:


Хакасский государственный университет им. Н.Ф.Катанова



В.А.ЯЦКО



Компьютерные технологии в лингвистике

специальность 10.02.04 – Германские языки


Программа курса


Абакан – 2005

1. Предисловие



Данная программа предназначена для аспирантов, обучающихся по специальности 10.02.04 – Германские языки. Программа может быть использована аспирантами в процессе подготовки к лекциям и лабораторным занятиям, а также для самостоятельной работы по курсу.

Пособие составлено в соответствии с требованиями ГОСТа по специальности 10.02.04 – Германские языки.


2. Программа курса

Цель курса – ознакомить аспирантов с компьютерными технологиями, применяемыми с целью повышения эффективности научно-исследовательской и педагогической деятельности, как на общенаучном, так и на частнонаучном (лингвистическом) уровнях.. После прохождения обучения аспирант должен:

а) иметь представление о:
  • вероятностном подходе к определению количества информации в текстах различных жанров;
  • законах Бредфорда и Ципфа и их приложениях к анализу лингвистических единиц;
  • особенностях программного обеспечения теоретических и эмпирических исследований;
  • особенностях программ электронного документооборота в науке;
  • концепции рабочего места учёного (scientific workplace)
  • методике семантического дифференциала;
  • комплексе материалов, необходимых для дистанционного обучения.

б) знать:
  • особенности функционирования текстового, графического и экзаменационного модулей в SWP 5.0.
  • особенности функционирования библиографических редакторов;
  • предметную область библиометрии и особенности программного обеспечения библиометрических исследований в науке;
  • концепцию глоттохронологии и алгоритмы определения генетического сходства языков на основе автоматического анализа ядерных словарей;
  • подходы к анализу дискурса и возможности автоматического анализа дискурса;
  • фразовую структуру английского предложения и алгоритмы её анализа.
  • основные понятия корпусной лингвистики и требования к корпусам.
  • архитектуру и алгоритмы функционирования программ автоматического аннотирования корпусов.
  • особенности функционирования программ поиска по корпусам и виды поисковых запросов;
  • виды компьютерных обучающих систем;
  • предметную область computer learner corpora research.

в) уметь применять:

– методы составления электронных тестов в SWP 5.0;
  • методы подготовки рукописи к изданию с использованием библиографических редакторов;
  • методы анализа дескриптивных и реляционных библиометрических показателей;
  • алгоритмы создания программ сравнительного анализа словарей естественных языков;
  • методы составления поисковых запросов различных видов и поиска по электронным корпусам;
  • алгоритмы создания токенайзеров и теггеров как средств аннотирования корпусов;
  • алгоритмы создания пазеров как средств анализа синтаксической структуры предложения.


^ 2.1. Содержание курса

Курс "Компьютерные технологии в лингвистике" включает 20 лекционный часов, и 20 часов лабораторных занятий. В процессе лекционных занятий аспиранты знакомятся с основными понятиями, структурой изучаемых предметных областей, архитектурой, алгоритмами, особенностями функционирования соответствующего программного обеспечения. В процессе лабораторных занятий применяются на практике алгоритмы функционирования и создания изучаемых компьютерных технологий.

Курс "Компьютерные технологии в лингвистике" предполагает связь с такими дисциплинами, как: "История английского языка", "Теоретическая грамматика английского языка", "Прикладная лингвистика".

Изучение курса завершается экзаменом, в процессе которого аспиранты должны ответить на контрольные вопросы (см. ниже), проявив знание основных понятий и предметных областей, указанных в плане лекций. Для того, чтобы быть допущенным к экзамену необходимо выполнить лабораторные задания (см ниже).


^ 2.2. Тематический план





Темы занятий

Вид занятий и количество часов

лекционные

лабораторные

1

Интерпретация информации в философии, кибернетике, семантике, информатике

3

2

4

Концепция рабочего места учёного


2

4

5

Особенности функционирования библиографических редакторов


3

4

6

Предметная область библиометрии и методы библиометрического анализа


3

4

8

Подходы к автоматическому анализу дискурса

3

4

9

Формальные методы лингвистического анализа и концепция М. Сводеша

2

4

10

Корпусная лингвистика

4

4

11

Компьютерные технологии и лингводидактика

4

4

Итого

24

30



^ 3. План лекций

Лекция 1.

Различные подходы к трактовке информации. Трактовка информации в философии – атрибутивный и функциональный подходы; аксиологический подход. Интерпретация информации в семантике; семантический треугольник Огдена-Ричардса; понятия знака, сигнификата, денотата. Классификация знаков; языковые и неязыковые знаки. Знаки и модели.

Кибернетический подход к интерпретации информации; информация и энтропия; формальные критерии измерения информации; К. Шеннон и вероятностный подход к измерению количества информации; формула Шеннона и формула Хартли [1].

Лекция 2


Методика расчёта количества информации для одного символа в русском языке и в английском языке.

Объёмный подход к измерению информации в информатике. Различие между объёмным и вероятностным подходами.

Законы Бредфорда и Ципфа и закономерности распределения лингвистических единиц в словарях и текстах.

Специфика и классификация компьютерных технологий, применяемых на различных уровнях научно-познавательной деятельности. Особенности прикладных программы электронного документооборота НИРИН; АКТИН, ДОФИН.

Компьютерные программы для генерации первичных документов и обеспечения большей эффективности и экономии времени научного исследования. Концепция рабочего места учёного (scientific workplace).

Лекция 3

Особенности основных модулей SWP 5.0: текстового процессора, вычислительного модуля, конструктора экзаменов. Применение стилей, тегов, ключевых слов для форматирования текста в формате «.tex», проведения математических вычислений, составления и оценки электронных тестов.

Библиографические редакторы. Концепция научного исследования, лежащая в основе пакета Bibliographix: фиксирование и разработка идей, цитирование источников, поиск библиографических ссылок и составление библиографических списков.

Лекция 4

Возможности программы Endnote. Структура и сортировка библиографических записей, особенности импорта и экспорта таблиц и графики; использование и создание шаблонов для автоматического форматирования рукописи научной работы в соответствии с требованиями различных издательств. Поиск по каталогам в Интернете.

Предметная область библиометрии, методологический уровень, уровень научной информации, уровень мониторинга науки. Компоненты, единицы, и количественные данные библиометрического анализа. Исходные количественные данные, дескриптивные и реляционные показатели библиометрического анализа; анализ соавторства, социтирования, сословный анализ.

Лекция 5

Базы данных для библиометрического анализа; специализированные и междисциплинарные базы данных; особенности баз данных Института научной информации (ISI). Особенности базы данных National Science Indicators, примеры анализа количественных показателей исследовательской активности в разных странах мира; понятие «impact»; сопоставительный анализ библиометрических показателей, отражающий уровень развития научных исследований в различных странах и различных предметных областях. Структура библиометрических баз данных, понятие поля, ряда, тега.

Лекция 6

Методы социтирования и сословного анализа. Понятие кластера социтирования; определение ядра (интеллектуальной базы) и периферии предметной области; понятие силы социтирования и картографирование науки; примеры кластеров социтирования в различных научных дисциплинах. Особенности графической репрезентации кластеров социтирования.

Программное обеспечение библиометрических исследований. Особенности функционирования программ Bibliometrics Toolbox и Bibexсel.

Недостатки библиометрического анализа.


Лекция 7

Структура лингвистики. Системный подход к дифференциации лингвистических дисциплин по объекту исследования. Другие критерии дифференциации лингвистических дисциплин

Подходы к анализу дискурса в языкознании: логико-лингвистический и семантический. Понятия типов речи и предикатов. Риторические предикаты Дж. Граймса (J.Grimes). Теория риторической структуры текста У.Манна (W.Mann); ядерные и сателлитные отрезки текста. RSTTool – графический интерфейс концепции. Попытки использования концепции в системе автоматического реферирования.

Лекция 8

Общая архитектура и классификация систем автоматического реферирования текста. Общий алгоритм функционирования систем поверхностного уровня.

Формальные подходы к анализу лингвистических явлений. Концепция глоттохронологии М. Сводеша (M. Swadesh). Понятие ядерного словаря и скорости его изменения (retention rate). Формула Сводеша. Недостатки концепции.

Алгоритм определения степени совпадения ядерных словаре двух языков и подсчёта времени их отделения от праязыка. Компьютерная программа Cognate Ж.Гая (J.Guy). Программа Compare (ICCL); таблицы соответствий и расстояние между символами сравниваемых слов ядерного словаря.

Лекция 9

Ч.Осгуд (Ch. Osgood) и методика семантического дифференциала. Понятие бинарных оппозитивных понятий.

Корпусная лингвистика – основное направление компьютерной лингвистики. Историческое развитие корпусной лингвистики, Брауновский корпус. Виды корпусов, требования к корпусам: аутентичность, репрезентативность, упорядоченность, репрезентативность, аннотированность, доступность.

Методы аннотирование корпуса тегами частей речи (POS-tagging). Архитектура теггера частей речи; структура и функции токенизатора, морфологического классификатора, морфологического дисамбигьютора; таблицы тегов. Виды теггеров, теггер по умолчанию, запоминающие и вероятностные теггеры; обучающиеся и вероятностные теггеры. Пакет программ NLTK Пенсильванского университета.

Лекция 10

Программы поиска по корпусам, их особенности и отличие от традиционных ИПС. Виды поиска: поиск точных форм, лексико-грамматический поиск, задание поискового расстояния.

Особенности поиска по BNC c помощью Sara Client; виды запросов и конструктор запросов.

Конкордансы. Особенности функционирования WordSmith 4.0 модули Wordlist, Concord, KeyWords. Возможности поиска по тегам и моделям словосочетаний. Возможности статистического анализа лингвистических единиц.

Фразовая структура английского предложения. Пазеры и их виды: запоминающие, вероятностные, сверху-вниз, снизу-вверх.

Лекция 11

Компьютерные технологии в образовании. Виды материалов, необходимых для дистанционного обучения. Компьютерные обучающие системы и их виды.

Особенности компьютерной сети TeleNex, созданной в Гонконге для учителей английского языка. Структура базы данных; корпус текстов, произведённых студентами, изучающими английский язык.

Проблемы разработки корпусов текстов, произведённых студентами, изучающими английский язык. Предметная область Computer learner corpora research. Теггеры ошибок, классификация и подсчёт частотности ошибок в текстах различных жанров. Контрастивный анализ различных корпусов и объяснение причин отклонений от стилистической нормы.

Лекция 12

Системы полуавтоматического реферирования в обучении иностранным языкам. Концепция симметричного реферирования; принципы симметричности, отождествления, последовательности, контактной связи. Понятие плотности связей и формальные методы определения размера реферата. Понятие реферата – экстракта, индикативного реферата, индикативно-информативного реферата.

Программа PASS. Методика составления словарей для полуавтоматического реферирования текста и обучение лексическим единицам предметной области. Трансформационные процедуры, применяемые при редактировании реферата-экстракта и их значение для формирования лексико-грамматических навыков работы со связным текстом.

Темы лабораторных работ
  1. Расчёт количества информации в текстах различных жанров по формуле Шеннона
  2. Набор и форматирование текста, импорт графического материала, составление тестов в SWP 5.0
  3. Поиск по электронным каталогам, импорт библиографических данных, форматирование текста по издательским шаблонам в Endnote и Bibliographix.
  4. Особенности функционирования модулей Bibliometrics Toolbox. Совместное использование Endnote и Bibliometrics Toolbox для получения распределений Лотки и Ципфа.
  5. Поиск по корпусам. Русский национальный корпус
  6. Поиск по корпусам. Brown Corpus
  7. Особенности использования Sara Client.
  8. Особенности конкордансов WordSmith, Concapp. Статистический анализ эталонного корпуса и корпуса non native speakers.
  9. Составление словарей для автоматического реферирования и использование трансформационных процедур при редактировании рефератов-экстрактов.



Экзаменационные вопросы
  1. Интерпретация информации в философии, семантике, кибернетике, информатике.
  2. Законы Бредфорда и Ципфа и их значение для анализа лингвистических единиц
  3. Классификация и особенности прикладных программ, разрабатываемых на метанаучном уровне. Концепция Scientific Workplace.
  4. Особенности прикладных программ для обработки библиографических данных. Концепция Bibliographix.
  5. Предметная область и основные понятия библиометрии.
  6. Библиометрические исследования состояния науки.
  7. Социтирование и сословный анализ. Картографирование науки.
  8. Особенности компьютерных программ для библиометрического анализа. Bibliometrics toolbox. Недостатки библиометрического анализа
  9. Предметная область лингвистики. Системный подход к разграничению лингвистических дисциплин.
  10. Подходы к анализу текста. Концепция У.Манна и возможности её компьютеризации. RST Tool.
  11. особенности систем автоматического реферирования текста.
  12. Концепция М.Сводеша и формализованный подход к анализу генетического происхождения языков. J. Guy и программа COGNATE. Программа Соmpare.
  13. Корпусная лингвистика и компьютерные технологии на методологическом уровне языкознания. Историческое развитие, классификация корпусов, требования к корпусам.
  14. Методы аннотирования корпусов. Архитектура и особенности функционирования теггеров (POS taggers).
  15. Программы поиска по корпусам: классификация, вид поиска, возможности, предоставляемые пользователю. Sara Search Британского национального корпуса.
  16. Конкордансы. Особенности WordSmith, Concapp.
  17. Программы анализа синтаксической структуры. Концепция фразовой структуры предложения.
  18. Вероятностные пазеры. Lexparser.
  19. Системы дистанционного обучения и компьютерные обучающие системы.
  20. Предметная область Computer learner corpora research. Использование данных computer learner corpora для контрастивного и лингводидактического анализа
  21. Использование систем полуавтоматического реферирования в обучении иностранным языкам.



Библиографический список

  1. Информация, ее виды и свойства. ссылка скрыта
  2. Рождественский Ю.В., Волков А.А., Марчук Ю.Н. Введение в прикладную филологию. Языковая семиотика. - М.: Изд-во Моск.гос. ун-та, 1987. - 116 с.
  3. MacKichan software. ссылка скрыта
  4. Endnote product reviews. te.com/enreviews.asp
  5. Gauthier É. Bibliometric analysis of scientific and technological research: a user's guide to the methodology.
  6. Glänzel W. Bibliometrics as a research field: A course on theory and application of bibliometric indicators.
  7. ссылка скрыта И. Вклад России в развитие мировой науки: библиометрическая оценка. .russ.ru/oz/2002/7/2002_07_39.php">
  8. Гарфилд Ю. Можно ли выявлять и оценивать научные достижения и научную продуктиыность? ссылка скрыта
  9. Кара-Мурза С.Г. Цитирование в науке и подходы к оценке научного вклада. // Вестн. АН СССР. - 1981. - N 5. - С.68-75 ссылка скрыта
  10. Iatsko V. Integrational discourse analysis. www.khsu.ru/ida
  11. . A view of rhetorical structure theory. ссылка скрыта
  12. 17. Morris Swadesh: critical essay. ссылка скрыта
  1. Program SEMDI. ссылка скрыта
  2. Подлесская В.И. Современные компьютерные методы в изучении и преподавании лингвистических дисциплин: корпусная лингвистика. ссылка скрыта
  3. Национальный корпус русского языка. Что такое корпус?  rpora.ru/corpora-intro.php
  4. Natural Language Toolkit. ссылка скрыта
  5. The BNC Handbook. ссылка скрыта
  6. WordSmith Tools. ссылка скрыта
  7. Centre for English Corpus Linguistics. ссылка скрыта
  8. Iatsko V. Linguistic aspects of summarization // Philologie im Netz. 2001. N 18. www.fu-berlin.de/ phin/phin18/p18i.htm