Н. Ф. Катанова В. А. Яцко компьютерные технологии в лингвистике специальность 10. 02. 04 Германские языки Программа курса
Вид материала | Программа курса |
Содержание2.1. Содержание курса 2.2. Тематический план 3. План лекций |
- Н. Ф. Катанова В. А. Яцко компьютерные технологии в науке и образовании специальность, 211.43kb.
- Программа вступительного экзамена по специальности 10. 02. 04 Германские языки по филологическим, 68.5kb.
- Н. Ф. Катанова В. А. Яцко методология и история информатики практикум, 168.04kb.
- Программа кандидатского экзамена по специальности 10. 02. 04 Германские языки, 196.69kb.
- Вопросы к вступительному экзамену в аспирантуру по специальности 10. 02. 04. – германские, 11.61kb.
- Програма-минимум кандидатского экзамена по специальности 10. 02. 04 «Германские языки», 62.35kb.
- Н. Ф. Катанова В. А. Яцко Лингвистическая теория текста практикум, 388.06kb.
- Рабочая программа дисциплины «информационные технологии в лингвистике» Рекомендуется, 199.63kb.
- Светлов Николай Михайлович Цели курса рабочая программа курса, 224.32kb.
- Программа вступительного экзамена в магистратуру по направлению, 444.52kb.
Хакасский государственный университет им. Н.Ф.Катанова
В.А.ЯЦКО
Компьютерные технологии в лингвистике
специальность 10.02.04 – Германские языки
Программа курса
Абакан – 2005
1. Предисловие
Данная программа предназначена для аспирантов, обучающихся по специальности 10.02.04 – Германские языки. Программа может быть использована аспирантами в процессе подготовки к лекциям и лабораторным занятиям, а также для самостоятельной работы по курсу.
Пособие составлено в соответствии с требованиями ГОСТа по специальности 10.02.04 – Германские языки.
2. Программа курса
Цель курса – ознакомить аспирантов с компьютерными технологиями, применяемыми с целью повышения эффективности научно-исследовательской и педагогической деятельности, как на общенаучном, так и на частнонаучном (лингвистическом) уровнях.. После прохождения обучения аспирант должен:
а) иметь представление о:
- вероятностном подходе к определению количества информации в текстах различных жанров;
- законах Бредфорда и Ципфа и их приложениях к анализу лингвистических единиц;
- особенностях программного обеспечения теоретических и эмпирических исследований;
- особенностях программ электронного документооборота в науке;
- концепции рабочего места учёного (scientific workplace)
- методике семантического дифференциала;
- комплексе материалов, необходимых для дистанционного обучения.
б) знать:
- особенности функционирования текстового, графического и экзаменационного модулей в SWP 5.0.
- особенности функционирования библиографических редакторов;
- предметную область библиометрии и особенности программного обеспечения библиометрических исследований в науке;
- концепцию глоттохронологии и алгоритмы определения генетического сходства языков на основе автоматического анализа ядерных словарей;
- подходы к анализу дискурса и возможности автоматического анализа дискурса;
- фразовую структуру английского предложения и алгоритмы её анализа.
- основные понятия корпусной лингвистики и требования к корпусам.
- архитектуру и алгоритмы функционирования программ автоматического аннотирования корпусов.
- особенности функционирования программ поиска по корпусам и виды поисковых запросов;
- виды компьютерных обучающих систем;
- предметную область computer learner corpora research.
в) уметь применять:
– методы составления электронных тестов в SWP 5.0;
- методы подготовки рукописи к изданию с использованием библиографических редакторов;
- методы анализа дескриптивных и реляционных библиометрических показателей;
- алгоритмы создания программ сравнительного анализа словарей естественных языков;
- методы составления поисковых запросов различных видов и поиска по электронным корпусам;
- алгоритмы создания токенайзеров и теггеров как средств аннотирования корпусов;
- алгоритмы создания пазеров как средств анализа синтаксической структуры предложения.
^ 2.1. Содержание курса
Курс "Компьютерные технологии в лингвистике" включает 20 лекционный часов, и 20 часов лабораторных занятий. В процессе лекционных занятий аспиранты знакомятся с основными понятиями, структурой изучаемых предметных областей, архитектурой, алгоритмами, особенностями функционирования соответствующего программного обеспечения. В процессе лабораторных занятий применяются на практике алгоритмы функционирования и создания изучаемых компьютерных технологий.
Курс "Компьютерные технологии в лингвистике" предполагает связь с такими дисциплинами, как: "История английского языка", "Теоретическая грамматика английского языка", "Прикладная лингвистика".
Изучение курса завершается экзаменом, в процессе которого аспиранты должны ответить на контрольные вопросы (см. ниже), проявив знание основных понятий и предметных областей, указанных в плане лекций. Для того, чтобы быть допущенным к экзамену необходимо выполнить лабораторные задания (см ниже).
^ 2.2. Тематический план
| Темы занятий | Вид занятий и количество часов | |
лекционные | лабораторные | ||
1 | Интерпретация информации в философии, кибернетике, семантике, информатике | 3 | 2 |
4 | Концепция рабочего места учёного | 2 | 4 |
5 | Особенности функционирования библиографических редакторов | 3 | 4 |
6 | Предметная область библиометрии и методы библиометрического анализа | 3 | 4 |
8 | Подходы к автоматическому анализу дискурса | 3 | 4 |
9 | Формальные методы лингвистического анализа и концепция М. Сводеша | 2 | 4 |
10 | Корпусная лингвистика | 4 | 4 |
11 | Компьютерные технологии и лингводидактика | 4 | 4 |
Итого | 24 | 30 |
^ 3. План лекций
Лекция 1.
Различные подходы к трактовке информации. Трактовка информации в философии – атрибутивный и функциональный подходы; аксиологический подход. Интерпретация информации в семантике; семантический треугольник Огдена-Ричардса; понятия знака, сигнификата, денотата. Классификация знаков; языковые и неязыковые знаки. Знаки и модели.
Кибернетический подход к интерпретации информации; информация и энтропия; формальные критерии измерения информации; К. Шеннон и вероятностный подход к измерению количества информации; формула Шеннона и формула Хартли [1].
Лекция 2
Методика расчёта количества информации для одного символа в русском языке и в английском языке.
Объёмный подход к измерению информации в информатике. Различие между объёмным и вероятностным подходами.
Законы Бредфорда и Ципфа и закономерности распределения лингвистических единиц в словарях и текстах.
Специфика и классификация компьютерных технологий, применяемых на различных уровнях научно-познавательной деятельности. Особенности прикладных программы электронного документооборота НИРИН; АКТИН, ДОФИН.
Компьютерные программы для генерации первичных документов и обеспечения большей эффективности и экономии времени научного исследования. Концепция рабочего места учёного (scientific workplace).
Лекция 3
Особенности основных модулей SWP 5.0: текстового процессора, вычислительного модуля, конструктора экзаменов. Применение стилей, тегов, ключевых слов для форматирования текста в формате «.tex», проведения математических вычислений, составления и оценки электронных тестов.
Библиографические редакторы. Концепция научного исследования, лежащая в основе пакета Bibliographix: фиксирование и разработка идей, цитирование источников, поиск библиографических ссылок и составление библиографических списков.
Лекция 4
Возможности программы Endnote. Структура и сортировка библиографических записей, особенности импорта и экспорта таблиц и графики; использование и создание шаблонов для автоматического форматирования рукописи научной работы в соответствии с требованиями различных издательств. Поиск по каталогам в Интернете.
Предметная область библиометрии, методологический уровень, уровень научной информации, уровень мониторинга науки. Компоненты, единицы, и количественные данные библиометрического анализа. Исходные количественные данные, дескриптивные и реляционные показатели библиометрического анализа; анализ соавторства, социтирования, сословный анализ.
Лекция 5
Базы данных для библиометрического анализа; специализированные и междисциплинарные базы данных; особенности баз данных Института научной информации (ISI). Особенности базы данных National Science Indicators, примеры анализа количественных показателей исследовательской активности в разных странах мира; понятие «impact»; сопоставительный анализ библиометрических показателей, отражающий уровень развития научных исследований в различных странах и различных предметных областях. Структура библиометрических баз данных, понятие поля, ряда, тега.
Лекция 6
Методы социтирования и сословного анализа. Понятие кластера социтирования; определение ядра (интеллектуальной базы) и периферии предметной области; понятие силы социтирования и картографирование науки; примеры кластеров социтирования в различных научных дисциплинах. Особенности графической репрезентации кластеров социтирования.
Программное обеспечение библиометрических исследований. Особенности функционирования программ Bibliometrics Toolbox и Bibexсel.
Недостатки библиометрического анализа.
Лекция 7
Структура лингвистики. Системный подход к дифференциации лингвистических дисциплин по объекту исследования. Другие критерии дифференциации лингвистических дисциплин
Подходы к анализу дискурса в языкознании: логико-лингвистический и семантический. Понятия типов речи и предикатов. Риторические предикаты Дж. Граймса (J.Grimes). Теория риторической структуры текста У.Манна (W.Mann); ядерные и сателлитные отрезки текста. RSTTool – графический интерфейс концепции. Попытки использования концепции в системе автоматического реферирования.
Лекция 8
Общая архитектура и классификация систем автоматического реферирования текста. Общий алгоритм функционирования систем поверхностного уровня.
Формальные подходы к анализу лингвистических явлений. Концепция глоттохронологии М. Сводеша (M. Swadesh). Понятие ядерного словаря и скорости его изменения (retention rate). Формула Сводеша. Недостатки концепции.
Алгоритм определения степени совпадения ядерных словаре двух языков и подсчёта времени их отделения от праязыка. Компьютерная программа Cognate Ж.Гая (J.Guy). Программа Compare (ICCL); таблицы соответствий и расстояние между символами сравниваемых слов ядерного словаря.
Лекция 9
Ч.Осгуд (Ch. Osgood) и методика семантического дифференциала. Понятие бинарных оппозитивных понятий.
Корпусная лингвистика – основное направление компьютерной лингвистики. Историческое развитие корпусной лингвистики, Брауновский корпус. Виды корпусов, требования к корпусам: аутентичность, репрезентативность, упорядоченность, репрезентативность, аннотированность, доступность.
Методы аннотирование корпуса тегами частей речи (POS-tagging). Архитектура теггера частей речи; структура и функции токенизатора, морфологического классификатора, морфологического дисамбигьютора; таблицы тегов. Виды теггеров, теггер по умолчанию, запоминающие и вероятностные теггеры; обучающиеся и вероятностные теггеры. Пакет программ NLTK Пенсильванского университета.
Лекция 10
Программы поиска по корпусам, их особенности и отличие от традиционных ИПС. Виды поиска: поиск точных форм, лексико-грамматический поиск, задание поискового расстояния.
Особенности поиска по BNC c помощью Sara Client; виды запросов и конструктор запросов.
Конкордансы. Особенности функционирования WordSmith 4.0 модули Wordlist, Concord, KeyWords. Возможности поиска по тегам и моделям словосочетаний. Возможности статистического анализа лингвистических единиц.
Фразовая структура английского предложения. Пазеры и их виды: запоминающие, вероятностные, сверху-вниз, снизу-вверх.
Лекция 11
Компьютерные технологии в образовании. Виды материалов, необходимых для дистанционного обучения. Компьютерные обучающие системы и их виды.
Особенности компьютерной сети TeleNex, созданной в Гонконге для учителей английского языка. Структура базы данных; корпус текстов, произведённых студентами, изучающими английский язык.
Проблемы разработки корпусов текстов, произведённых студентами, изучающими английский язык. Предметная область Computer learner corpora research. Теггеры ошибок, классификация и подсчёт частотности ошибок в текстах различных жанров. Контрастивный анализ различных корпусов и объяснение причин отклонений от стилистической нормы.
Лекция 12
Системы полуавтоматического реферирования в обучении иностранным языкам. Концепция симметричного реферирования; принципы симметричности, отождествления, последовательности, контактной связи. Понятие плотности связей и формальные методы определения размера реферата. Понятие реферата – экстракта, индикативного реферата, индикативно-информативного реферата.
Программа PASS. Методика составления словарей для полуавтоматического реферирования текста и обучение лексическим единицам предметной области. Трансформационные процедуры, применяемые при редактировании реферата-экстракта и их значение для формирования лексико-грамматических навыков работы со связным текстом.
Темы лабораторных работ
- Расчёт количества информации в текстах различных жанров по формуле Шеннона
- Набор и форматирование текста, импорт графического материала, составление тестов в SWP 5.0
- Поиск по электронным каталогам, импорт библиографических данных, форматирование текста по издательским шаблонам в Endnote и Bibliographix.
- Особенности функционирования модулей Bibliometrics Toolbox. Совместное использование Endnote и Bibliometrics Toolbox для получения распределений Лотки и Ципфа.
- Поиск по корпусам. Русский национальный корпус
- Поиск по корпусам. Brown Corpus
- Особенности использования Sara Client.
- Особенности конкордансов WordSmith, Concapp. Статистический анализ эталонного корпуса и корпуса non native speakers.
- Составление словарей для автоматического реферирования и использование трансформационных процедур при редактировании рефератов-экстрактов.
Экзаменационные вопросы
- Интерпретация информации в философии, семантике, кибернетике, информатике.
- Законы Бредфорда и Ципфа и их значение для анализа лингвистических единиц
- Классификация и особенности прикладных программ, разрабатываемых на метанаучном уровне. Концепция Scientific Workplace.
- Особенности прикладных программ для обработки библиографических данных. Концепция Bibliographix.
- Предметная область и основные понятия библиометрии.
- Библиометрические исследования состояния науки.
- Социтирование и сословный анализ. Картографирование науки.
- Особенности компьютерных программ для библиометрического анализа. Bibliometrics toolbox. Недостатки библиометрического анализа
- Предметная область лингвистики. Системный подход к разграничению лингвистических дисциплин.
- Подходы к анализу текста. Концепция У.Манна и возможности её компьютеризации. RST Tool.
- особенности систем автоматического реферирования текста.
- Концепция М.Сводеша и формализованный подход к анализу генетического происхождения языков. J. Guy и программа COGNATE. Программа Соmpare.
- Корпусная лингвистика и компьютерные технологии на методологическом уровне языкознания. Историческое развитие, классификация корпусов, требования к корпусам.
- Методы аннотирования корпусов. Архитектура и особенности функционирования теггеров (POS taggers).
- Программы поиска по корпусам: классификация, вид поиска, возможности, предоставляемые пользователю. Sara Search Британского национального корпуса.
- Конкордансы. Особенности WordSmith, Concapp.
- Программы анализа синтаксической структуры. Концепция фразовой структуры предложения.
- Вероятностные пазеры. Lexparser.
- Системы дистанционного обучения и компьютерные обучающие системы.
- Предметная область Computer learner corpora research. Использование данных computer learner corpora для контрастивного и лингводидактического анализа
- Использование систем полуавтоматического реферирования в обучении иностранным языкам.
Библиографический список
- Информация, ее виды и свойства. ссылка скрыта
- Рождественский Ю.В., Волков А.А., Марчук Ю.Н. Введение в прикладную филологию. Языковая семиотика. - М.: Изд-во Моск.гос. ун-та, 1987. - 116 с.
- MacKichan software. ссылка скрыта
- Endnote product reviews. te.com/enreviews.asp
- Gauthier É. Bibliometric analysis of scientific and technological research: a user's guide to the methodology.
- Glänzel W. Bibliometrics as a research field: A course on theory and application of bibliometric indicators.
- ссылка скрыта И. Вклад России в развитие мировой науки: библиометрическая оценка. .russ.ru/oz/2002/7/2002_07_39.php">
- Гарфилд Ю. Можно ли выявлять и оценивать научные достижения и научную продуктиыность? ссылка скрыта
- Кара-Мурза С.Г. Цитирование в науке и подходы к оценке научного вклада. // Вестн. АН СССР. - 1981. - N 5. - С.68-75 ссылка скрыта
- Iatsko V. Integrational discourse analysis. www.khsu.ru/ida
- . A view of rhetorical structure theory. ссылка скрыта
- 17. Morris Swadesh: critical essay. ссылка скрыта
- Program SEMDI. ссылка скрыта
- Подлесская В.И. Современные компьютерные методы в изучении и преподавании лингвистических дисциплин: корпусная лингвистика. ссылка скрыта
- Национальный корпус русского языка. Что такое корпус? rpora.ru/corpora-intro.php
- Natural Language Toolkit. ссылка скрыта
- The BNC Handbook. ссылка скрыта
- WordSmith Tools. ссылка скрыта
- Centre for English Corpus Linguistics. ссылка скрыта
- Iatsko V. Linguistic aspects of summarization // Philologie im Netz. 2001. N 18. www.fu-berlin.de/ phin/phin18/p18i.htm