Программа курса для студентов, обучающихся по специальности 080801 «Прикладная информатика в области искусств и гуманитарных наук»

Вид материалаПрограмма курса

Содержание


Цели и задачи курса
Наименование разделов и тем
Всего по курсу
Функциональное описание языка.
Внутрисистемное описание языка.
Семантика как научное направление.
Понятие – основная единица семантического уровня.
Классификация понятий
Парадигматические отношения между понятиями
Синтагматические отношения между понятиями
Понятие и слово
Логические языки.
Представление знаний в языках логического типа
Языки информационных технологий.
Подобный материал:

Санкт-Петербургский государственный университет

Факультет филологии и искусств




ЛИНГВИСТИЧЕСКИЕ ОСНОВЫ ИНФОРМАТИКИ


ПРОГРАММА КУРСА


для студентов, обучающихся по специальности 080801

«Прикладная информатика в области искусств и гуманитарных наук»


Составитель:

д. т. н., проф. Рубашкин В.Ш.


Утверждено на заседании

кафедры

"___" _____________2006 г.

Зав. кафедрой:______________________

Н.В.Борисов




Санкт-Петербург


2006

ВВЕДЕНИЕ

Специалист по информационным технологиям, в особенности специалист, ориентированный на анализ, систематизацию и свертывание больших информационных потоков, должен обладать знаниями о языке как основном средстве представления информации, об основных направлениях, методах и процедурах использования языковых моделей в современных информационных технологиях.
Курс "Лингвистические основы информатики" включен в учебный план в качестве вузовского компонента с учетом общей ориентации подготовки специалистов данной специальности.
Курс должен предваряться курсами "Дискретная математика и логика", "Введение в языкознание", а также курсами, обеспечивающими изучение базовых информационных технологий (операционные системы, текстовые информационные технологии, технологии баз данных, основы программирования).

Курс предусматривает 32 часа аудиторных занятий. Формы контроля: выполнение компьютерного практикума; подготовка доклада-реферата; зачет.


^ ЦЕЛИ И ЗАДАЧИ КУРСА

Общая цель курса – ознакомить студентов с основными направлениями, средствами и методами использования лингвистических моделей в современных информационных технологиях.

В результате изучения дисциплины студент должен знать и понимать:
  • Какие информационные технологии основаны на моделях языковой компетенции; какие основные проблемы решаются в ходе такого моделирования; какие методы и средства при этом используются.
  • Функциональные характеристики языка в системе культуры.
  • Основные характеристики языка как знаковой системы; уровневое представление языка.
  • Основы лингвистического учения о синтаксической структуре, способах ее представления в алгоритмах и программах, ее формальных свойствах.
  • Основные понятия и проблемы семантики.
  • Основные характеристики понятия как базовой единицы семантического уровня.
  • Языковые средства формализации знаний в информационных технологиях.
  • Роль словарей как основного информационного ресурса, обеспечивающего поддержку лингвистических информационных технологий. Основные подходы к созданию частотных словарей.

К концу курса студент должен овладеть следующими основными навыками и умениями:
  • Анализировать и кодировать синтаксическую структуру русского предложения.
  • Распознавать в тексте явления лексической и синтаксической омонимии; анафору и кореференцию; языковые конструкции, построенные с нарушением условия проективности.
  • Уметь определять отношения, существующие между заданными понятиями в тексте и в лексиконе; дать описание семантики термина.
  • Формализовать знания, содержащиеся в естественноязыковом тексте, средствами разных языков представления знаний.



ТЕМАТИЧЕСКИЙ ПЛАН
^

НАИМЕНОВАНИЕ РАЗДЕЛОВ И ТЕМ


Количество часов:

всего

лекц.

практ.

и сем.

Введение. Лингвистические модели в современных информационных технологиях.

2

2

-

1. Язык как система. Уровневые модели языка.

2

2

-

2 Синтаксическая структура предложения и способы ее формализации.

2

2

-

3 Словарная поддержка лингвистических технологий. Частотные словари и технологии Text Mining.

6

2

4

4. Основные понятия и проблемы семантики.

4

4

-

5. Языки представления знаний. Логико-семантические модели делового текста.

12

10

2

6. Средства представления знаний в интеллектуальных информационных технологиях.

4

4

-













^ ВСЕГО ПО КУРСУ:

32

26

6


С О Д Е Р Ж А Н И Е К У Р С А .


В в е д е н и е.

Лингвистические модели в современных информационных технологиях.

Автоматический перевод – исторически первая "лингвистическая" технология. Этапы развития, основные проблемы, методы и процедуры.

Лингвистические модели в документальных информационных системах.

Лингвистические модели в системах распознавания письменных текстов и устной речи.

Орфографические и грамматические корректоры.

Системы понимания (смыслового анализа) и синтеза текста.


Т е м а 1.

Язык как система. Уровни описания языка.

^ Функциональное описание языка.

Основные "функциональные стили": деловая речь (функция деловой коммуникации) и поэтическая речь (функция построения художественного образа); их отличительные особенности. Другие функции языка: выражение эмоций, ритуал, символизация принадлежности к социальной группе

^ Внутрисистемное описание языка.

Язык как текст и как порождающая текст система. Уровни описания языка: фонетический / графематический, морфологический, синтаксический, семантический. Единицы, структуры и задачи прикладного моделирования на уровнях фонетики и морфологии.


Т е м а 2.

Синтаксическая структура предложения и способы ее формализации.

Понятие синтаксической связи. Типология синтаксических связей в традиционной лингвистике: сочинительные и подчинительные связи; Виды подчинительной связи. Другие виды грамматически выраженных связей в тексте: анафорические и межсегментные связи.

Синтаксическая омонимия. Виды синтаксической омонимии: реальная и формальная; локальная и глобальная; омонимия адреса и омонимия содержания связи. Омонимия разных видов связей.

Способы представления синтаксической структуры предложения в алгоритмах и программах.

Формальные свойства синтаксической структуры предложения: древесность и проективность.

Порождение и распознавание структуры текста с помощью формальных грамматик. Формальные грамматики как инструмент автоматического синтаксического анализа предложения. Модели анализа, ориентированные на эталонный корпус текстов.


Т е м а 3.

Словарная поддержка лингвистических технологий. Частотные словари и технологии Text Mining.

Словари и словарная работа в теоретической и прикладной лингвистике. Типы словарей. Словарь как информационный ресурс; словарная поддержка лингвистических информационных технологий.

Частотные словари и их использование. Основные проблемы, решаемые при построении частотного словаря: лемматизация и разделение общеязыковой и предметно-специализированной лексики.

Частотный словарь как инструмент анализа и свертывания содержания больших текстовых коллекций. Технологии Text Mining.

Практикум: автоматизированное построение частотного словаря и представление основного содержания заданного текста средствами стандартных офисных технологий.


Т е м а 4.

Основные понятия и проблемы семантики.

^ Семантика как научное направление.

О термине "семантика". Лингвистическая и концептуальная семантика. Междисциплинарный характер семантических исследований.

Семантические проблемы в традиционной лингвистике.

Компьютерная семантика.


^ Понятие – основная единица семантического уровня.

Понятие и суждение - единицы семантического уровня.

О природе значения.

Что такое понятие? О возможности конструктивного определения понятия.

^ Классификация понятий: собственно понятия и функциональные термы; основания классификации понятий; основные семантические категории; диагностика понятий.

^ Парадигматические отношения между понятиями: объемные отношения; предметно-ассоциативные отношения; дефиниционные отношения; проблема выделения и описания семантических примитивов; валентности и условия их заполнения; функциональные отношения.

^ Синтагматические отношения между понятиями: ролевые отношения; предметно-ассоциативные отношения; кореференция; функциональные отношения. Референтное и нереферентное употребление имен. Проблема распознавания семантических отношений в процедурах автоматического анализа текста. Роль "энциклопедических" знаний в понимании текста.

^ Понятие и слово: однозначность – многозначность; проблема инвентаризации понятий - статистический подход; проблема определения границ термина.

Т е м а 5.

Языки представления знаний (ЯПЗ)

Проблема лексической, грамматической и синтаксической неоднозначности естественно-языкового текста. Смысловая неполнота текста. Необходимость специального языка для представления смысла текста.

Типы знаний: факт и закон; "естественнонаучные" и "технические знания"; специфика гуманитарного знания.

Основные требования к ЯПЗ.

Состав описания ЯПЗ: словарь (лексика), правила построения (грамматика), правила вывода, условия референции, методы перевода.

Виды ЯПЗ.

Простой пример ЯПЗ: табличный язык реляционных СУБД.

^ Логические языки.

Немного истории: формирование языка логики.

Логика высказываний как средство формального описания логических связок. Распознавание логических связок в естественноязыковом тексте.

Логика предикатов как средство формального описания кванторов. Распознавание логической структуры предложения и кванторной информации в естественноязыковом тексте. Логические свойства отношений.

Чего не хватает общей логике предикатов?
^

Представление знаний в языках логического типа


Представление признака. Условие применимости признака. Дерево признаков.

Представление отношений. Описание валентностей.

Внешнее и внутреннее отрицание.

Осмысленность (семантическая правильность) языковых выражений и возможности ее моделирования в логических языках.

Представление знаний: представление фактов и представление законов.

Логический анализ определений.

Обзор основных концептуальных систем.

^ Языки информационных технологий.

Семантические сети. Словарные и фактографические семантические сети. Табличное представление семантических сетей.

Фреймовые языки.

Продукционные языки.

Новое поколение ЯПЗ для информационных технологий: RDF (Resource Description Framework); UNL (The Universal Networking Language); KIF (Knowledge Interchange Format); CycL (The CycL Representation Language). Формальные онтологии и их использование. Язык OWL.


Л И Т Е Р А Т У Р А
  1. Шемакин Ю. И. Начала компьютерной лингвистики: Учебное пособие. - М.: Изд-во МГОУ, 1992.
  2. Хейс Д. Г. Методы исследований в области автоматического перевода // Автоматический перевод. Сборник статей. – М.: Прогресс, 1971. - С. 41 - 83.
  3. Тестелец Я. Г. Введение в общий синтаксис. – М., 2001.
  4. Palmer F. R. Semantics. A new outline. – М.: Высшая школа, 1982.
  5. Кобозева И. М. Лингвистическая семантика. – М., 2000.
  6. Кронгауз М. А. Семантика. – М., 2001.
  7. Гетманова А. Д. Логика: Учебник для студентов пед. вузов. - М.: Высшая школа, 1986 (и след.)
  8. Рубашкин В. Ш. Представление и анализ смысла в интеллектуальных информационных системах. - М.: Наука, 1989.