Программа курса для студентов, обучающихся по специальности 080801 «Прикладная информатика в области искусств и гуманитарных наук»
Вид материала | Программа курса |
- Программа учебной дисциплины, 202.6kb.
- Федеральное агенство по образованию санкт-Петербургский государственный университет, 122.66kb.
- Программа учебной дисциплины «Концепции современного естествознания» Программа дисциплины, 106.55kb.
- Программа учебной дисциплины «Концепции современного естествознания» Программа дисциплины, 116.26kb.
- Программа по курсу "Математика. Алгебра и геометрия" для специальности 080801 (351400), 143.45kb.
- Рабочая программа по дисциплине «Налогообложение» для специальности 080801 «Прикладная, 123.05kb.
- Рабочая программа по курсу «Теория систем и системный анализ» для специальности 080801, 220.5kb.
- Рабочая программа по дисциплине «Финансовый анализ» для специальности 080801 «Прикладная, 160.28kb.
- Рабочая программа по дисциплине "Имитационное моделирование экономических процессов", 207.47kb.
- Рабочая программа по дисциплине «Математическая экономика» для специальности 080801, 222.52kb.
Санкт-Петербургский государственный университет
Факультет филологии и искусств
ЛИНГВИСТИЧЕСКИЕ ОСНОВЫ ИНФОРМАТИКИ
ПРОГРАММА КУРСА
для студентов, обучающихся по специальности 080801
«Прикладная информатика в области искусств и гуманитарных наук»
Составитель:
д. т. н., проф. Рубашкин В.Ш.
Утверждено на заседании
кафедры
"___" _____________2006 г.
Зав. кафедрой:______________________
Н.В.Борисов
Санкт-Петербург
2006
ВВЕДЕНИЕ
Специалист по информационным технологиям, в особенности специалист, ориентированный на анализ, систематизацию и свертывание больших информационных потоков, должен обладать знаниями о языке как основном средстве представления информации, об основных направлениях, методах и процедурах использования языковых моделей в современных информационных технологиях.
Курс "Лингвистические основы информатики" включен в учебный план в качестве вузовского компонента с учетом общей ориентации подготовки специалистов данной специальности.
Курс должен предваряться курсами "Дискретная математика и логика", "Введение в языкознание", а также курсами, обеспечивающими изучение базовых информационных технологий (операционные системы, текстовые информационные технологии, технологии баз данных, основы программирования).
Курс предусматривает 32 часа аудиторных занятий. Формы контроля: выполнение компьютерного практикума; подготовка доклада-реферата; зачет.
^ ЦЕЛИ И ЗАДАЧИ КУРСА
Общая цель курса – ознакомить студентов с основными направлениями, средствами и методами использования лингвистических моделей в современных информационных технологиях.
В результате изучения дисциплины студент должен знать и понимать:
- Какие информационные технологии основаны на моделях языковой компетенции; какие основные проблемы решаются в ходе такого моделирования; какие методы и средства при этом используются.
- Функциональные характеристики языка в системе культуры.
- Основные характеристики языка как знаковой системы; уровневое представление языка.
- Основы лингвистического учения о синтаксической структуре, способах ее представления в алгоритмах и программах, ее формальных свойствах.
- Основные понятия и проблемы семантики.
- Основные характеристики понятия как базовой единицы семантического уровня.
- Языковые средства формализации знаний в информационных технологиях.
- Роль словарей как основного информационного ресурса, обеспечивающего поддержку лингвистических информационных технологий. Основные подходы к созданию частотных словарей.
К концу курса студент должен овладеть следующими основными навыками и умениями:
- Анализировать и кодировать синтаксическую структуру русского предложения.
- Распознавать в тексте явления лексической и синтаксической омонимии; анафору и кореференцию; языковые конструкции, построенные с нарушением условия проективности.
- Уметь определять отношения, существующие между заданными понятиями в тексте и в лексиконе; дать описание семантики термина.
- Формализовать знания, содержащиеся в естественноязыковом тексте, средствами разных языков представления знаний.
ТЕМАТИЧЕСКИЙ ПЛАН
^ НАИМЕНОВАНИЕ РАЗДЕЛОВ И ТЕМ | Количество часов: | ||
всего | лекц. | практ. и сем. | |
Введение. Лингвистические модели в современных информационных технологиях. | 2 | 2 | - |
1. Язык как система. Уровневые модели языка. | 2 | 2 | - |
2 Синтаксическая структура предложения и способы ее формализации. | 2 | 2 | - |
3 Словарная поддержка лингвистических технологий. Частотные словари и технологии Text Mining. | 6 | 2 | 4 |
4. Основные понятия и проблемы семантики. | 4 | 4 | - |
5. Языки представления знаний. Логико-семантические модели делового текста. | 12 | 10 | 2 |
6. Средства представления знаний в интеллектуальных информационных технологиях. | 4 | 4 | - |
| | | |
^ ВСЕГО ПО КУРСУ: | 32 | 26 | 6 |
С О Д Е Р Ж А Н И Е К У Р С А .
В в е д е н и е.
Лингвистические модели в современных информационных технологиях.
Автоматический перевод – исторически первая "лингвистическая" технология. Этапы развития, основные проблемы, методы и процедуры.
Лингвистические модели в документальных информационных системах.
Лингвистические модели в системах распознавания письменных текстов и устной речи.
Орфографические и грамматические корректоры.
Системы понимания (смыслового анализа) и синтеза текста.
Т е м а 1.
Язык как система. Уровни описания языка.
^ Функциональное описание языка.
Основные "функциональные стили": деловая речь (функция деловой коммуникации) и поэтическая речь (функция построения художественного образа); их отличительные особенности. Другие функции языка: выражение эмоций, ритуал, символизация принадлежности к социальной группе
^ Внутрисистемное описание языка.
Язык как текст и как порождающая текст система. Уровни описания языка: фонетический / графематический, морфологический, синтаксический, семантический. Единицы, структуры и задачи прикладного моделирования на уровнях фонетики и морфологии.
Т е м а 2.
Синтаксическая структура предложения и способы ее формализации.
Понятие синтаксической связи. Типология синтаксических связей в традиционной лингвистике: сочинительные и подчинительные связи; Виды подчинительной связи. Другие виды грамматически выраженных связей в тексте: анафорические и межсегментные связи.
Синтаксическая омонимия. Виды синтаксической омонимии: реальная и формальная; локальная и глобальная; омонимия адреса и омонимия содержания связи. Омонимия разных видов связей.
Способы представления синтаксической структуры предложения в алгоритмах и программах.
Формальные свойства синтаксической структуры предложения: древесность и проективность.
Порождение и распознавание структуры текста с помощью формальных грамматик. Формальные грамматики как инструмент автоматического синтаксического анализа предложения. Модели анализа, ориентированные на эталонный корпус текстов.
Т е м а 3.
Словарная поддержка лингвистических технологий. Частотные словари и технологии Text Mining.
Словари и словарная работа в теоретической и прикладной лингвистике. Типы словарей. Словарь как информационный ресурс; словарная поддержка лингвистических информационных технологий.
Частотные словари и их использование. Основные проблемы, решаемые при построении частотного словаря: лемматизация и разделение общеязыковой и предметно-специализированной лексики.
Частотный словарь как инструмент анализа и свертывания содержания больших текстовых коллекций. Технологии Text Mining.
Практикум: автоматизированное построение частотного словаря и представление основного содержания заданного текста средствами стандартных офисных технологий.
Т е м а 4.
Основные понятия и проблемы семантики.
^ Семантика как научное направление.
О термине "семантика". Лингвистическая и концептуальная семантика. Междисциплинарный характер семантических исследований.
Семантические проблемы в традиционной лингвистике.
Компьютерная семантика.
^ Понятие – основная единица семантического уровня.
Понятие и суждение - единицы семантического уровня.
О природе значения.
Что такое понятие? О возможности конструктивного определения понятия.
^ Классификация понятий: собственно понятия и функциональные термы; основания классификации понятий; основные семантические категории; диагностика понятий.
^ Парадигматические отношения между понятиями: объемные отношения; предметно-ассоциативные отношения; дефиниционные отношения; проблема выделения и описания семантических примитивов; валентности и условия их заполнения; функциональные отношения.
^ Синтагматические отношения между понятиями: ролевые отношения; предметно-ассоциативные отношения; кореференция; функциональные отношения. Референтное и нереферентное употребление имен. Проблема распознавания семантических отношений в процедурах автоматического анализа текста. Роль "энциклопедических" знаний в понимании текста.
^ Понятие и слово: однозначность – многозначность; проблема инвентаризации понятий - статистический подход; проблема определения границ термина.
Т е м а 5.
Языки представления знаний (ЯПЗ)
Проблема лексической, грамматической и синтаксической неоднозначности естественно-языкового текста. Смысловая неполнота текста. Необходимость специального языка для представления смысла текста.
Типы знаний: факт и закон; "естественнонаучные" и "технические знания"; специфика гуманитарного знания.
Основные требования к ЯПЗ.
Состав описания ЯПЗ: словарь (лексика), правила построения (грамматика), правила вывода, условия референции, методы перевода.
Виды ЯПЗ.
Простой пример ЯПЗ: табличный язык реляционных СУБД.
^ Логические языки.
Немного истории: формирование языка логики.
Логика высказываний как средство формального описания логических связок. Распознавание логических связок в естественноязыковом тексте.
Логика предикатов как средство формального описания кванторов. Распознавание логической структуры предложения и кванторной информации в естественноязыковом тексте. Логические свойства отношений.
Чего не хватает общей логике предикатов?
^
Представление знаний в языках логического типа
Представление признака. Условие применимости признака. Дерево признаков.
Представление отношений. Описание валентностей.
Внешнее и внутреннее отрицание.
Осмысленность (семантическая правильность) языковых выражений и возможности ее моделирования в логических языках.
Представление знаний: представление фактов и представление законов.
Логический анализ определений.
Обзор основных концептуальных систем.
^ Языки информационных технологий.
Семантические сети. Словарные и фактографические семантические сети. Табличное представление семантических сетей.
Фреймовые языки.
Продукционные языки.
Новое поколение ЯПЗ для информационных технологий: RDF (Resource Description Framework); UNL (The Universal Networking Language); KIF (Knowledge Interchange Format); CycL (The CycL Representation Language). Формальные онтологии и их использование. Язык OWL.
Л И Т Е Р А Т У Р А
- Шемакин Ю. И. Начала компьютерной лингвистики: Учебное пособие. - М.: Изд-во МГОУ, 1992.
- Хейс Д. Г. Методы исследований в области автоматического перевода // Автоматический перевод. Сборник статей. – М.: Прогресс, 1971. - С. 41 - 83.
- Тестелец Я. Г. Введение в общий синтаксис. – М., 2001.
- Palmer F. R. Semantics. A new outline. – М.: Высшая школа, 1982.
- Кобозева И. М. Лингвистическая семантика. – М., 2000.
- Кронгауз М. А. Семантика. – М., 2001.
- Гетманова А. Д. Логика: Учебник для студентов пед. вузов. - М.: Высшая школа, 1986 (и след.)
- Рубашкин В. Ш. Представление и анализ смысла в интеллектуальных информационных системах. - М.: Наука, 1989.