Н. Ф. Катанова В. А. Яцко компьютерные технологии в науке и образовании специальность 552800 Информатика и вычислительная техника Программа курса

Вид материалаПрограмма курса

Содержание


2. Программа курса
2.1. Содержание курса
2.2. Тематический план
3. План лекций
1 . probablilistic (вероятностные) пазеры- их особенности (архитектура, алгоритмы) в сравнении с другими видами пазеров. Lexpars
2. Особенности конкордансов на пример Concapp. Сравнительный анализ Concapp и WordSmith. 3.
Государственный профиль взаимосвязи открытых систем россии
Подобный материал:


Хакасский государственный университет им. Н.Ф.Катанова



В.А.ЯЦКО



Компьютерные технологии в науке и образовании

специальность 552800 - Информатика и вычислительная техника


Программа курса


Размещена на:

ссылка скрыта


Абакан – 2004

1. Предисловие



Данная программа предназначена для магистрантов Института информатики и телематики Хакасского государственного университета им. Н.Ф.Катанова, обучающихся по специальности 552800 - Информатика и вычислительная техника. Программа может быть использована магистрантами в процессе подготовки к лекциям, семинарским и лабораторным занятиям, а также для самостоятельной работы по курсу.

Пособие составлено в соответствии с требованиями ГОСТа по специальности 552800 - Информатика и вычислительная техника.


2. Программа курса

Цель курса – ознакомить магистрантов с компьютерными технологиями, применяемых с целью повышения эффективности научно-исследовательской и педагогической деятельности как на общенаучном, так и на частнонаучном уровнях.. После прохождения обучения магистрант должен:

а) иметь представление о:
  • предметной области итологии и её соотношении с информатикой;
  • соотношении обыденного и научного познания;
  • основных уровнях научно-познавательной деятельности;
  • критериях разграничения естественных, гуманитарных, общественных, технических дисциплин;
  • особенностях программного обеспечения теоретических и эмпирических исследований;
  • особенностях программ электронного документооборота в науке;
  • концепции рабочего места учёного (scientific workplace)
  • структуре лингвистики и критериях дифференциации лингвистических дисциплин.
  • подходах к анализу дискурса в языкознании;
  • концепции глоттохронологии;
  • методике семантического дифференциала;
  • фразовой структуре английского предложения;
  • комплексе материалов, необходимых для дистанционного обучени.

б) знать:

– основные теоретические понятия и методы итологии;
  • основные функции стандартизации;
  • особенности теоретических, эмпирических и фундаментальных исследований;
  • особенности функционирования текстового, графического и экзаменационного модулей в SWP 5.0.
  • особенности функционирования библиографических редакторов;
  • предметную область библиометрии;
  • особенности программного обеспечения библиометрических исследований;
  • алгоритмы определения генетического родства языков на основе автоматического анализа ядерных словарей;
  • основные понятия корпусной лингвистики и требования к корпусам.
  • архитектуру и алгоритмы функционирования программ автоматического аннотирования корпусов.
  • особенности функционирования программ поиска по корпусам и виды поисковых запросов;
  • алгоритмы анализа синтаксической структуры английского предложения.
  • виды компьютерных обучающих систем;
  • предметную область computer learner corpora research.

в) уметь применять:

– методы составления электронных тестов в SWP 5.0;
  • методы подготовки рукописи к изданию с использованием библиографических редакторов;
  • методы анализа дескриптивных и реляционных библиометрических показателей;
  • алгоритмы создания программ сравнительного анализа словарей естественных языков;
  • методы составления поисковых запросов различных видов и поиска по электронным корпусам;
  • алгоритмы создания токенайзеров и теггеров как средств аннотирования корпусов;
  • алгоритмы создания пазеров как средств анализа синтаксической структуры предложения.


2.1. Содержание курса

Курс "Компьютерные технологии в науке и образовании" включает 21 лекционный час, 10,5 часа семинарских занятий, и 21 час лабораторных занятий. В процессе лекционных занятий магистранты знакомятся с основными понятиями, структурой изучаемых предметных областей, архитектурой, алгоритмами, особенностями функционирования соответствующего программного обеспечения. Семинарские занятия направлены на закрепление теоретического материала; в процессе лабораторных занятий применяются на практике алгоритмы функционирования и создания изучаемых компьютерных технологий.

Курс "Компьютерные технологии в науке и образовании" предполагает связь с такими дисциплинами, как: "История информатики и вычислительной техники", "Автоматизированные информационно-поисковые системы", "Современные направления развития информатики".

Изучение курса завершается экзаменом, в процессе которого студенты должны ответить на контрольные вопросы (см. ниже), проявив знание основных понятий и предметных областей, указанных в плане лекций. Для того, чтобы быть допущенным к экзамену необходимо выполнить лабораторные задания (см ниже).


2.2. Тематический план





Темы занятий

Вид занятий и количество часов

лекционные

семинарские

лабораторные

1

Предметная область итологии и стандартизация в области информатики

2

1



2

Структура и методы науки

2

2



3

Особенности компьютерных технологий на различных уровнях научно-познавательной деятельности

2

1



4

Концепция рабочего места учёного


1

1

3

5

Особенности функционирования библиографических редакторов


2

2

4

6

Предметная область библиометрии и методы библиометрического анализа


3

2

3

7

Структура языкознания

1





8

Подходы к автоматическому анализу дискурса

1

1

2

9

Формальные методы лингвистического анализа

2

0,5

4

10

Корпусная лингвистика

3



4

11

Компьютерные технологии и лингводидактика

2




1

Итого

21

10,5

21



3. План лекций

Лекция 1.

Предметная область итологии [1]. Понятие ИТ-системы, свойства ИТ-систем: дружественность к пользователю, переносимость (мобильность), интероперабельность, масштабируемость (расширяемость). Соотношение между свойствами открытых систем и объектно-ориентированным подходом к программированию. Понятия окружения открытых систем, общедоступных спецификаций, профиля; виды профилей. Классификационная схема спецификаций информационных технологий [2].

Методы итологии. Метод архитектурной спецификации, метод функциональной спецификации, стандартизация спецификаций ИТ и управление их жизненным циклом, метод аттестации, метод профилирования, метод таксономии профилей ИТ, методы конструирования прикладных информационных технологий. Соотношение итологии и информатики.

Лекция 2


Особенности архитектурных спецификаций в рамках итологии; эталонные модели разных видов информационных технологий; виды базовых спецификаций; определение профиля, требования к международным профилям. Примеры локальных профилей. Иерархическая структура профиля API для платформы JAVA2 [3]; SAX – профиль API для XML [4]. Стратегические профили, государственный профиль взаимосвязи открытых систем России [5].

Функции и значение стандартизации, концепция национальной системы стандартизации России [6].

Критерии разграничения обыденного и научного познания; понятия и представления как формы знания. Теоретический и эмпирический уровни научного познания, общие критерии их разграничения. Специфика методов эмпирического уровня научно-познавательной деятельности: наблюдения, измерения, эксперимента [7].

Лекция 3


Теоретический уровень научно-познавательной деятельности, понятие идеального объекта. Специфика фундаментальных теорий [7]. Специфика методов теоретического уровня: объяснения, абстрагирования, системного подхода, моделирования; виды моделирования. Взаимосвязи теоретического и эмпирического уровня; метатеоретический уровень научного познания. Иерархическая структура научных дисциплин. Возможные критерии разграничения естественных, гуманитарных, общественных, технических дисциплин.

Специфика и классификация компьютерных технологий, применяемых на различных уровнях научно-познавательной деятельности. Особенности прикладных программы электронного документооборота НИРИН; АКТИН, ДОФИН.

Лекция 4

Компьютерные программы для генерации первичных документов и обеспечения большей эффективности и экономии времени научного исследования. Концепция рабочего места учёного (scientific workplace). Особенности основных модулей SWP 5.0: текстового процессора, вычислительного модуля, конструктора экзаменов [8]. Применение стилей, тегов, ключевых слов для форматирования текста в формате ".tex", проведения математических вычислений, составления и оценки электронных тестов.

Библиографические редакторы. Концепция научного исследования, лежащая в основе пакета Bibliographix: фиксирование и разработка идей, цитирование источников, поиск библиографических ссылок и составление библиографических списков.

Лекция 5


Возможности программы Endnote [9]. Структура и сортировка библиографических записей, особенности импорта и экспорта таблиц и графики; использование и создание шаблонов для автоматического форматирования рукописи научной работы в соответствии с требованиями различных издательств. Поиск по каталогам в Интернете.

Предметная область библиометрии, методологический уровень, уровень научной информации, уровень мониторинга науки [10]. Компоненты, единицы, и количественные данные библиометрического анализа. Исходные количественные данные, дескриптивные и реляционные показатели библиометрического анализа; анализ соавторства, социтирования, сословный анализ [11].

Лекция 6

Базы данных для библиометрического анализа; специализированные и междисциплинарные базы данных; особенности баз данных Института научной информации (ISI) [11]. Особенности базы данных National Science Indicators, примеры анализа количественных показателей исследовательской активности в разных странах мира; понятие "impact"; сопоставительный анализ библиометрических показателей, отражающий уровень развития научных исследований в различных странах и различных предметных областях [12]. Структура библиометрических баз данных, понятие поля, ряда, тега.

Канадский библиометрический проект: структура реляционной база данных и результаты [10].

Лекция 7

Методы социтирования и сословного анализа [13]. Понятие кластера социтирования; определение ядра (интеллектуальной базы) и периферии предметной области; понятие силы социтирования и картографирование науки; примеры кластеров социтирования в различных научных дисциплинах. Особенности графической репрезентации кластеров социтирования.

Программное обеспечение библиометрических исследований. Особенности функционирования программ Bibliometrics Toolbox и Bibexсel.

Ограничения, накладываемые на библиометрический анализ [14].


Лекция 8

Структура лингвистики. Системный подход к дифференциации лингвистических дисциплин по объекту исследования. Другие критерии дифференциации лингвистических дисциплин: цель исследования, отношение к языковой практике.

Подходы к анализу дискурса в языкознании: логико-лингвистический и семантический. Риторические предикаты Дж. Граймса (J.Grimes) [15]. Теория риторической структуры текста У.Манна (W.Mann) [16]; ядерные и сателлитные отрезки текста. RSTTool – графический интерфейс концепции. Попытки использования концепции в системе автоматического реферирования.

Лекция 9

Формальные подходы к анализу лингвистических явлений. Концепция глоттохронологии М. Сводеша (M. Swadesh) [17]. Понятие ядерного словаря и скорости его изменения (retention rate). Формула Сводеша. Недостатки концепции.

Алгоритм определения степени совпадения ядерных словаре двух языков и подсчёта времени их отделения от праязыка. Компьютерная программа Cognate Ж.Гая (J.Guy).

Ч.Осгуд и методика семантического дифференциала. Понятие бинарных оппозитивных понятий [18].

Корпусная лингвистика – основное направление компьютерной лингвистики [19]. Историческое развитие корпусной лингвистики, Брауновский корпус. Виды корпусов, требования к корпусам: аутентичность, репрезентативность, упорядоченность, репрезентативность, аннотированность, доступность [20].


Лекция 10

Методы аннотирование корпуса тегами частей речи (POS-tagging) [21]. Архитектура теггера частей речи; структура и функции токенизатора, морфологического классификатора, морфологического дисамбигьютора; таблицы тегов. Виды теггеров, теггер по умолчанию, запоминающие и вероятностные теггеры; обучающиеся и вероятностные теггеры. Пакет программ NLTK – Пенсильванского университета.

Программы поиска по корпусам, их особенности и отличие от традиционных ИПС. Виды поиска: поиск точных форм, лексико-грамматический поиск, задание поискового расстояния.

Особенности поиска по BNC c помощью Sara client [22].

Конкордансы. Особенности функционирования WordSmith 4.0 модули Wordlist, Concord, KeyWords. Возможности поиска по тегам и моделям словосочетаний.

Фразовая структура английского предложения. Пазеры и их виды: запоминающие, вероятностные, сверху-вниз, снизу-вверх.

Лекция 11

Компьютерные технологии в образовании. Виды материалов, необходимых для дистанционного обучения. Компьютерные обучающие системы и их виды.

Особенности компьютерной сети TeleNex, созданной в Гонконге для учителей английского языка. Структура базы данных; корпус текстов, произведённых студентами, изучающими английский язык.

Проблемы разработки корпусов текстов, произведённых студентами, изучающими английский язык. Предметная область Computer learner corpora research [24].

Задания для семинарских занятий


№1
  1. Ознакомьтесь со стандартом SAX (см файл sax2.r31).
    1. К какому виду стандартов (базовый, локальный, OSE) относится данный стандарт?
    2. Сколько обязательных компонентов и интерфейсов в стандарте?
    3. Сколько видов компонентов и интерфейсов содержит стандарт? Опишите эти виды.
    4. Выбрав какой-то вид интерфейса, опишите иерархическую структуру стандарта.
    5. Каково значение стандарта для программирования, в каких областях программирования он может применяться?

2. Ознакомьтесь с функционированием Scientific WorkPlace (файл swp-pro500)

2.1. Опишите работу вычислительного модуля, сравнив его (на конкретных примерах) с вычислениями в Excel и MathCad. Каковы достоинства, недостатки этих 3 программ?

2.2. Опишите работу тестового процессора. Как осуществляется форматирование текста, (параметры страницы, центрирование, выделение шрифтами, составление библиографического списка, вставка ссылок на пункты в списке, связывание ссылок и списка, вставка сносок – приведите конкретные примеры)? Сравните с возможностями MS Word.

2.3. Как осуществляется ввод графического материала (графиков, таблиц, рисунков, изображений) и его связь с текстом? Сравните с MS Word и Excel.

2.4. В чём смысл модуля Exam Builder? Как составляются и оцениваются экзаменационные материалы, какие предлагаются алгоритмы?

3. Ознакомьтесь с программами электронного документооборота Актин и Дофин. Какова архитектура данных программ, в какой среде они написаны (могут быть написаны).

№2

1. Ознакомьтесь с функционированием Bibliographix (файл Bibliographix). Продемонстрируйте на конкретных примерах особенности функционирования его модулей. Проведите сравнительный анализ с другими библиографическими процессорами: Endnote, Reference Manager, ProCite (см. ссылка скрыта )

2. Подготовьте теоретический доклад "Объяснение и предсказание в науке" по материалам файла "explanation".

3. По материалам файла Bibliometrics подготовьте доклады:

3.1. Математические модели научной коммуникации (п. 2.4.);

3.2. Библиометрические матрицы и методика их анализа (п.6).

№ 3

2. Особенности программы Bibliometrics Toolbox (алгоритмы, архитектура, конкретные возможности – папка Biblio).

3. Сравните особенности пазеров: Lexparser (на платформе java) и Apple Pie (алгоритмы, архитектура, возможности).

4. Опишите возможности поиска по BNC с помощью поисковой системы, размещённой в Интернете ссылка скрыта и с помощью Sara Search на конкретных примерах. Загрузите Sara Search с ссылка скрыта и зарегистрируйтесь в соответствии с инструкциями. По электронной почте запросите имя и адрес сервера (см. Sara client).

№ 4

1 . probablilistic (вероятностные) пазеры- их особенности (архитектура, алгоритмы) в сравнении с другими видами пазеров. Lexparser.

2. NLTK как разработать теггер на Python.

3. Особенности языка Python

4. Прочитайте материалы о теории риторической структуры ссылка скрыта рассмотрите функционирование RST TOOL

№ 5

1. Особенности конкордансов на примере WordSmith.

– Функционирование модуля Wordlist

– Функционирование модуля Keywords

– Функционирование модуля Concord.

Возможности статистического анализа словосочетаний.

2. Особенности конкордансов на пример Concapp. Сравнительный анализ Concapp и WordSmith.

3. Возможности совместного использования конкордансов и поисковых программ по корпусам.

4. J.Guy и программа Cognate. Особенности и алгоритмы статистического анализа ядерных словарей двух языков.


Задания по программированию

для лабораторных работ.


1.

Разработать программу Compare для подсчёта процента совпадения ядерных словарей языков (английский, испанский, немецкий), т.е. для определения величины P по формуле Сводеша. Совпадение высчитывается на основе совпадения букв в отдельных словах. Учитывается порядок букв, например для английского end будет зафиксировано совпадение с начальной Е немецкого Ende, но не с конечной. Соответственно в drive и fahren не будет зафиксировано совпадение r поскольку эта буква занимает разные позиции в словах. Однако в словах breast и brust должно быть зафиксировано совпадение конечных st. Буквы с надстрочными знаками данного языка отождествляются с соответствующими st буквами без таких знаков в сравниваемом языке. Регистр не учитывается. Процент совпадения высчитывается для отдельных слов. Затем для словаря в целом. См. файл Compare.

2.

2.1. Разработать программу Phono для вставки в документ MS Word символов английской транскрипции. Программа должна быть представлена в виде отдельного приложения или прописана в макросах и интегрирована в Word.

При функционировании в качестве отдельного модуля окно программы накладывается на окно Word. В окне Phono размещаются транскрипционные символы, текстовая строка, кнопки "paste" "clear". Транскрипционные символы разделёны на три группы: гласные, дифтонги, согласные. При наведении указателя мыши на символ он меняет цвет и всплывает подсказка в виде слова, в котором есть обозначаемый символом звук (см. файл Phono; всего – 46 символов). При клике на символ он появляется в текстовой строке. Нажатием кнопки "paste" символ вставляется в документ MS Word. Размер символа по умолчанию - 12, однако формат может редактироваться Word.

2.2. Разработать теггер ошибок, который смог бы вставлять теги ошибок в тексты MS Word на английском языке. Команды могут быть прописаны в макросах и в Word добавлен пункт меню Tags. При открытии пункта меню появляется список категорий тегов; при выделении какой-либо категории появляется список тегов данной категории; при клике мышью на тег он вставляется в то место текста, где стоит курсор. Теги заключаются в.

3.

Разработать программу, обучающую переводу с русского языка на английский. Файл данных программы содержит русский текст и его английский эквивалент. Окно программы разделено на две секции. В верхней секции выводится русский текст, в нижней – впечатывается английский перевод. При вводе неправильного символа (т.е. символа, не соответствующего заложенному в файле данных английскому эквиваленту) раздается звуковой сигнал. Перевод не может продолжаться, пока не будет введён правильный символ. В качестве символов учитываются не только буквы, но и пробелы регистры, знаки препинания, кавычки. Т.е., раздаётся сигнал, если студент ввёл прописную букву вместо заглавной, не поставил пробел и т.д. Перевод ограничен по времени. Окно программы содержит строку, в которой указывается время, отведённое на выполнение перевода текста. Когда начинается перевод (студент вводит первый символ), начинается и обратный отсчёт времени. Если студент не укладывается в отведённое время, раздаётся сигнал и всплывает диалоговое окно, предлагающее начать перевод сначала. Программа должна исключать обмен данными с другими программами, т.е. студент не должен иметь возможность копировать и вставлять в программу текст. См. файл trans.


Темы лабораторных работ

(конкретные задания выдаются в начале лабораторного занятия;)
  1. Набор и форматирование текста, импорт графического материала, составление тестов в SWP 5.0
  2. Поиск по электронным каталогам, импорт библиографических данных, форматирование текста по издательским шаблонам в Endnote и Bibliographix.
  3. Особенности функционирования модулей Bibliometrics Toolbox. Совместное использование Endnote и Bibliometrics Toolbox для получения распределений Лотки и Ципфа.
  4. Проверка заданий по программированию.
  5. Проверка заданий по программированию. Особенности совместного использования Sara Client, WordSmith, Concapp.
  6. Проверка заданий по программированию.



Экзаменационные вопросы
  1. Предметная область итологии. Основные понятия и структура знания.
  2. Понятие профиля. Виды профилей. Значение и функции стандартизации.
  3. Иерархическая структура, свойства, примеры профилей. Соотношение информатики и итологии.
  4. Соотношение обыденного и научного познания.
  5. Особенности эмпирического уровня науки.
  6. Особенности теоретического уровня науки.
  7. Классификация и особенности прикладных программ, разрабатываемых на метанаучном уровне. Концепция Scientific Workplace.
  8. Особенности прикладных программ для обработки библиографических данных. Концепция Bibliographix.
  9. Предметная область и основные понятия библиометрии.
  10. Библиометрические исследования состояния науки.
  11. Социтирование и сословный анализ. Картографирование науки.
  12. Особенности компьютерных программ для библиометрического анализа. Bibliometrics toolbox.
  13. Ограничения на библиометрический анализ.
  14. Предметная область лингвистики.
  15. Подходы к анализу текста. Концепция У.Манна и возможности её компьютеризации. RST Tool.
  16. Концепция М.Сводеша и формализованный подход к анализу генетического происхождения языков. J. Guy и программа COGNATE
  17. Корпусная лингвистика и компьютерные технологии на методологическом уровне языкознания. Историческое развитие, классификация корпусов, требования к корпусам.
  18. Методы аннотирования корпусов. Архитектура и особенности функционирования теггеров (POS taggers).
  19. Программы поиска по корпусам: классификация, вид поиска, возможности, предоставляемые пользователю. Sara Search Британского национального корпуса.
  20. Конкордансы. Особенности WordSmith, Concapp.
  21. Программы анализа синтаксической структуры. Концепция фразовой структуры предложения.
  22. Вероятностные пазеры. Lexparser.
  23. Системы дистанционного обучения и компьютерные обучающие системы.
  24. Предметная область Copmuter learner corpora research.



Библиографический список


, НИВЦ МГУ, учебные материалы конференции
  1. В. Сухомлин ИТОЛОГИЯ - наука об информационных технологиях .zhitomir.ua/ct/programming/prg96/sukhomlin.shtml#1
  2. Сухомлин B. Методологический базис открытых систем ссылка скрыта
  3. JavaTM 2 Platform, Standard Edition, v1.2.2
    API Specification ссылка скрыта
  4. About SAX. ссылка скрыта

5 . ГОСУДАРСТВЕННЫЙ ПРОФИЛЬ ВЗАИМОСВЯЗИ ОТКРЫТЫХ СИСТЕМ РОССИИ Версия 2 ссылка скрыта

6. Открытые системы. Концепции. ссылка скрыта
  1. Михайлов А.И., Черный А.И., Гиляревский Р.С. Основы информатики. – М.: Наука, 1968. - 368 с.
  2. Рождественский Ю.В., Волков А.А., Марчук Ю.Н. Введение в прикладную филологию. Языковая семиотика. - М.: Изд-во Моск.гос. ун-та, 1987. - 116 с.
  3. Классическая философия. ссылка скрыта
  4. MacKichan software. ссылка скрыта
  5. Endnote product reviews. te.com/enreviews.asp

10. Gauthier É. Bibliometric analysis of scientific and technological research: a user's guide to the methodology. \\itis\Tutorials\Магистранты2\computer technologies\literature

11. Glänzel W. Bibliometrics as a research field: A course on theory and application of bibliometric indicators

\\itis\Tutorials\Магистранты2\computer technologies\literature

12. ссылка скрыта И. Вклад России в развитие мировой науки: библиометрическая оценка. .russ.ru/oz/2002/7/2002_07_39.php">
13. Гарфилд Ю. Можно ли выявлять и оценивать научные достижения и научную продуктиыность? ссылка скрыта

14. Кара-Мурза С.Г. Цитирование в науке и подходы к оценке научного вклада. // Вестн. АН СССР. - 1981. - N 5. - С.68-75 ссылка скрыта

15. Iatsko V. Integrational discourse analysis. www.khsu.ru/ida

16. A view of rhetorical structure theory. ссылка скрыта

17. Morris Swadesh: critical essay. ссылка скрыта

18. Program SEMDI. ссылка скрыта

19. Подлесская В.И. Современные компьютерные методы в изучении и преподавании лингвистических дисциплин: корпусная лингвистика. ссылка скрыта

20. Национальный корпус русского языка. Что такое корпус? ссылка скрыта

21. Natural Language Toolkit. ссылка скрыта

22. The BNC Handbook. ссылка скрыта

23. WordSmith Tools. ссылка скрыта

24. Centre for English Corpus Linguistics. ссылка скрыта



1 Здесь и далее имеются ввиду файлы, размещенные на сервере ХГУ ссылка скрыта