В. А. Капустин Содержание Формальные структуры текстовых документов 1 Курс лекций
Вид материала | Курс лекций |
- Курс лекций по дисциплине " основы компьютерных технологий" Часть I. Microsoft Word, 432.92kb.
- Сферы использования текстовых документов, 52.06kb.
- Курс, 1-й семестр лекции (51 час), экзамен практикум на ЭВМ (68 часов), зачет (с оценкой), 24.4kb.
- Календарный план курса учебных занятий по спецкурсу «Формальные языки моделирования, 61.45kb.
- Тема: Создание документов в текстовых редакторах, 13.54kb.
- Н. Э. Баумана Кафедра Компьютерные системы и сети Г. С. Иванова, Т. Н. Ничушкина Оформление, 109.65kb.
- Формальные и неформальные структуры, их роль в организации содержание, 304.91kb.
- Текстовые редакторы это программы для создания и редактирования текстовых документов, 263.8kb.
- Курс лекций Преподаватель Михайлов Н. Л. Рыбинск 2001, 562.19kb.
- Курс лекций Барнаул 2001 удк 621. 385 Хмелев В. Н., Обложкина А. Д. Материаловедение, 1417.04kb.
Формальные структуры текстовых документов
Курс лекций
В.А.Капустин
Содержание
Формальные структуры текстовых документов 1
Курс лекций 1
Лекция 1. Введение 5
Формальная структура документа – зачем? 5
Немного истории 5
Кратко о DocBook 6
Кратко о TEI 6
DocBook 7
Несколько вводных слов 7
Элементы DocBook 8
Лекция 2. Создание документов DocBook 13
Кратко про разметку 13
Элементы и атрибуты 13
Сущности 13
XML-документ 14
XML-каталог 14
Логические составляющие DocBook 15
Комплект 16
Книга 16
Секции 16
Метаинформация 17
Блочные элементы 17
Потоковые элементы 20
Лекция 3. Компоненты книги 25
Общие характеристики элементов 26
Ожидания обработки 26
Общие атрибуты 26
book 27
Ожидания обработки 27
Атрибуты 27
title 28
Ожидания обработки 28
bookinfo 28
Ожидания обработки 28
Атрибуты 29
author 29
Ожидания обработки 29
personname 29
Ожидания обработки 29
surname, firstname, othername 29
Ожидания обработки 30
lineage 30
honorific 30
authorblurb, personblurb 30
Ожидания обработки 30
affiliation 30
Ожидания обработки 30
orgname 30
Атрибуты 31
address 31
Атрибуты 31
Лекция 4. Обработка документов DocBook с помощью стилевых файлов XSLT 33
Стандартный набор стилевых файлов 33
Использование параметров DocBook XSL 34
Настройка порождения HTML 34
Подключение CSS к выходному HTML-документу 35
Подавление локальных оглавлений средствами CSS 36
Пользовательские классы 36
Управление нумерацией 36
Тонкая настройка DocBook XSL 37
Указание языка 37
Управление оглавлениями 37
Лекция 5. TEI 41
Ещё несколько слов про XML 41
Условные разделы объявления типа документа 41
Применение условных разделов объявления типа документа 42
Версии TEI 43
Текущая стабильная версия 43
TEI Light 43
Разрабатываемая версия 43
TEI Light 43
Разметка основной части текста 45
Разметка вводной части текста 48
Разметка завершающей части текста 50
Лекция 6. Структура основной части документа TEI 52
Блочная структура текста 52
Структура тела документа 52
Раздел 55
Другие элементы блочной структуры 56
Элементы, которые могут считаться блочными или потоковыми 56
Списки 57
Примечание 57
Цитаты 57
Библиография 57
Обозначение прямой речи 57
Элементы технической документации 57
Абзац 57
Общие атрибуты всех элементов 58
Глобальные атрибуты 58
Связывание 59
Интерпретация 59
Лекция 7. Заголовок TEI (электронный титульный лист).
Визуализация документа TEI 60
Общие сведения о заголовке TEI 60
Структура заголовка TEI 60
Типы содержимого в заголовке TEI 61
Описание файла 61
Группа заглавия 62
Группа издания 64
Размер 65
Группа выходных данных (сведения о публикации) 65
Группа серии 66
Группа примечаний 66
Группа источника 68
Производные документы TEI 68
Описание кодирования 69
Описание проекта 69
Методика отбора 69
Принципы редактирования 69
Разметка 70
Ссылочная структура 70
Классификации 72
Параметры текста 73
Информация о создании текста 73
Использование языков 74
Классификация текста 74
История изменений 75
Визуализация документов TEI 75
Литература 77
Литература 77
Основная 77
Дополнительная 77
Лекция 1.Введение
Формальная структура документа – зачем?
Зачем беспокоиться о формальной структуре документа? И какого документа? Конечно, есть много видов документов, для которых формальная структура важна:
- Законодательство
- Документация на программные средства
- И вообще разнообразная документация
- Словари – несколько неожиданно
- Что ещё?
Но выявление формальной структуры и в документах других видов, не исключая деловую и литературную прозу, поэтические и драматургические произведения, также может оказаться небесполезным.
Наиболее очевидная польза от явного выявления (разметки) формальной структуры – возможность автоматической публикации документа в различных визуальных представлениях (конечно, «ручная подгонка» внешнего вида может понадобиться, но выгода от использования разметки может быть весьма значительной). Современный инструментарий для работы с XML-документами (XSLT-преобразования) позволяет преобразовывать XML-документы в любые мыслимые визуализируемые форматы документов, начиная от простого текста и заканчивая языками описания страниц. Такое применение разметки, между прочим, говорит о том, что для неё следует применять XML, поскольку для других способов разметки подобные инструменты либо совсем отсутствуют, либо далеко не так мощны, как XSLT, либо гораздо более сложны (только представим себе сочетание sed, awk и troff).
Но польза разметки может быть и в другом. Представим себе, что в сборнике биографических статей размечены все упоминания о лицах. Это позволило бы, например, не только получить при публикации указатель лиц, но и организовать поиск текста, в котором упоминается требуемое лицо! Подобные применения разметки могут быть весьма разнообразны: можно выделять грамматические формы, а можно – географические названия...
Кроме упомянутых применений, которые сейчас составляют 99% применений разметки формальной структуры документа, можно придумать еще много. В частности, если разметка стандартизована, то возникает возможность обмена размеченными документами между информационными системами.