В. А. Капустин Содержание Формальные структуры текстовых документов 1 Курс лекций

Вид материалаКурс лекций

Содержание


Лекция 3. Компоненты книги 25
Лекция 4. Обработка документов DocBook с помощью стилевых файлов XSLT 33
Лекция 6. Структура основной части документа TEI 52
Лекция 7. Заголовок TEI (электронный титульный лист).Визуализация документа TEI 60
Лекция 1.Введение Формальная структура документа – зачем?
Немного истории
Кратко о DocBook
Кратко о TEI
Несколько вводных слов
Элементы DocBook
Элементы иерархии
Лекция 2.Создание документов DocBook Кратко про разметку
Элементы и атрибуты
NDATA (non-parsed data) и указание на MIME-тип нетекстовых данных (JPG
Лекция 3.Компоненты книги
Общие характеристики элементов
Ожи­дания обработки
Общие атрибуты
Тип значения атрибута
Имя атрибута
...
Полное содержание
Подобный материал:
  1   2   3   4   5   6   7   8   9   ...   17


Формальные структуры текстовых документов

Курс лекций

В.А.Капустин


Содержание

Формальные структуры текстовых документов 1

Курс лекций 1

Лекция 1. Введение 5

Формальная структура документа – зачем? 5

Немного истории 5

Кратко о DocBook 6

Кратко о TEI 6

DocBook 7

Несколько вводных слов 7

Элементы DocBook 8

Лекция 2. Создание документов DocBook 13

Кратко про разметку 13

Элементы и атрибуты 13

Сущности 13

XML-документ 14

XML-каталог 14

Логические составляющие DocBook 15

Комплект 16

Книга 16

Секции 16

Метаинформация 17

Блочные элементы 17

Потоковые элементы 20

Лекция 3. Компоненты книги 25

Общие характеристики элементов 26

Ожи­дания обработки 26

Общие атрибуты 26

book 27

Ожи­дания обработки 27

Атрибуты 27

title 28

Ожи­дания обработки 28

bookinfo 28

Ожи­дания обработки 28

Атрибуты 29

author 29

Ожи­дания обработки 29

personname 29

Ожи­дания обработки 29

surname, firstname, othername 29

Ожи­дания обработки 30

lineage 30

honorific 30

authorblurb, personblurb 30

Ожи­дания обработки 30

affiliation 30

Ожи­дания обработки 30

orgname 30

Атрибуты 31

address 31

Атрибуты 31

Лекция 4. Обработка документов DocBook с помощью стилевых файлов XSLT 33

Стандартный набор стилевых файлов 33

Использование параметров DocBook XSL 34

Настройка порождения HTML 34

Подключение CSS к выходному HTML-документу 35

Подавление локальных оглавлений средствами CSS 36

Пользовательские классы 36

Управление нумерацией 36

Тонкая настройка DocBook XSL 37

Указание языка 37

Управление оглавлениями 37

Лекция 5. TEI 41

Ещё несколько слов про XML 41

Условные разделы объявления типа документа 41

Применение условных разделов объявления типа документа 42

Версии TEI 43

Текущая стабильная версия 43

TEI Light 43

Разрабатываемая версия 43

TEI Light 43

Разметка основной части текста 45

Разметка вводной части текста 48

Разметка завершающей части текста 50

Лекция 6. Структура основной части документа TEI 52

Блочная структура текста 52

Структура тела документа 52

Раздел 55

Другие элементы блочной структуры 56

Элементы, которые могут считаться блочными или потоковыми 56

Списки 57

Примечание 57

Цитаты 57

Библиография 57

Обозначение прямой речи 57

Элементы технической документации 57

Абзац 57

Общие атрибуты всех элементов 58

Глобальные атрибуты 58

Связывание 59

Интерпретация 59

Лекция 7. Заголовок TEI (электронный титульный лист).
Визуализация документа TEI 60


Общие сведения о заголовке TEI 60

Структура заголовка TEI 60

Типы содержимого в заголовке TEI 61

Описание файла 61

Группа заглавия 62

Группа издания 64

Размер 65

Группа выходных данных (сведения о публикации) 65

Группа серии 66

Группа примечаний 66

Группа источника 68

Производные документы TEI 68

Описание кодирования 69

Описание проекта 69

Методика отбора 69

Принципы редактирования 69

Разметка 70

Ссылочная структура 70

Классификации 72

Параметры текста 73

Информация о создании текста 73

Использование языков 74

Классификация текста 74

История изменений 75

Визуализация документов TEI 75

Литература 77

Литература 77

Основная 77

Дополнительная 77



Лекция 1.Введение

Формальная структура документа – зачем?


Зачем беспокоиться о формальной структуре документа? И какого документа? Конечно, есть много видов документов, для которых формальная структура важна:
    1. Законодательство
    2. Документация на программные средства
    3. И вообще разнообразная документация
    4. Словари – несколько неожиданно
    5. Что ещё?

Но выявление формальной структуры и в документах других видов, не исключая деловую и литературную прозу, поэтические и драматургические произведения, также может ока­заться небесполезным.

Наиболее очевидная польза от явного выявления (разметки) фор­мальной структуры – воз­можность автоматической публикации документа в различных визуальных пред­став­ле­ниях (конечно, «ручная подгонка» внешнего вида может пона­до­бить­ся, но выгода от ис­пользования разметки может быть весьма значительной). Современный инструментарий для работы с XML-документами (XSLT-преобразования) позволяет преобразовывать XML-до­кументы в любые мыслимые визуализируемые форматы документов, начиная от простого текста и заканчивая языками описания страниц. Такое применение разметки, между прочим, говорит о том, что для неё следует применять XML, поскольку для других способов разметки подобные инструменты либо совсем отсутствуют, либо далеко не так мощны, как XSLT, либо гораздо более сложны (только представим себе сочетание sed, awk и troff).

Но польза разметки может быть и в другом. Представим себе, что в сборнике биогра­фи­чес­ких статей размечены все упоминания о лицах. Это позволило бы, например, не толь­ко получить при публикации указатель лиц, но и организовать поиск текста, в котором упоминается требуемое лицо! Подобные применения разметки могут быть весьма разно­образны: можно выделять грамматические формы, а можно – географические названия...

Кроме упомянутых применений, которые сейчас составляют 99% применений разметки формальной структуры документа, можно придумать еще много. В частности, если раз­мет­ка стандартизована, то возникает возможность обмена размеченными документами между информационными системами.