В. А. Капустин Содержание Формальные структуры текстовых документов 1 Курс лекций
Вид материала | Курс лекций |
TEIform – имеет разное значение для каждого из элементов. Значением TEIform |
- Курс лекций по дисциплине " основы компьютерных технологий" Часть I. Microsoft Word, 432.92kb.
- Сферы использования текстовых документов, 52.06kb.
- Курс, 1-й семестр лекции (51 час), экзамен практикум на ЭВМ (68 часов), зачет (с оценкой), 24.4kb.
- Календарный план курса учебных занятий по спецкурсу «Формальные языки моделирования, 61.45kb.
- Тема: Создание документов в текстовых редакторах, 13.54kb.
- Н. Э. Баумана Кафедра Компьютерные системы и сети Г. С. Иванова, Т. Н. Ничушкина Оформление, 109.65kb.
- Формальные и неформальные структуры, их роль в организации содержание, 304.91kb.
- Текстовые редакторы это программы для создания и редактирования текстовых документов, 263.8kb.
- Курс лекций Преподаватель Михайлов Н. Л. Рыбинск 2001, 562.19kb.
- Курс лекций Барнаул 2001 удк 621. 385 Хмелев В. Н., Обложкина А. Д. Материаловедение, 1417.04kb.
Элементы, которые могут считаться блочными или потоковыми
Вне или в начале разделов в теле тела документа могут использоваться и такие элементы, которые при визуализации оказываются либо блочными, либо потоковыми (в зависимости от ситуации).
Списки
- list – список
- label – метка элемента списка, термин в словаре/глоссарии
Примечание
- note – примечание/аннотация (в тексте)
Цитаты
- cit – цитата из некоторого другого документа, а также библиографическая ссылка на ее источник
- q – цитата или кажущаяся цитата – цитата общего вида (речь или мысль, отмеченные как принадлежащие другому автору (независимо от того, действительно ли данный отрывок является цитатой); в сюжетно-повествовательных текстах таким образом отмечается прямая речь персонажа или оратора, а в словарях элемент этот элемент можно использовать для обозначения реальных или искусственных примеров использования)
Библиография
- bibl – библиографическая ссылка произвольной структуры
- biblFull – полностью структурированная библиографическая ссылка
- listBibl – список библиографических ссылок
Обозначение прямой речи
- sp – прямая речь персонажа (контейнер, содержащий, в том числе, и обозначение персонажа)
Элементы технической документации
- eg – содержит простой краткий пример к некоторой обсуждаемой технической теме, например фрагмент программы или пример кодирования
Замечание
Обратим внимание на то, что такие элементы, как, например, table, на уровне тела тела документа или на уровне раздела отсутствуют. Они могут присутствовать только внутри других элементов разметки, таких, как абзац (p), цитата (q), выделение (emp) и др.
Абзац
Абзац имеет смешанное содержимое – в абзаце может присутствовать смесь текста с 54 (в TEI Light) другими элементами (последовательность перечисления элементов в DTD мной сохранена):
"(
#PCDATA
| ident | code | kw | abbr | address
| date | name | num | rs | time
| add | corr | del | orig | reg
| sic | unclear | formula | emph | foreign
| gloss | hi | mentioned | soCalled | term
| title | ptr | ref | xptr | xref
| s | seg | gi | eg | bibl
| biblFull | figure | cit | q | label
| list | listBibl | note | stage | table
| text | anchor | gap | index | interp
| interpGrp | lb | milestone | pb
)*"
>
Общие атрибуты всех элементов
Все элементы документов TEI Lite имеют следующие общие (необязательные) атрибуты (я привожу фрагменты объявления списка атрибутов).
Глобальные атрибуты
5 атрибутов являются общими и в полной спецификации TEI. Первые четыре из них объединены в т.н. класс глобальных атрибутов:
- id ID #IMPLIED
Уникальный (в пределах документа) идентификатор элемента; должен начинаться с буквы, может содержать буквы, цифры, дефисы и точки.
- n CDATA #IMPLIED
Имя или номер элемента; может использоваться любая последовательность символов. Значение этого атрибута не обязательно должно быть уникальным в документе. Часто применяется для записи традиционных систем ссылок или нумерации (глав и т.п.).
- lang IDREF #IMPLIED
Язык текста в данном элементе; если значение не указано, считается, что в элементе использован тот же язык, что и в окружающем контексте. Значение атрибута – ссылка на элемент language в TEI-заголовке документа.
- rend CDATA #IMPLIED
Указывает способ начертания элемента в оригинале текста: italic (курсив), roman (прямой светлый шрифт), display block (выделенный блок) и т.п. Значением может быть любая строка символов.
Пятый атрибут – TEIform – имеет разное значение для каждого из элементов. Значением TEIform является строка, обозначающая так называемее «каноническое имя» элемента. Например для абзаца:
TEIform CDATA "p"
Эти значения определены в DTD TEI/TEI Light, так что заботиться о придании значения этому атрибуту нет необходимости. Атрибут предназначен для идентификации элементов в случае допустимых модификаций DTD – значение этого атрибута при переименовании элемента модифицировать нельзя.
TEI Light в дополнение к глобальным атрибутам определяет ещё 4 общих атрибута: три атрибута связывания (в полной DTD TEI эти три атрибута не являются глобальными, а относятся к отдельному классу атрибутов связывания) и один – указания интерпретации (в полной DTD TEI этот атрибут выделен в отдельный класс атрибутов анализа).
Связывание
Простейший механизм связывания любых элементов обеспечивает атрибут corresp, значением которого является список идентификаторов элементов:
- corresp IDREFS #IMPLIED
Связывает элемент с одним или несколькими соответствующими (в смысле, определяемом целями разметки данного документа/корпуса) элементами.
TEI/TEI Light содержат и более мощные механизмы связывания, использующие специальные элементы (ref и ptr для связей внутри документа; xref и xptr – для связей с другими документами; anchor и seg – для создания точек и сегментов, с которыми можно осуществлять связь). Использование элементов (а не атрибута corresp) для организации связей позволяет указывать роли связей и создавать разнообразные структуры связей.
Использование XML (и SGML) для разметки произвольных концепций, накладываемых на текст, порождает серьёзную проблему: сегменты текста, соответствующие элементам одной из концепций, не являются строго вложенными в сегменты текста, которые соответствуют элементам другой концепции, в то время как структурные языки разметки требуют вложенности элементов. Преодолеть эту проблему можно, используя упомянутые механизмы связывания, однако зачастую проще связать несколько сегментов текста (или других элементов) в цепочку, соответствующую концепции разметки, которая по каким-то причинам не совместима с основной разметкой текста. Для облегчения этой задачи служат два атрибута, позволяющие явно указать отношение следования:
- next IDREF #IMPLIED
Связывает данный элемент со следующим элементом в некоторой совокупности элементов.
- prev IDREF #IMPLIED
Соединяет данный элемент с предыдущим элементом в некоторой совокупности элементов.
Интерпретация
- ana IDREFS #IMPLIED
Связывает элемент и его интерпретацию.
Идентификаторы в списке идентификаторов – значении атрибута ana, – должны принадлежать так называемым элементам интерпретации: interp или interpGrp, – или элементу note.