В. А. Капустин Содержание Формальные структуры текстовых документов 1 Курс лекций

Вид материалаКурс лекций
TEIform – имеет разное значение для каждого из элементов. Значением TEIform
Подобный материал:
1   ...   9   10   11   12   13   14   15   16   17

Элементы, которые могут считаться блочными или потоковыми


Вне или в начале разделов в теле тела документа могут использоваться и такие элементы, которые при визуализации оказываются либо блочными, либо потоковыми (в зависимос­ти от ситуации).

Списки

  • list – список
  • label – метка элемента списка, термин в словаре/глоссарии

Примечание

  • note – примечание/аннотация (в тексте)

Цитаты

  • cit – цитата из некоторого другого документа, а также библиографическая ссылка на ее источник
  • q – цитата или кажущаяся цитата – цитата общего вида (речь или мысль, от­меченные как принадлежащие другому автору (независимо от того, действительно ли данный отрывок является цитатой); в сюжетно-повествовательных текстах таким образом отмечается прямая речь персонажа или оратора, а в словарях элемент этот элемент можно использовать для обозначения реальных или искусственных приме­ров использования)

Библиография

  • bibl – библиографическая ссылка произвольной структуры
  • biblFull – полностью структурированная библиографическая ссылка
  • listBibl – список библиографических ссылок

Обозначение прямой речи

  • sp – прямая речь персонажа (контейнер, содержащий, в том числе, и обозначение персонажа)

Элементы технической документации

  • eg – содержит простой краткий пример к некоторой обсуждаемой технической теме, например фрагмент программы или пример кодирования

Замечание

Обратим внимание на то, что такие элементы, как, например, table, на уровне тела тела документа или на уровне раздела отсутствуют. Они могут присутствовать только внутри других элементов разметки, таких, как абзац (p), цитата (q), выделение (emp) и др.

Абзац


Абзац имеет смешанное содержимое – в абзаце может присутствовать смесь текста с 54 (в TEI Light) другими элементами (последовательность перечисления элементов в DTD мной сохранена):

"(
#PCDATA
| ident | code | kw | abbr | address
| date | name | num | rs | time
| add | corr | del | orig | reg
| sic | unclear | formula | emph | foreign
| gloss | hi | mentioned | soCalled | term
| title | ptr | ref | xptr | xref
| s | seg | gi | eg | bibl
| biblFull | figure | cit | q | label
| list | listBibl | note | stage | table
| text | anchor | gap | index | interp
| interpGrp | lb | milestone | pb
)*"
>


Общие атрибуты всех элементов


Все элементы документов TEI Lite имеют следующие общие (необязательные) атрибуты (я привожу фраг­мен­ты объявления списка атрибутов).

Глобальные атрибуты


5 атрибутов являются общими и в полной спецификации TEI. Первые четыре из них объ­единены в т.н. класс глобальных атрибутов:
  • id ID #IMPLIED

Уникальный (в пределах документа) идентификатор элемента; должен начинаться с буквы, может содержать буквы, цифры, дефисы и точки.
  • n CDATA #IMPLIED

Имя или номер элемента; может использоваться любая последовательность симво­лов. Значение этого атрибута не обязательно должно быть уникальным в документе. Часто применяется для записи традиционных систем ссылок или нумерации (глав и т.п.).
  • lang IDREF #IMPLIED

Язык текста в данном элементе; если значение не указано, считается, что в элементе использован тот же язык, что и в окружающем контексте. Значение атрибута – ссыл­ка на элемент language в TEI-заголовке документа.
  • rend CDATA #IMPLIED

Указывает способ начертания элемента в оригинале текста: italic (курсив), roman (прямой светлый шрифт), display block (выделенный блок) и т.п. Значением мо­жет быть любая строка символов.

Пятый атрибут – TEIform – имеет разное значение для каждого из элементов. Значением TEIform является строка, обозначающая так называемее «каноническое имя» элемента. Например для абза­ца:

TEIform CDATA "p"

Эти значе­ния определены в DTD TEI/TEI Light, так что заботиться о придании значения этому атрибуту нет необходимости. Атрибут предназначен для идентификации эле­мен­тов в случае допустимых модификаций DTD – значение этого атрибута при пе­ре­име­но­ва­нии элемента модифицировать нельзя.

TEI Light в дополнение к глобальным атрибутам определяет ещё 4 общих атрибута: три атрибута связывания (в полной DTD TEI эти три атрибута не являются глобальными, а от­носятся к отдельному классу атрибутов связывания) и один – указания интерпретации (в полной DTD TEI этот атрибут выделен в отдельный класс атрибутов анализа).

Связывание


Простейший механизм связывания любых элементов обеспечивает атрибут corresp, зна­че­нием которого является список идентификаторов элементов:
  • corresp IDREFS #IMPLIED

Связывает элемент с одним или несколькими соответствующими (в смысле, опре­де­ляемом целями разметки данного документа/корпуса) элементами.

TEI/TEI Light содержат и более мощные механизмы связывания, использующие спе­ци­аль­ные элементы (ref и ptr для связей внутри документа; xref и xptr – для связей с дру­гими документами; anchor и seg – для создания точек и сегментов, с которыми можно осуществлять связь). Использование элементов (а не атрибута corresp) для ор­га­низации связей позволяет указывать роли связей и создавать разнообразные структуры связей.

Использование XML (и SGML) для разметки произвольных концепций, накладываемых на текст, порождает серьёзную проблему: сегменты текста, соответствующие элементам одной из концепций, не являются строго вложенными в сегменты текста, которые соот­ветствуют элементам другой концепции, в то время как структурные языки разметки тре­буют вложенности элементов. Преодолеть эту проблему можно, используя упомянутые механизмы связывания, однако зачастую проще связать несколько сегментов текста (или других элементов) в цепочку, соответствующую концепции разметки, которая по каким-то причинам не совместима с основной разметкой текста. Для облегчения этой задачи служат два атрибута, позволяющие явно указать отношение следования:
  • next IDREF #IMPLIED

Связывает данный элемент со следующим элементом в некоторой совокупности элементов.
  • prev IDREF #IMPLIED

Соединяет данный элемент с предыдущим элементом в некоторой совокупности элементов.

Интерпретация

  • ana IDREFS #IMPLIED

Связывает элемент и его интерпретацию.

Идентификаторы в списке идентификаторов – значении атрибута ana, – должны принад­лежать так называемым элементам интерпретации: interp или interpGrp, – или эле­мен­ту note.