В. А. Капустин Содержание Формальные структуры текстовых документов 1 Курс лекций

Вид материалаКурс лекций
Лекция 7.Заголовок TEI (электронный титульный лист).Визуализация документа TEI
Общие сведения о заголовке TEI
Типы содержимого в заголовке TEI
Stmt (например, editionStmt
Decl (например, subjectDecl
Описание файла
Группа заглавия
Автор, редактор, спонсор, финансовая поддержка, ответственный исполнитель
Сведения об ответственности
Группа издания
Группа выходных данных (сведения о публикации)
Группа серии
Группа примечаний
Имя атрибута
Группа источника
Производные документы TEI
Подобный материал:
1   ...   9   10   11   12   13   14   15   16   17

Лекция 7.Заголовок TEI (электронный титульный лист).
Визуализация документа TEI


Размеченный текст должен быть снабжён метаинформацией, документирующей сам текст, кодировку, вносимые изменения и др. Эта метаинформация необходима как исс­ле­дователям, использующим размеченный текст, так и программам, которые этот текст об­рабатывают, а также и каталогизаторам (в библиотеках). Содержание этой метаинфор­ма­ции похоже на содержание титульного листа печатного издания.

Поскольку основной текст (тело) документа TEI может вообще практически не содержать разметки, заголовок TEI является важнейшим элементом документа TEI. Поэтому рас­смот­рим заголовок TEI подробно.

Общие сведения о заголовке TEI


Метаинформация в документе TEI размещается в обязательном заголовке TEI:


(fileDesc, encodingDesc*, profileDesc*, revisionDesc?) >

Структура заголовка TEI


Заголовок TEI состоит из четырёх частей, лишь первая из которых – описание файла, fileDesc – обязательна. Таким образом, минимальный заголовок TEI имеет вид:


...


Почти всегда, однако, присутствуют и необязательные элементы.

Следует отличать заголовок TEI (элемент teiHeader), предназначенный для размещения в нём метаинформации, от элемента front, предназна­чен­но­го для разметки вводной час­ти текста.

Полная версия TEI в некоторых случаях (например, при разметке корпуса) допускает ис­пользование нескольких заголовков TEI. TEI Light разрешает использовать лишь единст­венный заголовок TEI.

Остановимся вначале на каждом элементе заголовка TEI кратко:
  • Описание файла (элемент fileDesc) содержит полное библиографическое описа­ние самого компьютерного файла. Когда здесь говорится о компьютерном фай­ле, имеется в виду вся совокупность физических сущностей, на которые разбит доку­мент TEI.

Из этого описания пользователь может получить точную библиографическую ссыл­ку, а библиотекарь или работник архива может соз­дать правильную библиографи­ческую запись, идентифицирующую наличие это­го файла в коллекции.

Описание файла также включает информацию об источнике, из которого был создан электронный документ.
  • Описание кодирования (элемент encodingDesc) предназначено для подробного от­ражения связей между электронным документом и его источником (источника­ми). Оно предназначено для детального описания таких аспектов преобразования текста в электронную форму, как нормализация, устранение неоднозначностей; здесь так­же приводится информация об использованной разметке, глубине анали­за и т.п.
  • Параметры текста (элемент profileDesc) – это классификационная и контекстная ин­формация о тексте.

В этом элементе могут присутствовать предметные рубрики, история создания, пер­со­налии, связанные с текстом (как ответственные лица, так и описываемые в тексте), и т.п. Этот элемент часто используется при работе с корпусами – в этом случае для значений вложенных в него элементов применяются словари с контролируемой лек­сикой, что позволяет, например, автоматизировать отбор текстов для последующей обработки.
  • История изменений (элемент revisionDesc). Этот элемент используется для управления версиями размеченного документа.

Типы содержимого в заголовке TEI

  • Проза

Большинство элементов заголовка содержат элементы прозы, такие как абзац или спи­сок. Некоторые элементы, однако, могут содержать только символьные данные (возмож­но, с разметкой фразового уровня).
  • Группирующие элементы. Имена группирующих элементов заканчиваются суф­фик­сом Stmt (например, editionStmt или titleStmt)

Группирующие элементы используются для записи структурированной информа­ции, например, соответствующей области библиографического описания. Зачас­тую группирующий элемент имеет две альтернативы: структурированную (состоя­щую из отдельных элементов) и неструктурированную. В неструктурированном ва­рианте используется один элемент, формально содержащий прозу, в котором раз­мет­ка составных частей выполнена в соответствии с местными традициями (напри­мер, библиографическое описание в соответствии с ГОСТ 7.1–2003).
  • Объявления. Имена элементов объявлений имеют суффикс Decl (например, subjectDecl или refsDecl).

Объявления содержат информацию о конкретном применении разметки в данном тексте, зачастую в кодированном виде. На эту информацию можно ссылаться в раз­метке текста, используя атрибут decls.
  • Описания. Имена элементов объявлений имеют суффикс Desc (например, settingDesc или projectDesc). Эти элементы содержат тексты соответствующих описаний.

Описание файла


Элемент fileDesc – первый и единственный обязательный элемент заголовка TEI:

(titleStmt, editionStmt?, extent?, publicationStmt, seriesStmt?,
notesStmt?, sourceDesc+) >

Структура этого элемента напоминает структуру библиографического описания. Эле­мент fileDesc содержит три обязательных (titleStmt, publicationStmt и sourceDesc) и четыре необязательных элемента. Все эти (как обязательные, так и необя­зательные) элементы имеют только глобальные атрибуты.

Группа заглавия


Элемент titleStmt группирует информацию о заглавии произведения и лицах, ответст­венных за интеллектуальное содержание произведения. Этот элемент идёт первым в опи­сании файла и является обязательным.


(title+, (author | editor | sponsor | funder | principal | respStmt)*)
>

Группа заглавия содержит заглавие, данное электронному произведению (это заг­лавие может, вообще говоря, отличаться от заглавия произведения-источника), а также мо­жет содержать один или несколько необязательных элементов, несущих в себе сведе­ния об ответственности, идентифицирующие автора, разметчика, составителя и др. лиц (физических и/или организаций), каким-либо образом ответственных за электронный до­кумент.

В сведениях об ответственности должны присутствовать элементы author – автор произ­ведения – и principal – автор электронной размеченной версии. Остальные сведения об ответственности факультативны.

Все имена и названия организаций должны приводиться в наиболее развёрнутой форме (в частности, персональные имена – не только в виде фамилий с инициалами, но, по край­ней мере, в виде фамилий и полных личных имён).

Пример


Two stories by Edgar Allen Poe: electronic version
Poe, Edgar Allen (1809-1849)

compiled by James D. Benson


Заглавие


Заглавие – это элемент прозы. Для удобства дальнейшего описания я сначала определю две пара­мет­рические сущности, которые в совокупности определяют все элементы прозы (см. описание абзаца выше):

#PCDATA
| ident | code | kw | abbr | address
| date | name | num | rs | time
| add | corr | del | orig | reg
| sic | unclear | formula | emph | foreign
| gloss | hi | mentioned | soCalled | term
| title | ptr | ref | xptr | xref
| s | seg | gi

>

" eg | bibl | biblFull | figure | cit | q | label
| list | listBibl | note | stage | table | text"
>

"(%proseGeneral; | %proseNotInPerson; | %body.marks; )*"
>

Элемент title имеет два (сверх обычных глобальных) атрибута:
  • level – библиографический уровень заглавия (статья – article, книга – monograph, журнал – journal, продол­жаю­ще­еся издание – series, неопубликованный материал – unpublished):

level (a | m | j | s | u) #IMPLIED
  • type – вид заглавия, в соответствии с принятой (коллективом, размечавшим текст) типологией заглавий:

type CDATA #IMPLIED

Элемент title содержит основное заглавие файла, включая все альтернативные загла­вия и подзаголовки. Форма, в которой представляется заглавие, оставляется на усмот­ре­ние того, кто создаёт этот элемент. Если электронный текст является производным от су­ществующего неэлектронного источника, то следует в элементе title воспроизвести точ­ное заглавие этого источника, дополнив его фразой типа «электронный вариант / из­дание / текст» и т.п. для того, чтобы надёжно отличать размеченный документ от исход­но­го (в том числе в каталогах, содержащих описания обоих документов).

Руководство по TEI настоятельно не рекомендует использовать системное имя файла в ка­честве значения элемента title, поскольку системное имя файла подвержено частым из­менениям.

Полезным руководством по определению того, как следует формировать заглавие, может служить ГОСТ 7.1–2003 7.

Автор, редактор, спонсор, финансовая поддержка, ответственный исполнитель


Все эти элементы содержат сведения о лицах или организациях, выступающих в опреде­лённой роли относительно данного текста. В этих элементах допустимы не все элементы прозы.
  • author



Имя персоны или коллектива, которые являются автором произведения; первичные сведения об ответственности.
  • editor



Вторичные сведения об ответственности. Элемент содержит информацию о редак­то­рах, составителях, переводчика и пр. лицах (персонах или организациях), участ­во­вавших в создании произведения.
  • sponsor



Название организации или лица, оказавшего спонсорскую (не обязательно финан­со­вую) поддержку созданию произведения.
  • funder



Название организации, структуры или лица, ответственных за финансирование про­екта разметки или создания данного текста.
  • principal



Имя лица, ответственного за создание данного электронного текста

Сведения об ответственности


Для детализации указания сведений об ответственности используется элемент respStmt:

resp | name | %body.marks; )+ >

Обычно этот элемент содержит пару элементов resp и name:
  • resp



Содержит фразу, описывающую вид интеллектуальной ответственности.
  • name



Содержит имя или именную фразу.

Группа издания


Группа издания – элемент editionStmt – объединяет информацию, относящуюся к од­но­му изданию текста:


Элемент editionStmt содержит либо фразу, описывающую издание (элементы p – аб­зацы), либо структурированную информацию в виде элемента edition, описывающего особенности издания, и списка (respStmt*) сведений об ответственности, относящихся к указанному изданию.

Термин «издание» по отношению к печатным текстам используется в TEI в традицион­ном смысле. По отношению к электронным документам «издание» примерно эквивален­т­но версии (version) или выпуску (release). Слова «издание», «версия» и т.п. должны включаться в содержимое элемента editionStmt (в элемент edition или p). Все даты в элементах edition или p внутри элемента editionStmt должны быть заключены в эле­мент date.

Слова «подверсия» (revision) или об­нов­ление (update), напротив, не могут служить признаком «издания». Все изменения в электронной версии текста, однако, могут быть зафиксированы в элементе revisionDesc – «История изменений» (см. ниже).

Размер


Необязательный элемент extent описывает размер электронного текста, размещенного на некотором носителе, в каких-либо приемлемых единицах. Этот элемент не имеет ни­ка­кой специальной структуры:

Примеры:

между 1 16-битовым мегабайтом и
2 16-битовыми мегабайтами


4.2 MB

4532 bytes

3200 предложений

5 3.5" дискет высокой плотности

Группа выходных данных (сведения о публикации)


Группа выходных данных – обязательный элемент publicationStmt – объединяет ин­фор­мацию, относящуюся к публикации или распространению исходного или электрон­ного текста. Этот элемент содержит либо прозу, либо структурированную информацию. В этом элементе разрешены маркирующие элементы (%body.marks;):

"(publisher | distributor | authority | pubPlace |
address | idno | availability | date) "
>

( ( p, (%body.marks;)* )+ | (%pubInfo;, (%body.marks;)* )+ )
>

В группе выходных данных обязательно присутствие информации об одном из трёх лиц или организаций: издателе (publisher), рас­пространителе (distributor) или о ли­це или организации, отвечающей за доступность произведения (authority). Ос­тальные эле­мен­ты необязательны: место издания – pubPlace, почтовый или иной адрес – address, стан­дартный или нестандартный идентификационный номер издания – idno, сведения о доступности (включая информацию об авторских правах) – availability, дата публика­ции – date (именно дата публикации; дата создания документа приводится в элементе profileDesc – Параметры текста). Рекомендуется приводить элементы именно в ука­зан­ном порядке.

Пример:


Oxford University Press


Oxford

1989
<idno type='ISBN'>0-19-254705-4



Copyright 1989, Oxford University Press




Группа серии


Необязательный элемент seriesStmt объединяет информацию о серии, к которой при­надлежит публикация. На «библиографическом жаргоне» серию можно определить одним из трёх способов:
  • Группа отдельных публикаций, связанных друг с другом тем фактом, что каждая публикация, кроме собственного заглавия, имеет также общее, объединяющее все эти публикации, заглавие. Индивидуальные публикации могут быть, а могут и не быть пронумерованы.
  • Каждый из двух или более томов литературных произведений, лекций, статей, или других однородных публикаций, изданных последовательно.
  • Пронумерованная последовательность томов внутри периодического или продол­жа­ющегося издания.

Элемент seriesStmt содержит либо прозу, либо структурированную информацию.

Все элементы содержимого группы серии уже были рассмотрены выше. В элементе title следует указывать атрибут level со значением s (серия). В исполь­зовании эле­мен­та idno в группе серии есть некоторые особенности: обычно используют­ся не менее двух элементов idno. Один содержит стандартный номер (ISSN), а другой – номер пуб­ли­кации в серии:


level="s"</b>><br /> Machine-Readable Texts for the Study of Indian Literature<br />

ed. by
Jan Gonda

type="vol">1.2
type='ISSN'>0 345 6789


Номера публикации в серии рекомендуется кодировать арабскими цифрами с точкой в качестве разделителя: вместо VI/xix:33 в содержимом элемента idno должно стоять 6.19.33.

Группа примечаний


Группа примечаний – notesStmt – содержит разнообразные примечания (структури­ро­ванный текст – %structuredText; – может включать анонимные блоки ab, элементы сти­хотворного текста l и lg, абзацы p и прямую речь персонажей sp, – всё это может появляться в тексте примечания):

| lg | p | sp" >
| %structuredText;" >

note (%extendedText;)* >

Элемент note имеет, кроме глобальных, ещё 6 атрибутов (напомню, что значение по умолчанию #IMPLIED означает, что атрибут не является обязательным):

Имя атрибута

Тип значения атрибута

Описание

type

CDATA #IMPLIED

Тип примечания

resp

CDATA #IMPLIED

Указывает лицо, ответственное за данное примечание (автор, редактор, переводчик и пр.)

place

CDATA "unspecified"

Есть ли примечание в основном тексте

anchored

(yes | no) "yes"

Указано ли конкретное место примечания в тексте (в виде ссылки ил описания места)

target

IDREFS #IMPLIED

Идентификаторы отрезков текста, к которым относится примечание

targetEnd

IDREFS #IMPLIED

Идентификаторы элементов, которые завершают отрезки текста, к которым относится примечание (при необходимости должны использоваться пустые элементы)

В традиционной библиографии некоторые виды информации о произведении размеща­ются в примечаниях. TEI требует, чтобы для перечисленных ниже видов метаинфор­ма­ции использовались специально предназначенные для них элементы:
  • Происхождение, назначение, художественная форма, жанр или другая интеллек­ту­альная категория – profileDesc.
  • Формальный реферат, не содержащий оценки произведения – profileDesc.
  • Подробное библиографическое описание (традиционного, как правило, не элект­рон­ного) источника или источников текста электронного документа – sourceDesc.
  • Любая информация, относящаяся к выходным данным, распространению текста (включая то, как можно получить текст), любая информация об ограничениях или условиях доступа – publicationStmt.
  • Общедоступные идентификационные номера и шифры (прежде всего, ISBN и ISSN) – publicationStmt (вложенный элемент idno).

Элемент notesStmt можно использовать для передачи следующей информации о фай­ле и его осо­бен­ностях:
  • Дат (например, «предположительно, 1983».
  • Имён лиц и названий коллективов (организаций), имеющих отношение к процессу создания и разметки электронного документа, но которые по каким-то причинам не упомянуты в сведениях об ответственности.
  • Доступности электронного документа на тех или иных носителях; доступности до­ку­ментации; доступности имеющей отношение к электронному документу допол­ни­тель­ной информации (например, в случае неполной оцифровки/разметки исход­но­го источника).
  • Языке текста и реферата.
  • Уникальном названии, присвоенном серии в Международной системе данных о сериях (ISDS).
  • Связанных публикациях (например, описывающих текст произведения – источни­ка).

Пример:


Historical commentary provided by Mark Cohen.
OCR scanning done at University of Toronto.

Группа источника


Последний элемент описания файла – обязательный элемент sourceDesc. Он предназна­чен для передачи информации об источнике (источниках), которые послужили основой для создания электронного размеченного текста – документа TEI. Таким источником мо­жет быть печатный текст, рукопись, другой компьютерный файл, аудио или видеозапись, и др., или любая комбинация подобных источников. Источник, впрочем, может и вовсе от­сутствовать. Элемент sourceDesc содержит библиографическое описание источника.

Элемент sourceDesc содержит либо прозу (абзац p), либо (предпочтительнее) структу­рированное библиографическое описание:

Полная DTD TEI допускает использование ещё двух элементов для описания источника в случае, когда источником послужила записанная устная речь: scriptStmt – для описа­ния того, как речь была записана на бумаге, recordingStmt – для описания того, какой на­бор физических записей был использован (включая информацию об оборудовании).

Пример (из оригинального руководства по TEI):



No source: created in machine-readable form.


Производные документы TEI


Если источником документа TEI является другой документ TEI, то данные из заголовка TEI этого второго документа должны быть включены в заголовок первого документа в со­ответствии со следующими правилами:
  • Элемент fileDesc источника переносится в элемент sourceDesc/biblFull нового доку­мента (я использую нотацию XPath для адресации эле­ментов).
  • Элемент profileDesc переносится в profileDesc без изменений.
  • Элемент encodingDesc, как правило, создаётся заново, поскольку принципы раз­мет­ки нового документа и документа-источника, скорее всего, существенно разли­чаются.
  • Элемент revisionDesc может быть как абсолютно новым (собственно, создан но­вый документ), так и содержать часть информации из элемента исходного доку­мен­та TEI. В последнем случае необходимо чётко выделить то, к какому именно доку­мен­ту относится приводимая информация (даты, редакции и т.п.).