В. А. Капустин Содержание Формальные структуры текстовых документов 1 Курс лекций
Вид материала | Курс лекций |
- Курс лекций по дисциплине " основы компьютерных технологий" Часть I. Microsoft Word, 432.92kb.
- Сферы использования текстовых документов, 52.06kb.
- Курс, 1-й семестр лекции (51 час), экзамен практикум на ЭВМ (68 часов), зачет (с оценкой), 24.4kb.
- Календарный план курса учебных занятий по спецкурсу «Формальные языки моделирования, 61.45kb.
- Тема: Создание документов в текстовых редакторах, 13.54kb.
- Н. Э. Баумана Кафедра Компьютерные системы и сети Г. С. Иванова, Т. Н. Ничушкина Оформление, 109.65kb.
- Формальные и неформальные структуры, их роль в организации содержание, 304.91kb.
- Текстовые редакторы это программы для создания и редактирования текстовых документов, 263.8kb.
- Курс лекций Преподаватель Михайлов Н. Л. Рыбинск 2001, 562.19kb.
- Курс лекций Барнаул 2001 удк 621. 385 Хмелев В. Н., Обложкина А. Д. Материаловедение, 1417.04kb.
Лекция 7.Заголовок TEI (электронный титульный лист).
Визуализация документа TEI
Размеченный текст должен быть снабжён метаинформацией, документирующей сам текст, кодировку, вносимые изменения и др. Эта метаинформация необходима как исследователям, использующим размеченный текст, так и программам, которые этот текст обрабатывают, а также и каталогизаторам (в библиотеках). Содержание этой метаинформации похоже на содержание титульного листа печатного издания.
Поскольку основной текст (тело) документа TEI может вообще практически не содержать разметки, заголовок TEI является важнейшим элементом документа TEI. Поэтому рассмотрим заголовок TEI подробно.
Общие сведения о заголовке TEI
Метаинформация в документе TEI размещается в обязательном заголовке TEI:
(fileDesc, encodingDesc*, profileDesc*, revisionDesc?) >
Структура заголовка TEI
Заголовок TEI состоит из четырёх частей, лишь первая из которых – описание файла, fileDesc – обязательна. Таким образом, минимальный заголовок TEI имеет вид:
Почти всегда, однако, присутствуют и необязательные элементы.
Следует отличать заголовок TEI (элемент teiHeader), предназначенный для размещения в нём метаинформации, от элемента front, предназначенного для разметки вводной части текста.
Полная версия TEI в некоторых случаях (например, при разметке корпуса) допускает использование нескольких заголовков TEI. TEI Light разрешает использовать лишь единственный заголовок TEI.
Остановимся вначале на каждом элементе заголовка TEI кратко:
- Описание файла (элемент fileDesc) содержит полное библиографическое описание самого компьютерного файла. Когда здесь говорится о компьютерном файле, имеется в виду вся совокупность физических сущностей, на которые разбит документ TEI.
Из этого описания пользователь может получить точную библиографическую ссылку, а библиотекарь или работник архива может создать правильную библиографическую запись, идентифицирующую наличие этого файла в коллекции.
Описание файла также включает информацию об источнике, из которого был создан электронный документ.
- Описание кодирования (элемент encodingDesc) предназначено для подробного отражения связей между электронным документом и его источником (источниками). Оно предназначено для детального описания таких аспектов преобразования текста в электронную форму, как нормализация, устранение неоднозначностей; здесь также приводится информация об использованной разметке, глубине анализа и т.п.
- Параметры текста (элемент profileDesc) – это классификационная и контекстная информация о тексте.
В этом элементе могут присутствовать предметные рубрики, история создания, персоналии, связанные с текстом (как ответственные лица, так и описываемые в тексте), и т.п. Этот элемент часто используется при работе с корпусами – в этом случае для значений вложенных в него элементов применяются словари с контролируемой лексикой, что позволяет, например, автоматизировать отбор текстов для последующей обработки.
- История изменений (элемент revisionDesc). Этот элемент используется для управления версиями размеченного документа.
Типы содержимого в заголовке TEI
- Проза
Большинство элементов заголовка содержат элементы прозы, такие как абзац или список. Некоторые элементы, однако, могут содержать только символьные данные (возможно, с разметкой фразового уровня).
- Группирующие элементы. Имена группирующих элементов заканчиваются суффиксом Stmt (например, editionStmt или titleStmt)
Группирующие элементы используются для записи структурированной информации, например, соответствующей области библиографического описания. Зачастую группирующий элемент имеет две альтернативы: структурированную (состоящую из отдельных элементов) и неструктурированную. В неструктурированном варианте используется один элемент, формально содержащий прозу, в котором разметка составных частей выполнена в соответствии с местными традициями (например, библиографическое описание в соответствии с ГОСТ 7.1–2003).
- Объявления. Имена элементов объявлений имеют суффикс Decl (например, subjectDecl или refsDecl).
Объявления содержат информацию о конкретном применении разметки в данном тексте, зачастую в кодированном виде. На эту информацию можно ссылаться в разметке текста, используя атрибут decls.
- Описания. Имена элементов объявлений имеют суффикс Desc (например, settingDesc или projectDesc). Эти элементы содержат тексты соответствующих описаний.
Описание файла
Элемент fileDesc – первый и единственный обязательный элемент заголовка TEI:
(titleStmt, editionStmt?, extent?, publicationStmt, seriesStmt?,
notesStmt?, sourceDesc+) >
Структура этого элемента напоминает структуру библиографического описания. Элемент fileDesc содержит три обязательных (titleStmt, publicationStmt и sourceDesc) и четыре необязательных элемента. Все эти (как обязательные, так и необязательные) элементы имеют только глобальные атрибуты.
Группа заглавия
Элемент titleStmt группирует информацию о заглавии произведения и лицах, ответственных за интеллектуальное содержание произведения. Этот элемент идёт первым в описании файла и является обязательным.
(title+, (author | editor | sponsor | funder | principal | respStmt)*)
>
Группа заглавия содержит заглавие, данное электронному произведению (это заглавие может, вообще говоря, отличаться от заглавия произведения-источника), а также может содержать один или несколько необязательных элементов, несущих в себе сведения об ответственности, идентифицирующие автора, разметчика, составителя и др. лиц (физических и/или организаций), каким-либо образом ответственных за электронный документ.
В сведениях об ответственности должны присутствовать элементы author – автор произведения – и principal – автор электронной размеченной версии. Остальные сведения об ответственности факультативны.
Все имена и названия организаций должны приводиться в наиболее развёрнутой форме (в частности, персональные имена – не только в виде фамилий с инициалами, но, по крайней мере, в виде фамилий и полных личных имён).
Пример
Заглавие
Заглавие – это элемент прозы. Для удобства дальнейшего описания я сначала определю две параметрические сущности, которые в совокупности определяют все элементы прозы (см. описание абзаца выше):
#PCDATA
| ident | code | kw | abbr | address
| date | name | num | rs | time
| add | corr | del | orig | reg
| sic | unclear | formula | emph | foreign
| gloss | hi | mentioned | soCalled | term
| title | ptr | ref | xptr | xref
| s | seg | gi
>
" eg | bibl | biblFull | figure | cit | q | label
| list | listBibl | note | stage | table | text"
>
"(%proseGeneral; | %proseNotInPerson; | %body.marks; )*"
>
Элемент title имеет два (сверх обычных глобальных) атрибута:
- level – библиографический уровень заглавия (статья – article, книга – monograph, журнал – journal, продолжающееся издание – series, неопубликованный материал – unpublished):
level (a | m | j | s | u) #IMPLIED
- type – вид заглавия, в соответствии с принятой (коллективом, размечавшим текст) типологией заглавий:
type CDATA #IMPLIED
Элемент title содержит основное заглавие файла, включая все альтернативные заглавия и подзаголовки. Форма, в которой представляется заглавие, оставляется на усмотрение того, кто создаёт этот элемент. Если электронный текст является производным от существующего неэлектронного источника, то следует в элементе title воспроизвести точное заглавие этого источника, дополнив его фразой типа «электронный вариант / издание / текст» и т.п. для того, чтобы надёжно отличать размеченный документ от исходного (в том числе в каталогах, содержащих описания обоих документов).
Руководство по TEI настоятельно не рекомендует использовать системное имя файла в качестве значения элемента title, поскольку системное имя файла подвержено частым изменениям.
Полезным руководством по определению того, как следует формировать заглавие, может служить ГОСТ 7.1–2003 7.
Автор, редактор, спонсор, финансовая поддержка, ответственный исполнитель
Все эти элементы содержат сведения о лицах или организациях, выступающих в определённой роли относительно данного текста. В этих элементах допустимы не все элементы прозы.
- author
Имя персоны или коллектива, которые являются автором произведения; первичные сведения об ответственности.
- editor
Вторичные сведения об ответственности. Элемент содержит информацию о редакторах, составителях, переводчика и пр. лицах (персонах или организациях), участвовавших в создании произведения.
- sponsor
Название организации или лица, оказавшего спонсорскую (не обязательно финансовую) поддержку созданию произведения.
- funder
Название организации, структуры или лица, ответственных за финансирование проекта разметки или создания данного текста.
- principal
Имя лица, ответственного за создание данного электронного текста
Сведения об ответственности
Для детализации указания сведений об ответственности используется элемент respStmt:
resp | name | %body.marks; )+ >
Обычно этот элемент содержит пару элементов resp и name:
- resp
Содержит фразу, описывающую вид интеллектуальной ответственности.
- name
Содержит имя или именную фразу.
Группа издания
Группа издания – элемент editionStmt – объединяет информацию, относящуюся к одному изданию текста:
Элемент editionStmt содержит либо фразу, описывающую издание (элементы p – абзацы), либо структурированную информацию в виде элемента edition, описывающего особенности издания, и списка (respStmt*) сведений об ответственности, относящихся к указанному изданию.
Термин «издание» по отношению к печатным текстам используется в TEI в традиционном смысле. По отношению к электронным документам «издание» примерно эквивалентно версии (version) или выпуску (release). Слова «издание», «версия» и т.п. должны включаться в содержимое элемента editionStmt (в элемент edition или p). Все даты в элементах edition или p внутри элемента editionStmt должны быть заключены в элемент date.
Слова «подверсия» (revision) или обновление (update), напротив, не могут служить признаком «издания». Все изменения в электронной версии текста, однако, могут быть зафиксированы в элементе revisionDesc – «История изменений» (см. ниже).
Размер
Необязательный элемент extent описывает размер электронного текста, размещенного на некотором носителе, в каких-либо приемлемых единицах. Этот элемент не имеет никакой специальной структуры:
Примеры:
2 16-битовыми мегабайтами
Группа выходных данных (сведения о публикации)
Группа выходных данных – обязательный элемент publicationStmt – объединяет информацию, относящуюся к публикации или распространению исходного или электронного текста. Этот элемент содержит либо прозу, либо структурированную информацию. В этом элементе разрешены маркирующие элементы (%body.marks;):
"(publisher | distributor | authority | pubPlace |
address | idno | availability | date) "
>
( ( p, (%body.marks;)* )+ | (%pubInfo;, (%body.marks;)* )+ )
>
В группе выходных данных обязательно присутствие информации об одном из трёх лиц или организаций: издателе (publisher), распространителе (distributor) или о лице или организации, отвечающей за доступность произведения (authority). Остальные элементы необязательны: место издания – pubPlace, почтовый или иной адрес – address, стандартный или нестандартный идентификационный номер издания – idno, сведения о доступности (включая информацию об авторских правах) – availability, дата публикации – date (именно дата публикации; дата создания документа приводится в элементе profileDesc – Параметры текста). Рекомендуется приводить элементы именно в указанном порядке.
Пример:
Oxford University Press
Oxford
<idno type='ISBN'>0-19-254705-4
Copyright 1989, Oxford University Press
Группа серии
Необязательный элемент seriesStmt объединяет информацию о серии, к которой принадлежит публикация. На «библиографическом жаргоне» серию можно определить одним из трёх способов:
- Группа отдельных публикаций, связанных друг с другом тем фактом, что каждая публикация, кроме собственного заглавия, имеет также общее, объединяющее все эти публикации, заглавие. Индивидуальные публикации могут быть, а могут и не быть пронумерованы.
- Каждый из двух или более томов литературных произведений, лекций, статей, или других однородных публикаций, изданных последовательно.
- Пронумерованная последовательность томов внутри периодического или продолжающегося издания.
Элемент seriesStmt содержит либо прозу, либо структурированную информацию.
Все элементы содержимого группы серии уже были рассмотрены выше. В элементе title следует указывать атрибут level со значением s (серия). В использовании элемента idno в группе серии есть некоторые особенности: обычно используются не менее двух элементов idno. Один содержит стандартный номер (ISSN), а другой – номер публикации в серии:
Machine-Readable Texts for the Study of Indian Literature
Номера публикации в серии рекомендуется кодировать арабскими цифрами с точкой в качестве разделителя: вместо VI/xix:33 в содержимом элемента idno должно стоять 6.19.33.
Группа примечаний
Группа примечаний – notesStmt – содержит разнообразные примечания (структурированный текст – %structuredText; – может включать анонимные блоки ab, элементы стихотворного текста l и lg, абзацы p и прямую речь персонажей sp, – всё это может появляться в тексте примечания):
| lg | p | sp" >
| %structuredText;" >
note (%extendedText;)* >
Элемент note имеет, кроме глобальных, ещё 6 атрибутов (напомню, что значение по умолчанию #IMPLIED означает, что атрибут не является обязательным):
Имя атрибута | Тип значения атрибута | Описание |
type | CDATA #IMPLIED | Тип примечания |
resp | CDATA #IMPLIED | Указывает лицо, ответственное за данное примечание (автор, редактор, переводчик и пр.) |
place | CDATA "unspecified" | Есть ли примечание в основном тексте |
anchored | (yes | no) "yes" | Указано ли конкретное место примечания в тексте (в виде ссылки ил описания места) |
target | IDREFS #IMPLIED | Идентификаторы отрезков текста, к которым относится примечание |
targetEnd | IDREFS #IMPLIED | Идентификаторы элементов, которые завершают отрезки текста, к которым относится примечание (при необходимости должны использоваться пустые элементы) |
В традиционной библиографии некоторые виды информации о произведении размещаются в примечаниях. TEI требует, чтобы для перечисленных ниже видов метаинформации использовались специально предназначенные для них элементы:
- Происхождение, назначение, художественная форма, жанр или другая интеллектуальная категория – profileDesc.
- Формальный реферат, не содержащий оценки произведения – profileDesc.
- Подробное библиографическое описание (традиционного, как правило, не электронного) источника или источников текста электронного документа – sourceDesc.
- Любая информация, относящаяся к выходным данным, распространению текста (включая то, как можно получить текст), любая информация об ограничениях или условиях доступа – publicationStmt.
- Общедоступные идентификационные номера и шифры (прежде всего, ISBN и ISSN) – publicationStmt (вложенный элемент idno).
Элемент notesStmt можно использовать для передачи следующей информации о файле и его особенностях:
- Дат (например, «предположительно, 1983».
- Имён лиц и названий коллективов (организаций), имеющих отношение к процессу создания и разметки электронного документа, но которые по каким-то причинам не упомянуты в сведениях об ответственности.
- Доступности электронного документа на тех или иных носителях; доступности документации; доступности имеющей отношение к электронному документу дополнительной информации (например, в случае неполной оцифровки/разметки исходного источника).
- Языке текста и реферата.
- Уникальном названии, присвоенном серии в Международной системе данных о сериях (ISDS).
- Связанных публикациях (например, описывающих текст произведения – источника).
Пример:
Группа источника
Последний элемент описания файла – обязательный элемент sourceDesc. Он предназначен для передачи информации об источнике (источниках), которые послужили основой для создания электронного размеченного текста – документа TEI. Таким источником может быть печатный текст, рукопись, другой компьютерный файл, аудио или видеозапись, и др., или любая комбинация подобных источников. Источник, впрочем, может и вовсе отсутствовать. Элемент sourceDesc содержит библиографическое описание источника.
Элемент sourceDesc содержит либо прозу (абзац p), либо (предпочтительнее) структурированное библиографическое описание:
Полная DTD TEI допускает использование ещё двух элементов для описания источника в случае, когда источником послужила записанная устная речь: scriptStmt – для описания того, как речь была записана на бумаге, recordingStmt – для описания того, какой набор физических записей был использован (включая информацию об оборудовании).
Пример (из оригинального руководства по TEI):
No source: created in machine-readable form.
Производные документы TEI
Если источником документа TEI является другой документ TEI, то данные из заголовка TEI этого второго документа должны быть включены в заголовок первого документа в соответствии со следующими правилами:
- Элемент fileDesc источника переносится в элемент sourceDesc/biblFull нового документа (я использую нотацию XPath для адресации элементов).
- Элемент profileDesc переносится в profileDesc без изменений.
- Элемент encodingDesc, как правило, создаётся заново, поскольку принципы разметки нового документа и документа-источника, скорее всего, существенно различаются.
- Элемент revisionDesc может быть как абсолютно новым (собственно, создан новый документ), так и содержать часть информации из элемента исходного документа TEI. В последнем случае необходимо чётко выделить то, к какому именно документу относится приводимая информация (даты, редакции и т.п.).