В. А. Капустин Содержание Формальные структуры текстовых документов 1 Курс лекций

Вид материалаКурс лекций
Немного истории
Кратко о DocBook
Кратко о TEI
Подобный материал:
1   2   3   4   5   6   7   8   9   ...   17

Немного истории


Интерес к разметке формальной структуры документов возник с появлением самых пер­вых средств разметки и форматирования текста в конце 50-х – начале 60-х годов XX века. Но в этих средствах, как правило, присутствует возможность выделить в документе только наиболее очевидные формальные структуры: разделы, абзацы и т.п. Наследниками этих средств разметки стали современные текстовые процессоры, яркий представитель кото­рых – Microsoft Word. Все подобные средства позволяют смешивать визуальную разметку со структурной, что чрезвычайно затрудняет автоматизацию обработки так размеченных текстов. Другой наследник – TEX, который, в принципе, позволяет полностью отделить структурную разметку от визуальной и выделить в тексте любые структуры. Практика при­менения TEX, однако, далека от такого идеала.

В конце 60-х – начале 70-х годов XX века появились языки структурной разметки. Среди них выделяется SGML – Structured Generalized Markup Language – язык, который принци­пиально не связывает разметку с каким бы то ни было визуальным представлением текс­та, и который предназначен исключительно для выявления формальных структур в текс­те.

Однако лишь в начале 90-х годов XX века стали появляться приложения SGML, позво­ляющие размечать более или менее произвольные тексты. Дело в том, что наличие подхо­дящего языка разметки – лишь необходимое, но недостаточное условие для осуществле­ния разметки. Для того, чтобы структурная разметка, с одной стороны, была более содер­жа­тельна, чем просто выделение заголовков и абзацев, а, с другой стороны, была бы по­лез­на более чем для одного применения, необходимы выделение тех структур текста, ко­то­рые подлежат разметке и стандартизация обозначений для этих структур. Из множест­ва инициатив в настоящее время активно используются результаты двух: DocBook и TEI.

С появлением в конце прошлого века языка XML и DocBook, и TEI были перенесены в XML.

Кратко о DocBook


DocBook первоначально появился как приложение SGML для подготовки изданий изда­тель­ства O’Reilly, специализирующемся на компьютерной литературе. Подобные прило­жения существовали и продолжают существовать во многих издательствах, но DocBook ока­зался не слишком сложным и был с энтузиазмом воспринят компьютерным сооб­ще­с­т­вом, которое к тому времени искало замену форматтеру программной документации troff. Автор DocBook Норман Уолш проделал (и продолжает) огромную работу по вы­делению возможных формальных структур в околокомпьютерных текстах; многие из этих структур важны и для других типов текстов.

С 1998 г. и по настоящее время ответственность за DocBook несет Технический комитет DocBook (DocBook Technical Committee, -open.org/docbook/) Организации по внедрению структурных информационных стандартов (Organization for the Advancement of Structured Information Standards – OASIS). Фактически, DocBook является международным стандартом. Текущей версией DocBook является 5.0.

DocBook в полном объеме содержит около 400 элементов и многие сотни атрибутов и при­меняется не только для подготовки компьютерной документации и книг по компь­ю­терной тематике, но в для других текстов. Имеются сокращенные варианты (DocBook Simplified, ~100 элементов).

DocBook ориентирована, прежде всего, именно на подготовку текста, а не на разметку уже существующего текста, в отличие от TEI, которая ориентирована на работу с существу­ю­щи­ми текстами.

Кратко о TEI


TEI – аббревиатура от Text Encoding Initiative. TEI поддерживают Association for Computers and the Humanities (Ассоциация по компьютерам и гуманитарным наукам), Association for Computational Linguistics (Ассоциация по вычислительной лингвистике) и Association for Literary and Linguistic Computing (Ассоциация по компьютерным технологиям в литературе и лингвистике). Финансирование осуществляют U.S. National Endowment for the Humanities (Американский Национальный фонд пожертвований на гуманитарные науки), Directorate General XIII of the Commission of the European Communities (XIII Управление комиссии Европейского сообщества), Andrew W. Mellon Foundation (Фонд Эндрю У. Меллона) и Social Science and Humanities Research Council of Canada (Совет по социальным наукам и гуманитарным исследованиям Канады). Прин­ци­пы системы TEI опубликованы в мае 1994 года, после шести (!) лет разработки, в которую были вовлечены многие сотни ученых различных специальностей из разных стран мира.

В основу TEI должны были быть положены следующие принципы:
  • возможность получать в тексте эффекты, необходимые для исследовательской работы;
  • простота, ясность и конкретность;
  • несложность для использования без специализированного программного обеспечения;
  • возможность точного определения и эффективной обработки текстов;
  • возможность расширений, определяемых пользователем;
  • соответствие существующим и новым стандартам.

Мир гуманитарных наук велик и разнообразен. Чтобы система с данными принципами стала широко распространенной, важно гарантировать, что:
  1. общее ядро текстовых элементов легко выделяется;
  2. дополнительные специальные элементы и атрибуты можно легко добавить в текст (или удалить из него);
  3. имеется возможность нескольких представления (различной разметки) одной и той же функции;
  4. богатство разметки определяется пользователем, а набор минимальных необходимых условий очень невелик;
  5. доступна соответствующая документация по текстам и их разметке.

TEI включает сотни элементов. Имеется диалект TEI – TEI Light, – содержащий около сот­ни элементов, а также специализированные диалекты для прозы, стихотворных текстов, дра­матургии, словарей и пр.