В. А. Капустин Содержание Формальные структуры текстовых документов 1 Курс лекций
Вид материала | Курс лекций |
Немного истории Кратко о DocBook Кратко о TEI |
- Курс лекций по дисциплине " основы компьютерных технологий" Часть I. Microsoft Word, 432.92kb.
- Сферы использования текстовых документов, 52.06kb.
- Курс, 1-й семестр лекции (51 час), экзамен практикум на ЭВМ (68 часов), зачет (с оценкой), 24.4kb.
- Календарный план курса учебных занятий по спецкурсу «Формальные языки моделирования, 61.45kb.
- Тема: Создание документов в текстовых редакторах, 13.54kb.
- Н. Э. Баумана Кафедра Компьютерные системы и сети Г. С. Иванова, Т. Н. Ничушкина Оформление, 109.65kb.
- Формальные и неформальные структуры, их роль в организации содержание, 304.91kb.
- Текстовые редакторы это программы для создания и редактирования текстовых документов, 263.8kb.
- Курс лекций Преподаватель Михайлов Н. Л. Рыбинск 2001, 562.19kb.
- Курс лекций Барнаул 2001 удк 621. 385 Хмелев В. Н., Обложкина А. Д. Материаловедение, 1417.04kb.
Немного истории
Интерес к разметке формальной структуры документов возник с появлением самых первых средств разметки и форматирования текста в конце 50-х – начале 60-х годов XX века. Но в этих средствах, как правило, присутствует возможность выделить в документе только наиболее очевидные формальные структуры: разделы, абзацы и т.п. Наследниками этих средств разметки стали современные текстовые процессоры, яркий представитель которых – Microsoft Word. Все подобные средства позволяют смешивать визуальную разметку со структурной, что чрезвычайно затрудняет автоматизацию обработки так размеченных текстов. Другой наследник – TEX, который, в принципе, позволяет полностью отделить структурную разметку от визуальной и выделить в тексте любые структуры. Практика применения TEX, однако, далека от такого идеала.
В конце 60-х – начале 70-х годов XX века появились языки структурной разметки. Среди них выделяется SGML – Structured Generalized Markup Language – язык, который принципиально не связывает разметку с каким бы то ни было визуальным представлением текста, и который предназначен исключительно для выявления формальных структур в тексте.
Однако лишь в начале 90-х годов XX века стали появляться приложения SGML, позволяющие размечать более или менее произвольные тексты. Дело в том, что наличие подходящего языка разметки – лишь необходимое, но недостаточное условие для осуществления разметки. Для того, чтобы структурная разметка, с одной стороны, была более содержательна, чем просто выделение заголовков и абзацев, а, с другой стороны, была бы полезна более чем для одного применения, необходимы выделение тех структур текста, которые подлежат разметке и стандартизация обозначений для этих структур. Из множества инициатив в настоящее время активно используются результаты двух: DocBook и TEI.
С появлением в конце прошлого века языка XML и DocBook, и TEI были перенесены в XML.
Кратко о DocBook
DocBook первоначально появился как приложение SGML для подготовки изданий издательства O’Reilly, специализирующемся на компьютерной литературе. Подобные приложения существовали и продолжают существовать во многих издательствах, но DocBook оказался не слишком сложным и был с энтузиазмом воспринят компьютерным сообществом, которое к тому времени искало замену форматтеру программной документации troff. Автор DocBook Норман Уолш проделал (и продолжает) огромную работу по выделению возможных формальных структур в околокомпьютерных текстах; многие из этих структур важны и для других типов текстов.
С 1998 г. и по настоящее время ответственность за DocBook несет Технический комитет DocBook (DocBook Technical Committee, -open.org/docbook/) Организации по внедрению структурных информационных стандартов (Organization for the Advancement of Structured Information Standards – OASIS). Фактически, DocBook является международным стандартом. Текущей версией DocBook является 5.0.
DocBook в полном объеме содержит около 400 элементов и многие сотни атрибутов и применяется не только для подготовки компьютерной документации и книг по компьютерной тематике, но в для других текстов. Имеются сокращенные варианты (DocBook Simplified, ~100 элементов).
DocBook ориентирована, прежде всего, именно на подготовку текста, а не на разметку уже существующего текста, в отличие от TEI, которая ориентирована на работу с существующими текстами.
Кратко о TEI
TEI – аббревиатура от Text Encoding Initiative. TEI поддерживают Association for Computers and the Humanities (Ассоциация по компьютерам и гуманитарным наукам), Association for Computational Linguistics (Ассоциация по вычислительной лингвистике) и Association for Literary and Linguistic Computing (Ассоциация по компьютерным технологиям в литературе и лингвистике). Финансирование осуществляют U.S. National Endowment for the Humanities (Американский Национальный фонд пожертвований на гуманитарные науки), Directorate General XIII of the Commission of the European Communities (XIII Управление комиссии Европейского сообщества), Andrew W. Mellon Foundation (Фонд Эндрю У. Меллона) и Social Science and Humanities Research Council of Canada (Совет по социальным наукам и гуманитарным исследованиям Канады). Принципы системы TEI опубликованы в мае 1994 года, после шести (!) лет разработки, в которую были вовлечены многие сотни ученых различных специальностей из разных стран мира.
В основу TEI должны были быть положены следующие принципы:
- возможность получать в тексте эффекты, необходимые для исследовательской работы;
- простота, ясность и конкретность;
- несложность для использования без специализированного программного обеспечения;
- возможность точного определения и эффективной обработки текстов;
- возможность расширений, определяемых пользователем;
- соответствие существующим и новым стандартам.
Мир гуманитарных наук велик и разнообразен. Чтобы система с данными принципами стала широко распространенной, важно гарантировать, что:
- общее ядро текстовых элементов легко выделяется;
- дополнительные специальные элементы и атрибуты можно легко добавить в текст (или удалить из него);
- имеется возможность нескольких представления (различной разметки) одной и той же функции;
- богатство разметки определяется пользователем, а набор минимальных необходимых условий очень невелик;
- доступна соответствующая документация по текстам и их разметке.
TEI включает сотни элементов. Имеется диалект TEI – TEI Light, – содержащий около сотни элементов, а также специализированные диалекты для прозы, стихотворных текстов, драматургии, словарей и пр.