Тоящее время прилагают значительные усилия, направленные на обеспечение сохранности и эффективного доступа к архивам тв программ, радиопрограмм и киноматериалов

Вид материалаДокументы

Содержание


2.Нормативная база
4.Организация работ по индексированию
Ebu p/meta
Ebu p/meta
Ebu p/meta
Ebu p/meta
Ebu p/meta
Ebu p/meta
Ebu p/meta
Ebu p/meta
5.Современные тенденции в индексировании
6.Рождение новой специальности
Подобный материал:

А.Ф. Перегудов

ДИП, С.-Петербург

Индексирование аудиовизуальных материалов

1.Введение


Все крупные телерадиокомпании мира в настоящее время прилагают значительные усилия, направленные на обеспечение сохранности и эффективного доступа к архивам ТВ программ, радиопрограмм и киноматериалов.

Основная проблема - обеспечение сохранности архивных материалов, поскольку по общемировой статистике почти 2/3 материалов в архивах не могут использоваться по причине вывода из эксплуатации аппаратов воспроизведения, и около 1/3 материалов имеют повреждения носителей.

Вместе с тем, владельцы программ в настоящее время рассматривают свои архивы, как источник получения дополнительных финансовых средств, в первую очередь, за счет продажи прав на использование программ другими телерадиокомпаниям, национальным архивам, образовательным учреждениям и частным лицам.

Экономически эффективная стратегия управления архивами должна строиться на уменьшении затрат на использование, а не на уменьшении затрат на перевод материалов в новый формат долговременного хранения. Если придерживаться данного принципа, то основной целью работ в архиве является сохранение той части фонда, которая принесёт больше пользы при будущем использовании. Но эта модель не учитывает особенностей некоторых материалов, как архивных ценностей. Если не принимать во внимание архивную ценность, то материалы с большей ожидаемой прибылью от использования должны обрабатываться первыми. Если же ожидаемая прибыль меньше, то материалы помещаются «в конец очереди», ожидая либо новых технологий, позволяющих уменьшить издержки на их сохранение, либо новых факторов, которые увеличат прибыль от их использования. Одним из таких факторов может стать упрощение доступа к архивным материалам для деловых, коммерческих, образовательных или иных целей, не имеющих прямое отношение к ТВ вещанию и производству.

Именно проблема повышения эффективности доступа потенциальных пользователей к информационным ресурсам архива является предметом перестройки, или повторного проектирования (re-engineering) технологических процессов в архивах аудиовизуальных программ.

На рис. 1 приведен перечень основных технологических процессов, среди которых важнейшее место занимает индексирование материалов.

2.Нормативная база


В Российской федерации существует разработанная нормативная база, относящаяся к индексированию аудиовизуальных материалов. Список основных ГОСТов по данной тематике приведен ниже:
  • ГОСТ 7.83-2001. Электронные издания. Основные виды и выходные сведения.
  • ГОСТ 7.82-2001. Библиографическая запись. Библиографическое описание электронных ресурсов.
  • ГОСТ 7.40-82. Библиографическое описание аудиовизуальных материалов.
  • ГОСТ 7.59-90. Индексирование документов. Общие требования к систематизации и предметизации.
  • ГОСТ 7.69-95. Аудиовизуальные документы. Основные термины и определения.
  • ГОСТ 7.74-96. Информационно-поисковые языки. Термины и определения.

Индексирование определяется как выражение структуры и семантики аудиовизуального материала в терминах специализированных информационно-поисковых языков. Объектом индексирования является отдельный документ, его составная часть или совокупность (коллекция) документов. При индексировании создается поисковый образ документа (ПОД) в виде совокупности терминов индексирования, отражающих содержание, форму и назначение аудиовизуального документа. Различают классификационное и предметизационное индексирование.

В первом случае индексирование базируется на представлении документа в некоторой классификационной системе и использовании в качестве терминов индексирования классификационных индексов. Информационный поиск организуется по иерархическому принципу. Во втором случае индексирование базируется на представлении содержания документа в понятийной системе определенного естественного языка. Информационный поиск организуется по алфавитному признаку. В соответствии с принципом индексирования различают классификационные и предметизационные информационно-поисковые языки (ИПЯ).

Процесс индексирования по ГОСТ включает в себя следующие этапы:
  • Анализ и определение содержания документа, как объекта индексирования
  • Выбор понятий, характеризующих содержание документа
  • Выбор терминов индексирования для обозначения понятий
  • Создание ПОД из выбранных терминов индексирования при помощи грамматических средств ИПЯ.

Следует отметить, что российская нормативная база ориентирована на профессионалов сферы архивоведения, и рекомендовать ее для использования в практике архивной работы небольших и средних телерадиокомпаний не представляется целесообразным.

Тем не менее, индексирование материалов в архивах телерадиокомпаний необходимо вести, поскольку именно эта работа превращает материал в контент, как совокупность медиа- и метаданных (терминов индексирования). Важную помощь в практической организации архивных работ могут оказать следующие международные документы:
  • Словарь метаданных SMPTE
  • Атрибуты и схема метаданных Dublin Core
  • Атрибуты и схема метаданных DMS-1, принятая для файлов MXF
  • Атрибуты и схема EBU P/Meta
  • Атрибуты и схема метаданных MPEG-7.

В контексте перечисленных документов метаданные определяются как атрибуты объектов (классов) некоторой информационной модели аудиовизуального контента. Модель может быть общепринятой или частной, разработанной специально для конкретного архива в рамках корпоративного стандарта. Тем не менее, во всех современных моделях прослеживаются общие подходы, иллюстрируемые рис.2.

В центре модели находится программа, как законченный аудиовизуальный документ, базовая единица учета в архиве. Программы могут объединяться в серии общего тематического назначения. Серии, в свою очередь, могут принадлежать некоторой коллекции. Коллекция также может строиться по тематическому принципу, или отражать содержание какого-либо архива целиком. Программа, в свою очередь, после выполнения операций индексирования представляется в виде частей, полученных по принципам структурной или семантической декомпозиции. Минимальный размер части соответствует одному кадру. Если кадр, по мнению редактора, может дать представление о содержании части, к которой он принадлежит, то такой кадр называется ключевым. Структурная декомпозиция аудиовизуального контента может быть в значительной степени автоматизирована, но описание семантики требует творческого участия редактора.

Программа ассоциируется с одним или несколькими профилями. Профиль представляет собой совокупность метаданных, определяющих техническое качество каждого экземпляра программы. Сюда входят параметры пространственного и временного разрешения, вид компрессии, скорость потока и прочее. Среди всех профилей выделяется мастер-профиль, отражающий характеристики исходных материалов, из которых скомпонована программа. Подчиненные профили в большинстве случаев соответствуют техническому формату распространения программы – аналоговое, цифровое, Интернет вещание.

Следует подчеркнуть, что только при файловом копировании программ, представленных в цифровой форме, возможно производство полностью идентичных экземпляров, принадлежащих строго одному и тому же профилю. Любой другой способ копирования программ порождает экземпляры, принадлежащие уже новому (пониженному) профилю.

Наиболее целостную систему индексирования аудиовизуальных материалов предоставляет стандарт MPEG-7.

3.MPEG-7


MPEG-7 - стандарт ISO/IEC, разработанный группой Moving Picture Experts Group (MPEG). Название стандарта - Интерфейс Описания Мультимедиийного контента (Multimedia Content Description Interface).

До последнего времени в телевизионной среде существовало некоторое предубеждение по отношению к термину «мультимедиийный контент». Однако сама логика развития телевидения приводит к мысли, что теле- и радиопрограммы представляют собой часть мультимедийного контента.

Аудиовизуальный ряд ТВ программы строится из таких медиа-объектов, как:
  • Растровые и векторные изображения созданные средствами компьютерной графики,
  • Статические изображения, полученные фотосъемкой,
  • Динамические изображения, полученные видео- и киносъемкой,
  • Звуковой ряд, полученный методами компьютерного синтеза,
  • Звуковой ряд, полученный методами записи реальных событий.

С ТВ программой ассоциируются текстовые документы – литературные, режиссерские сценарии, тексты диалогов, монтажные листы, рекламные аннотации и прочее. ТВ программы распространяются не только традиционными средствами вещания, но и становятся доступными через Интернет в режимах потокового вещания и видео по запросу. Многие зрители выбирают для просмотра ту или иную ТВ программу после поиска в Интернете, а не простым перебором эфирных каналов.

MPEG-7 не заменяет предыдущие стандарты MPEG, а выступает как их естественное логическое продолжение, как показано на рис. 3.

Стандарт MPEG-7 состоит из восьми частей:
  • MPEG-7 Systems - бинарный формат кодирования описаний (дескрипторов),
  • MPEG-7 Description Definition Language (DDL) - язык описания дескрипторов, дескрипторных средств и дескрипторных схем,
  • MPEG-7 Visual Elements - дескрипторная схема для визуальных элементов,
  • MPEG-7 Audio Elements - дескрипторная схема для аудио элементов,
  • MPEG-7 Multimedia Description Schemes (MDS) - схема описания мультимедийного контента,
  • MPEG-7 Reference Software – базовая программная реализация частей MPEG-7;
  • MPEG-7 Conformance Testing - правила и процедуры тестирования дескрипторных схем на соответствие стандарту MPEG-7,
  • MPEG-7 Extraction - технические описания приемов работы с дескрипторами.

Язык описания дескрипторов DDL базируется на языке XML. Схема описания MDS включает в себя набор дескрипторных средств, которые разделяются на пять основных составляющих:
  • описание контента,
  • управление контентом,
  • организация контента,
  • навигация и доступ к контенту,
  • взаимодействие с пользователем.

Структурное описание контента основывается на таких понятиях, как пространственный сегмент, временной сегмент; мозаика неподвижная и подвижная, двухмерные и трехмерные сегменты.

Грамматика структурного описания для пространственных сегментов использует термины: слева, справа, вверху, север, юг, выше, ниже, закрывает, над, под и т.д.. Для временных сегментов задаются отношения вида: предшествует, следует, встречает, прикрывается, содержит, начинается и т.д.

Семантическое (смысловое) описание определяет соотношение аудиовизуального контента и реального мира путем декомпозиции программы с использованием набора базовых элементов.

Элементы пространственной семантической декомпозиции:
  • Объект (Object) – физическая субстанция, зафиксированная или представленная в аудиовизуальном материале, а также описание (в том числе, абстрактное) реального объекта.
  • Аудио объект (Audio object) – объект, который действует как источник звука для аудиоданных.
  • Видео объект (Video object) – объект, который действует как источник изображения для видеоданных.

Элементы временной семантической декомпозиции:
  • Действие (Action) – семантически опознаваемое поведение объекта или группы объектов.
  • Событие (Event) – случай или происшествие, заслуживающее внимания, произошедшее в некоторый момент времени или в течение некоторого интервала времени, а также изменения в состоянии объектов, изменения во взаимосвязи объектов, изменения психического характера.
  • Эпизод (Episode) – последовательность событий, а также интервал времени, имеющий смысловое значение. Эпизод обладает относительной смысловой и драматургической самостоятельностью и завершенностью. Как драматургически самостоятельный элемент фильма или телевизионной программы он характеризуется наличием завязки, развития, кульминации и развязки. Эпизод является смысловым звеном аудиовидеоматериала.
  • Сцена (Scene) – эпизод или последовательность событий, представляющих непрерывное действие в одном месте.


4.Организация работ по индексированию


В архиве должно быть обращено особое внимание на организацию работы редакторов ввода и редактирования метаданных семантики пространственной и временной декомпозиции, которые образуют в совокупности поисковый образ аудиовизуального документа. Качество и полнота ПОД в значительной мере определяет потенциальный интерес к содержимому архива со стороны пользователей.

Рабочее место редактора должно быть обеспечено по следующим позициям:
  • Организационное обеспечение
  • Техническое обеспечение
  • Информационное обеспечение
  • Программное обеспечение
  • Лингвистическое обеспечение.

Описание аудиовизуального материала требует времени, существенно превышающего хронометраж программы, поэтому к работе должен привлекаться коллектив редакторов, как состоящих в штате архива, так и работающих по контракту. Оптимальное организационное решение показано на рис. 4.

Техническое обеспечение включает в себя рабочие станции на базе РС и коммуникационные компоненты. Метаданные на стадии их разработки редактирования размещаются на сервере документирования. После завершения процесса документирования метаданные перемещаются на сервер публикации для постоянного хранения и доступа со стороны пользователей.

В рамках информационного обеспечения редакторам должен быть предоставлен доступ к просмотровым копиям материалов среднего (MRV) или низкого (LRV) разрешения в виде файлов. Ввод метаданных производится с использованием специализированных форм, редактор должен иметь доступ к международным и корпоративным справочникам, в том числе и по контролируемым словарям. Важную часть информационного обеспечения составляют метаданные, поступающие в архив вместе с материалами из производственных подразделений телерадиокомпании в форматах документов Word, Excel, HTML.

Программное обеспечение включает в себя пользовательский интерфейс, разработанный как в рамках специализированного рабочего места, так и выполненный в WEB-стиле для редакторов, работающих через Интернет. В обоих случаях редактор должен иметь возможность ускоренного и замедленного воспроизведения материала в прямом и обратном направлениях с эмуляцией традиционных методов JOG/SHUTLLE. Для автоматической структурной сегментации могут использоваться отдельные приложения, но с возможностью проверки и корректировки результатов их работы редактором.

Лингвистическое обеспечение заключается в предоставлении редактору правил составления описаний аудиовизуальных программ, принятых в данном архиве. Для ускорения процессов можно привлекать к описанию одной программы одновременно нескольких редакторов, имеющих определенную специализацию. Другой вариант – специализация редакторов по основным общепринятым категориям ТВ программ:
  • Документальные программы
  • Художественные программы
  • Спортивные программы
  • Новостные программы.

Работа редактора связана с заданием конкретных атрибутов (метаданных) для множества аудиовизуальных программ, подвергающихся индексированию. Эффективность работы во многом определяется типом используемых в информационной модели атрибутов – текст, число или перечислимый тип.

Информационное и лингвистическое обеспечение работы редактора должно максимально использовать последний тип атрибута, в котором значение атрибута может принимать только ограниченный набор значений.

Использование перечислимых типов атрибутов существенно облегчает их ручной ввод и поиск объектов в базах данных. Совокупность допустимых значений атрибутов перечислимого типа содержится в контролируемых справочниках. Такие справочники могут быть международными, национальными и корпоративными. Соответствие атрибутов международным справочникам облегчает процессы создания упаковок импорта - экспорта контента. Примеры справочников приведены в табл. 1.

 №

Предмет

Орган контроля

Справочник

1.1

Страны

ISO

3166-1

1.2

Территории

ISO

3166-2

1.3

Валюта

ISO

4217

1.4

Язык

ISO

639

2.1

Медиа-объект

EBU P/META

MOB_TYPE_CODE

2.2

Кодирование аудиоканалов

EBU P/META

AUC_COMPRESSION_CODE

2.3

Компрессия видео

EBU P/META

PCS_COMPRESSION_CODE

2.4

Формат аудио

EBU P/META

SOUND_FORMAT_CODE

2.5

Устройство

EBU P/META

DEVICE_TYPE_CODE

3.1

Типы организаций

EBU P/META

ORG_TYPE_CODE

3.2

Жанр ТВ программы

EBU

ESCORT 2.4

3.3

Способ производства ТВ прграммы

EBU P/META

ORIGINATION_CODE

3.4

Тематика ТВ программы

EBU P/META

EDITORIAL_CONTENT_CODE

3.5

Типы контрактов

EBU P/META

CONTRACT_TYPE_CODE

3.6

Формат ТВ программы

EBU P/META

EDITORIAL_FORMAT_CODE

3.7

Носитель

EBU P/META

STORAGE_TYPE_CODE

3.8

Право на ТВ программу

EBU P/META

RIGHT_TYPE_CODE

3.9

Типы цикловых программ

EBU P/META

PGR_TX_CYCLE_CODE

3.10

Целевая аудитория

EBU P/META

EDITORIAL_TARGET_GROUP_CODE

3.11

Роль в ТВ производстве

EBU P/META

ROLE_TYPE_CODE

Таблица 1. Перечень основных контролируемых справочников

Справочники первой группы используются в телевидении наравне с другими отраслями. Справочники второй группы разработаны специально для ТВ индустрии и могут быть без изменений приняты в российском контексте. Справочники третьей группы разработаны EBU для целей межгосударственного обмена, однако в каждой стране должны быть самостоятельно разработаны их аналоги на национальном языке и с учетом исторических и культурных традиций.

5.Современные тенденции в индексировании


Совокупность метаданных, описывающих отдельный аудиовизуальный документ или их коллекцию, создается редактором исходя из собственного видения и с ориентацией на определенную категорию пользователей. Собственное видение редактора имеет привязку ко времени составления документа и не всегда может выдержать проверку временем, как по субъективным, так и по объективным причинам. Для улучшения информационного образа теле- или радиопрограммы, метаданные следует оформлять в виде эволюционирующего электронного документа, позволяющего обогащать описание не только на этапе создания, но и в течение всего времени его существования. В англоязычном контексте в этой связи образовался термин «metadata enrichment».

Обогащение метаданных может строиться и на использовании в архиве оценок, которые высказывают пользователи по отношению к той или иной аудиовизуальной программе. Сбор, анализ, редактирование и включение «пользовательских» метаданных в «корпоративное» описание видится одной из важных задач ре-инжиниринга производственных процессов современного архива.

Современная бизнес-модель для архива основана на максимальном привлечении потенциальных покупателей, в том числе и на основе персонализации доступа. Каждый пользователь имеет право на конструирование индивидуального поискового образа документов архива, даже на конструирование собственного пользовательского WEB-интерфейса. В этих целях следует использовать не статическую, а динамическую генерацию HTML-страниц представления информации об материалах архива.

6.Рождение новой специальности


Тенденции развития современного телевидения и архивов как его составной части ведут к мысли о том, что рождается новая специальность «Управление аудиовизуальным контентом». Однако мы не должны оставаться «свидетелями» рождения новой специальности, мы должны активно этому способствовать, быть ответственными за то, в России появятся молодые специалисты, которые освоят сумму знаний о телевизионном производстве, информационных технологиях, бизнес-моделях, архивоведении и на этой основе будут строить новое телевидение.

В Санкт-Петербургском Университете кино и телевидения начаты занятия со студентами по пилотному проекту создания новой специализации «Управление аудиовизуальным контентом». В рамках этого проекта в мае 2003 года прошел конкурс среди студентов на лучшие исследовательские работы в данном направлении. Конкурс получил международный резонанс, в комиссии работал Мартин Солтер, руководитель программного Комитета IBC. Два студента-победителя конкурса получили возможность поехать в Амстердам на выставку и конференцию IBC. В июне 2004 года пройдет финал второго конкурса студенческих исследовательских работ по тематике «Информационные технологии в кино и телевидении». Многие технические руководители телекомпаний России уже планируют приезд в Санкт-Петербург, чтобы познакомиться с представителями нового поколения инженеров кино и телевидения