Лекция по дисциплине «Мультимедиа-технологии» «Воруем изображение с помощью плат видеозахвата»

Вид материалаЛекция

Содержание


Мастер кассетой
Каковы основные преимущества цифрового нелинейного монтажа?
Вариант кодирования
Система PAL обладает рядом достоинств
Формат видеозаписи
Mpeg encoder vitec nt pro
Mpeg master drama
1.Компьютерная платформа.
2.Системы телевидения.
3.Виды сигналов.
5.Режим overley.
6.Звуковые возможности.
7.Программное обеспечение и ускорители.
8.Жесткие диски.
9.Установка и наладка.
10.Лучше один раз увидеть...
Подобный материал:
  1   2   3   4

Министерство образования РФ

Хабаровский государственный технический университет


Кафедра «АиС»


Лекция по дисциплине «Мультимедиа-технологии»

«Воруем изображение с помощью плат видеозахвата»


Выполнили: ст-ты гр.ИС-91

Казаев Э.Ю.

Середина Н.М.


Хабаровск 2002

Содержание


Введение

Рано или поздно счастливый обладатель видеокамеры в своем стремлении к самовыражению посредством видео сталкивается с проблемой превращения отснятого им видеоматериала в законченный фильм. Дело в том, что мало кто остается удовлетворенным отснятым "сырым" видеоматериалом – обычно требуется его пост-обработка: "обрезка" лишних фрагментов, перестановка и гладкая склейка удачных сюжетов и построение эффектных переходов между ними, наложение титров, включение заставок и т.д.

Для того чтобы лучше понять преимущества цифровых технологий редактирования и монтажа, активно используемых в настоящее время в производстве видеопродукции, необходимо вернуться на несколько лет назад и рассмотреть старую классическую схему, отточенную практикой предыдущих десятилетий. Базовая монтажная система состояла из двух видеомагнитофонов (Player-Recorder) и управляющего ими монтажного контроллера.

При этом собственно процесс монтажа выглядел следующим образом:




Отбираемая пользователем "полезная" видеоинформация (фрагменты A и B) с исходной ленты (источника) на первом магнитофоне (Player) переписывалась на результирующую ленту на втором магнитофоне (Recorder), в то время как неудачная или избыточная информация оставалась на источнике.

Получаемая в результате новая запись становилась так называемой Мастер кассетой. Если же было необходимо не просто последовательно собрать (стык в стык) отдельные видеофрагменты в единое целое, но построить между ними плавные переходы со шторками и/или реализовать другие эффекты, добавить титры, наложить звук, то требовалось уже видеомонтажная студия. Отметим, что она включала в себя набор независимых дорогостоящих устройств (порой различных производителей), которые для достижения необходимого результата должны были работать абсолютно синхронно, прецизионно точно и в реальном времени. При этом неизбежна была потеря качества на ленте с результатом в сравнении с лентой исходного материала.

Несколько лет назад появилась возможность выполнения видеомонтажа и редактирования "внутри" компьютера. Эта технология получила название нелинейного монтажа, поскольку позволила операторам прямое обращение к необходимым кадрам/фрагментам видео, записанным на жесткий диск компьютера, т.е. позволила избегать утомительного процесса постоянной (линейной) перемотки ленты вперед-назад при просмотре/поиске этих фрагментов. Подчеркнем, что оцифрованные фрагменты видео перед записью на диск подвергаются компрессии (как правило, MJPEG) в 3-10 раз, что неизбежно приводит к определенной потере качества (тем меньшей, чем меньше степень компрессии). Развитие технологии цифрового редактирования наряду с наращиванием производительности персональных компьютеров, в том числе методов компрессии, привело к реальной возможности создания профессиональной по качеству видеопродукции на базе стандартного компьютера.

Каковы основные преимущества цифрового нелинейного монтажа? Прежде всего, это сохранение исходного уровня качества записанных на диск фрагментов при их копировании (вне зависимости от числа копий).

Кроме того, это:
  • Отсутствие выпадений из-за дефектов ленты,
  • "Мгновенный" доступ к любому фрагменту,
  • Более широкие возможности контроля процесса монтажа,
  • Более высокое качество конечной продукции,
  • Возможность использования новых творческих решений и создания новых визуальных эффектов, обусловленных именно цифровыми возможностями манипулирования с видео (например, трехмерная анимация, виртуальная студия),
  • Автоматическая синхронизация видео со звуком.

При этом собственно процесс обработки предваряет преобразование исходного видео в цифровой сигнал и его запись на жесткий диск компьютера. Одним словом, возникает задача перевода аналогового видеосигнала в цифровую форму доступную для дальнейшего компьютерного монтажа и просмотра.

Если раньше оборудование для решения этой задачи могли позволить себе только профессионалы, то теперь появляются варианты доступные по цене домашнему пользователю. В качестве одного из вариантов, для оцифровывания видеосигнала могут быть использованы комбинированные видеокарты.

Ведущие производители графических плат добавляют к своим трехмерным платам ряд функциональных возможностей, которые позволяют записывать и обрабатывать видеосигнал. В этом отчете сравниваются функциональные возможности и эффективность видеообработки при использовании плат 3dfx Voodoo3 3500TV, Matrox Marvel G400TV, ATI All-in-Wonder 128 , Elsa Erazor III Video и Asus AGP-V3800 Ultra Deluxe. Сравниваются качество видеоизображения этих продуктов, их требования к объему памяти и удобство использования.

  1. Качество видео и методы сжатия


Существенным моментом в задаче оцифровывания видеофрагмента является требуемое качество видео. Конечно, хотелось бы как можно выше, но это вступает в противоречие с требованием минимизации затрат. Кроме того, само понятие качества и тем более его оценка весьма субъективны. В поиске разумного компромисса будем опираться на классификацию качества видео, обеспечиваемого потребительскими камерами различных форматов записи на магнитную ленту. Весьма условно, здесь можно выделить 2 уровня: Стандартное Видео (VHS, C-VHS, Video8), Супер-Видео (SVHS, C-SVHS, Hi8). Для простоты в дальнейшем будем обозначать их как Video и S-Video. Количественно они обычно характеризуются горизонтальным разрешением (числом различаемых в строке элементов – телевизионных линий). Считается, что Video обеспечивает разрешение до 280 линий, а S-Video – до 400 линий. Важно отметить, что телевизионный кадр (здесь и далее PAL стандарта) содержит 576 активных строк (всего их 625, но часть из них служебные), причем согласно рекомендации ITU-R BT.601 международного профессионального телевизионного сообщества (ITU – International Telecommunications Union) каждая строка содержит 720 независимых отсчетов. Таким образом, принципиально телевизионный кадр представляет собой матрицу 720v (будем называть такое разрешение – TV-разрешением, а 320x288 – половинным TV разрешением).

В телевидении всегда кадр состоит из двух разных по содержанию картинок (полей): четные строки формируют одно изображение, а нечетные другое, отснятое на 1/50 сек раньше (позже). Телевизор и показывает эти полукадры в режиме черезстрочной развертки один за другим, - разные картинки высвечиваются в разные моменты времени. Глаз не успевает отреагировать на быструю смену четных и нечетных полей, и воспринимает всю картинку как видео с частотой повторения "кадров" 50 Гц. Это дает иллюзию плавного движения при ширине полосы пропускания вещательного канала, соответствующей только 25 полным кадрам в секунду. Компьютеры работают в режиме прогрессивной развертки, и показывают всегда полный кадр. То есть на экране сразу показывают оба поля кадра. Это неправильно и с точки зрения последовательности смены картинок, и воспринимается как зазубрины на краях.

Бороться с этим бессмыссленно, никаких решений, кроме отбрасывания одного поля целиком, не существует. Такое отбрасывание делается при размере захватываемого кадра 288 или меньше строк. Четные (или нечетные) поля просто игнорируются. Движения получаются немного дерганые, особенно на сценах с поворотом камеры.

Известно, что телевизионный сигнал представляет собой совокупность сигнала яркости Y и двух цветоразностных сигналов U и V. Вариации их значений допускают 256 градаций (от 0 до 255 для Y, и от –128 до 127 для U/V), что в двоичном исчислении соответствует 8 битам (bit) или 1 байту (Byte). Теоретически каждый элемент кадра имеет собственные значения YUV, т.е. требует 3 байт. Такое представление, когда как яркость, так и сигналы цветности имеют равное число независимых значений, обычно обозначают как 4:4:4. Однако, было установлено, что зрительная система человека менее чувствительна к цветовым пространственным изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов в каждой строке можно уменьшить вдвое. Именно такое представление, обозначаемое как 4:2:2, было принято в профессиональном телевидении. При этом U- V-матрицы уменьшаются до 360, а для передачи полного значения телевизионного сигнала в каждом отсчете кадра достаточно 2 байт (чередуя через отсчет независимые значения U и V). Но для целей потребительского видео было признано допустимым уменьшить вдвое и вертикальное цветовое разрешение, т.е. перейти к представлению 4:2:0. Это уменьшает цветовые матрицы до 360, а приведенное число байт на отсчет – до 1,5 (см. таблицу ниже) Именно такое представление было заложено в DV-формат цифровых камер.

Форматы представления YUV данных телевизионного сигнала

4:4:4 4:2:2 4:2:0

YUV YUV YUV YUV YU YV YU YV YU YV YU YV

YUV YUV YUV YUV YU YV YU YV Y Y Y Y

YUV YUV YUV YUV YU YV YU YV YU YV YU YV

YUV YUV YUV YUV YU YV YU YV Y Y Y Y

Таким образом, принимая во внимание телевизионную кадровую частоту в 25 Гц, приходим к выводу, что одна секунда цифрового видео в представлении 4:2:2 требует 25x2x720x576 736000 байт, т.е. поток данных составляет 21 MBps (MegaByte Per Second), но 4:2:0 представление уменьшает поток на 25% - до 16 MBps. Запись подобных потоков технически осуществима, но сложна, дорогостояща и неэффективна с точки зрения последующей обработки. Реальные возможности практики требуют значительного уменьшения потоков, т.е. вынуждают применять различные виды компрессии. Известно множество алгоритмов, осуществляющих компрессию без потери информации, но даже самые эффективные из них на типичных изображениях не обеспечивают сжатия более 2 раз.

Среди алгоритмов с потерей данных одним из наиболее известных является MJPEG (Motion-JPEG). Он пришел из цифровой фотографии, где под именем JPEG был разработан для эффективного сжатия отдельных кадров (JPEG – это аббревиатура от названия утвердившего его международного объединения Joint Photographic Experts Group). Приставка Motion всего лишь отражает его приложение для последовательности кадров, хотя при этом каждый из них обрабатывается совершенно независимо. В этом алгоритме кадр разбивается на блоки размером 16_, каждый из которых с помощью обратного дискретного преобразования Фурье (ОДПФ) переводится в частотную область. В результате распределение сигналов яркости и цветности (используется представление 4:2:2) переходит в соответствующие частотные коэффициенты, которые затем подвергаются квантованию (округлению значений с задаваемым интервалом). Само по себе ОДПФ обратимо, т.е. не приводит к потере данных, но вот квантование коэффициентов вызывает огрубление изображения. Операция квантования выполняется с переменным интервалом – наиболее точно передается низкочастотная информация, поскольку соответствующие искажения изображения зрительно наиболее заметны. В то же время многие высокочастотные коэффициенты, ответственные за "тонкие" детали изображения, после нее принимают нулевые значения. Таким образом, JPEG-компрессия приводит к снижению эффективного разрешения и возможному появлению незначительных ложных деталей (в частности, на границе блоков), но обеспечивает значительное сжатие потока данных. Компромисс очевиден – чем больше сжатие, тем ниже качество. Установлено, что уровню Video соответствует MJPEG поток около 2 MBps, а S-Video – 4 MBps.

Дальнейшее снижение объема данных может быть достигнуто переходом к алгоритму MPEG компрессии (MPEG – Motion Pictures Experts Group). Он принципиально ориентирован на обработку последовательностей кадров и использует высокую избыточность информации в изображениях, разделенных малым временным интервалом. Действительно, между смежными изображениями обычно меняется только малая часть сцены – например, происходит плавное смещение небольшого объекта на фоне фиксированного заднего плана. В этом случае полную информацию о сцене нужно сохранять только выборочно - для опорных изображений. Для остальных достаточно передавать только разностную информацию: о положении объекта, направлении и величине смещения, о новых элементах фона (открывающихся за объектом по мере его движения). Причем эти разности можно формировать не только по сравнению с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается часть фона, ранее скрытая за объектом). Таким образом, в MPEG кодировке принципиально формируются три типа кадров: I (Intra), выполняющие роль опорных и сохраняющие полный объем информации о структуре изображения; P (Predictive), несущие информацию об изменениях в структуре изображения по сравнению с предыдущим кадром (типов I или P); B (Bi-directional), сохраняющие только самую существенную часть информацию об отличиях от предыдущего и последующего изображений (только I или P). Принципиальная схема последующей компрессии I-кадров, также как и разностных P- и B-кадров, аналогична MJPEG, но, с адаптивной подстройкой таблиц квантования.

Последовательности I-, P-, B-кадров объединяются в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures). Каждая GOP обязательно начинается с I и с определенной периодичностью содержит P кадры. Ее структуру описывают как M/N, где M – общее число кадров в группе, а N – интервал между P-кадрами. Так, типичная для Video-CD и DVD IPB группа 15/3 имеет следующий вид: IBBPBBPBBPBBPBB. Здесь каждый B кадр восстанавливается по окружающим его P кадрам (в начале и конце группы - по I и Р), а в свою очередь каждый Р кадр – по предыдущему Р (или I) кадру. В то же время I кадры самодостаточны и могут быть восстановлены независимо от других, но являются опорными для всех P и тем более B кадров группы. Соответственно у I наименьшая степень компрессии, у В – наибольшая. Установлено, что по размеру типичный Р-кадр составляет 1/3 от I, а B – 1/8 часть. В результате MPEG последовательность IPPP (GOP 4/1) обеспечивает 2-кратное уменьшение требуемого потока данных (при том же качестве) по сравнению с последовательностью только из I кадров, а использование GOP 15/3 позволяет достичь 4-кратного сжатия.

Завершая рассказ о MPEG, необходимо подчеркнуть, что это алгоритм допускает вариацию и многих других параметров кодирования, в частности, пространственного разрешения.

В1988 году был основан комитет Moving Pictures Expert Group, что на русский переводится примерно как экспертная группы кинематографии (движущихся изображений), аббревиатура которого - MPEG известна теперь любому, кто имел дело с мультимедиа - компьютерами или с цифровым телевидением. В этом же году была начата разработка формата MPEG-1, который в окончательном виде был выпущен в 1993 году. Несмотря на все очевидные недостатки этого формата, MPEG-1 по-прежнему является одним из наиболее массовых форматов видеосжатия, лишь в последнее время, начиная постепенно сдавать позиции под натиском более новых и совершенных форматов видеокомпрессии, по большей части из этого же семейства.

Надо сказать, что практически все новаторские по тем временам разработки легшие в основу формата MPEG-1, в том или ином виде встречаются и более совершенных форматах данного ряда, поэтому, рассмотрев в подробностях первого представителя этого семейства форматов видеосжатия можно получить общее представление о том, как же работают алгоритмы MPEG.

Формат MPEG-1 начал разрабатываться в те трудно вообразимые времена, когда не было широкодоступных носителей большого объема, в то время, как видеоданные, даже и сжатые, занимали совершенно колоссальные для конца 80-х объемы - средней продолжительности фильм имел размер больше гигабайта. Но это была эпоха 286 и 386 процессоров, 4 Мб оперативной памяти и 250 Мб винчестер считались роскошью, а не убогостью, как сейчас, Windows была примочкой для DOS, а не наоборот, а в качестве легко переносимых носителей информации доминировали 5 дюймовые дискеты и только-только появившиеся 3,5" дискеты от фирмы SONY. В таких условиях необходимо было найти носитель, на который можно было бы записать гигабайт информации, при этом этот носитель должен был быть недорогим, иначе ни о какой массовости не могло быть и речи.

И такой носитель был найден. Как раз в эти годы впервые на платформе PC появился такой новый тип носителей информации как CD-ROM диски, которые смогли обеспечить необходимый объем информации. Правда, на один диск фильм в формате MPEG-1 все-таки не вмещался, но что мешало записать его на 2 CD, тем более, что новинка стоила очень недорого? Разумеется, первые CD-ROM проигрыватели были односкоростными, поэтому не стоит удивляться, что максимальная скорость пересылки потока данных (bitstream) в формате MPEG-1 ограничена 150 Кб/сек., что соответствует одной скорости CD-ROM.

Надо сказать, что возможности MPEG-1 не ограничены тем низким разрешением, которое вы все видели при просмотре VIDEO-CD. В самом формате была заложена возможность сжатия и воспроизведения видеоинформации с разрешением вплоть до 4095х4095 и частотой смены кадров до 60 Гц. Но из-за того, что поток передачи данных был ограничен 150 Кб/сек., то есть так называемый Constrained Parameters Bitstream (CPB) - зафиксированная ширина потока передачи данных, разработчики формата, а в дальнейшем и создатели кодеков на его основе, были вынуждены использовать разрешения кадра, оптимизированные под данный CPB. Наиболее широко распространенными являются два таких оптимизированных формата - это формат SIF 352х240, 30 кадров в секунду и урезанный формат PAL/SECAM 352х288, 25 кадров в секунду.

Ну вот, с разрешением определились, теперь можно и посмотреть, как это все сжимается.


    1. Принципы cжатия информации в MPEG-1.

В качестве примера рассмотрим урезанный формат PAL/SECAM, который более распространен, чем SIF, хотя оба эти формата за исключением разрешения и частоты смены кадров ничем друг от друга не отличаются.

Урезанная версия формата PAL/SECAM содержит 352 ppl (point per line - точек на линию), 288 lpf (line per frame - линий на кадр) и 25 fps (frame per second - кадров в секунду). Надо сказать, что полноценный стандарт PAL/SECAM имеет параметры в 4 раза большие, чем аналогичные у MPEG-1 (кроме fps). Поэтому принято говорить, что VIDEO-CD имеет четкость в четыре раза хуже, по сравнению с обычным видео.

Что касается глубины цвета, то тут не все так просто, как в компьютерной графике, где на каждый пиксел отводится определенное фиксированное число бит. MPEG-1 использует цветовую схему YСbCr, где Y - это яркостная плоскость, Сb и Cr - плоскости цветовые. Эти плоскости кодируются с разным разрешением. Существуют несколько вариантов кодирования, которые можно представить с следующем виде:

Вариант кодирования

Отношение разрешений Сb/Y (Сr/Y) по горизонтали

Отношение разрешений Сb/Y (Сr/Y) по вертикали

4:4:4

1:1

1:1

4:2:2

1:2

1:1

4:2:0

1:2

1:2

4:1:1

1:4

1:1

4:1:0

1:4

1:4