Многоканальный окружающий звук (статья)

Помощь · Поиск · Пользователи · Календарь

Перейти к полной версии: Многоканальный окружающий звук (статья)

Многоканальная Музыка > Объемный звук > Основной раздел

21/06/2005, 10:44

http://www.moline.ru/articles/sur/surround.php

21/06/2005, 11:03

Антон БАЛАБАН
Музыкальное Оборудование
март 2002

История и современность.

Окружающий звук (он же объемный, он же surround) в настоящее время стремительно распространяется по планете. Он используется в кино, на видео и DVD, на презентациях, в просто музыкальных записях, и даже на телевидении. Слушателям он сулит новые ощущения, музыкальным лейблам - переиздание старых записей в новом формате, музыкантам - новые способы выразить себя, а звукозаписывающим студиям - переоборудование и приток клиентов. В общем, окружающий звук нужен и выгоден многим. Однако с его производством (особенно при ограниченном бюджете) все еще связано немало проблем, также ряд сложностей возникает на пути доставки многоканального звука слушателям. Форматы DVD Audio и Super Audio CD, которые позволяют записать шестиканальный (или более) звук в несжатом виде, пока еще не завоевали широкой популярности, так что сейчас неизбежным является использование одного из способов сжатия звуковых данных, адаптированных для surround-фонограмм. Все эти способы сжатия пришли к нам из кино, так что, предваряя рассказ о современных цифровых способах кодирования многоканального звука, хотелось бы немного отвлечься и рассказать об истории развития окружающего звука.

А начиналось все в 1941 году, когда вышел фильм студии Диснея "Fantasia". От моно создатели картины прыгнули сразу к трем каналам звука: левому, правому и центральному. Формат записи был назван "Fantasound", и по тем временам это было нечто невиданное - ведь и моно звук в кино появился совсем недавно, а тут сразу три независимых канала, которые записывались на кинопленку оптическим способом. Но трудности производства подобного рода фонограмм (тогда в Америке еще не было магнитофонов, да и другая звукозаписывающая техника была в зачаточном состоянии), сложная и дорогая система воспроизведения и начавшаяся Вторая Мировая война остановили проникновение многоканального звука в киноиндустрию более чем на десять лет.

[attachmentid=69]

Появление коммерчески успешных форматов стереозвука в кинопроизводстве было обусловлено развитием в США магнитной звукозаписи. Первые ленточные магнитофоны были привезены в качестве трофеев из побежденной Германии (в русском языке слово "магнитофон" также обязано своим появлением названию одной из немецких моделей этого устройства - Magnetofon), и вскоре фирма Ampex выпустила американский аппарат для записи на ленту Ampex Model 200, являвшийся копией немецкого AEG Model K-4 Magnetofon. Магнитная запись стремительно развивалась, вскоре появился многодорожечный магнитофон, изобретенный легендарным гитаристом Лес Полом (немного ранее этот разносторонний музыкант придумал электрогитару, да и использовать монофонические магнитофоны для записи музыки в США начал именно он). Первые форматы окружающего звука были основаны именно на магнитной записи (вместо старой оптической монодорожки) - прямо на кинопленку наносился магнитный слой, на который записывалось звуковое сопровождение к фильмам. Кинопроекторы оснащались магнитофонными головками для снятия этого звука. В те годы киноиндустрия США процветала, и публике был представлен новый широкоэкранный кинематограф (использовавший пленку шириной 70 мм вместо обычных 35), а в дополнение к громадным широким экранам требовалась соответствующая звуковая картина. Тогда существовали два основных формата: Cinemascope, разработанный компанией 20th Century Fox для 35-мм пленки (четыре канала - левый, центральный, правый и surround-канал, который воспроизводился с боков и позади зрителя, первый фильм - The Robe, 1953 год) и Todd-AO для широкоформатной 70-мм кинопленки (шесть каналов - левый, дополнительный левый, центральный, дополнительный правый, правый и surround-канал, первый фильм - Oklahoma!, 1955 год). Необходимость центрального канала обусловлена большими размерами киноэкрана и тем, что зрители сидят не только по центру зала, - если использовать только два громкоговорителя (левый и правый), то диалоги актеров для зрителя, сидящего в боковой части зала, будут звучать не посередине экрана, где обычно и происходит основное действие, а сбоку, так как ближайший громкоговоритель будет слышен лучше всего. Поэтому всю речь героев фильма обычно располагают в центральном канале, иногда его так и называют - канал диалогов. А для огромных широкоформатных (70 мм) кинотеатров потребовалось установить за экраном аж пять независимых громкоговорителей, чтобы обеспечить равномерное распределение звука для всех зрителей в зале.

[attachmentid=70]
Схема расположения громкоговорителей в кинотеатре, оборудованном для воспроизведения звука в формате Cinemascope, Dolby Stereo или Dolby SR.

[attachmentid=71]
Схема расположения громкоговорителей в кинотеатре, оборудованном для воспроизведения звука в формате ToddAO.

Параллельно возникали и другие форматы, не нашедшие широкого распространения. Например, VistaVision, в котором на монофоническую оптическую дорожку записывались специальные управляющие сигналы (30, 35 и 40 Гц), под воздействием которых декодер переключал монозвук на центральный, левый или правый громкоговорители. Это было, конечно, не стерео, но обеспечить, например, выстрел или взрыв справа от зрителя с помощью VistaVision было возможно.

Справедливости ради необходимо отметить, что звуковая картина и в системе Cinemascope, и в системе Todd-AO сильно отличалась от того, что мы слышим в современных фильмах (хотя количество звуковых каналов практически такое же). Дело в том, что звукозаписывающая техника тогда была на начальной стадии своего развития, многодорожечных магнитофонов и сложных микшерных пультов еще не было, да и магнитные дорожки на кинопленке ощутимо шипели, что сокращало доступный звукоинженерам динамический диапазон. Поэтому создание сложных спецэффектов было просто технически невозможным, к тому же "идеология" кинозвука была отличной от нынешней - головокружительные звуковые трюки не были тогда важной частью фильма, и их влияние на аудиторию еще не было оценено. Распространение этих форматов тоже не было повсеместным - оснащение кинотеатров нужным оборудованием стоило недешево, и его могли позволить себе только крупные, успешные залы.

Форматы с магнитной записью звука на пленку просуществовали до середины 70-х годов, когда на сцену вышла фирма Dolby. Dolby заработала известность своими системами шумопонижения, появившимся в 1970 году: Dolby B, которая используется в бытовых магнитофонах, и Dolby A - более сложная и эффективная система, применяющаяся и по сей день в профессиональной звукозаписи. Не удовлетворившись успехом в области обычной звукозаписи, основатель фирмы Рей Долби устремил свои взоры на звук для кинофильмов. Уже в 1971 году появился первый фильм (A Clockwork Orange - Заводной апельсин), звук для которого был записан с применением шумопонижения Dolby A, заметно расширившего динамический диапазон. А в 1974 году была представлена технология Dolby Stereo, использующаяся в большинстве фильмов и поныне. Взамен магнитных звуковых дорожек, которые довольно сильно шумели и со временем изнашивались, фирма Dolby предложила использовать старую добрую оптическую дорожку, но уже с двумя каналами звука. Эти две дорожки расположены там же, где и старая монодорожка (которую продолжали использовать для совместимости со старыми кинопроекторами), и поэтому фонограмма могла быть считана любым киноаппаратом если не в стерео, то хотя бы в моноварианте. Для уменьшения шумов на оптических дорожках использовалась система шумоподавления Dolby A.

Однако очевидно, что двух каналов звука для киноиндустрии было мало, поэтому в системе Dolby Stereo было применено матричное кодирование - четыре канала звука (левый, правый, центральный и surround-канал эффектов) "загонялись" в две аналоговые оптические дорожки. Левый и правый каналы (Lt и Rt, так принято обозначать два канала звука, закодированного матричным способом) подаются в финальную фонограмму Dolby Stereo неизменными. Канал эффектов делится на две части, одна часть поворачивается по фазе на +90 градусов, другая - на -90 градусов (или одна на 180 градусов, другая же не изменяется), и каждая из частей подмешивается в Lt и Rt соответственно. Перед этой операцией у канала эффектов отрезаются все частоты выше 7 кГц и ниже 100 Гц, также он обрабатывается системой шумопонижения. Центральный же канал с пониженным на 3 дБ уровнем в равной пропорции подмешивается в Lt и Rt. Таким образом, кодирование в Dolby Stereo - довольно простая операция, которую несложно провести даже на обычном микшерном пульте, а вот с обратным преобразованием в четыре канала звука дело обстоит несколько сложнее.

Цитата

Стерео
Термин "стерео" (от греческого stereos - пространственный, объемный), в настоящее время ассоциирующийся с двумя каналами, изначально имел более широкий смысл. Например, первые эксперименты с объемным звучанием в Bell Labs в тридцатые годы прошлого столетия проводились с тремя каналами, окружающий звук в кино (даже если там использовалось шесть дорожек) тоже долгое время назывался стерео, в общем, стерео называли все, что обеспечивало пространственность воспроизводимой фонограмме (все, что не моно). Ассоциация слова "стерео" именно с двухканальными фонограммами была вызвана тем, что первые стереопластинки были именно с двумя каналами (больше просто не позволяла технология того времени), и появившееся в 1961 году стереофоническое FM-радиовещание также было двухканальным (впрочем, вещали они с тех же стереопластинок). Однако в кинопроизводстве еще долго пользовались термином "стерео" для названия многоканальной фонограммы к фильмам, даже четырехканальная система Dolby, вышедшая в 1976 году, называлась Dolby Stereo. Термин "surround sound" был придуман, когда многоканальные фонограммы к фильмам стали проигрываться в домашних условиях (с помощью стереофонических видеомагнитофонов и декодера Dolby Surround). Так как у широкой публики к тому времени слово "стерео" прочно ассоциировалось с двумя каналами, а для продвижения технологии на рынок уже в названии должно было быть нечто особенное, ранее не виданное, этим особенным и стало словосочетание "surround sound".

При декодировании Lt и Rt, как правило, подаются неизменными (почему "как правило" - см. далее) на левый и правый громкоговорители. Канал эффектов получается вычитанием (путем переворота фазы) Rt из Lt, такой же фильтрацией всего, что выше 7 кГц и ниже 100 Гц, обработкой системой шумопонижения, и после небольшой задержки (величина задержки настраивается для конкретного помещения, обычно составляет 20-100 мс) подается в surround-громкоговорители. Задержка нужна для того, чтобы добиться большего субъективного разделения между фронтальными и surround-каналом. Здесь используется эффект Хааса - если один сигнал приходит чуть позже и звучит чуть громче другого, то "другой" маскируется, и мы его практически не слышим. Поэтому, хотя звук из канала эффектов присутствует и в левом, и в правом громкоговорителях (хоть и с повернутой фазой), мы слышим эффекты именно сзади. Задержка также помогает в больших кинозалах. Часто эхо (или реверберация) от какого-то сигнала, записанного в одном из фронтальных каналов, находится в канале эффектов. Поэтому зрители на задних рядах из-за большого расстояния до экрана могут оказаться в такой ситуации, когда они слышат сначала эхо, а уже потом основной сигнал. Задержка в канале эффектов, настроенная на конкретную акустику помещения, позволяет решить эту проблему.

С центральным же каналом все не так просто. В принципе он получается из сложения Lt и Rt с последующим поднятием уровня на 3 дБ. Но при этом, например, когда звучат только диалоги, звук центрального канала будет раздаваться также и из левого и правого, причем всего на 3 дБ тише. Чтобы улучшить разделение каналов в Dolby Stereo применяются несколько логических схем - для разных звуковых ситуаций. Когда звучат только диалоги из центрального канала, декодер для улучшения локализации понижает уровень в левом и правом. Однако, если голоса звучат одновременно с музыкой, такая технология дает неудовлетворительный результат - во время диалога музыка слышна плохо и "выпрыгивает" в паузах между фразами. Для примирения диалогов и музыки декодер к левому каналу подмешивает правый в противофазе, и наоборот, к правому - левый; соответственно, звук, содержащийся в центральном канале, вычитается из левого и правого. Таким образом, получается, что во время диалогов музыка звучит практически в моноварианте (точнее, воспроизводится только S-составляющая стереосигнала), а левый и правый каналы находятся в противофазе. Техника заглушения соседних каналов применяется не только в работе с диалогами, но и в других случаях. Очень часто в фонограммах к фильмам бывает, что один из звуков является доминантным, то есть все внимание слушателя поглощается именно им, - например, это может быть взрыв, выстрел или другой спецэффект. Когда декодеру удается распознать такой доминантный сигнал (причем, он может быть не только жестко панорамирован в какой-то канал, но и находиться между громкоговорителями), он приглушает соседние каналы, чтобы усилить направленность эффекта. Иногда же, например, в сценах, когда вокруг идет дождь и четкая локализация источников не важна, декодер отключает свои хитроумные логические схемы и раскодирует звук пассивно.

Естественно, обеспечить правильное применение каждого из этих режимов довольно сложно, и Dolby не сразу удалось обеспечить должное разделение каналов. Но фирма постоянно совершенствовала алгоритмы и кинопроцессоры, так что довольно скоро качество кинозвука в новом формате достигло высокого уровня.

Из-за такой системы кодирования сведение фонограмм в Dolby Stereo невозможно без мониторинга через цепочку кодер-декодер. Если этого не сделать, то в кинотеатре (в домашнем, в частности) фонограмма будет звучать совершенно непохоже на то, что вы слышали в студии - некоторые инструменты в музыке могут "провалиться" или уйти в канал эффектов, а выразительные эффекты могут оказаться непонятным "побулькиванием". Матричную природу кодирования нужно учитывать и для моносовместимости фонограммы - например, канал эффектов в моно полностью пропадает (так как он находится в Lt и Rt в противофазе), поэтому в него не следует помещать какой-то важной для восприятия картины звуковой информации. Для мониторинга можно использовать внешний кодер и декодер (в настоящее время выпускаются кодер SEU 4 и декодер SDU 4) или подключаемые модули для Pro Tools производства Dolby.

После выхода в 1976 году фильма Джорджа Лукаса "Звездные войны", продемонстрировавшего потрясающие звуковые и визуальные эффекты, формат Dolby Stereo довольно быстро распространился, что было обусловлено, среди прочего, неважным состоянием киноиндустрии в то время. Телевидение уже пришло в каждый американский дом, и зрители не особенно ходили в кинотеатры, ведь все те же фильмы можно было увидеть через некоторое время у себя в гостиной. Соответственно, поток денег в кино постоянно снижался, при том, что производство прокатных копий фильмов по технологиям, использующим магнитную запись на кинопленке, было очень сложным и дорогим. Производство прокатных копий по старой технологии состояло из трех этапов: сначала пленку проявляли, затем на нее наносились магнитные дорожки, а уже потом на ленту записывался звук (в реальном времени). Все это стоило очень дорого - в 5-8 раз дороже простой печати фильма с монозвуком. Оптическая же дорожка Dolby Stereo упростила производство до предела - звук печатается вместе с изображением, и все.

Еще одна причина успеха - применение звукового кинопроцессора. Для переоборудования кинотеатра под Dolby Stereo, при условии наличия нужного количества громкоговорителей, требовалось лишь обеспечить считывание стереофонической оптической дорожки с кинопленки и подключить к выходу с этой дорожки процессор, а он уже выполнял все функции декодирования и управления звуком в кинотеатре. До появления таких кинопроцессоров для переоборудования кинотеатра под какой-либо новый звуковой формат требовалось приобретать множество разных приборов, дорогих, да к тому же сложных в установке и эксплуатации. Один из первых кинопроцессоров, Dolby CP 100, кроме звука Dolby Stereo мог еще работать и со старыми магнитными аудиоформатами, чем облегчал кинотеатрам переход на новый стандарт.

Чтобы обеспечить высокий уровень качества кинопродукции, выпускаемой с логотипом Dolby, фирма ввела строгую сертификацию кинотеатров, звукозаписывающих студий и собственно фильмов. Ведь даже двухканальная фонограмма, воспроизведенная в разных помещениях и с разных громкоговорителей, звучит по-разному (изменяется общий частотный баланс, а также положение кажущихся источников звука), что уж тут говорить о четырехканальном окружающем звуке, закодированном матричным способом. Поэтому сертификация, для получения которой кинотеатр должен был обеспечить достаточно высокое качество звуковоспроизводящей аппаратуры, нужное звуковое давление во всех точках зала и хорошую акустику помещения, помогла сделать звучание фильма примерно одинаковым во всех сертифицированных кинотеатрах. Сертификация студий звукозаписи необходима для того, чтобы звук, сделанный в этой студии и слышимый режиссером, был таким же, как и в кинотеатрах. Для студий требования примерно такие же, как и для кинотеатров - наличие микшерного пульта с surround-панорамированием, правильная акустика аппаратной, наличие кинопроектора и большого экрана (что автоматически требовало помещения соответствующих размеров), линейность звуковоспроизводящего тракта и обеспечение заданного уровня звукового давления в точке прослушивания. Такая сертификация и рекламная кампания сделали логотип Dolby приманкой для зрителя, который знал, что, придя в кинотеатр, носящий такой логотип, он услышит высокое качество окружающего звука и получит зрелище, недостижимое в домашних условиях. Именно с широким распространением Dolby Stereo связывают расцвет киноиндустрии, произошедший в начале восьмидесятых.

Наряду с внедрением Dolby Stereo компания усовершенствовала звук и для широкоэкранного кино. Способ записи был тот же, на магнитную полосу на 70-мм кинопленке, но теперь уже с шумопонижением Dolby A. Кроме того, шестиканальный формат Todd-AO был модифицирован: две из пяти фронтальных дорожек (а именно левая и правая дополнительные) были убраны, так как время гигантских киноэкранов уже прошло, и вполне хватало одного центрального канала, а место удаленных занимали теперь два канала низкочастотных эффектов. Применение низкочастотных каналов для специальных "громоподобных" эффектов было продемонстрировано впервые, такая инновация была хорошо воспринята индустрией и используется по сей день. С тех пор в обозначении формата канал LFE (Low Frequency Effects) из-за ограниченного частотного диапазона (не выше 300 Гц, обычно до 125 Гц) принято писать через точку, например, 5.1. В 1978 году формат был еще раз модифицирован: теперь surround-каналов стало два, левый и правый, и, таким образом, этот формат звука на 70-мм кинопленке стал предвестником современного окружающего звука, построенного по схеме 5.1. Первой картиной, выпущенной в этом обновленном звуковом формате (он был назван Dolby Stereo 70mm), стала Apocalypse Now (Апокалипсис сегодня) Френсиса Копполы, но, в связи с закатом популярности широкоэкранного кино, фильмов с новым типом фонограммы вышло немного.
[attachmentid=72]
Схема расположения громкоговорителей в кинотеатре, оборудованном для воспроизведения звука в формате Dolby Stereo 70mm.

В начале восьмидесятых стало бурно развиваться домашнее видео, сначала с моно-, а затем и со стереозвуком, в 1980-м появился лазерный видеодиск (Laser Disc). К тому времени уже получили широкое распространение домашние стереосистемы класса Hi-Fi, и в 1982 году Dolby представила домашний декодер для окружающего звука. Сначала этот декодер (для потребителей он был назван Dolby Surround) мог декодировать только три канала - левый, правый и surround, так как в нем использовался пассивный декодер без логических функций. Для большей части зрителей этого было достаточно, так как при небольшом экране телевизора вполне хватало "фантомного" центра, который обеспечивали левый и правый громкоговорители. В связи с распространением телевизоров с большой диагональю (27-32 дюйма), с которыми "фантомный" центр уже не удовлетворял пользователей, в 1987 году был представлен Dolby Surround Pro Logic, способный извлекать из двухканальной фонограммы на видеокассете все четыре дорожки окружающего звука. С этого момента "домашние кинотеатры" стали стремительно завоевывать рынок, и из предметов роскоши превратились в обычное явление.

В 1986 году Dolby представила новый аналоговый формат записи звука на кинопленку - Dolby SR (Spectral Recording). От обычного Dolby Stereo он отличался только применением новой системы шумоподавления (SR), в два раза более эффективной, чем Dolby A. Благодаря этому динамический диапазон звуковой дорожки к фильмам увеличился, но все еще применялся матричный способ кодирования. В настоящее время большая часть фильмов выходит со звуком в Dolby SR (наряду с одним или несколькими цифровыми форматами), кроме того, эта система шумоподавления до сих пор используется в профессиональной аналоговой звукозаписи и послужила основой для Dolby S, которая применяется в кассетных магнитофонах.

Девяностые годы характеризуются развитием цифровых технологий, и киноиндустрия не стояла в стороне. Первым на ниве доставки в кинотеатры цифрового звука стал формат Cinema Digital Sound (CDS), разработанный компанией Optical Radiation Corporation совместно с Eastman Kodak. Дорожка цифрового звука в этом формате помещалась вместо аналоговой, а роль бит выполняли мельчайшие точки (пикселы) на кинопленке. Размер этих точек был очень мал, так как формат разрабатывался при поддержке фирмы Kodak, которая создала для CDS специальную кинопленку. Благодаря малому размеру пикселов и тому, что они были расположены по всей длине кинопленки, на цифровую дорожку удалось "втиснуть" шесть (а, точнее, 5.1) каналов звука с разрешением 12 бит (правда, эти биты были не линейные, как на компакт-диске, а логарифмические, то есть квантование звука было более адаптировано к особенностям человеческого слуха, что делало динамический диапазон записи в таком формате практически равным "обычным", линейным 16-ти битам). В CDS, в отличие от всех современных цифровых форматов, применялось сжатие данных без потерь, то есть звуковые данные на выходе декодера были идентичны данным на входе кодера. Но, несмотря на то, что этот формат был достаточно "продвинутым" для своего времени (например, там применялась схема обнаружения и коррекции ошибок), особого успеха он не снискал, и в нем успело выйти всего несколько фильмов. Причина этому - полный отказ от аналоговой оптической дорожки. Из-за того, что она была вытеснена цифровой, CDS остался без подстраховки, и когда цифровая дорожка давала сбой (что случалось, в том числе, из-за малого размера пикселей), то, в лучшем случае, в зале воцарялась тишина. Отсутствие аналоговой дорожки также требовало изготовления специальных прокатных копий для цифровых кинотеатров, что было накладно и неудобно.

[attachmentid=73]
Схема расположения громкоговорителей в кинотеатре, оборудованном для воспроизведения звука в формате Dolby Digital, DTS или CDS.

На этом историческая часть данного обзора заканчивается, и мы приступаем к более детальному рассмотрению современных цифровых форматов многоканального звука. Все они используют сжатие цифровых потоков, причем сжатие с потерями. То есть звук после кодирования-раскодирования уже не идентичен исходному. Хотя изначально разрабатывались эти форматы именно для кинопленки, они нашли применение и в других областях, например, в вещании, DVD или компьютерных играх (исключение тут составляет лишь SDDS). Начнем же мы рассмотрение с самого распространенного формата - Dolby Digital.

21/06/2005, 11:07

Dolby Digital, SR-D
Цифровой формат Dolby SR-D был представлен публике в 1992 году, на премьере фильма Batman Returns (Возвращение Бэтмена), и в настоящее время этот формат является самым распространенным (в том числе и в домашних кинотеатрах). Широкой публике он больше известен под торговой маркой Dolby Digital, профессионалы же от кинопроизводства обычно называют его SR-D. Звук в Dolby Digital записывается в пространство между перфорациями, при помощи таких же "точек" (пикселей), как и в системе CDS. Место для аналоговой дорожки (с Dolby Stereo или SR) сохраняется, и она выполняет роль резервной, если вдруг что-то случится с цифровой. Совмещение цифровой и аналоговой записи звука на одной пленке позволило использовать одну и ту же копию фильма как в продвинутых цифровых, так и в старых аналоговых кинотеатрах (вплоть до моно), к тому же не требовалось какой-то специальной пленки из-за того, что пикселы в Dolby Digital довольно большие и вполне воспроизводятся на обычной кинопленке Fuji, Kodak или Agfa.

[attachmentid=74]

Из-за большой величины пикселей и малого пространства между перфорациями поток данных, который удается туда "запихнуть" сравнительно небольшой - 320 Кбит/с (напомню, что поток данных с обычного аудио-CD составляет более 1400 Кбит/с). Поэтому для размещения в этом тесном цифровом пространстве шести (а точнее 5.1) каналов компания Dolby применила сжатие звуковых данных с помощью алгоритма AC-3. В принципе в AC-3 можно закодировать и большее количество дискретных каналов (до 8), однако ни один из существующих декодеров не позволяет их раскодировать.

Этот алгоритм кодирования обладает очень высокой эффективностью (коэффициент сжатия может быть более 12:1, поддерживаемые битрейты от 32 до 640 Кбит/с, в кино обычно используется 320 Кбит/с) и при этом довольно высоким субъективным качеством звука. AC-3, как и большая часть современных схем сжатия звуковых потоков (в частности, MP3), использует в своей работе особенности слухового восприятия человека. Например, в присутствии громкого сигнала менее громкие и имеющие немного более высокую или низкую частоту звуки маскируются громким сигналом, то есть не слышны или слышны очень плохо. Также маскируются сигналы, звучащие после, и даже перед громким звуком. Это явление позволяет маскируемые звуки не кодировать или кодировать с меньшей разрядностью. Совокупность правил, используемых кодером для удаления малозначительной информации из аудиопотока, называется психоакустической моделью. Компрессия данных осуществляется также путем недеструктивного избавления от избыточной информации, примерно по тем же алгоритмам, которые применяются в архиваторах ZIP или RAR.

Перед собственно кодированием аудиосигнал (хотя AC-3 допускает кодирование звука с частотами дискретизации 32, 44,1 и 48 кГц, в Dolby Digital используется только последняя, 48 кГц) попадает в буферную память кодера. Затем убирается постоянная составляющая сигнала (DC offset, с помощью фильтра низких частот на 3 Гц) и фильтруется низкочастотный канал (убирается все, что выше 120 Гц). Следующий этап - детектирование коротких (транзиентных) звуковых импульсов. По результатам работы детектора звуковой поток разбивается на блоки - 512 семплов, если транзиентных сигналов не обнаружено, или 256 семплов, если таковые есть в сигнале. Это делается для того, чтобы улучшить передачу резких громких звуков (таких, как выстрелы или резкая атака некоторых музыкальных инструментов, например, барабанов). Временные блоки перекрываются между собой на 50% для создания избыточности и более точного кодирования.

Цифровым кроссовером звук в блоке разбивается на 256 частотных полос, что дает ширину одной полосы в 93,75 Гц. При этом цифровой сигнал преобразуется в формат чисел с плавающей запятой. Такое представление данных позволяет кодеру AC-3 использовать звук с разрядностью 20-24 бита. И хотя результат кодирования будет звучать чуть хуже, чем несжатый 16-битный звук, для более качественного результата Dolby рекомендует подавать на кодер именно 20/24-разрядную фонограмму.

После этого кодер анализирует информацию в каждой из частотных полос блока и, в соответствии с заданной психоакустической моделью, распределяет биты между ними - если, по мнению кодера, звук в данной частотной полосе несет важную для человеческого слуха информацию, то ей отводится больше бит для кодирования (изменяется разрядность как целочисленной мантиссы, так и экспоненты), а если кодер считает, что сигнал мы не услышим или услышим плохо, то частотная полоса не кодируется вовсе или ей выделяется меньшее количество бит. Психоакустическая модель используется не только для кодирования отдельных частотных полос в каждом канале, но и для распределения доступных бит между каналами. У кодера есть в распоряжении некое фиксированное количество бит (bit pool), которым необходимо закодировать блок данных в 512 семплов для всех шести каналов. Для распределения битов из общего пула каждому каналу и используется психоакустическая модель - во время диалога больше битов отдается центральному, а во время звучания музыки - левому и правому каналам. Это позволяет еще эффективнее упаковать сигнал, не сильно влияя на восприятие звуковой картины.

Механизм следующей ступени сжатия звука, используемой только когда всеми остальными способами не удалось сжать информацию до нужного размера, основан на особенности восприятия направления звучания высоких частот (выше 2,5 кГц). Человек не способен определить положение источника звука высокой частоты по разности фаз между приходящими в левое и правое ухо сигналами. Вместо этого мы определяем направление по огибающей звука, и разница в огибающих несет для нас пространственную информацию. Поэтому в AC-3 применяется объединение высоких частот из разных каналов, для каждого канала в отдельности кодируется лишь огибающая несущей частоты. В современных версиях кодеров AC-3 объединение высоких частот происходит, как правило, не ниже 10 кГц, поэтому заметного влияния на локализацию звука не оказывает (в ранних версиях были жалобы на плохое качество при объединении частот порядка 3-3,5 кГц). Объединяться высокие частоты могут в любом количестве каналов (от 2 до 5) и в любом сочетании, это решает алгоритм кодера.

Поток данных Dolby Digital считывается с пленки специальной насадкой на кинопроектор, а затем поступает на декодер, встроенный в кинопроцессор. В декодер данные поступают блоками (по 512 или 256 семплов), и сначала проверяется целостность данных в блоке. В Dolby Digital нет схемы коррекции ошибок, а только их обнаружения, поэтому если блок данных признан дефектным, то кодер использует предыдущий блок, прошедший такой контроль. Так как блоки перекрываются на 50%, это не вызывает слышимых проблем, более того, декодер может использовать один и тот же блок несколько раз подряд (если поступают поврежденные данные). Если же цифровой звук перестает поступать на протяжении некоторого количества блоков, то декодер переключает кинопроцессор на аналоговую дорожку с Dolby SR. Таким образом, даже при серьезных повреждениях цифровой аудиодорожки звук при показе в кинотеатре все равно не прерывается. Еще одним плюсом AC-3 является то, что кодер может включать в поток данных некоторые особенности использованной им психоакустической модели; соответственно, декодер, используя эти данные, более качественно раскодирует звук. Это позволяет совершенствовать алгоритм кодирования, не модифицируя существующие декодеры.

Таким образом, система сжатия AC-3 обладает высокой эффективностью (коэффициент сжатия, использующийся в кинопроизводстве, составляет почти 13:1) при минимальных потерях в качестве звучания. Однако стоит иметь в виду, что алгоритмы и психоакустические модели AC-3 разрабатывались именно для кинозвука и не предназначены для чисто музыкальных фонограмм (это подтверждает и сама фирма Dolby). Погрешности, вносимые процессом кодирования, малозаметны при демонстрации фильма, в то же время в музыке они становятся слышны и иногда неприятны (это в особенности касается тех случаев, когда кодер применяет технику объединения высоких частот).

Хотя Dolby Digital оперирует с шестью дискретными каналами, артефакты кодирования зачастую проявляют себя самым неожиданным образом. Поэтому для серьезной работы с окружающим звуком, который впоследствии будет закодирован в Dolby Digital, при мониторинге необходимо применять такую же цепочку кодер-декодер. Для этой цели Dolby выпускает два прибора - DP 569 (кодер) и DP 562 (декодер). С помощью DP 569 можно также кодировать фонограммы для DVD (но не для кинопленки, для этого требуется специальный кодер DS 10, который Dolby не продает, а только дает студиям в аренду), так как поток Dolby Digital может быть записан на любой надежный цифровой двухканальный аудионоситель (рекомендуется применение систем записи на жесткий диск, так как при ошибках считывания, которые могут случиться, например, в DAT-магнитофоне, целостность AC-3 может быть нарушена). Кроме того, можно установить кодер в режим Dolby Stereo, чтобы послушать, как фонограмма будет звучать при матричном кодировании. Не стоит "подгонять" микс так, чтобы он хорошо звучал и с матричной системой кодирования, и с дискретной цифровой. Гораздо продуктивнее будет сделать отдельное сведение для аналоговой дорожки (со всеми ее ограничениями) и отдельное для Dolby Digital, благо на кинопленке они могут вполне мирно сосуществовать.

21/06/2005, 11:08

Dolby Digital и DVD
Особенностью Dolby Digital и AC-3 является то, что они изначально разрабатывались не только для кино, но и как универсальный формат многоканального цифрового звука для разных носителей. В AC-3 была заложена возможность кодирования разного количества каналов (от 1 до 6) с различным битрейтом, а, кроме того, предусмотрено использование метаданных - очень мощного средства адаптации звука под конкретного пользователя без модификации звука (подробнее про метаданные смотрите во врезке). Из-за авторитета фирмы Dolby в киноиндустрии и гибкости кодека AC-3, Dolby Digital стал одним из обязательных форматов звуковой дорожки на DVD. Второй обязательный формат - несжатый PCM-звук, третий (правда, только для Европы) - MPEG, который из-за малой распространенности де-факто уже перестал быть таковым. "Обязательный" означает, что звук в одном из этих форматов должен быть на любом произведенном DVD, остальные, например DTS, являются дополнительными.

Использование Dolby Digital в DVD-производстве принципиально не отличается от чисто "киношного". Применяется тот же кодек AC-3, частота дискретизации 48 кГц, однако производителям дисков доступна здесь большая свобода. Во-первых, это свобода выбора битрейта (от 32 до 448 Кбит/с, в кино только 320) и количества закодированных каналов (от 1 до 6). При этом можно, допустим, закодировать стереофонограмму с битрейтом 448 Кбит/с, тем самым повысив ее качество. В метаданнных AC-3 указывается, какой тип фонограммы кодируется, чтобы DVD проигрыватель или декодер знали, как с ней обращаться - например, двухканальная фонограмма может быть как обычной стерео, так и матричной Dolby Surround (Dolby Stereo). В первом случае декодер подает на выход два канала, а во втором раскодирует матричную фонограмму в четыре. При издании старых фильмов с фонограммой в Dolby Stereo на DVD категорически не рекомендуется раскодировать ее в студии, с последующим переводом в "фальшивый" 5.1 (с четырьмя работающими каналами). Выигрыша в качестве при такой операции никакого, но у некоторых пользователей могут возникнуть проблемы, особенно если "фальшивый" 5.1 будет смикширован обратно в матричный формат декодером.

Несмотря на возможность автоматического микширования в форматы с меньшим количеством каналов (так называемый "downmixing"), при работе с DVD также рекомендуется делать отдельное сведение для слушателей, у которых пока нет декодера Dolby Digital и они используют аналоговый Pro Logic. Обычно стереодорожка с матрично закодированным звуковым сопровождением размещается на DVD в виде несжатого PCM-звука как альтернативная.

21/06/2005, 11:08

Dolby Digital в вещании, Dolby E
Dolby Digital был принят в качестве стандартного для многих форматов цифрового телевещания и телевидения высокой четкости (HDTV). Этому способствовало наличие метаданных, а также "записываемость" потока AC-3 на аудиодорожки современных цифровых видеомагнитофонов. Однако использование Dolby Digital в чистом виде создает ряд проблем для вещателей - закодированный звук нельзя редактировать (при этом нарушается целостность потока), а после нескольких циклов кодирования-раскодирования стремительно теряется качество звука. Поэтому специально для нужд вещателей Dolby разработала формат Dolby E, который лишен перечисленных недостатков.

В Dolby E используется повышенный битрейт, поэтому звук, записанный в этом формате, может без существенной потери в качестве проходить цикл кодирования-раскодирования до 10 раз (по крайней мере, так утверждает Dolby). Кроме того, звук в Dolby E можно редактировать напрямую, без раскодирования, так как размер блока данных в нем установлен таким, чтобы на протяжении одного видеокадра число блоков было целым (соответственно, не нарушается структура потока). При этом все достоинства "обычного" Dolby Digital сохранены - Dolby E так же хорошо "живет" на цифровых видеомагнитофонах и в нем полностью поддерживаются метаданные. Стоит отметить, что Dolby E разрабатывался исключительно для профессионального применения, бытовых декодеров этого формата не существует, непосредственно перед вещанием звук из Dolby E перекодируется в Dolby Digital. Для работы с Dolby E выпускаются кодер Dolby DP 571 и декодер DP 572, а также DP 583 - прибор для синхронизации аудиопотока с видеокадрами.

21/06/2005, 11:08

Цитата

Метаданные
Важной особенностью кодека AC-3, которая во многом определила выбор его в качестве основного способа доставки многоканального цифрового звука в вещании и на DVD, является возможность включения в поток AC-3 метаданных (metadata). Метаданные позволяют управлять следующими параметрами при декодировании: уровнем диалогов, динамическим диапазоном фонограммы, параметрами микширования из шести каналов в меньшее их количество (например, из 5.1 в двухканальное стерео).

Управление каналом диалогов (или нормализация диалогов) применяется, в основном, в вещании. Использование этого параметра позволяет уравнять субъективную громкость разных программ и телеканалов без какой-либо модификации звука (компрессии, лимитирования и т. п.). Вещатель самостоятельно устанавливает значение этого параметра, а декодер пользователя настраивает громкость в соответствии с полученными метаданными. Если в следующей программе (или даже в течение текущей) параметр нормализации диалогов меняется, то декодер тоже соответственно изменяет громкость. Это избавляет пользователя от необходимости постоянно регулировать громкость, а вещателя - от компрессии (последнее положительно сказывается на качестве звука, так что опять выигрывает потребитель).

Хотя в любом декодере Dolby Digital есть возможность автоматического микширования в форматы, отличные от 5.1, качество работы автоматики зачастую оставляет желать лучшего. Поэтому в AC-3 предусмотрен контроль за таким микшированием со стороны звукоинженера. В метаданных кодируются уровни микширования каждого из шести каналов в каждый из "нижних" форматов (Dolby Surround, стерео и моно) и, таким образом, не всегда корректная работа автоматики в этом тонком вопросе заменяется творческими решениями звукоинженера. При этом сам звук, опять-таки, не меняется.

Контроль за динамическим диапазоном позволяет адаптировать одну и ту же фонограмму к разным условиям прослушивания. Например, часто пользователю хочется послушать программу с невысоким уровнем громкости (скажем, поздно вечером, чтобы не беспокоить домочадцев). Но фонограммы к фильмам, как правило, имеют большой динамический диапазон, поэтому в данном случае, если пользователь установит комфортную громкость по диалогам героев, спецэффекты все равно будут звучать излишне громко, а тихие звуки он просто не услышит. Естественным решением этой проблемы была бы компрессия, но это лишило бы пользователей возможности насладиться звуком в полном динамическом диапазоне. К тому же, автоматические установки компрессии для всех фонограмм не могут подойти во всех случаях. На помощь приходят метаданные - не изменяя собственно содержимого звукового потока, звукоинженер может установить параметры компрессии громких звуков и усиления тихих, и если слушатель выберет в декодере "тихий" режим прослушивания, он получит именно тот звук, который был сделан звукоинженером, а не "тупой" автоматикой.

Для работы с метаданными фирма Dolby выпускает процессор DP 570 Multichannel Audio Tool. На него подаются шесть каналов несжатого цифрового звука, регулируются нужные параметры, из прибора же выходит также несжатый звук и по отдельному кабелю метаданные. После чего звук можно закодировать в Dolby Digital или Dolby E, используя соответствующие кодеры, которые имеют вход для метаданных.

21/06/2005, 11:09

Dolby Surround EX
Этот новый формат кинозвука был разработан Dolby в сотрудничестве с THX и Skywalker Sound Studios. Он был представлен публике в 1999 году с фильмом "Star Wars: Episode I - The Phantom Menace" Джорджа Лукаса. В Dolby Surround EX звук записан по схеме 6.1, дополнительная шестая дорожка используется как центральный канал эффектов (он располагается сзади, между левым и правым surround-громкоговорителями). Однако закодирован шестой канал не дискретно, а старым добрым матричным способом - он записывается в противофазе в левый и правый surround-каналы. С одной стороны, дополнительная звуковая дорожка добавляет в палитру звукоинженера новый инструмент, но возврат к матричному кодированию (и присущим ему ограничениями) понравился не всем. Для Dolby такой способ добавки звукового канала, несомненно, выгоден - не требуется полного переоборудования кинотеатра, а только покупка небольшого "довеска" к декодеру; соответственно, распространился новый формат довольно быстро. К тому же полностью сохранилась совместимость с кинотеатрами, оборудованными Dolby Digital 5.1. В настоящее время уже доступны и бытовые декодеры Dolby Surround EX, поэтому новый формат все чаще находит себе место и на DVD.

[attachmentid=75]
Схема расположения громкоговорителей в кинотеатре, оборудованном для воспроизведения звука в формате Dolby Surround EX или DTS ES.

Для бытовых устройств Dolby выпустила также новую систему Pro Logic II, которая (по утверждению производителя) позволяет получить из аналоговой Dolby Stereo или даже обычной стерео полноценную программу 5.1. Естественно, качество получается не таким, как при прослушивании Dolby Digital, но многие предпочитают Pro Logic II старому матричному декодеру Dolby Pro Logic.

21/06/2005, 11:10

Цитата

THX
Вопреки распространенному заблуждению, THX вовсе не является каким-то самостоятельным форматом кинозвука. Это подразделение компании Lucas Films, созданное совместно Джорджем Лукасом и Томлинсоном Холманом. Свое название подразделение получило от первого фильма Лукаса, "THX 1138". Основной задачей, поставленной Лукасом перед THX, стала выработка строгих правил для кинотеатров и студий звукозаписи, при выполнении которых звуковая картина в кинотеатре не отличалась бы от той, что режиссер слышит в студии при создании фильма (Лукаса не удовлетворяла строгость сертификации Dolby), и при этом имела бы максимально возможное качество. Такие правила были разработаны, и с 1983 года началась программа THX-сертификации для студий звукозаписи, кинотеатров и фильмов. Первой THX-кинокартиной стала Return of the Jedi (Возвращение Джедая) из цикла "Звездные войны". В программу входили (и входят) жесткие правила по акустике помещения, расположению, мощности, качеству и настройке громкоговорителей и усилителей, в THX даже создали специальный высококачественный кроссовер, так как на рынке в то время не было подобного устройства, удовлетворявшего строгим требованиям компании. Для звукозаписывающих студий требования к сертификации примерно те же, кроме того, предъявляются требования по организации процесса пост-производства звука для фильмов. THX сертифицирует также различное профессиональное студийное оборудование, в основном это мониторы и усилители (естественно, чтобы сертифицировать студию необходимо получить "добро" от THX по поводу своих мониторов и усилителей). С 1990 года началась программа сертификации бытового оборудования для домашних кинотеатров - это также усилители, акустические системы и декодеры.

21/06/2005, 11:10

DTS
Формат DTS (от одноименной компании Digital Theatre Systems) был впервые представлен публике в 1993 году вместе с фильмом Jurassic Park (Парк Юрского периода) Стивена Спилберга. В разработке и тестировании нового формата активно участвовали как сам Спилберг, так и компания Universal, являющиеся совладельцами DTS. Следует иметь в виду, что DTS-кодирование для показа в кинотеатрах и для записи звука на бытовые носители (CD, LD и DVD) сильно между собой различаются. Сама компания DTS этот факт не слишком афиширует, называются обе разновидности совершенно одинаково, хотя способы кодирования, степени сжатия и качество звука у них довольно ощутимо разнятся. Делается это, видимо, из каких-то маркетинговых соображений, но зачастую вносит немалую путаницу в представления широкой публики (да и многих профессионалов) о возможностях DTS в его разных ипостасях.

21/06/2005, 11:11

DTS в кино
Мы же постараемся отделить зерна от плевел и начнем рассмотрение DTS в ее "киношной" реинкарнации. Разработчики формата посчитали, что выкраивать на кинопленке (где уже разместились аналоговая дорожка и Dolby Digital) дополнительное место для записи многоканального цифрового звука не имеет смысла, поэтому было принято решение записать звук на CD-ROM, и с него воспроизводить фонограмму в кинотеатрах. Для точной синхронизации с изображением на кинопленку печатается временной код (он расположен рядом с аналоговой звуковой дорожкой). Таймкод содержит не только стандартную синхронизационную информацию (часы, минуты, секунды, кадры), но и кодовый номер фильма и рулона кинопленки. Кинопроцессор сверяет эту информацию из кода на кинопленке с информацией, которая содержится на диске, и допускает воспроизведение только в том случае, если диск соответствует демонстрируемому фильму. Для считывания временного кода с кинопленки требуется относительно простая (и недорогая) насадка на проектор, которая подключается к DTS-кинопроцессору со встроенными дисководами CD-ROM. Сам таймкод из-за больших размеров сигнальных точек очень устойчив к износу и может быть считан даже при повреждениях пленки. Если же временной код в силу каких-то причин перестает поступать на процессор, он воспроизводит звук с CD-ROM еще четыре секунды, после чего (если не восстановился временной код) переключается на резервную аналоговую дорожку с Dolby Stereo. Интересно, что своим успехом формат DTS во многом обязан разработанному контейнеру для дисков (caddy). Этот контейнер содержит два диска и удобно помещается в коробку для кинопленки. Такое решение успокоило прокатные компании, опасавшиеся, что диски могут быть утеряны при перевозке или доставлены в кинотеатр не вовремя.

Как и во всех современных системах доставки многоканального цифрового звука в кинотеатры, в DTS используется деструктивное сжатие данных. В DTS для кинопоказа применяется схема компрессии apt-X100, разработанная компанией Advanced Processing Technology. Эта компания, в настоящее время принадлежащая небезызвестной Solid State Logic, занимается передачей высококачественного звука по телефонным сетям ISDN. Собственно, apt-X100 изначально был разработан именно для этой цели, DTS лишь адаптировала кодек для передачи многоканального звука. В стандартном варианте DTS кодируются пять независимых каналов цифрового звука с разрядностью 16 бит и частотой дискретизации 44,1 кГц. Шестой (субвуферный) канал просто подмешивается в левый и правый surround-каналы, частота раздела - 80 Гц. Таким образом, в "киношном" DTS субвуферный канал не является полностью независимым, однако это обстоятельство не сильно сказывается на результате - в большинстве кинотеатров surround-громкоговорители и не рассчитаны на передачу частот ниже 80 Гц.

Apt-X100 является довольно простой схемой сжатия звука. В ее основе лежит способ кодирования ADPCM (Adaptive Differential Pulse Code Modulation). Этот способ не предусматривает использования каких-либо психоакустических моделей, основанных на особенностях человеческого слуха, и является довольно простым как при кодировании, так и декодировании, что позволяет использовать недорогие кодеры-декодеры, а также снижает задержку между поступлением сигнала и его кодированием/декодированием (это обстоятельство и обусловило успех алгоритмов ADPCM при передаче звука по ISDN-сетям).

Принцип кодирования, вкратце, таков. Входящий сигнал кроссовером разбивается на четыре равные частотные полосы, затем для каждого поступающего семпла в полосе кодер предсказывает его значение, основываясь на предыдущих 122 семплах. Затем из предсказанного значения семпла вычитается его реальное (поступившее) значение, после чего эта разница передается по ISDN или, как в случае с DTS, записывается на диск. Естественно, для записи разницы между предсказанным и реальным значением семпла тратится намного меньше бит, чем на запись исходного значения семпла, что и позволяет уменьшать поток передаваемых данных. Единственная "психоакустичность" в кодеке apt-X100 - это то, что для высоких и низких частот применяются несколько отличающиеся механизмы предсказания, и этим частотным полосам выделяется меньшее количество бит по сравнению со средними частотами (в соответствии с известным фактом, что человеческий слух менее чувствителен к высоким и низким частотам).

Основным недостатком apt-X100 является то, что алгоритм кодирования невозможно улучшать без смены всего парка декодеров - если применить более совершенный метод предсказания, то его необходимо использовать одновременно и в кодере, и в декодере. Не предусмотрено использование метаданных, что усложняет использование этого кодека в вещании и бытовых носителях (впрочем, он там и не используется). Эффективность и качество звучания данного алгоритма сильно зависят от исходного сигнала - почти идеальный результат достигается при кодировании чистых синусоидальных сигналов (где легко с приемлемой точностью предсказать, какое значение будет иметь следующий семпл), а при кодировании случайного шума эффективность падает почти до нуля. В реальных фонограммах соотношение этих двух типов сигналов может сильно отличаться в зависимости от ситуации на экране (например, если кодируется шум дождя, сильно возрастает случайная компонента), соответственно и меняется качество звука. Однако в ситуациях, когда случайного шума в сигнале много, точность передачи (как в том же шуме дождя) не играет большой роли.

С помощью apt-X100 при кодировании в DTS удается добиться степени сжатия данных 4:1 и потока данных 882 Кбит/с без заметной потери качества звучания. Таким образом, на один CD-ROM (а используется именно CD-ROM, а не аудио-CD, из-за большей избыточности и, следовательно, надежности первого) помещается до 100 минут многоканального звука. Если фильм длится дольше 100 минут, то звуковое сопровождение размещается на двух или более дисках (современные кинопроцессоры DTS имеют два или три встроенных дисковода CD-ROM).

21/06/2005, 11:11

DTS для CD, LD и DVD
Система кодирования DTS нашла довольно широкое применение и на бытовых носителях. Изначально DTS дебютировала на видеодисках формата LaserDisc (такие большие "блины" с аналоговым видео и цифровым звуком). Впоследствии довольно широко распространились чисто музыкальные программы с многоканальным (5.1) звуком, записанным с применением DTS на обычные аудио-CD. С приходом DVD система DTS заняла свое место и на этом носителе, хотя так и не стала для него обязательным звуковым форматом. Однако для размещения многоканального звука на бытовых носителях DTS применила другой способ кодирования звука - Coherent Acoustics (разработан фирмой AlgoRhythmic Technology). В его основе лежит все тот же ADPCM, но при кодировании учитываются особенности человеческого слуха (психоакустическая модель). Кроме того, алгоритм Coherent Acoustics очень гибок в применении - с его помощью можно закодировать от одного до восьми независимых звуковых каналов с разрядностью от 16 до 24 бит и частотой дискретизации от 8 до 192 кГц. Диапазон возможных битрейтов - от 32 до 4096 Кбит/с. Естественно, в DTS используются не все эти возможности - в классическом варианте этой системы кодируется звук в формате 5.1 (на этот раз субвуферный канал независимый) с частотой дискретизации 44,1 кГц (для LD и CD) или 48 кГц (для DVD). Разрядность кодируемого источника может быть различной, от 16 до 24 бит, при этом кодер использует преимущества 20/24-битного звука. Сама фирма DTS утверждает, что звук, закодированный с помощью Coherent Acoustics, примерно соответствует по качеству 20-битному несжатому PCM (то есть лучше, чем у классического CD), но это все-таки "небольшое маркетинговое преувеличение".

В процессе кодирования в Coherent Acoustics, входящий PCM-звук так же, как и в AC-3, разбивается на блоки. Размер блоков может быть разным: 256, 512, 1024, 2048 или 4096 семплов. Конкретное значение длительности блока определяется кодером в зависимости от нужного битрейта и сложности материала - чем больше блок, тем эффективнее сжатие, но хуже качество звука. На больших битрейтах (с которыми в основном и приходится иметь дело в нашем случае) размер блока, как правило, не превышает 1024 семплов. Затем в каждом блоке происходит разбиение на 32 равные частотные полосы, причем для этой задачи могут применяться два типа фильтров. Первый тип - non-perfect reconstructing (NPR) - использует фильтры с более крутой характеристикой (соответственно, обеспечивается лучшее разделение между соседними частотными полосами), и сжатие информации в данном случае происходит более эффективно. Однако при декодировании такой тип фильтров не позволяет точно восстановить исходный материал, что, естественно, сказывается на качестве звучания. Во втором типе - perfect reconstructing (PR) - фильтры более пологие, и информация в двух соседних частотных полосах перекрывается сильнее. В этом случае сжатие менее эффективно, зато при декодировании использование такого типа фильтров позволяет точно восстановить исходный материал. Какой из этих двух типов будет применен в каждом конкретном блоке, кодер решает "по обстоятельствам" и включает информацию о типе фильтров в поток данных DTS, чтобы декодер впоследствии мог правильно раскодировать материал. На высоких битрейтах, как правило, используется второй тип фильтров.

Затем в каждой частотной полосе происходит ADPCM-сжатие, построенное по такому же принципу, что и в apt-X100. Однако в Coherent Acoustics сжимаются не все частотные полосы подряд и с одинаковой степенью, как в случае с apt-X100. Перед стадией ADPCM-кодирования звук анализируется кодером и, в соответствии с заданной психоакустической моделью, определяются необходимость и степень (количество выделенных битов) ADPCM-сжатия. При этом в поток данных включается информация для декодера о том, было ли использовано сжатие или нет. Такая техника позволяет совершенствовать психоакустическую модель (и, соответственно, качество кодирования) без смены парка декодеров.

Для улучшения передачи транзиентных сигналов в Coherent Acoustics применяется детектор быстрой смены громкости звука (детектирование применяется для каждой частотной полосы отдельно). Если кодер замечает транзиентный сигнал, то он вычисляет коэффициент громкости и расположение такого сигнала в блоке, и эти данные передаются в потоке DTS-декодеру. Используя эту информацию, декодер может восстановить исходный транзиентный сигнал более качественно.

В Coherent Acoustics используются также алгоритмы распределения доступной пропускной способности между каналами (тот канал, который считается кодером вносящим больше значимой звуковой информации в общую картину, получает больший "кусок", а для малозначительного, с точки зрения кодера, канала отводится меньший), однако эти алгоритмы не такие изощренные, как в Dolby Digital, и используются в гораздо меньшей степени. На низких битрейтах допускается объединение высоких частот (так же, как и в Dolby Digital), но к DTS на CD, LD и DVD это не относится. В Coherent Acoustics предусмотрено использование метаданных, управляющих автоматическим микшированием и динамическим диапазоном фонограммы, однако из-за недостатка инструментария для работы с метаданными они в настоящее время практически не используются.

DTS-звук записывается на CD и LD с битрейтом 1235 Кбит/с, степень сжатия при этом варьируется от 2,9:1 (если использовался 16-битный исходный материал) до 4,3:1 (при 24-битных исходниках). На DVD, из-за использования рабочей частоты дискретизации 48 кГц, битрейт возрастает до 1509 Кбит/с. В DTS предусмотрен также уменьшенный битрейт для DVD (он может использоваться, например, для дополнительной звуковой дорожки) - 754 Кбит/с, естественно, качество звука при таком битрейте ухудшается.

Для мониторинга и кодирования DTS-звука (не для кино) компания выпускает два прибора: CAE 4 (кодер) и CAD 4 (декодер). Кодирование в DTS может осуществляться также рядом программных средств, например, программой SurCode компании Minnetoka Audio или специальным подключаемым модулем для Pro Tools.

21/06/2005, 11:12

DTS-ES
Естественно, компания DTS не смогла не ответить на выход системы Dolby Surround EX и создала систему DTS-ES. В исполнении для кинотеатров (а это лишь небольшая насадка на существующие кинопроцессоры) способ получения дополнительного шестого канала такой же, как и в Surround EX - матричное кодирование в левый и правый surround-каналы (кстати, аббревиатуры EX и ES означают одно и то же - Extended Surround). Однако для декодеров, применяющихся в домашних кинотеатрах, DTS предусмотрела еще один режим - с независимым шестым каналом. Эти два режима называются, соответственно, DTS ES 6.1 Matrix и DTS ES 6.1 Discrete. Еще раз повторюсь, что в кинотеатрах (из-за особенностей примененного алгоритма сжатия) возможен только матричный способ.

Одновременно DTS представила систему NEO 6 (в пику Pro Logic II), которая предназначена для "разворачивания" полноценного (насколько это возможно) 5-6-канального окружающего звука из старых стереофонограмм (в том числе чисто музыкальных) и фонограмм Dolby Stereo. Естественно, NEO 6 применяется только в домашних кинотеатрах.

21/06/2005, 11:14

Цитата

Качество звучания различных форматов
По поводу качества звучания различных форматов единого мнения в настоящее время не существует. В области бытовых носителей идет речь, в основном, о сравнении Dolby Digital и DTS. К сожалению, сравнить качество звука напрямую (прослушивая одну и ту же фонограмму, закодированную в разных форматах) практически невозможно. Во-первых, потому, что для одного и того же фильма (даже на одном DVD) исходники для изготовления фонограмм DTS и Dolby Digital чаще всего разные. Обычно многоканальную фонограмму немного "подстраивают" под конкретный кодек, чтобы максимально использовать его преимущества и скрыть недостатки. Если же "подстройки" не происходит, то возможна ситуация, когда одна фонограмма при прочих равных звучит лучше в DTS, а другая - в Dolby Digital. Кроме того, многое зависит от мастерства человека, закодировавшего звук. Если в кодерах DTS практически нет управляемых оператором параметров (кроме битрейта и количества каналов), то кодирование в Dolby Digital довольно тонкий процесс, позволяющий оператору динамически управлять, например, громкостью центрального канала (с помощью метаданных). И в этом случае слушатель может предпочесть один кодек другому только из соображений громкости (или разборчивости), а не общего качества звучания. Делать выводы, исходя только из битрейта, тоже некорректно - мы ведь имеем дело с разными алгоритмами (после изучения документации обеих фирм у меня лично сложилось впечатление, что DTS берет "числом", - высокие битрейты, довольно простые алгоритмы, а Dolby - "умением", все-таки, если при в три раза меньшем битрейте, по сравнению с конкурентами, нет единого мнения о превосходстве одного из форматов, это кое о чем говорит). В общем, однозначного выбора не существует, хотя для чисто музыкальных фонограмм предпочтение, в большинстве случаев, отдается DTS (правда, это может быть вызвано и активным продвижением DTS своего кодека на музыкальный рынок, в то время как Dolby в своей маркетинговой политике больше ориентируется на кино).

В связи с обсуждением сравнительного качества звучания разных форматов интересна история о "ссоре" Dolby и DTS. Все происходит довольно тихо, компании просто периодически выкладывают на свои сайты PDF-файлы с контраргументами (кстати, спор этот не закончен до сих пор). Началось все с того, что фирма Dolby, недовольная сложившейся ситуацией, когда для кодирования "чистой" музыки ее кодек обычно даже и не рассматривается (кстати, это действительно несколько несправедливо и является следствием маркетинговой политики обоих участников), решила провести собственное тестирование. Dolby приобрела кодер и декодер от DTS и провела сравнение субъективного качества звука на одном и том же оборудовании и на одном материале со своими кодером и декодером ("при участии квалифицированных экспертов"). Как и следовало ожидать, большая часть экспертов предпочла Dolby Digital. DTS такие результаты, естественно, не удовлетворили, и она представила свои аргументы, почему результатам этих тестов доверять нельзя (досталось и "квалифицированным экспертам"). Dolby не замедлила объяснить, почему аргументы DTS некорректны. И так далее. В общем, пока не будет квалифицированного независимого тестирования, этот спор, похоже, продолжится до бесконечности. К сожалению, пока ни одна из фирм-конкурентов по каким-то своим причинам не идет на проведение независимого теста.

21/06/2005, 11:14

DTS 96/24
Весной 2001 года компания DTS представила новое поколение своей системы сжатия звука, названной DTS 96/24 (она основана на Coherent Acoustics и, соответственно, предназначена для бытовых носителей, в основном для DVD). Как следует из названия, эта система позволяет кодировать многоканальный звук с частотой дискретизации 96 кГц и разрядностью 24 бит (последнее, впрочем, было возможно и в более ранних версиях DTS). Предполагается, что новая система найдет свое место на дисках DVD-Audio в качестве дополнительной фонограммы. Звук, закодированный в DTS 96/24, предполагается размещать в видеозону DVD и, таким образом, он может быть прослушан практически на любом DVD-проигрывателе (при наличии DTS-декодера). А несжатый PCM-звук располагается в аудиозоне диска, она "видна" только специальным проигрывателям для DVD-Audio, которые пока еще не слишком распространены. Особенностью системы DTS 96/24 является то, что она полностью обратно совместима со старыми версиями DTS. То есть фонограмма, закодированная в DTS 96/24, может быть раскодирована и предыдущими поколениями DTS-декодеров (правда, только с частотой дискретизации 48 кГц, вся "ультразвуковая" составляющая сигнала теряется). Это стало возможным благодаря самой природе алгоритма Coherent Acoustics - первые 32 частотные полосы передаются в DTS-потоке как обычно, а дополнительная информация о частотах от 24 до 48 кГц кодируется в дополнительные частотные полосы, которые не "видят" декодеры предыдущих поколений, но зато могут использовать новые модели. Пока декодеры (равно как и диски) DTS 96/24 еще не появились на рынке, однако новый формат в силу своей совместимости с имеющимся парком оборудования (а это и проигрыватели DVD-Video, и декодеры) имеет все шансы в ближайшем будущем стать довольно популярным.

21/06/2005, 11:16

SDDS
Система SDDS (Sony Dynamic Digital Sound) была представлена в 1993 году с фильмом Last Action Hero (Последний киногерой). SDDS доступна только для кинопленки, и это принципиальная позиция Sony - адаптации системы для DVD и прочих бытовых носителей не предвидится, поэтому мы рассмотрим ее лишь вкратце. Физически SDDS размещается на кинопленке между ее краем и перфорациями. Информация записывается посредством пикселей, причем эти пиксели имеют меньший размер по сравнению с Dolby Digital. По этой причине, а также из-за того, что SDDS записывается по всей длине пленки (а не только между перфорациями), достигается довольно большой поток данных - до 1235 Кбит/с (степень сжатия около 5:1).

[attachmentid=76]
Схема физического расположения различных форматов на кинопленке. Как видно, Dolby Digital, DTS и SDDS вполне могут сосуществовать на одной прокатной копии фильма.

В SDDS можно закодировать до восьми независимых звуковых каналов (семь полнодиапазонных и один низкочастотный), два дополнительных громкоговорителя при этом располагаются за киноэкраном между центральным и левым-правым (так же, как и в системе Todd-AO). По этой причине SDDS нашла широкое применение в больших широкоэкранных кинотеатрах (которые в последнее время опять начали набирать популярность). Естественно, в этой системе тоже теоретически возможно закодировать матричным способом дополнительный (девятый по счету) центральный канал эффектов (так же, как в Dolby Surround EX или DTS ES). Как утверждает Sony, работы в этом плане ведутся, однако готовый стандарт пока еще не вышел в свет (соответственно, нет и необходимого оборудования).

[attachmentid=77]
Схема расположения громкоговорителей в кинотеатре, оборудованном для воспроизведения звука в формате SDDS.

В SDDS используется система сжатия ATRAC (Adaptive TRansform Acoustic Coding), хорошо известная нам по минидискам той же Sony. Основная рабочая частота дискретизации ATRAC (как для кино, так и для минидиска) - 44,1 кГц. Кодирование в ATRAC построено примерно по тем же принципам, что и в AC-3 или Coherent Acoustics, то есть звуковой поток разбивается на блоки по времени, а затем по частоте, после чего с применением психоакустической модели "отсекаются" лишние для нашего слуха, по мнению кодера, данные. Временные блоки в ATRAC не имеют фиксированного значения, а варьируются кодером в пределах от 1,45 до 11,6 мс, что позволяет качественно кодировать быстрые транзиентные сигналы. Количество частотных полос - 52. ATRAC со времени своего представления широкой публике постоянно совершенствовался, и последние версии этого кодека звучат довольно хорошо (в том числе и на чисто музыкальном материале).

Для обеспечения надежности воспроизведения в SDDS предусмотрены три уровня "защиты": все-таки самый край пленки за перфорациями - не лучшее место на кинопленке для записи звука. Во-первых, это мощная система коррекции ошибок, способная исправить небольшие выпадения в считываемом цифровом потоке. Во-вторых - дублирование звуковой дорожки (SDDS записывается по обоим краям пленки, так что если возникают проблемы со считыванием звука с одной стороны, декодер начинает считывать информацию с другой). Ну и в-третьих - если ничто не помогает, и цифровой звук не может быть считан с кинопленки, декодер переходит на аналоговую звуковую дорожку. Таким образом, SDDS в настоящее время является одним из самых "продвинутых" форматов, сочетающим в себе высокое качество звука, большое количество доступных каналов, "пуленепробиваемую" надежность воспроизведения и простоту производства прокатных копий. Однако все это доступно только в кинотеатрах, да и то за пределами нашей страны.

21/06/2005, 11:16

Заключение
Собственно, мы рассмотрели практически все форматы сжатого цифрового многоканального звука для кинотеатров (в том числе и домашних). За рамками этой статьи остались малораспространенные специализированные форматы (типа панорамного IMAX с его десятью каналами звука), но это уже совсем экзотика. Я надеюсь, что технологии окружающего звука постепенно будут находить все большее распространение в нашей стране. И тогда эта статья поможет вам использовать многоканальный звук не "вслепую", а понимая механизмы работы выбранного формата.

Это текстовая версия — только основной контент. Для просмотра полной версии этой страницы пожалуйста нажмите сюда.