Цитата(Кит Говард (Keith Howard) @ журнал Stereophile, Апрель 2007)
Когда в начале 70-х годов прошлого столетия квадрафония только становилась популярной, я еще учился в школе. Как зародившийся и еще не состоявшийся аудиофил, я с любопытством наблюдал за первыми попытками звукозаписывающих компаний перейти на многоканальную музыку – это не было приятным зрелищем, даже для незаинтересованного наблюдателя.
Первая проблема, с которой они столкнулись, заключалась в том, что технология была еще не готова: матричные системы работали за счет сведения четырех каналов - источников звука в два, применяемых для воспроизведения долгоиграющих пластинок, после чего их уже невозможно было восстановить по отдельности, тогда как подающая надежды дискретная система CD4 компании JVC обрабатывала эти два канала по отдельности, используя при этом процедуры, применяемые в стерео FM радио. В результате чего режущая головка должна была нарезать, а граммофонная иголка – распознавать, с частотой сигнала вплоть до 45кГц. Если бы эта система вообще смогла достичь всего этого, то еще долгое время о дисках никто бы и не думал.
Как бы это плохо не звучало, но первые квадрофонические системы были, мягко говоря, наивны с точки зрения психоакустики. Двухточечное смешение каналов было способно создать виртуальный образ между передними репродукторами, как мы уже знаем по двухканальному стерео. Это плохо работало на источник звука, находящийся позади слушателя, и вообще не создавало звукового эффекта по сторонам. К тому времени, когда было найдено решение по преобразованию звукового поля в формат Ambisonics, было слишком поздно: первая попытка внедрения «окружающего» звука уже провалилась. Несмотря на все технические проблемы, существование конкуренции, производители новых систем были уверены, что потребители уже у них в руках.
Компании звукозаписи извлекли урок и дали многоканальной музыки второй шанс, но, как известно, беспощадный мир коммерции не работает подобным образом. Так, в настоящий момент существует два носителя многоканальной музыки, - DVD-аудио и SACD – которые оказались не очень удачными. Разработчики HD DVD и Blu-ray питали надежды заменить форматы DVD-A и SACD, но мало вероятно, что эти новые конкурирующие средства встретят с большим энтузиазмом, чем обычные аудио носители.
Это объясняет, по крайней мере, частично, оживление интереса к так называемым «upmix» системам, которые создают, обычно, пятиканальную подачу двухканального стерео звукового источника. Основная идея здесь заключается в том, что, так как носители многоканального аудиозвука не привлекли широкие массы, а вот многоканальные системы домашних кинотеатров в настоящее время есть во многих домах, то все усилия должны быть направлены на увеличение числа использования таких систем для прослушивания обычных двухканальных источников звука. В действительности, это должны были сделать еще много лет назад – но лучше поздно, чем никогда. Так как цифровая обработка сигнала (DSP) становится все более доступной, некоторые фирмы уже работают в этом направлении.
Многое из этого звучит кощунственно для читателей Stereophile, возможно, из-за того, что они (ошибочно) верят в то, что двухканальное стерео – это нечто абсолютное и тщательно разработанное по сравнению с любой возможной его заменой, или же потому что они в свое время столкнулись с ранними версиями «upmix» систем и были не в восторге от полученного результата. Но, изложив некоторые моменты длинной истории этого направления и затем, описав недавние разработки, я надеюсь изменить эту точку зрения, и даже облагородить попытку создания эффекта присутствия на материале двухканального источника звука. Хороший многоканальный звук невозможно заменить, но можно улучшить традиционное стерео, которое достойно того, чтобы его слушать.
Есть два определенных процесса в этой истории, которые заслуживают отдельного рассмотрения. Первый относится к улучшению точности и стабильности фронтального образа при добавлении одного и более репродуктора между основной стереопарой. Очень важным здесь является простейший случай создания единого центрального канала, который позже соединился с тремя фронтальными колонками в традиционной 5.1 системе.
Вторым вопросом является разработка тыловых каналов, обеспечивающих звуковое окружение, что создает наиболее сильное впечатление при прослушивании. Объясним с самого начала: то, что мы здесь описываем, называется алгоритмом естественного пространства: то есть процессом, который ничего не добавляет к подлинному звуку во время его искусственного воспроизведения. Кроме того, многие компании пытаются извлечь воспроизводимую информацию из стерео сигнала и представить ее в таком виде, чтобы создать у слушателей ощущение «обволакивания» звуком. Основное требование к этим системам, которое, по-видимому, получит одобрение аудиофилов, состоит в том, что процесс извлечения и представления окружающей информации не должен искажать точность фронтального звукового образа, как по качеству, так и в пространственном отношении. Это трудная задача, но достижимая.
Центральный канал на первом месте
Идея использования центрального канала для лучшего качества воспроизведения звуков двухканального стерео возникла еще в те времена, когда в исследовательском центре Bell Laboratories проводились первые эксперименты со стерео музыкой в начале 30-х годов. Прежде всего, думая об озвучивании фильмов, команда Bell разработала трехканальную стерео систему, в которой использование центрального канала было в преимуществе, так как он лучше соединял акустический образ с образом на экране для зрителей, находящихся как с одной стороны зрительного зала, так и с другой, и лучше следил за передвижением источников звука на экране. Тем не менее, в ходе разработки Bell сравнил свою завершенную трехканальную стерео систему с другими, включая двухканальную систему, использующую центральный канал (примечание 1). Пол Клипш (Paul Klipsch ) оживил эту идею в конце 50-х годов, осуществив несколько экспериментов (примечания 2-5), что привело его к выводу, что использование трех колонок для воспроизведения звука двухканальной стереосистемы дает превосходные результаты.
Метод, который использовался в Bell, а также Клипшом для преобразования сигнала для третьего, определенным образом расположенного репродуктора был очень прост. Левый и правый стерео каналы суммировались и подвергались соответствующему, переменному, ослаблению. Так, L использовался для воспроизведения сигнала левого канала, R – правого канала, а на центральную колонку поступал сигнал k(L+R), где k меньше единицы и равно значению полученного ослабления.
Хотя Клипш был увлечен успехом своего 2, 2, 3 подхода (два воспроизводящих канала, два канала передачи, три колонки) – заявляя что «все стереофонические системы должны использовать ответвленный центральный канал и то, что с небольшими затратами можно получить большую прибыль» - идея использования третьей колонки не обрела популярности и понятие забылось.
Если бы это было, хотя бы частично, по причине экономической неприемлемости третьей колонки и усилителя для внутреннего рынка в начале 60-х, тогда появление систем домашних кинотеатров в начале 90-х – оборудованных центральной колонкой – символизировало бы возможность воскрешения данного понятия. Они уже достаточно долго эксплуатировались, когда Майкл Герзон (Michael Gerzon) на 91-й конвенции Общества Аудио разработок (91st Convention of the Audio Engineering Society), проходящей в октябре 1991, представил бумаги, описывающие разработанную 2,2,3 систему. (примечание 6)
Хотя эта идея была направлена, прежде всего, на преобразование домашних кинотеатров и на необходимость распространения взаимосвязанных акустических и визуальных образов на большую площадь, это было не единственным преимуществом систем Герзона. Он улучшил задний фокус и сократил слуховое утомление у слушателей, находящихся в зоне оптимального стереоэффекта. Герзон в своем последнем заявлении говорил о том, что центральный канал может сократить бессознательную работу, которую совершает мозг, конструируя возможное звуковое пространство, получаемое только из двух каналов.
Основываясь на знаниях психоакустики, он включил в Ambisonics улучшенные методы воспроизведения M каналов в N колонках, где N больше M, которые описывал в своих бумагах. В простейшем случае, когда M=2, а N=3, - например, генерирование центрального канала на основе двухканального стереосигнала – его схема стала известной под названием «технология Trifield» (Trifield processing), и права на нее получила компания Trifield Productions Ltd в Великобритании. Trifield, вместе со всеми «матрицами оптимального воспроизведения», зависит от частоты, вследствие чего является гораздо лучше по сравнению с простым центральным каналом Клипша.
На рисунке 1 представлена блок-схема технологии Trifield. Сначала левый и правый каналы проходят через MS матрицу, в результате чего они конвертируются в сумму сигналов (M) и разницу
. В схеме Белла – Клипша (Bell-Klipsch) компонент M направлялся после соответствующей корректировки непосредственно к центральному каналу, тогда как здесь при помощи фильтров низких и высоких частот сигнал делится на два пересекающихся частотных диапазона, частота сопряжения 5кГц и выше. (тесты Герзона показали, что точность частоты сопряжения и уровень фильтров спада не критичны, хотя модуляция не должна быть слишком быстрой) Затем для каждого отфильтрованного сигнала подсчитывается синус/косинус его потенциального делителя, которой для каждой полосы частот является различным. Только благодаря этому механизму Герзона широкое стереоизображение и усиленный центральный фокус смогли менять друг друга попеременно в чистом слышимом диапазоне.
Затем результаты возможных делений складываются, одна сумма сигналов поступает на центральную колонку, а другая направляется к следующей MS матрице, где сигнал, поступающий от входной матрицы, вместе с полученной разницей направляется на левую и правую колонки, уже перестроенные. Переменный аттенюатор в строке S осуществляет контроль над мощностью стереозвука; в остальных случаях, разностный сигнал остается неизменным при прохождении по каналу, при условии, что фильтры, расположенные на M пути не внесут фазового искажения – что в настоящее время не редкость с цифровыми фильтрами. Если фильтры не линейно-фазовые, тогда фазовый фильтр добавляется к каналу S, с целью имитации их фазового поведения.
Всемирные аудио обозреватели пришли к единодушному мнению, что Trifield действительно смог оправдать надежды, увеличить и стабилизировать стереоизображение, более того смог добиться такого результата с любым записанным материалом. Но есть и такие записи, которые не поддаются этому механизму, но это скорее исключение, чем правило, а все потому, что Trifield не учитывает того, что записи могут быть сделаны различным способом.
Вместо этого, он направлен на психоакустику, на то, как стереоизображение воспринимается. Несмотря на бурное приветствие, формат Trifield – как и Ambisonics до него – не достиг широких масс. Первой компанией, использующий контроллер окружающего звука Trifield, стала компания Meridian, которая до сих пор применяет эту технологию, ее примеру последовали и некоторые другие - например, компания Yamaha использовала механизм Trifield в своих домашний кинотеатрах, хотя и недолго. Немного запоздав, аудио промышленность наверстывает сейчас – нет, не повторяя Trifield, а разрабатывая альтернативы ему. Некоторые из этих новых алгоритмов, подобно механизму Trifield, направлены исключительно на улучшение стереоизображения путем добавления дополнительных колонок между традиционной стереопарой (примечание 7). Чаще всего, они стремятся распределить сигналы двухканального стерео на пять каналов, применимых для воспроизведения в традиционной 5.1 системе. Так, помимо формирования центрального канала, эти алгоритмы работают над созданием окружающих каналов. В этом отношении они являются преемниками технологий извлечения звука окружения, впервые разработанных в начале 70-х годов – с чего и начинается вторая часть нашей истории.
Звук позади Вас
Странный случай произошел в августе 1970 года в редакции журнала Hi-Fi News: два автора независимо друг от друга опубликовали свои исследовательские статьи на тему извлечения звуков окружения. Одним из авторов был Майкл Герзон (Michael Gerzon) (примечание 8), совершающий свои первые шаги на пути к Ambisonics; другой, наиболее известный, Дэвид Хэфлер (David Hafler), чье имя с тех пор связано с основной технологией извлечения звука окружения.
Хотя они работали в одном направлении, результаты работы Герзона и Хэфлера не были идентичны. Герзон, будучи студентом Оксфордского университета, первоначально использовал схему с четырьмя колонками (рис.2), одна из которых начинала и воспроизводила сумму двух каналов (L+R); две другие, расположенные с другой стороны воспроизводили сигналы левого и правого каналов соответственно; и последняя тыловая колонка воспроизводила разницу сигналов, L-R. Герзон также предложил альтернативную схему, представленную на рис.3, в которой каждая из колонок воспроизводит определенную комбинацию сигналов левого и правого каналов. Хэфлер предложил другую схему, рис.4, которая сохраняет привычное стерео расположение левого и правого репродукторов, но добавляет центральный фронтальный репродуктор, воспроизводящий сумму сигналов и центральный тыловой, который воспроизводит разницу сигналов. В следующей статье годом позже Герзон, основываясь на этих идеях, предложил ряд улучшений.
Попытки как Герзона так и Хэфлера направленные на извлечение звуков окружения из стерео сигнала и представления его позади слушателя исходили из предположения, что это окружение представлено в разностном сигнале L-R. Для некоторых записей это оказалось совершенно верно в системе Хэфлера (я следую принятой терминологии и называю это так) и дало хорошие результаты. Но любой, тестировавший эту систему, знает, что данная форма извлечения звука окружения далека от действительно положительных результатов - достаточно того, что они просто есть.
Рассмотрим случай, когда источник звука только один: пусть в стереозаписи он считается крайне левым и соответственно поступает только в левый канал. Тогда сумма сигналов (L+R) равна L, соответственно и разница (L-R). Так один и тот же сигнал воспроизводится в трех колонках: центральной, левой и тыловой. А теперь рассмотрим случай, когда единственный источник звука является крайне правым и поступает только в правый канал. И опять, один и тот же сигнал воспроизводится в трех колонках – центральной, правой и тыловой – но сейчас тыловая колонка уже работает в противоположной фазе (так как L-R = - R). Эти случаи демонстрируют, как сигналы, поступающие на фронтальную колонку, появляются в тыловой, обеспечивающей эффект «окружения».
Существуют способы улучшения этих эффектов, включая использование временной задержки L-R разностного сигнала, при этом предшествующий сигнал обеспечивает то, что стереообраз остается перед слушателем. Но очевидно, система Хэфлера не достаточно искусный способ извлечения звуков окружения из двухканального стереосигнала; как мы уже увидели, и не оптимальный способ создания центрального канала. Со всеми тонкостями система Герзона лучшее, что вообще могло быть сделанным в начале 70-х, но современные цифровые процессоры обработки звука предлагают, несомненно, более изощренный подход.
Единственное, что требуется, это метод извлечения звука окружения, который позволит приспособить его к природе стерео сигнала. Этот план кажется странным для тех, кто помнит эффект подхода переменных матриц к матричным квадрофоническим системам, но это снова грубое сравнение былых технологий с тем, чего можно добиться в настоящее время. В первую очередь необходимо разделить сигнал на короткие отрезки и проанализировать каждый из них с целью определения лучшего способа обработки сигнала (примечание 10). Одним из подходов к решению этого вопроса является построение координатного графа либо графа Лиссажу (XY or Lissajous graph), на вертикальной оси которого вычерчивается амплитуда одного из каналов (часто левого), а на горизонтальной оси – соответственно другого канала. Если на оба канала поступает один и тот же сигнал, с одинаковой амплитудой и фазой, тогда результатом будет прямая линия под углом 45° к горизонтальной оси, непрерывно идущая от самой нижней левой точки до верхней правой.
На рис.5 изображен типичный граф для стерео музыкального сигнала, для изображения, расположенного левее центра, угол графа становится острее чем 45°. Этот метод не то чтобы не использовался для коммерческой звукозаписи, но больший успех имел при использовании программы MicSimulator (в свободном доступе на моем сайте www.audiosignal.co.uk/freeware), которая симулирует различные стереомикрофоны, используя при этом безэховые монофонические записи в качестве источников звука. Микрофонная технология, выбранная в этом случае, представляла собой перекрестную пару Блумлейна (Blumlein crossed pair), которая имела результаты при высокой частоте стерео, где позиция источника звука представлена исключительно при помощи относительной амплитуды сигналов каждого канала. Итак, я выбрал WAV файл для анализа, чтобы выяснить какая часть соответствует положению изображения на 30° левее. При использовании результата программы MicSimulator, координатный граф получился бы в виде тонкой прямой линии. Но я добавил искусственную стерео реверберацию (при помощи программы Adobe Audition), необходимую при построении координатного графа, который лучше представляет, что могло быть получено в нормальном, живом окружении звукозаписи. В результате, линия превращается в нечто вроде эллипса, большая ось (т.е. длинная) которого смещается.
При определении этого смещения большой оси и соответственно модификации разностного сигнала, мы можем получить лучшие результаты в извлечении окружающей информации, чем, если бы мы использовали технологию Хэфлера. Вместо того, чтобы принимать разницу L-R за сигнал окружения, мы сначала отметим, не принимая во внимание компонент окружения, что L равно 3.732R в следующем примере (примечание 11) – то, что мы можем высчитать, имея угол наклона большой оси эллипса. Так используя L–3.732R вместо L–R, нам следует исключить прямой сигнал и выявить только сигнал окружения.
Конечно, я рассматриваю здесь простейший случай, когда источник звука только один, тогда как в большинстве записей используются многочисленные источники звука одновременно. Но поскольку на основе этих данных можно построить координатный граф с четкой большой осью, этот метод извлечения звука окружения дает улучшенные результаты. Проблемы возникают, когда координатная схема не имеет определенного смещения, например, когда не используются соответствующие микрофонные технологии. В таких случаях, расстояние между микрофонами соответствует отношениям частотной зависимости фаз двух каналов, в результате на координатной схеме это распределение выглядит случайным. Рис.6 демонстрирует подобное использование того же источника звука и угла, как и на рис.5, но время имитации эффекта программой MicSimulator распределяется между кругонаправленными микрофонами с прерываниями. Как Вы видите, на схеме нет смещения.
Чтобы решить эту проблему, нам нужно выровнять левый и правый каналы таким образом, чтобы учесть и время задержки между ними. В этом примере, временная задержка составляет около 2,9 милисекунды (что приравнивается к 128 сэмплам на частоте 44,1кГц); если мы сместим левый канал на это количество по отношению к правому каналу, прежде чем построить координатный граф, мы получим результаты, представленные на рис.7. Теперь схема больше похожа на представленную на рис.5 – хотя и большая ось смещена из-за того, что при использовании данной технологии разница амплитуд намного меньше – и мы можем применить этот же подход к извлечению компонента окружения. Еще раз повторим, это непосредственный случай, когда во внимание не принимается тот факт, что в большинстве записей используется множество источников звука с разной временной задержкой. Тем не менее, статистическое сравнение двух каналов может использоваться при выявлении оптимальной временной задержки для извлечения сигнала окружения.
Будет ли это работать?
С одной стороны, эти примеры лишь поверхностно рассматривают то, как улучшаются современные алгоритмы на базе технологии Хэфлера, а с другой они достаточно полно раскрывают особенности используемых методов. Ключевой вопрос здесь: насколько успешны эти новые методы? В настоящий момент, мы можем руководствоваться только данными тестовых прослушиваний, цель которых, кажется, уже меняется в соответствии с этим направлением.
Когда в 1998 году Фрэнсис Рамси (Francis Rumsey) сообщил, что после проведения 12 тестовых прослушиваний, ориентированных на различные алгоритмы, было выявлено, что «в общем качество фронтального образа ухудшилось, а эффект присутствия слегка улучшился за счет обработки, и что тестирующие слушатели предпочитают необработанный материал обработанному». В отличие от этого, результаты, полученные при недавнем применении алгоритма в 13 из экспериментов, приводят к другому выводу, хотя, возможно, это связано с простотой выбранного материала. Обратимся к другой важной разработке, престижный Фраунговерский институт (Fraunhofer-Institut) в Германии недавно выпустил свой алгоритм микширования, SX Pro (симплексные основания для расширенного стерео), который описывает этот процесс как основанный на «семантическом анализе входящего сигнала, что гарантирует высокий уровень контроля над полученным звуковым образом».
Конечно, нам следует относиться к этим алгоритмам скептически до тех пор, пока сами не услышим результаты их работы в высококачественных аудиосистемах, но также возможно и то, что многочисленные преимущества расширения двухканального материала на 5 каналов, в конце концов, перевесят их недостатки. Поиску решения, начавшемуся еще 75 лет назад, пора бы уже завершиться положительным результатом.
Footnote 1: J.C. Steinberg and W.B. Snow, "Physical Factors in Auditory Perspective," Electrical Engineering, Vol.53, January 1934.
Footnote 2: P.W. Klipsch, "Stereophonic Sound with Two Tracks, Three Channels by Means of a Phantom Circuit (2PH3)," JAES, Vol.6, April 1958 (available from www.aes.org).
Footnote 3: P.W. Klipsch, "Wide-Stage Stereo," IRE Transactions on Audio, Vol.AU-7, July–August 1959.
Footnote 4: P.W. Klipsch, "Signal Mutuality in Stereo Systems," IRE Transactions on Audio, Vol.AU-8, September–October 1960.
Footnote 5: P.W. Klipsch, "Stereo Geometry Tests," IRE Transactions on Audio, Vol.AU-10, November–December 1962.
Footnote 6: M.A. Gerzon, "Optimum Reproduction Matrices for Multispeaker Stereo," JAES, Vol.40 Nos.7/8, July/August 1992 (available from www.aes.org).
Footnote 7: C. Faller, "Multiple-Loudspeaker Playback of Stereo Signal," JAES, Vol.54 No.11, November 2006 (available from www.aes.org).
Footnote 8: M.A. Gerzon, "Surround Sound from 2-Channel Stereo," Hi-Fi News, August 1970 (downloadable from the Gerzon Archive on my website).
Footnote 9: M.A. Gerzon, "A Year of Surround Sound," Hi-Fi News, August 1971 (downloadable from the Gerzon Archive on my website).
Footnote 10: I believe such time-slicing lies at the core of Dave Griesinger's active steering algorithm, commercially realized in Lexicon's "Logic 7" process.—John Atkinson
Footnote 11: Because the sound source is 30° to the left of center, it is 15° off-axis to the left-channel microphone and 75° off-axis to the right-channel microphone. With figure-8 velocity microphones, the relative levels in the left and right channels are therefore proportional to cos(15)=0.9659 and cos(75)=0.2588, respectively. The ratio of these two figures is 3.732.
Footnote 12: F. Rumsey, "Controlled Subjective Assessments of 2-to-5-Channel Surround Sound Processing Algorithms," Preprint 4654, 104th Audio Engineering Society Convention, May 1998 (available from www.aes.org).
Footnote 13: J. Usher, "A New Upmixer for Enhancement of Reverberance Imagery in Multichannel Loudspeaker Audio Scenes," Preprint 6965, 121st Audio Engineering Society Convention, October 2006 (available from www.aes.org).
[attachmentid=3797]
Первая проблема, с которой они столкнулись, заключалась в том, что технология была еще не готова: матричные системы работали за счет сведения четырех каналов - источников звука в два, применяемых для воспроизведения долгоиграющих пластинок, после чего их уже невозможно было восстановить по отдельности, тогда как подающая надежды дискретная система CD4 компании JVC обрабатывала эти два канала по отдельности, используя при этом процедуры, применяемые в стерео FM радио. В результате чего режущая головка должна была нарезать, а граммофонная иголка – распознавать, с частотой сигнала вплоть до 45кГц. Если бы эта система вообще смогла достичь всего этого, то еще долгое время о дисках никто бы и не думал.
Как бы это плохо не звучало, но первые квадрофонические системы были, мягко говоря, наивны с точки зрения психоакустики. Двухточечное смешение каналов было способно создать виртуальный образ между передними репродукторами, как мы уже знаем по двухканальному стерео. Это плохо работало на источник звука, находящийся позади слушателя, и вообще не создавало звукового эффекта по сторонам. К тому времени, когда было найдено решение по преобразованию звукового поля в формат Ambisonics, было слишком поздно: первая попытка внедрения «окружающего» звука уже провалилась. Несмотря на все технические проблемы, существование конкуренции, производители новых систем были уверены, что потребители уже у них в руках.
Компании звукозаписи извлекли урок и дали многоканальной музыки второй шанс, но, как известно, беспощадный мир коммерции не работает подобным образом. Так, в настоящий момент существует два носителя многоканальной музыки, - DVD-аудио и SACD – которые оказались не очень удачными. Разработчики HD DVD и Blu-ray питали надежды заменить форматы DVD-A и SACD, но мало вероятно, что эти новые конкурирующие средства встретят с большим энтузиазмом, чем обычные аудио носители.
Это объясняет, по крайней мере, частично, оживление интереса к так называемым «upmix» системам, которые создают, обычно, пятиканальную подачу двухканального стерео звукового источника. Основная идея здесь заключается в том, что, так как носители многоканального аудиозвука не привлекли широкие массы, а вот многоканальные системы домашних кинотеатров в настоящее время есть во многих домах, то все усилия должны быть направлены на увеличение числа использования таких систем для прослушивания обычных двухканальных источников звука. В действительности, это должны были сделать еще много лет назад – но лучше поздно, чем никогда. Так как цифровая обработка сигнала (DSP) становится все более доступной, некоторые фирмы уже работают в этом направлении.
Многое из этого звучит кощунственно для читателей Stereophile, возможно, из-за того, что они (ошибочно) верят в то, что двухканальное стерео – это нечто абсолютное и тщательно разработанное по сравнению с любой возможной его заменой, или же потому что они в свое время столкнулись с ранними версиями «upmix» систем и были не в восторге от полученного результата. Но, изложив некоторые моменты длинной истории этого направления и затем, описав недавние разработки, я надеюсь изменить эту точку зрения, и даже облагородить попытку создания эффекта присутствия на материале двухканального источника звука. Хороший многоканальный звук невозможно заменить, но можно улучшить традиционное стерео, которое достойно того, чтобы его слушать.
Есть два определенных процесса в этой истории, которые заслуживают отдельного рассмотрения. Первый относится к улучшению точности и стабильности фронтального образа при добавлении одного и более репродуктора между основной стереопарой. Очень важным здесь является простейший случай создания единого центрального канала, который позже соединился с тремя фронтальными колонками в традиционной 5.1 системе.
Вторым вопросом является разработка тыловых каналов, обеспечивающих звуковое окружение, что создает наиболее сильное впечатление при прослушивании. Объясним с самого начала: то, что мы здесь описываем, называется алгоритмом естественного пространства: то есть процессом, который ничего не добавляет к подлинному звуку во время его искусственного воспроизведения. Кроме того, многие компании пытаются извлечь воспроизводимую информацию из стерео сигнала и представить ее в таком виде, чтобы создать у слушателей ощущение «обволакивания» звуком. Основное требование к этим системам, которое, по-видимому, получит одобрение аудиофилов, состоит в том, что процесс извлечения и представления окружающей информации не должен искажать точность фронтального звукового образа, как по качеству, так и в пространственном отношении. Это трудная задача, но достижимая.
Центральный канал на первом месте
Идея использования центрального канала для лучшего качества воспроизведения звуков двухканального стерео возникла еще в те времена, когда в исследовательском центре Bell Laboratories проводились первые эксперименты со стерео музыкой в начале 30-х годов. Прежде всего, думая об озвучивании фильмов, команда Bell разработала трехканальную стерео систему, в которой использование центрального канала было в преимуществе, так как он лучше соединял акустический образ с образом на экране для зрителей, находящихся как с одной стороны зрительного зала, так и с другой, и лучше следил за передвижением источников звука на экране. Тем не менее, в ходе разработки Bell сравнил свою завершенную трехканальную стерео систему с другими, включая двухканальную систему, использующую центральный канал (примечание 1). Пол Клипш (Paul Klipsch ) оживил эту идею в конце 50-х годов, осуществив несколько экспериментов (примечания 2-5), что привело его к выводу, что использование трех колонок для воспроизведения звука двухканальной стереосистемы дает превосходные результаты.
Метод, который использовался в Bell, а также Клипшом для преобразования сигнала для третьего, определенным образом расположенного репродуктора был очень прост. Левый и правый стерео каналы суммировались и подвергались соответствующему, переменному, ослаблению. Так, L использовался для воспроизведения сигнала левого канала, R – правого канала, а на центральную колонку поступал сигнал k(L+R), где k меньше единицы и равно значению полученного ослабления.
Хотя Клипш был увлечен успехом своего 2, 2, 3 подхода (два воспроизводящих канала, два канала передачи, три колонки) – заявляя что «все стереофонические системы должны использовать ответвленный центральный канал и то, что с небольшими затратами можно получить большую прибыль» - идея использования третьей колонки не обрела популярности и понятие забылось.
Если бы это было, хотя бы частично, по причине экономической неприемлемости третьей колонки и усилителя для внутреннего рынка в начале 60-х, тогда появление систем домашних кинотеатров в начале 90-х – оборудованных центральной колонкой – символизировало бы возможность воскрешения данного понятия. Они уже достаточно долго эксплуатировались, когда Майкл Герзон (Michael Gerzon) на 91-й конвенции Общества Аудио разработок (91st Convention of the Audio Engineering Society), проходящей в октябре 1991, представил бумаги, описывающие разработанную 2,2,3 систему. (примечание 6)
Хотя эта идея была направлена, прежде всего, на преобразование домашних кинотеатров и на необходимость распространения взаимосвязанных акустических и визуальных образов на большую площадь, это было не единственным преимуществом систем Герзона. Он улучшил задний фокус и сократил слуховое утомление у слушателей, находящихся в зоне оптимального стереоэффекта. Герзон в своем последнем заявлении говорил о том, что центральный канал может сократить бессознательную работу, которую совершает мозг, конструируя возможное звуковое пространство, получаемое только из двух каналов.
Основываясь на знаниях психоакустики, он включил в Ambisonics улучшенные методы воспроизведения M каналов в N колонках, где N больше M, которые описывал в своих бумагах. В простейшем случае, когда M=2, а N=3, - например, генерирование центрального канала на основе двухканального стереосигнала – его схема стала известной под названием «технология Trifield» (Trifield processing), и права на нее получила компания Trifield Productions Ltd в Великобритании. Trifield, вместе со всеми «матрицами оптимального воспроизведения», зависит от частоты, вследствие чего является гораздо лучше по сравнению с простым центральным каналом Клипша.
На рисунке 1 представлена блок-схема технологии Trifield. Сначала левый и правый каналы проходят через MS матрицу, в результате чего они конвертируются в сумму сигналов (M) и разницу
[attachmentid=3798]
Рис.1 Схема Trifield
Рис.1 Схема Trifield
Затем результаты возможных делений складываются, одна сумма сигналов поступает на центральную колонку, а другая направляется к следующей MS матрице, где сигнал, поступающий от входной матрицы, вместе с полученной разницей направляется на левую и правую колонки, уже перестроенные. Переменный аттенюатор в строке S осуществляет контроль над мощностью стереозвука; в остальных случаях, разностный сигнал остается неизменным при прохождении по каналу, при условии, что фильтры, расположенные на M пути не внесут фазового искажения – что в настоящее время не редкость с цифровыми фильтрами. Если фильтры не линейно-фазовые, тогда фазовый фильтр добавляется к каналу S, с целью имитации их фазового поведения.
Всемирные аудио обозреватели пришли к единодушному мнению, что Trifield действительно смог оправдать надежды, увеличить и стабилизировать стереоизображение, более того смог добиться такого результата с любым записанным материалом. Но есть и такие записи, которые не поддаются этому механизму, но это скорее исключение, чем правило, а все потому, что Trifield не учитывает того, что записи могут быть сделаны различным способом.
Вместо этого, он направлен на психоакустику, на то, как стереоизображение воспринимается. Несмотря на бурное приветствие, формат Trifield – как и Ambisonics до него – не достиг широких масс. Первой компанией, использующий контроллер окружающего звука Trifield, стала компания Meridian, которая до сих пор применяет эту технологию, ее примеру последовали и некоторые другие - например, компания Yamaha использовала механизм Trifield в своих домашний кинотеатрах, хотя и недолго. Немного запоздав, аудио промышленность наверстывает сейчас – нет, не повторяя Trifield, а разрабатывая альтернативы ему. Некоторые из этих новых алгоритмов, подобно механизму Trifield, направлены исключительно на улучшение стереоизображения путем добавления дополнительных колонок между традиционной стереопарой (примечание 7). Чаще всего, они стремятся распределить сигналы двухканального стерео на пять каналов, применимых для воспроизведения в традиционной 5.1 системе. Так, помимо формирования центрального канала, эти алгоритмы работают над созданием окружающих каналов. В этом отношении они являются преемниками технологий извлечения звука окружения, впервые разработанных в начале 70-х годов – с чего и начинается вторая часть нашей истории.
Звук позади Вас
Странный случай произошел в августе 1970 года в редакции журнала Hi-Fi News: два автора независимо друг от друга опубликовали свои исследовательские статьи на тему извлечения звуков окружения. Одним из авторов был Майкл Герзон (Michael Gerzon) (примечание 8), совершающий свои первые шаги на пути к Ambisonics; другой, наиболее известный, Дэвид Хэфлер (David Hafler), чье имя с тех пор связано с основной технологией извлечения звука окружения.
Хотя они работали в одном направлении, результаты работы Герзона и Хэфлера не были идентичны. Герзон, будучи студентом Оксфордского университета, первоначально использовал схему с четырьмя колонками (рис.2), одна из которых начинала и воспроизводила сумму двух каналов (L+R); две другие, расположенные с другой стороны воспроизводили сигналы левого и правого каналов соответственно; и последняя тыловая колонка воспроизводила разницу сигналов, L-R. Герзон также предложил альтернативную схему, представленную на рис.3, в которой каждая из колонок воспроизводит определенную комбинацию сигналов левого и правого каналов. Хэфлер предложил другую схему, рис.4, которая сохраняет привычное стерео расположение левого и правого репродукторов, но добавляет центральный фронтальный репродуктор, воспроизводящий сумму сигналов и центральный тыловой, который воспроизводит разницу сигналов. В следующей статье годом позже Герзон, основываясь на этих идеях, предложил ряд улучшений.
[attachmentid=3799]
Рис. 2 Схема Герзона
Рис. 2 Схема Герзона
[attachmentid=3800]
Рис. 3 Альтернативная схема Герзона
Рис. 3 Альтернативная схема Герзона
[attachmentid=3801]
Рис. 4 Схема Хэфлера
Рис. 4 Схема Хэфлера
Попытки как Герзона так и Хэфлера направленные на извлечение звуков окружения из стерео сигнала и представления его позади слушателя исходили из предположения, что это окружение представлено в разностном сигнале L-R. Для некоторых записей это оказалось совершенно верно в системе Хэфлера (я следую принятой терминологии и называю это так) и дало хорошие результаты. Но любой, тестировавший эту систему, знает, что данная форма извлечения звука окружения далека от действительно положительных результатов - достаточно того, что они просто есть.
Рассмотрим случай, когда источник звука только один: пусть в стереозаписи он считается крайне левым и соответственно поступает только в левый канал. Тогда сумма сигналов (L+R) равна L, соответственно и разница (L-R). Так один и тот же сигнал воспроизводится в трех колонках: центральной, левой и тыловой. А теперь рассмотрим случай, когда единственный источник звука является крайне правым и поступает только в правый канал. И опять, один и тот же сигнал воспроизводится в трех колонках – центральной, правой и тыловой – но сейчас тыловая колонка уже работает в противоположной фазе (так как L-R = - R). Эти случаи демонстрируют, как сигналы, поступающие на фронтальную колонку, появляются в тыловой, обеспечивающей эффект «окружения».
Существуют способы улучшения этих эффектов, включая использование временной задержки L-R разностного сигнала, при этом предшествующий сигнал обеспечивает то, что стереообраз остается перед слушателем. Но очевидно, система Хэфлера не достаточно искусный способ извлечения звуков окружения из двухканального стереосигнала; как мы уже увидели, и не оптимальный способ создания центрального канала. Со всеми тонкостями система Герзона лучшее, что вообще могло быть сделанным в начале 70-х, но современные цифровые процессоры обработки звука предлагают, несомненно, более изощренный подход.
Единственное, что требуется, это метод извлечения звука окружения, который позволит приспособить его к природе стерео сигнала. Этот план кажется странным для тех, кто помнит эффект подхода переменных матриц к матричным квадрофоническим системам, но это снова грубое сравнение былых технологий с тем, чего можно добиться в настоящее время. В первую очередь необходимо разделить сигнал на короткие отрезки и проанализировать каждый из них с целью определения лучшего способа обработки сигнала (примечание 10). Одним из подходов к решению этого вопроса является построение координатного графа либо графа Лиссажу (XY or Lissajous graph), на вертикальной оси которого вычерчивается амплитуда одного из каналов (часто левого), а на горизонтальной оси – соответственно другого канала. Если на оба канала поступает один и тот же сигнал, с одинаковой амплитудой и фазой, тогда результатом будет прямая линия под углом 45° к горизонтальной оси, непрерывно идущая от самой нижней левой точки до верхней правой.
На рис.5 изображен типичный граф для стерео музыкального сигнала, для изображения, расположенного левее центра, угол графа становится острее чем 45°. Этот метод не то чтобы не использовался для коммерческой звукозаписи, но больший успех имел при использовании программы MicSimulator (в свободном доступе на моем сайте www.audiosignal.co.uk/freeware), которая симулирует различные стереомикрофоны, используя при этом безэховые монофонические записи в качестве источников звука. Микрофонная технология, выбранная в этом случае, представляла собой перекрестную пару Блумлейна (Blumlein crossed pair), которая имела результаты при высокой частоте стерео, где позиция источника звука представлена исключительно при помощи относительной амплитуды сигналов каждого канала. Итак, я выбрал WAV файл для анализа, чтобы выяснить какая часть соответствует положению изображения на 30° левее. При использовании результата программы MicSimulator, координатный граф получился бы в виде тонкой прямой линии. Но я добавил искусственную стерео реверберацию (при помощи программы Adobe Audition), необходимую при построении координатного графа, который лучше представляет, что могло быть получено в нормальном, живом окружении звукозаписи. В результате, линия превращается в нечто вроде эллипса, большая ось (т.е. длинная) которого смещается.
[attachmentid=3802]
Рис. 5 Граф Лиссажу для имитации перекрестной записи одного инструмента
Рис. 5 Граф Лиссажу для имитации перекрестной записи одного инструмента
При определении этого смещения большой оси и соответственно модификации разностного сигнала, мы можем получить лучшие результаты в извлечении окружающей информации, чем, если бы мы использовали технологию Хэфлера. Вместо того, чтобы принимать разницу L-R за сигнал окружения, мы сначала отметим, не принимая во внимание компонент окружения, что L равно 3.732R в следующем примере (примечание 11) – то, что мы можем высчитать, имея угол наклона большой оси эллипса. Так используя L–3.732R вместо L–R, нам следует исключить прямой сигнал и выявить только сигнал окружения.
Конечно, я рассматриваю здесь простейший случай, когда источник звука только один, тогда как в большинстве записей используются многочисленные источники звука одновременно. Но поскольку на основе этих данных можно построить координатный граф с четкой большой осью, этот метод извлечения звука окружения дает улучшенные результаты. Проблемы возникают, когда координатная схема не имеет определенного смещения, например, когда не используются соответствующие микрофонные технологии. В таких случаях, расстояние между микрофонами соответствует отношениям частотной зависимости фаз двух каналов, в результате на координатной схеме это распределение выглядит случайным. Рис.6 демонстрирует подобное использование того же источника звука и угла, как и на рис.5, но время имитации эффекта программой MicSimulator распределяется между кругонаправленными микрофонами с прерываниями. Как Вы видите, на схеме нет смещения.
[attachmentid=3804]
Рис. 6 Граф Лиссажу для имитации "spaced-omni" записи
Рис. 6 Граф Лиссажу для имитации "spaced-omni" записи
Чтобы решить эту проблему, нам нужно выровнять левый и правый каналы таким образом, чтобы учесть и время задержки между ними. В этом примере, временная задержка составляет около 2,9 милисекунды (что приравнивается к 128 сэмплам на частоте 44,1кГц); если мы сместим левый канал на это количество по отношению к правому каналу, прежде чем построить координатный граф, мы получим результаты, представленные на рис.7. Теперь схема больше похожа на представленную на рис.5 – хотя и большая ось смещена из-за того, что при использовании данной технологии разница амплитуд намного меньше – и мы можем применить этот же подход к извлечению компонента окружения. Еще раз повторим, это непосредственный случай, когда во внимание не принимается тот факт, что в большинстве записей используется множество источников звука с разной временной задержкой. Тем не менее, статистическое сравнение двух каналов может использоваться при выявлении оптимальной временной задержки для извлечения сигнала окружения.
[attachmentid=3803]
Рис. 7 Результат выравнивания двух каналов
Рис. 7 Результат выравнивания двух каналов
Будет ли это работать?
С одной стороны, эти примеры лишь поверхностно рассматривают то, как улучшаются современные алгоритмы на базе технологии Хэфлера, а с другой они достаточно полно раскрывают особенности используемых методов. Ключевой вопрос здесь: насколько успешны эти новые методы? В настоящий момент, мы можем руководствоваться только данными тестовых прослушиваний, цель которых, кажется, уже меняется в соответствии с этим направлением.
Когда в 1998 году Фрэнсис Рамси (Francis Rumsey) сообщил, что после проведения 12 тестовых прослушиваний, ориентированных на различные алгоритмы, было выявлено, что «в общем качество фронтального образа ухудшилось, а эффект присутствия слегка улучшился за счет обработки, и что тестирующие слушатели предпочитают необработанный материал обработанному». В отличие от этого, результаты, полученные при недавнем применении алгоритма в 13 из экспериментов, приводят к другому выводу, хотя, возможно, это связано с простотой выбранного материала. Обратимся к другой важной разработке, престижный Фраунговерский институт (Fraunhofer-Institut) в Германии недавно выпустил свой алгоритм микширования, SX Pro (симплексные основания для расширенного стерео), который описывает этот процесс как основанный на «семантическом анализе входящего сигнала, что гарантирует высокий уровень контроля над полученным звуковым образом».
Конечно, нам следует относиться к этим алгоритмам скептически до тех пор, пока сами не услышим результаты их работы в высококачественных аудиосистемах, но также возможно и то, что многочисленные преимущества расширения двухканального материала на 5 каналов, в конце концов, перевесят их недостатки. Поиску решения, начавшемуся еще 75 лет назад, пора бы уже завершиться положительным результатом.
Footnote 1: J.C. Steinberg and W.B. Snow, "Physical Factors in Auditory Perspective," Electrical Engineering, Vol.53, January 1934.
Footnote 2: P.W. Klipsch, "Stereophonic Sound with Two Tracks, Three Channels by Means of a Phantom Circuit (2PH3)," JAES, Vol.6, April 1958 (available from www.aes.org).
Footnote 3: P.W. Klipsch, "Wide-Stage Stereo," IRE Transactions on Audio, Vol.AU-7, July–August 1959.
Footnote 4: P.W. Klipsch, "Signal Mutuality in Stereo Systems," IRE Transactions on Audio, Vol.AU-8, September–October 1960.
Footnote 5: P.W. Klipsch, "Stereo Geometry Tests," IRE Transactions on Audio, Vol.AU-10, November–December 1962.
Footnote 6: M.A. Gerzon, "Optimum Reproduction Matrices for Multispeaker Stereo," JAES, Vol.40 Nos.7/8, July/August 1992 (available from www.aes.org).
Footnote 7: C. Faller, "Multiple-Loudspeaker Playback of Stereo Signal," JAES, Vol.54 No.11, November 2006 (available from www.aes.org).
Footnote 8: M.A. Gerzon, "Surround Sound from 2-Channel Stereo," Hi-Fi News, August 1970 (downloadable from the Gerzon Archive on my website).
Footnote 9: M.A. Gerzon, "A Year of Surround Sound," Hi-Fi News, August 1971 (downloadable from the Gerzon Archive on my website).
Footnote 10: I believe such time-slicing lies at the core of Dave Griesinger's active steering algorithm, commercially realized in Lexicon's "Logic 7" process.—John Atkinson
Footnote 11: Because the sound source is 30° to the left of center, it is 15° off-axis to the left-channel microphone and 75° off-axis to the right-channel microphone. With figure-8 velocity microphones, the relative levels in the left and right channels are therefore proportional to cos(15)=0.9659 and cos(75)=0.2588, respectively. The ratio of these two figures is 3.732.
Footnote 12: F. Rumsey, "Controlled Subjective Assessments of 2-to-5-Channel Surround Sound Processing Algorithms," Preprint 4654, 104th Audio Engineering Society Convention, May 1998 (available from www.aes.org).
Footnote 13: J. Usher, "A New Upmixer for Enhancement of Reverberance Imagery in Multichannel Loudspeaker Audio Scenes," Preprint 6965, 121st Audio Engineering Society Convention, October 2006 (available from www.aes.org).