20.02.2019

№219.016.c0b9

Результат интеллектуальной деятельности: МНОГОКАНАЛЬНОЕ ИЕРАРХИЧЕСКОЕ АУДИОКОДИРОВАНИЕ С КОМПАКТНОЙ ДОПОЛНИТЕЛЬНОЙ ИНФОРМАЦИЕЙ

Вид РИД

Изобретение

Юридическая информация Юридическая информация Свернуть Развернуть

Авторы

Правообладатели

№ охранного документа

0002367033

Дата охранного документа

10.09.2009

Краткое описание РИД Краткое описание РИД Свернуть Развернуть

Аннотация: Изобретение относится к обработке многоканального звука и, в частности, к генерации и использованию параметрической дополнительной информации для описания пространственных свойств многоканального аудиосигнала. Параметрическое представление многоканального аудиосигнала хорошо описывает пространственные свойства аудиосигнала с помощью компактной дополнительной информации, когда информацию когерентности, описывающую когерентность между первым и вторым каналами, получают в рамках процесса иерархического кодирования только для пар каналов, включающих в себя первый канал, имеющий только информацию с левой стороны относительно местоположения прослушивания, и включающих в себя второй канал, имеющий только информацию с правой стороны относительно местоположения прослушивания. Поскольку в иерархическом процессе многочисленные звуковые каналы аудиосигнала итерационно смешивают в монофонические каналы, на этапе кодирования можно выбирать соответствующие параметры, которые касаются только пар каналов, переносящих информацию, необходимую для описания пространственных свойств многоканального аудиосигнала. Технический результат - уменьшение количества передаваемых с кодера на декодер параметров, используя иерархическую структуру системы пространственного звука. 22 н. и 22 з.п. ф-лы, 17 ил.

Реферат Реферат Свернуть Развернуть

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящее изобретение относится к обработке многоканального звука и, в частности, к генерации и использованию компактной параметрической дополнительной информации для описания пространственных свойств многоканального аудиосигнала.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ

В последнее время методика воспроизведения многоканального звука становится все более важной. Это может быть следствием того, что методики сжатия/кодирования звука, такие как известная методика mp3, сделали возможным распространение аудиозаписей через Интернет или другие каналы передачи информации, имеющие ограниченную полосу пропускания. Методика кодирования mp3 стала настолько известной из-за того факта, что она позволяет распространение всех записей в стереоформате, т.е. в цифровом представлении аудиозаписи, включающем в себя первый, или левый (L), стереоканал и второй, или правый (R), стереоканал.

Однако существуют основные недостатки обычных систем двухканального звука. Поэтому была разработана методика окружающего звука. Рекомендованный формат представления многоканального окружающего звука включает в себя, в дополнение к двум стереоканалам L и R, дополнительный центральный канал C и два канала окружающего звука Ls, Rs. Этот эталонный формат звука также упоминается как формат «три/два стерео», который означает три фронтальных канала и два канала окружающего звука. В среде воспроизведения по меньшей мере пять динамиков в пяти соответствующих местоположениях необходимы для получения оптимальной зоны наилучшего восприятия на определенном расстоянии от пяти правильно расположенных громкоговорителей.

Современные подходы параметрического кодирования многоканальных аудиосигналов (параметрическое стереокодирование (PS), «пространственное аудиокодирование», «бинауральное кодирование признаков» (BCC) и т.д.) представляют многоканальный аудиосигнал посредством сигнала смешения (микширования) (может быть монофоническим или содержать несколько каналов) и параметрической дополнительной информации («пространственных признаков»), которая характеризует воспринимаемую пространственную звуковую сцену. Различные подходы и методики будут кратко рассмотрены в последующих абзацах.

Соотнесенная методика, также известная как параметрическое стереокодирование, описана в J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, «High-Quality Parametric Spatial Audio Coding at Low Bitrates», AES 116th Convention, Berlin, Preprint 6072, май 2004, и E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, «Low Complexity Parametric Stereo Coding», AES 116th Convention, Berlin, Preprint 6073, май 2004.

Из предшествующего уровня техники известно несколько методик уменьшения количества данных, требуемых для передачи многоканального аудиосигнала. С этой целью обратимся к фиг.11, которая показывает комбинированное стереоустройство 60. Это устройство может быть устройством, воплощающим, например, кодирование стереоинтенсивности (IS) или бинауральное кодирование признаков (BCC). Такое устройство в общем случае принимает в качестве входной информации по меньшей мере два канала (CH1, CH2, ..., CHn) и выводит один несущий канал и параметрические данные. Параметрические данные определяются так, чтобы в декодере можно было вычислять приближенное значение исходного канала (CH1, CH2, ..., CHn).

Обычно несущий канал включает в себя отсчеты подполос частот, спектральные коэффициенты, отсчеты во временной области и т.д., которые обеспечивают сравнительно высококачественное представление основного сигнала, в то время как параметрические данные не включают в себя такие отсчеты спектральных коэффициентов, но включают в себя параметры управления для управления определенным алгоритмом реконструкции, таким как взвешивание с помощью умножения, временной сдвиг, смещение частоты, сдвиг фазы и т.д. Поэтому параметрические данные включают в себя только сравнительно грубое представление сигнала или соответствующего канала. Указывая в числах, суммарная скорость передачи данных, требуемая для несущего канала, может находиться в диапазоне 60-70 кбит/с в схеме кодирования стандарта MPEG (стандарт на сжатие и воспроизведение движущихся изображений, разработанный Группой экспертов в области кино), в то время как суммарная скорость передачи данных, требуемая для параметрической дополнительной информации для одного канала, может находиться в диапазоне приблизительно 10 кбит/с для 5.1-канальных сигналов. Примером параметрических данных являются известные коэффициенты масштабирования, информация стереоинтенсивности или параметры бинауральных признаков, которые будут описаны ниже.

Методика BCC, например, описана в документе AES convention paper 5574, «Binaural Cue Coding applied to Stereo and Multi-Channel Audio Compression», C. Faller, F. Baumgarte, май 2002, Munich, в документе IEEE WASPAA Paper «Efficient representation of spatial audio using perceptual parametrization», октябрь 2001, Mohonk, N.Y. и в 2 документах ICASSP Papers «Estimation of auditory spatial cues for binaural cue coding» и «Binaural cue coding: a novel and efficient representation of spatial audio», авторами которых являются C. Faller и F. Baumgarte, Orlando, FL, май 2002.

При кодировании BCC множество входных звуковых каналов преобразуются в спектральное представление, используя основывающееся на DFT (дискретном преобразовании Фурье) преобразование с накладывающимися окнами. Результирующий спектр делят на ненакладывающиеся части. Каждая часть имеет диапазон частот, пропорциональный эквивалентному прямоугольному диапазону частот (ERB). Межканальную разность уровней (ICLD) и межканальную разность во времени (ICTD) оценивают для каждой части. Межканальную разность уровней ICLD и межканальную разность во времени ICTD обычно задают для каждого канала относительно опорного канала и, кроме того, квантуют. Передаваемые параметры окончательно вычисляют в соответствии с предписанными формулами (кодируют), что может зависеть от конкретных частей сигнала, который подлежит обработке.

На стороне декодера декодер принимает монофонический сигнал и битовый поток BCC. Монофонический сигнал преобразуют в частотную область и вводят в блок пространственного синтеза, который также принимает декодированные значения ICLD и ICTD. В блоке пространственного синтеза значения параметров BCC (ICLD и ICTD) используют для выполнения операции взвешивания монофонического сигнала для синтезирования многоканальных сигналов, которые после преобразования частота/время представляют реконструкцию исходного многоканального аудиосигнала.

В случае BCC комбинированный стереомодуль 60 предназначен для вывода дополнительной информации канала так, чтобы параметрические данные канала квантовались и кодировались, формируя параметры ICLD или ICTD, причем один из исходных каналов используют в качестве опорного канала, кодируя дополнительную информацию канала.

Обычно несущий канал формируют из суммы участвующих исходных каналов.

Поэтому указанные выше методики дополнительно обеспечивают соответствующее монофоническое представление для воспроизводящей аппаратуры, которая может обрабатывать только несущий канал и не в состоянии обрабатывать параметрические данные для генерации одного или большего количества приблизительных значений более одного входного канала.

Методика аудиокодирования, известная как бинауральное кодирование признаков (BCC), также хорошо описана в публикациях патентных заявок США 2003/0219130 A1, 2003/0026441 A1 и 2003/0035553 A1. Дополнительная ссылка также сделана на «Binaural Cue Coding. Part II: Schemes and Applications», C. Faller и F. Baumgarte, IEEE Trans. on Audio and Speech Proc., т.11, No. 6, ноябрь 2003 и на «Binaural cue coding applied to audio compression with flexible rendering», C. Faller и F. Baumgarte, AES 113^th Convention, Los Angeles, октябрь 2002. Приведенные публикации патентных заявок США и два приведенных технических издания по методике BCC, авторами которых являются Faller и Baumgarte, включены в настоящее описание посредством ссылки в своей полноте.

Хотя параметры ICLD и ICTD представляют самые важные параметры определения местоположения источника звука, пространственное представление с использованием этих параметров ограничивает только максимальное качество, которое может быть достигнуто. Для того чтобы преодолеть это ограничение и, следовательно, для предоставления возможности высококачественного параметрического кодирования параметрическое стереокодирование (как описано в J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers (2005) «Parametric coding of stereo audio», Eurasip J. Applied Signal Proc. 9, 1305-1322) применяет три типа пространственных параметров, названных межканальная разность интенсивности (IID), межканальная разность фаз (IPD) и межканальная когерентность (IC). Расширение набора пространственных параметров с помощью параметров когерентности предоставляет возможность параметризации воспринимаемой пространственной 'распространенности' или пространственной 'компактности' звуковой сцены.

В последующем типичная общая схема BCC многоканального звукового кодирования проработана более подробно со ссылкой на фиг.12-14. Фиг.9 показывает такую общую схему бинаурального кодирования признаков для кодирования/передачи многоканальных аудиосигналов. Многоканальные звуковые входные сигналы на входе 110 кодера 112 BCC микшируются в блоке 114 микширования. В настоящем примере исходный многоканальный сигнал на входе 110 представляет собой 5-канальный сигнал окружающего звука, имеющий фронтальный левый канал, фронтальный правый канал, левый канал окружающего звука, правый канал окружающего звука и центральный канал. В предпочтительном варианте осуществления настоящего изобретения блок 114 микширования генерирует суммарный сигнал с помощью простого суммирования этих пяти каналов в монофонический сигнал. Другие схемы микширования известны из предшествующего уровня техники, например такие, которые при использовании многоканальных входных сигналов могут обеспечивать сигнал микширования, содержащий один канал. Этот один канал выводят на линии 115 суммарного сигнала. Дополнительную информацию, полученную с помощью блока 116 анализа BCC, выводят на линии 117 дополнительной информации. В блоке анализа BCC вычисляют межканальную разность уровней (ICLD) и межканальную разность во времени (ICTD), как было указано выше. Блок 116 анализа BCC предназначен также для вычисления значения межканальной корреляции (значения ICC). Суммарный сигнал и дополнительную информацию передают предпочтительно в квантованной и кодированной форме на декодер 120 BCC. Декодер BCC разбивает переданный суммарный сигнал на множество подполос и применяет масштабирование, задержки и другую обработку для генерации подполос выходных многоканальных аудиосигналов. Эту обработку выполняют так, что параметры ICLD, ICTD и ICC (признаки) восстановленного многоканального сигнала на выходе 121 подобны соответствующим признакам для исходного многоканального сигнала на входе 110 кодера 112 BCC. С этой целью декодер 120 BCC включает в себя блок 122 синтеза BCC и блок 123 обработки дополнительной информации.

В дальнейшем внутренняя конструкция блока 122 синтеза BCC объясняется со ссылкой на фиг.13. Суммарный сигнал на линии 115 вводят в блок преобразования время/частота или блок 125 фильтров БФ. На выходе блока 125 присутствует множество N сигналов подполос или, в предельном случае, блок спектральных коэффициентов, когда звуковой набор фильтров 125 выполняет преобразование 1:1, т.е. преобразование, которое производит N спектральных коэффициентов из N отсчетов во временной области (предельная субдискретизация).

Блок 122 синтеза BCC дополнительно содержит каскад 126 задержки, каскад 127 изменения уровней, каскад 128 обработки корреляции и каскад 129 блока обратных фильтров БОФ. На выходе каскада 129 восстановленный многоканальный аудиосигнал, имеющий, например, пять каналов в случае 5-канальной системы окружающего звука, можно выводить к набору громкоговорителей 124, как показано на фиг.12.

Как показано на фиг.13, входной сигнал s(n) преобразуют в частотную область, или область блока фильтров, посредством элемента 125. Выходной сигнал с помощью элемента 125 умножают так, что получают несколько версий того же самого сигнала, как показано с помощью узла 130 перехода. Количество версий исходного сигнала равно количеству каналов вывода в выходном сигнале, который подлежит восстановлению. Когда в общем случае каждая версия исходного сигнала в узле 130 подвергается определенной задержке d₁, d₂, ..., d_i, ..., d_N, параметры задержки вычисляют с помощью блока 123 обработки дополнительной информации на фиг.12 и получают из межканальных разностей во времени, которые определяет блок 116 анализа BCC.

То же самое верно для параметров усиления a₁, a₂, ..., a_i, ..., a_N, которые также вычисляются блоком 123 обработки дополнительной информации, основываясь на межканальных разностях уровней, которые вычисляет блок 116 анализа BCC.

Параметры ICC, вычисленные с помощью блока 116 анализа BCC, используют для управления функциональными возможностями блока 128 так, чтобы получить определенную корреляцию между задержанными сигналами и сигналами с измененным уровнем на выходах блока 128. Следует отметить, что порядок каскадов 126, 127, 128 может отличаться от случая, показанного на фиг.13.

Следует знать, что при покадровой обработке аудиосигнала анализ BCC также выполняют по кадрам, т.е. изменяющимся во времени образом, и также по частоте. Это означает, что для каждой полосы спектра параметры BCC получают отдельно. Это дополнительно означает, что в случае, когда звуковой блок фильтров 125 разбивает входные сигналы, например, на 32 полосовых сигнала, то блок анализа BCC получает набор параметров BCC для каждой из этих 32 полос. Естественно, блок 122 синтеза BCC на фиг.12, который показан подробно на фиг.13, выполняет реконструкцию, которая также основана на этих 32 полосах в данном примере.

В дальнейшем обращаются к фиг.14, которая показывает схему для определения некоторых параметров BCC. Обычно параметры ICLD, ICTD и ICC можно определять между произвольными парами каналов. Один из способов, который будет представлен, заключается в определении параметров ICLD и ICTD между опорным каналом и каждым другим каналом. Это показано на фиг.14A.

Параметры ICC можно определять по-разному. В наиболее общем случае можно оценивать параметры ICC в кодере между каналами всех возможных пар, как указано на фиг.14B. В этом случае декодер синтезирует ICC так, что он является приблизительно тем же самым, как в исходном многоканальном сигнале между каналами всех возможных пар. Было, однако, предложено оценивать только параметры ICC между двумя самыми сильными каналами в каждый момент времени. Эта схема показана на фиг.14C, где показан пример, в котором в один момент времени параметр ICC оценивают между каналами 1 и 2, а в другой момент времени параметр ICC вычисляют между каналами 1 и 5. Декодер затем синтезирует межканальную корреляцию между самыми сильными каналами в декодере и применяет некоторое эвристическое правило для вычисления и синтезирования межканальной когерентности для оставшихся пар каналов.

Относительно вычисления, например, параметров усиления a₁, ..., a_N, основываясь на переданных параметрах ICLD, обращаются к приведенному выше документу соглашения AES 5574. Параметры ICLD представляют распределение энергии в исходном многоканальном сигнале. Без потери общности, на фиг.14A показано, что существует четыре параметра ICLD, которые показывают разность энергии между всеми другими каналами и фронтальным левым каналом. В блоке 123 обработки дополнительной информации параметры усиления a₁, ..., a_N получают из параметров ICLD так, что полная энергия всех восстановленных выходных каналов является такой же, как энергия передаваемого суммарного сигнала (или пропорциональна ей). Простой способ определения этих параметров - 2-этапный процесс, в котором на первом этапе коэффициент усиления для левого фронтального канала устанавливают в единицу, в то время как коэффициенты усиления для других каналов на фиг.14A определяют из переданных значений ICLD. Затем на втором этапе вычисляют энергию всех пяти каналов и сравнивают ее с энергией переданного суммарного сигнала. Затем в отношении всех каналов выполняют понижающее масштабирование, используя коэффициент понижающего масштабирования, который одинаков для всех каналов, причем коэффициент понижающего масштабирования выбирают так, что полная энергия всех восстановленных каналов вывода после масштабирования равна полной энергии переданного суммарного сигнала.

Естественно, существуют также другие способы вычисления коэффициентов усиления, которые не основаны на 2-этапном процессе, а для которых нужен только 1-этапный процесс.

Обращаясь к параметрам задержки, следует отметить, что параметры задержки ICTD, которые передаются от кодера BCC, могут использоваться непосредственно, когда параметр задержки d₁ для левого фронтального канала установлен в нуль. Перемасштабирование делать не требуется, так как задержка не изменяет энергию сигнала.

Как было указано выше относительно фиг.14, параметрическая дополнительная информация, т.е. межканальная разность уровней (ICLD), межканальная разность во времени (ICTD) или параметр межканальной когерентности (ICC), может вычисляться и передаваться для каждого из этих пяти каналов. Это означает, что один канал обычно передает четыре набора межканальной разности уровней для пятиканального сигнала. То же самое истинно для межканальной разности во времени. Относительно параметра межканальной когерентности, может также быть достаточно передавать, например, только два набора этих параметров.

Как было указано выше относительно фиг.13, нет ни одного параметра разности уровней, параметра разности во времени или параметра когерентности для одного кадра или временной порции сигнала. Вместо этого эти параметры определяются для нескольких различных полос частот так, чтобы была получена частотно-зависимая параметризация. Так как предпочтительно использовать, например, 32 частотных канала, т.е. блок фильтров, имеющий 32 полосы частот для анализа BCC и синтеза BCC, параметры могут занимать довольно большой объем данных. Хотя по сравнению с другими многоканальными передачами параметрическое представление приводит к весьма низкому расходу данных на отсчет, существует длительно сохраняющаяся потребность в дальнейшем уменьшении необходимого расхода данных на отсчет для представления сигнала, имеющего более двух каналов, такого как многоканальный сигнал окружающего звука.

Кодирование многоканального аудиосигнала можно преимущественно осуществлять, используя несколько существующих модулей, которые выполняют параметрическое кодирование стереосигнала в один моноканал. В публикации международной патентной заявки WO2004008805 A1 объясняется, как параметрические кодеры стереосигнала можно упорядочивать в иерархической структуре так, что заданное количество входных звуковых каналов впоследствии микшируется в один единственный моноканал. Параметрическая дополнительная информация, описывающая пространственные свойства моноканала микширования, окончательно состоит из всей параметрической информации, последовательно создаваемой в течение процесса итерационного микширования. Это означает, что если существуют, например, три процесса микширования от стерео к моно, вовлеченные в формирование окончательного монофонического сигнала, то окончательное множество параметров, создающих параметрическое представление многоканального аудиосигнала, состоит из трех наборов параметров, полученных в течение каждого отдельного процесса микширования от стерео к моно.

Кодер иерархического микширования показан на фиг.15 для более подробного объяснения способа предшествующего уровня техники. Фиг.15 показывает шесть исходных звуковых каналов с 200a по 200f, которые преобразуются в единственный монофонический звуковой канал 202 плюс параметрическую дополнительную информацию. Поэтому шесть исходных звуковых каналов с 200a по 200f необходимо преобразовать из временной области в частотную область, данное преобразование выполняют с помощью блока 204 преобразования, преобразуя звуковые каналы с 200a по 200f в соответствующие каналы с 206a по 206f в частотной области. Придерживаясь иерархического подхода, каналы с 206a по 206f попарно микшируются в три монофонических канала L, R и C (208a, 208b и 208c соответственно). Во время микширования каналов трех пар для каждой пары каналов получают набор параметров, который описывает пространственные свойства исходного стереофонического сигнала, который микшируют в монофонический сигнал. Таким образом, на этом первом этапе микширования генерируют три набора параметров с 210a по 210c для сохранения пространственной информации сигналов с 206a по 206f.

На следующем этапе иерархического микширования каналы 208a и 208b микшируются в канал 212 (LR), генерируя набор параметров 210d (набор параметров 4). Наконец, для получения только одного единственного монофонического канала необходимо микширование каналов 208c и 212, в результате чего получают канал 214 (M). При этом генерируют пятый набор параметров 210e (набор параметров 5). Наконец, микшированный монофонический аудиосигнал 214 обратно преобразуют во временную область для получения аудиосигнала 202, который можно воспроизводить с помощью стандартного оборудования.

Как описано выше, параметрическое представление аудиосигнала 202 микширования согласно предшествующему уровню техники состоит из всех наборов параметров с 210a по 210e, что означает, что если кто-нибудь захочет восстановить исходный многоканальный аудиосигнал (каналы с 200a по 200f) из монофонического аудиосигнала 202, то все наборы параметров с 210a по 210e потребуются в качестве дополнительной информации монофонического сигнала 202 микширования.

Патентная заявка США № 11/032 689 (которая с данного момента упоминается как «объединение признаков согласно предшествующему уровню техники») описывает процесс объединения нескольких значений признаков в один передаваемый признак для сохранения дополнительной информации в схеме неиерархического кодирования. Для того чтобы это сделать, все каналы сначала микшируют, и коды признаков позже объединяются для формирования передаваемых значений признаков (может также быть одно единственное значение), причем объединение зависит от предопределенной математической функции, в которую в качестве переменных вставляют пространственные параметры, которые получают непосредственно из входных сигналов.

Современные методики параметрического кодирования двух («стерео») или большего количества («многоканальный») входных звуковых каналов получают пространственные параметры непосредственно из входных сигналов. Примерами таких параметров являются межканальная разность уровней (ICLD) или межканальная разность интенсивности (IID), межканальное запаздывание (ICTD) или межканальная разность фаз (IPD) и межканальная корреляция/когерентность (ICC), каждый из которых передают частотно-избирательным способом, т.е. для каждой полосы частот. В заявке «объединения признаков согласно предшествующему уровню техники» раскрыто, что несколько значений признаков можно объединять в одно значение, которое передают со стороны кодера на сторону декодера. Процесс декодирования использует одно передаваемое значение вместо первоначально отдельно передаваемых значений признаков для восстановления многоканального выходного сигнала. В предпочтительном варианте осуществления эту схему применяют к параметрам ICC. Было показано, что это приводит к значительному уменьшению размера дополнительной информации признаков при сохранении пространственных свойств огромного большинства сигналов. Однако не ясно, как это можно применять в схеме иерархического кодирования.

Патентная заявка «объединения признаков согласно предшествующему уровню техники» детализирует принцип изобретения с помощью примера для системы, основанной на двух передаваемых каналах микширования. В предложенном способе, в отношении фиг.15, значения ICC пар каналов Lf/Lr и Rf/Rr объединяются в один передаваемый параметр ICC. Два объединяемых значения ICC получают во время микширования фронтального левого канала Lf и тылового левого канала Lr в канал L и во время микширования фронтального правого канала Rf и тылового правого канала Rr в канал R. Поэтому два объединяемых значения ICC, которые окончательно объединяются в один передаваемый параметр ICC, оба переносят информацию о фронтально-тыловой корреляции исходных каналов, и объединение этих двух значений ICC будет в общем случае сохранять большую часть этой информации. Если придется дополнительно микшировать каналы L и R в один единственный монофонический канал, то можно получить третье значение ICC, которое переносит информацию о лево-правой корреляции каналов микширования L и R. Согласно «объединению признаков согласно предшествующему уровню техники» теперь придется объединять три значения ICC, применяя данную функцию, которая преобразовывает три значения ICC в один передаваемый параметр ICC.

Проблемы возникают тогда, когда информацию фронта/тыла смешивают с информацией лева/права, что очевидно невыгодно для воспроизведения исходного многоканального аудиосигнала. В заявке США № 11/032 689 этого избегают с помощью передачи двух каналов микширования, каналов L и R, которые содержат информацию лева/права, и дополнительно передачи одного единственного значения ICC, содержащего информацию фронта/тыла. Это сохраняет пространственные свойства исходных каналов за счет значительно увеличенного расхода данных на отсчет, что является результатом того, что весь дополнительный канал микширования должен передаваться.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Целью настоящего изобретения является обеспечение улучшенной концепции для генерации и использования параметрического представления многоканального аудиосигнала с помощью компактной дополнительной информации в контексте иерархической схемы кодирования.

В соответствии с первым аспектом настоящего изобретения этой цели достигают с помощью кодера для генерации параметрического представления аудиосигнала, имеющего по меньшей мере два исходных левых канала с левой стороны и два исходных правых канала с правой стороны относительно местоположения прослушивания, содержащего средство генерации для генерации параметрической информации, при этом данное средство генерации выполнено с возможностью раздельной обработки нескольких пар каналов для получения информации уровня для обработанных пар каналов и с возможностью получения информации когерентности для пары каналов, включающей в себя первый канал, имеющий только информацию с левой стороны, и второй канал, имеющий только информацию с правой стороны; и средство обеспечения для обеспечения параметрического представления с помощью выбора информации уровня для пар каналов и определения показателя лево-правой когерентности, используя информацию когерентности.

В соответствии со вторым аспектом настоящего изобретения этой цели достигают с помощью декодера для обработки параметрического представления исходного аудиосигнала, причем исходный аудиосигнал имеет по меньшей мере два исходных левых канала с левой стороны и по меньшей мере два исходных правых канала с правой стороны относительно местоположения прослушивания, содержащего блок приема для обеспечения параметрического представления аудиосигнала, при этом данный блок приема выполнен с возможностью обеспечения информации уровня для пар каналов и обеспечения показателя лево-правой когерентности для пары каналов, включающей в себя левый канал и правый канал, причем показатель лево-правой когерентности представляет информацию когерентности по меньшей мере между каналами одной пары, включающей в себя первый канал, имеющий только информацию с левой стороны, и второй канал, имеющий только информацию с правой стороны; и блок обработки для предоставления параметрической информации для пар каналов, причем данный блок обработки выполнен с возможностью выбора информации уровня из параметрического представления и получения информации когерентности по меньшей мере для одной пары каналов, используя показатель лево-правой когерентности, причем упомянутая по меньшей мере одна пара каналов включает в себя первый канал, имеющий только информацию с левой стороны, и второй канал, имеющий только информацию с правой стороны.

В соответствии с третьим аспектом настоящего изобретения этой цели достигают с помощью способа генерации параметрического представления аудиосигнала.

В соответствии с четвертым аспектом настоящего изобретения этой цели достигают с помощью компьютерной программы, которая воплощает указанный выше способ при исполнении на компьютере.

В соответствии с пятым аспектом настоящего изобретения этой цели достигают с помощью способа обработки параметрического представления исходного аудиосигнала.

В соответствии с шестым аспектом настоящего изобретения этой цели достигают с помощью компьютерной программы, которая воплощает указанный выше способ при исполнении на компьютере.

В соответствии с седьмым аспектом настоящего изобретения этой цели достигают с помощью кодированных звуковых данных, сгенерированных с помощью создания параметрического представления аудиосигнала, имеющего по меньшей мере два исходных левых канала с левой стороны и два исходных правых канала с правой стороны относительно местоположения прослушивания, причем параметрическое представление содержит разность уровней для пар каналов и показатель лево-правой когерентности, полученный из информации когерентности для пары каналов, включающей в себя первый канал, имеющий только информацию с левой стороны, и второй канал, имеющий только информацию с правой стороны.

Настоящее изобретение основано на обнаружении того, что параметрическое представление многоканального аудиосигнала хорошо описывает пространственные свойства аудиосигнала, используя компактную дополнительную информацию, когда информацию когерентности, которая описывает когерентность между первым и вторым каналами, получают в процессе иерархического кодирования только для пар каналов, включающих в себя первый канал, имеющий только информацию с левой стороны относительно местоположения прослушивания, и включающих в себя второй канал, имеющий только информацию с правой стороны относительно местоположения прослушивания. Поскольку в иерархическом процессе множество звуковых каналов исходного аудиосигнала итерационно микшируется предпочтительно в монофонический канал, существует возможность выбора соответствующих параметров дополнительной информации во время процесса кодирования для этапа, в котором задействуются только пары каналов, которые имеют требуемую информацию, необходимую для описания пространственных свойств исходного аудиосигнала, настолько хорошо, насколько это возможно. Это позволяет создавать параметрическое представление исходного аудиосигнала на основе этих выбранных параметров или на основе объединения этих параметров, предоставляя возможность существенного уменьшения размера дополнительной информации, которая содержит пространственную информацию сигнала микширования.

Предложенная концепция предоставляет возможность объединения значений признаков для уменьшения доли дополнительной информации в аудиосигнале микширования даже для случая, когда допустим только один (монофонический) канал передачи информации. Соответствующая изобретению концепция даже допускает различные иерархические топологии кодера. Конкретно разъясняется, как можно получать соответствующее единственное значение ICC, которое можно применять в пространственном звуковом декодере, используя иерархический подход кодирования/декодирования для точного воспроизведения исходного звукового образа.

В одном из вариантов осуществления настоящего изобретения воплощают иерархическую структуру кодирования, которая объединяет левый фронтальный и левый тыловой звуковой каналы 5.1-канальных аудиосигналов в главный левый канал и которая одновременно объединяет правый фронтальный и правый тыловой каналы в главный правый канал. Объединяя левые каналы и правые каналы отдельно, важная информация лево-правой когерентности главным образом сохраняется и, согласно изобретению, извлекается на втором этапе кодирования, на котором главный левый и главный правый каналы микшируются в главный стереоканал. Во время этого процесса микширования получают параметр ICC для всей системы, так как этот параметр ICC будет параметром ICC, представляющим с наибольшей точностью лево-правую когерентность. В пределах данного варианта осуществления настоящего изобретения получают параметр ICC, который описывает самую важную лево-правую когерентность шести звуковых каналов с помощью простого упорядочивания этапов иерархического кодирования соответствующим образом, а не применяя некоторую искусственную функцию к набору параметров ICC, которая описывает произвольные пары каналов, как это имеет место в методиках предшествующего уровня техники.

В модификации описанного варианта осуществления настоящего изобретения центральный канал и низкочастотный канал аудиосигнала формата 5.1 микшируются в главный центральный канал, причем данный канал содержит, главным образом, информацию о центральном канале, так как низкочастотный канал содержит только сигналы с такой низкой частотой, что местоположение источника сигналов едва ли может быть определено людьми. Может быть выгодно дополнительно управлять значением ICC, полученным, как описано выше, с помощью параметров, описывающих главный центральный канал. Это можно сделать, например, с помощью взвешивания значения ICC с помощью информации об энергии, причем информация об энергии говорит о том, сколько энергии передается через главный центральный канал относительно главного стереоканала.

В дополнительном варианте осуществления настоящего изобретения процесс иерархического кодирования выполняют так, что на первом этапе левый фронтальный и правый фронтальный каналы аудиосигнала формата 5.1 микшируются в главный фронтальный канал, тогда как левый тыловой и правый тыловой каналы микшируются в главный тыловой канал. Поэтому в каждом из процессов микширования генерируют значение ICC, которое содержит информацию о важной лево-правой когерентности. Объединенный и передаваемый параметр ICC затем получают из объединения двух отдельных значений ICC, причем преимущественный способ получения передаваемого параметра ICC состоит в том, чтобы создавать взвешенную сумму значений ICC, используя параметры уровня каналов как веса.

В модификации изобретения центральный канал и низкочастотный канал микшируются в главный центральный канал, и впоследствии главный центральный канал и главный фронтальный канал микшируются в главный стереоканал. В последнем процессе микширования принимают корреляцию между центральным и стереоканалами, которую используют для управления или изменения передаваемого параметра ICC, таким образом также учитывая вклад центрального канала в фронтальный аудиосигнал. Основное преимущество предварительно описанной системы состоит в том, что можно создавать информацию когерентности так, что каналы, которые вносят самый большой вклад в аудиосигнал, главным образом определяют передаваемое значение ICC. Ими обычно будут фронтальные каналы, но, например, в многоканальном представлении музыкального концерта сигнал аплодирующей аудитории можно акцентировать, используя, главным образом, значение ICC тыловых каналов. Дополнительным преимуществом является то, что распределение веса между фронтальным и тыловым каналами может изменяться динамически, в зависимости от пространственных свойств многоканального аудиосигнала.

В одном из вариантов осуществления настоящего изобретения соответствующий изобретению иерархический декодер выполнен с возможностью приема меньшего количества параметров ICC, чем требуется согласно количеству существующих этапов декодирования. Декодер выполнен с возможностью получения параметров ICC, требуемых для каждого этапа декодирования, из принятых параметров ICC.

Это можно делать, получая дополнительные параметры ICC, используя правило получения, которое основано на принятых параметрах ICC и принятых значениях ICLD, или вместо этого - с помощью использования предопределенных значений.

В предпочтительном варианте осуществления, однако, декодер предназначен для использования единственного переданного параметра ICC для каждого отдельного этапа декодирования. Это выгодно, так как самая важная корреляция, лево-правая корреляция, сохраняется в передаваемом параметре ICC в рамках соответствующей изобретению концепции. Когда дело обстоит так, слушатель воспринимает воспроизводимый сигнал, который имеет большое сходство с исходным сигналом. Нужно помнить, что параметр ICC определяет перцепционную широту восстановленного сигнала. Если декодер изменяет переданный параметр ICC после передачи, то параметры ICC, описывающие перцепционную широту восстановленного сигнала, могут стать в значительной степени отличающимися для лево-правой и для фронтально-тыловой корреляции при иерархическом воспроизведении. Это было бы самым большим недостатком, т.к. слушатель, который перемещает или вращает свою голову, воспринимает сигнал, который становится перцепционно шире или уже, что, конечно, вызывает наибольшее беспокойство. Этого можно избежать, распространяя один принятый параметр ICC для блоков декодирования иерархического декодера.

В другом предпочтительном варианте осуществления соответствующий изобретению декодер предназначен для приема всего набора значений ICC или, альтернативно, одного значения ICC, причем декодер распознает применяемую стратегию декодирования, принимая указание стратегии в пределах битового потока. Такой обратно совместимый декодер может работать в средах предшествующего уровня техники, декодируя сигналы предшествующего уровня техники, которые передают весь набор данных ICC.

ПЕРЕЧЕНЬ ФИГУР ЧЕРТЕЖЕЙ

Далее описаны предпочтительные варианты осуществления настоящего изобретения с помощью обращения к прилагаемым чертежам, на которых:

фиг.1 - структурная схема варианта осуществления соответствующего изобретению иерархического звукового кодера;

фиг.2 - вариант осуществления соответствующего изобретению звукового кодера;

фиг.2a - возможная схема управления параметрами IIC соответствующего изобретению звукового кодера;

фиг.3a, b - графические представления дополнительной информации канала;

фиг.4 - второй вариант осуществления соответствующего изобретению звукового кодера;

фиг.5 - структурная схема предпочтительного варианта осуществления соответствующего изобретению звукового декодера;

фиг.6 - вариант осуществления соответствующего изобретению звукового декодера;

фиг.7 - другой вариант осуществления соответствующего изобретению звукового декодера;

фиг.8 - соответствующий изобретению передатчик или устройство записи звука;

фиг.9 - соответствующий изобретению приемник или устройство воспроизведения звука;

фиг.10 - соответствующая изобретению система передачи;

фиг.11 - комбинированный стереокодер предшествующего уровня техники;

фиг.12 - представление структурной схемы цепочки кодера/декодера BCC предшествующего уровня техники;

фиг.13 - структурная схема воплощения блока синтеза BCC предшествующего уровня техники;

фиг.14 - представление схемы для определения параметров BCC; и

фиг.15 - иерархический кодер предшествующего уровня техники.

ПОДРОБНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Фиг.1 показывает структурную схему отвечающего изобретению кодера для генерации параметрического представления аудиосигнала. Фиг.1 показывает средство генерации (генератор) 220 для последующего объединения звуковых каналов и генерации пространственных параметров, описывающих пространственные свойства пар каналов, которые объединяются в одиночный канал. Фиг.1 дополнительно показывает средство 222 обеспечения для обеспечения параметрического представления многоканального аудиосигнала с помощью выбора информации разности уровней между каналами пар и определения показателя лево-правой когерентности, используя информацию когерентности, сгенерированную генератором 220.

Для демонстрации принципа соответствующей изобретению концепции иерархического многоканального звукового кодирования фиг.1 показывает случай, когда четыре исходных звуковых канала с 224a по 224d итерационно объединяются, получая в результате одиночный канал 226. Исходные звуковые каналы 224a и 224b представляют левый фронтальный и левый тыловой каналы исходного четырехканального аудиосигнала, каналы 224c и 224d представляют правый фронтальный и правый тыловой каналы соответственно. Без потери общности, только два из различных пространственных параметров показаны на фиг.1 (ICLD и ICC). Согласно изобретению генератор 220 объединяет звуковые каналы с 224a по 224d таким образом, чтобы во время процесса объединения мог быть получен параметр ICC, который переносит важную информацию лево-правой когерентности.

На первом этапе каналы, содержащие только информацию с левой стороны, 224a и 224b, объединяются в главный левый канал 228a (L), и два канала, содержащие только информацию с правой стороны, 224c и 224d, объединяются в главный правый канал 228b (R). Во время этого объединения генератор генерирует два параметра 230a и 230b ICLD, оба из которых являются пространственными параметрами, содержащими информацию о разности уровней двух исходных каналов, объединяемых в один единственный канал. Генератор также генерирует два параметра 232a и 232b ICC, которые описывают корреляцию между этими двумя каналами, объединяемыми в один канал. Параметры ICLD и ICC 230a, 230b, 232a и 232b перемещают к средству 222 обеспечения.

На следующем этапе процесса иерархической генерации главный левый канал 228a объединяют с главным правым каналом 228b в результирующий звуковой канал 226, причем генератор обеспечивает параметр 234 ICLD и параметр 236 ICC, и их оба передают средству 222 обеспечения. Важно отметить, что параметр 236 ICC, сгенерированный на этом этапе объединения, главным образом представляет важную информацию лево-правой когерентности исходного четырехканального аудиосигнала, представленного звуковыми каналами с 224a по 224d.

Поэтому средство 222 обеспечения создает параметрическое представление 238 из доступных пространственных параметров 230a, b, 232a, b, 234 и 236 так, что параметрическое представление содержит параметры 230a, 230b, 234 и 236.

Фиг.2 показывает предпочтительный вариант осуществления соответствующего изобретению звукового кодера, который кодирует многоканальные сигналы формата 5.1 в один монофонический сигнал.

Фиг.2 показывает три блока преобразования с 240a по 240c, пять средств с 242a по 242e микширования (2-в-1) двух каналов в один канал, блок 244 объединения параметров и блок 246 обратного преобразования. Исходный 5.1-канальный аудиосигнал задается левым фронтальным каналом 248a, левым тыловым каналом 248b, правым фронтальным каналом 248c, правым тыловым каналом 248d, центральным каналом 248e и низкочастотным каналом 248f. Важно отметить, что исходные каналы группируются таким образом, чтобы каналы, содержащие только информацию с левой стороны, 248a и 248b, формировали одну пару каналов, каналы, содержащие только информацию с правой стороны, 248c и 248d, формировали другую пару каналов, и чтобы центральный канал 248e и 248f низкочастотный канал формировали третью пару каналов.

Блоки преобразования с 240a по 240c преобразовывают каналы с 248a по 248f из временной области в их спектральное представление с 250a по 250f в области частотных подполос. На первом иерархическом этапе кодирования 252 левые каналы 250a и 250b кодируются в главный левый канал 254a, правые каналы 250c и 250d кодируются в главный правый канал 254b, и центральный канал 250e и низкочастотный канал 250f кодируются в главный центральный канал 256. Во время этого первого этапа иерархического кодирования 252 три участвующих кодера с 242a по 242c 2-в-1 генерируют каналы 254a, 254b и 256 микширования и, кроме того, наборы важных пространственных параметров 260a, 260b и 260c, причем набор параметров 260a (набор параметров 1) описывает пространственную информацию между каналами 250a и 250b, набор параметров 260b (набор параметров 2) описывает пространственное соотношение между каналами 250c и 250d, и набор параметров 260c (набор параметров 3) описывает пространственное соотношение между каналами 250e и 250f.

На втором иерархическом этапе 262 главный левый канал 254a и главный правый канал 254b микшируются в главный стереоканал 264, генерируя пространственный набор параметров 266 (набор параметров 4), причем параметр ICC этого набора параметров 266 содержит важную информацию лево-правой корреляции. Для создания объединенного значения ICC из набора параметров 266 набор параметров 266 можно перемещать к блоку 244 объединения параметров через соединение 268 для передачи данных. На третьем этапе 272 иерархического кодирования главный стереоканал 264 объединяют с главным центральным каналом 256 для формирования результирующего монофонического канала 274. Набор параметров 276, который получают во время данного процесса микширования, может быть передан через соединение 278 для передачи данных к блоку 244 объединения параметров. Наконец, результирующий канал 274 преобразуют во временную область с помощью блока 246 обратного преобразования для создания монофонического аудиосигнала 280 микширования, который является окончательным монофоническим акустическим представлением исходных 5.1-канальных сигналов, представленных звуковыми каналами с 248a по 248f.

Для восстановления исходных 5.1-канальных аудиосигналов из монофонического звукового канала 280 микширования дополнительно необходимо параметрическое представление 5.1-канальных аудиосигналов. Из древовидной структуры, показанной на фиг.2, можно заметить, что левые фронтальный и тыловой каналы объединены в L-сигнал 254a. Точно так же правые фронтальный и тыловой каналы объединены в R-сигнал 254b. Впоследствии выполняют объединение L и R-сигналов, которое обеспечивает набор параметров номер 4 (266). В случае этой иерархической структуры простой способ получения объединенного значения ICC состоит в том, чтобы выбрать значение ICC набора параметров номер 4 и взять его в качестве объединенного значения ICC, которое затем включают в параметрическое представление 5.1-канальных сигналов с помощью блока 244 объединения параметров. Более сложные способы могут также учитывать влияние центрального канала (например, при использовании параметров из набора параметров номер 5), как показано на фиг.2a.

В качестве примера отношение E(LR)/E(C) энергии, содержавшейся в канале LR (264) и в канале C (256) из набора параметров номер 5, может быть использовано для управления значением ICC. В случае, если большая часть энергии приходит из тракта LR, передаваемое значение ICC должно быть близко к значению ICC (LR) набора параметров номер 4. В случае, если большая часть энергии приходит из C-тракта 256, передаваемое значение ICC должно стать впоследствии близким к 1, как указано на фиг.2a. Данная фигура показывает два возможных способа осуществления этого управления параметром ICC, или с помощью переключения между двумя предельными значениями, когда данное отношение энергии пересекает заданное пороговое значение 286 (управляющая функция 288a), или с помощью постепенного перехода между предельными значениями (управляющая функция 288b).

Фиг.3a и 3b показывают сравнение возможного параметрического представления 5.1-канального аудиосигнала, доставляемого от структуры иерархического кодера, используя методику предшествующего уровня техники (фиг.3a) и используя отвечающую изобретению концепцию для аудиокодирования (фиг.3b).

Фиг.3a показывает параметрическое представление одного временного кадра и дискретного частотного интервала, как это обеспечивалось бы с помощью методики предшествующего уровня техники. Каждый из кодеров с 242a по 242e 2-в-1 по фиг.2 доставляет одну пару параметров ICLD и ICC, происхождение пар параметров указано на фиг.3a. Следуя подходу предшествующего уровня техники, все наборы параметров, которые обеспечиваются с помощью кодеров с 242a по 242e 2-в-1, должны передаваться вместе с микшированным монофоническим аудиосигналом 280 в качестве дополнительной информации для восстановления 5.1-канальных аудиосигналов.

Фиг.3b показывает параметры, которые получают, следуя отвечающей изобретению концепции. Каждый из кодеров с 242a по 242e 2-в-1 непосредственно вносит только один параметр, параметр ICLD. Единственный передаваемый ICC параметр ICC_C получают с помощью блока 244 объединения параметров и его не обеспечивают непосредственно с помощью кодеров с 242a по 242e 2-в-1. Как ясно видно на фиг.3a и 3b, отвечающая изобретению концепция иерархического кодера может значительно уменьшать количество данных дополнительной информации по сравнению с методиками предшествующего уровня техники.

Фиг.4 показывает другой предпочтительный вариант осуществления существующего изобретения, который предоставляет возможность кодировать 5.1-канальный аудиосигнал в монофонический аудиосигнал в процессе иерархического кодирования и обеспечивать компактную дополнительную информацию. Поскольку принципиальная структура оборудования эквивалентна структуре, описанной на фиг.2, те же самые элементы на двух фигурах маркируют теми же самыми номерами. Различие существует из-за различного группирования входных каналов с 248a по 248f, и, следовательно, порядок, в котором одиночные каналы микшируются в монофонический канал 274, отличается от порядка микширования на фиг.2. Поэтому в последующем описываются только аспекты, отличающиеся от описания по фиг.2, которые являются жизненно важными для понимания варианта осуществления настоящего изобретения, показанного на фиг.4.

Левый фронтальный канал 248a и правый фронтальный канал 248c группируются для формирования пары каналов, центральный канал 248e и низкочастотный канал 248f формируют другую пару входных каналов, и третью пару входных каналов аудиосигнала формата 5.1 формируют левый тыловой канал 248b и правый тыловой канал 248d.

На первом этапе иерархического кодирования 252 левый фронтальный канал 250a и правый фронтальный канал 250c микшируются в главный фронтальный канал 290 (F), центральный канал 250e и низкочастотный канал 250f микшируются в главный центральный канал 292 (C), и левый тыловой канал 250b и правый тыловой канал 250d микшируются в главный тыловой канал 294 (S). Набор параметров 300a (набор параметров 1) описывает главный фронтальный канал 290, набор параметров 300b (набор параметров 2) описывает главный центральный канал 292, и набор параметров 300c (набор параметров 3) описывает главный тыловой канал 294.

Важно отметить, что набор параметров 300a, так же как набор параметров 300c, содержит информацию, которая описывает важную лево-правую корреляцию между исходными каналами с 248a по 248f. Поэтому набор параметров 300a и набор параметров 300c предоставляются блоку 244 объединения параметров через линии 302a и 302b передачи данных.

На втором этапе 262 кодирования главный фронтальный канал 290 и главный центральный канал 292 микшируются в чистый фронтальный канал 304, генерируя набор параметров 300d (набор параметров 4). Этот набор параметров 300d также предоставляют блоку 244 объединения параметров через линию 306 передачи данных.

На третьем этапе 272 иерархического кодирования чистый фронтальный канал 304 микшируют с главным тыловым каналом 294 в результирующий канал 274 (M), который затем преобразуют во временную область с помощью блока 246 обратного преобразования для формирования окончательного монофонического звукового канала 280 микширования. Набор параметров 300e (набор параметров 5), который создают при микшировании чистого фронтального канала 304 и главного тылового канала 294, также предоставляют блоку 244 объединения параметров через линию 310 передачи данных.

Древовидная структура на фиг.4 сначала выполняет объединение левых и правых каналов отдельно для фронтальной и тыловой сторон. Таким образом основная лево-правая корреляция/когерентность присутствует в наборах параметров 1 и 3 (300a, 300c). Объединенное значение ICC можно создавать с помощью блока 244 объединения параметров, создавая взвешенное среднее значение между значениями ICC наборов параметров 1 и 3. Это означает, что больше веса будет даваться более сильным парам каналов (Lf/Rf по сравнению с Lr/Rr). То же самое можно достигать с помощью получения параметра ICC_C объединенного ICC, создавая взвешенную сумму: ICC_C = (A*ICC₁ + B*ICC₂)/(A + B), причем A обозначает энергию в пределах пары каналов, соответствующих ICC₁, и B обозначает энергию в пределах пары каналов, соответствующих ICC₂.

В альтернативном варианте осуществления более сложные способы могут также учитывать влияние центрального канала (например, учитывая параметры набора параметров номер 4).

Фиг.5 показывает отвечающий изобретению декодер для обработки принятой компактной дополнительной информации, которая является параметрическим представлением исходного четырехканального аудиосигнала. Фиг.5 содержит блок 310 приема для обеспечения компактного параметрического представления четырехканального аудиосигнала и блок 312 обработки для обработки компактного параметрического представления так, чтобы доставлялось полное параметрическое представление четырехканального аудиосигнала, которое дает возможность восстановить четырехканальный аудиосигнал из принятого монофонического аудиосигнала.

Блок 310 приема принимает пространственные параметры ICLD (B) 314, ICLD (F) 316, ICLD (R) 318 и ICC 320. Обеспеченное параметрическое представление, состоящее из параметров 314-320, описывает пространственные свойства исходных звуковых каналов с 324a по 324d.

В качестве первого этапа разложения блок 312 обработки предоставляет пространственные параметры, описывающие первую пару каналов 326a, которая является объединением двух каналов 324a и 324b (Rf и Lf), и вторую пару каналов 326b, которая является объединением двух каналов 324c и 324d (Rr и Lr). Для того чтобы это сделать, требуется разность уровней 314 пар каналов. Поскольку пары каналов 326a и 326b содержат левый канал, а также правый канал, разность между парами каналов описывает, главным образом, фронтально-тыловую корреляцию. Поэтому принятый параметр 320 ICC, который переносит, главным образом, информацию о лево-правой когерентности, обеспечивается блоком 312 обработки так, что информацию лево-правой когерентности предпочтительно используют для предоставления отдельных параметров ICC для пар каналов 326a и 326b.

На следующем этапе блок 312 обработки предоставляет соответствующие пространственные параметры для обеспечения возможности восстановления одиночных звуковых каналов 324a и 324b из канала 326a и каналов 324c и 324d из канала 326b. Для этого блок 312 обработки предоставляет разности 316 и 318 уровней, и блок 312 обработки должен предоставлять соответствующие значения ICC для двух пар каналов, так как каждая из пар каналов 326a и 326b содержит важную информацию лево-правой когерентности.

В одном из примеров блок 312 обработки может просто обеспечивать значение 320 объединенного принятого ICC для пар каналов 326a и 326b разложения. Альтернативно, значение 320 объединенного принятого ICC можно взвешивать для получения отдельных значений ICC для двух пар каналов, причем взвешивание, например, основано на разности уровней 314 этих двух пар каналов.

В предпочтительном варианте осуществления настоящего изобретения блок обработки обеспечивает принятый параметр 320 ICC для каждого отдельного этапа разложения, чтобы избежать введения дополнительных искажений во время воспроизведения каналов с 324a по 324d.

Фиг.6 показывает предпочтительный вариант осуществления декодера, реализующего процедуру иерархического декодирования согласно настоящему изобретению для декодирования монофонического аудиосигнала в многоканальный аудиосигнал формата 5.1, используя компактное параметрическое представление исходного аудиосигнала формата 5.1.

Фиг.6 показывает блок 350 преобразования, блок 352 обработки параметров, пять декодеров с 354a по 354e 1-в-2 и три блока с 356a по 356c обратного преобразования.

Следует отметить, что вариант осуществления отвечающего изобретению декодера согласно фиг.6 - аналог кодера, описанного на фиг.2, и он предназначен для приема монофонического звукового канала 358 микширования, в отношении которого затем будет выполнено разложение в аудиосигнал формата 5.1, состоящий из звуковых каналов 360a (lf), 360b (lr), 360c (rf), 360d (rr), 360e (co) и 360f (lfe). Канал 358 (m) микширования принимают и преобразуют из временной области в частотную область в его частотное представление 362, используя блок 350 преобразования. Блок 352 обработки параметров принимает объединенный и компактный набор пространственных параметров 364 параллельно с каналом 358 микширования.

На первом этапе 363 процесса иерархического декодирования монофонический канал 362 микширования разлагают на главный стереоканал 364 (LR) и главный центральный канал 366 (C).

На втором этапе 368 процесса иерархического декодирования главный стереоканал 364 разлагают на главный левый канал 370 (L) и главный правый канал 372 (R).

На третьем этапе процесса декодирования главный левый канал 370 разлагают на левый фронтальный канал 374a и левый тыловой канал 374b, главный правый канал 372 разлагают на правый фронтальный канал 374c и правый тыловой канал 374d, и главный центральный канал 366 разлагают на центральный канал 374e и низкочастотный канал 374f.

Наконец, шесть одиночных звуковых каналов с 374a по 374f преобразуются блоками с 356a по 356c обратного преобразования в их представление во временной области, и таким образом создается восстановленный аудиосигнал формата 5.1, который имеет шесть звуковых каналов с 360a по 360f. Для сохранения исходных пространственных свойств аудиосигнала формата 5.1 блок 352 обработки параметров, особенно способ, которым блок обработки параметров обеспечивает отдельные наборы параметров с 380a по 380e, является жизненно важным, особенно способ, которым блок 352 обработки параметров получает отдельные наборы параметров с 380a по 380e.

Принятый объединенный параметр ICC описывает важную лево-правую когерентность исходных шести каналов аудиосигнала. Поэтому блок 352 обработки параметров создает значение ICC набора параметров 4 (380d) так, что оно имеет сходство с информацией лево-правой корреляции первоначально принятого пространственного значения, передаваемого в пределах набора параметров 364. В самом простом воплощении блок 352 обработки параметров просто использует принятый объединенный параметр ICC.

Другой предпочтительный вариант осуществления декодера согласно настоящему изобретению показан на фиг.7, причем декодер по фиг.7 является аналогом кодера на фиг.4.

Поскольку кодер на фиг.7 содержит те же самые функциональные блоки, как декодер на фиг.6, последующее обсуждение ограничено этапами, которыми процесс иерархического декодирования отличается от процесса на фиг.6. Это происходит главным образом вследствие того, что монофонический сигнал 362 разлагают в другом порядке и при другой комбинации каналов, поскольку исходный аудиосигнал формата 5.1 микширован по-другому, чем принятый сигнал на фиг.6.

На первом этапе 363 процесса иерархического декодирования монофонический сигнал 362 разлагают на главный тыловой канал 400 (S) и чистый фронтальный канал 402 (CF).

На втором этапе 368 чистый фронтальный канал 402 разлагают на главный фронтальный канал 404 и главный центральный канал 406.

На третьем этапе 372 декодирования главный фронтальный канал разлагают на левый фронтальный канал 374a и правый фронтальный канал 374c, главный центральный канал 406 разлагают на центральный канал 374e и низкочастотный канал 374f, и главный тыловой канал 400 разлагают на левый тыловой канал 374b и правый тыловой канал 374d. Наконец, эти шесть звуковых каналов с 374a по 374f преобразуют из частотной области в их представления во временной области с 360a по 360f, создавая восстановленный аудиосигнал формата 5.1.

Для сохранения пространственных свойств исходных сигналов формата 5.1, которые кодер кодирует как дополнительную информацию, блок 352 обработки параметров предоставляет наборы параметров с 410a по 410e декодерам с 354a по 354e 1-в-2. Поскольку важная информация лево-правой корреляции необходима в третьем процессе 372 разложения для создания каналов Lf, Rf, Lr и Rr, блок 352 обработки параметров может обеспечивать соответствующее значение ICC в наборах параметров 410a и 410c, в самом простом воплощении, просто используя передаваемый параметр ICC для создания наборов параметров 410a и 410c. В возможном альтернативном случае принятый параметр ICC можно преобразовывать в отдельные параметры для наборов параметров 410a и 410c, применяя соответствующую функцию взвешивания к принятому параметру ICC, их вес, например, зависит от энергии, передаваемой в главном фронтальном канале 404 и в главном тыловом канале 400. В еще более сложном воплощении блок 352 обработки параметров может также учитывать информацию центрального канала для обеспечения отдельного значения ICC для набора параметров 5 и набора параметров 4 (410a, 410b).

Фиг.8 показывает отвечающий изобретению звуковой передатчик или устройство записи звука 500, который имеет кодер 220, входной интерфейс 502 и выходной интерфейс 504.

Аудиосигнал может быть подан на входной интерфейс 502 передатчика/устройства записи звука 500. Аудиосигнал кодируют, используя отвечающий изобретению кодер 220 из состава передатчика/устройства записи звука, и кодированное представление выводят на выходной интерфейс 504 передатчика/устройства записи звука 500. Кодированное представление затем может быть передано или сохранено на носителе данных.

Фиг.9 показывает отвечающий изобретению приемник или устройство воспроизведения звука 520, имеющий отвечающий изобретению декодер 312, вход 522 битового потока и звуковой выход 524.

Битовый поток можно вводить на вход 522 отвечающего изобретению приемника/устройства воспроизведения звука 520. Битовый поток затем декодируют, используя декодер 312, и декодированный сигнал выводят или воспроизводят на выходе 524 изобретенного приемника/устройства воспроизведения звука 520.

Фиг.10 показывает систему передачи, содержащую отвечающий изобретению передатчик 500 и отвечающий изобретению приемник 520.

Аудиосигнал, вводимый на входном интерфейсе 502 передатчика 500, кодируют и перемещают от выхода 504 передатчика 500 к входу 522 приемника 520. Приемник декодирует аудиосигнал и воспроизводит или выводит аудиосигнал на своем выходе 524.

Обсуждаемые примеры отвечающих изобретению декодеров микшируют многоканальный аудиосигнал в монофонический аудиосигнал. Конечно, альтернативно можно микшировать многоканальный сигнал в стереофонический сигнал, что, например, означает для вариантов осуществления, обсуждаемых на фиг.2 и 4, что один этап в процессе иерархического кодирования может быть опущен. Также возможно другое количество результирующих каналов.

Предложенный способ иерархического кодирования или декодирования многоканальной звуковой информации, обеспечивающий/использующий компактное параметрическое представление пространственных свойств аудиосигнала, описан, главным образом, для сокращения дополнительной информации с помощью объединения множества значений ICC в одно единственное передаваемое значение ICC. Следует отметить, что описанное изобретение никоим образом не ограничено использованием только одного объединенного значения ICC. Вместо этого, например, можно генерировать два объединенных значения, одно из которых описывает важную лево-правую корреляцию, а другое описывает фронтально-тыловую корреляцию.

Это может быть выгодным образом осуществлено, например, в варианте осуществления существующего изобретения, показанном на фиг.2, где с одной стороны левый фронтальный канал 250a и левый тыловой канал 250b объединяются в главный левый канал 254a и где правый фронтальный канал 250c и правый тыловой канал 250d объединяются в главный тыловой канал 254b. Таким образом, на этих двух этапах кодирования вырабатывают информацию о фронтально-тыловой корреляции исходного аудиосигнала, которую можно легко обрабатывать для обеспечения дополнительного значения ICC, содержащего информацию фронтально-тыловой корреляции.

Кроме того, в предпочтительной модификации существующего изобретения выгодно иметь процессы кодирования/декодирования, которые могут и использовать отдельно передаваемые параметры предшествующего уровня техники, и, в зависимости от дополнительной информации сигнализации, которую посылают с кодера на декодер, также использовать объединенные передаваемые параметры. Такая система может преимущественно достигать и более высокой точности представления (используя отдельно передаваемые параметры) и, альтернативно, низкого расхода дополнительной информации на отсчет (используя объединенные параметры).

Как правило, выбор этого параметра настройки делает пользователь в зависимости от требований применения, таких как количество дополнительной информации, которое может приспособить под себя используемая система передачи. Это позволяет использовать одну и ту же унифицированную архитектуру кодера/декодера, которая может работать в пределах широкого диапазона компромиссов между соответствующим дополнительной информации расходом битов на отсчет/точность. Это является важной возможностью для того, чтобы охватить широкий диапазон возможных применений с отличающимися требованиями и пропускной способностью.

В другой модификации такого преимущественного варианта осуществления выбор режима работы также можно делать автоматически с помощью кодера, который анализирует, например, отклонение декодированных значений от идеального результата в случае, если используется режим объединенной передачи. Если не найдено существенного отклонения, то используется передача объединенного параметра. Декодер может даже сам определять, основываясь на анализе обеспечиваемой дополнительной информации, какой режим подходит для использования. Например, если обеспечивается только один пространственный параметр, то декодер автоматически переключается в режим декодирования, использующий объединенные передаваемые параметры.

В другой преимущественной модификации настоящего изобретения кодер/декодер автоматически переключается из режима использования объединенных передаваемых параметров в режим использования отдельно передаваемых параметров для обеспечения возможно лучшего соотношения между качеством воспроизведения звука и требуемым низким расходом битов на отсчет, соответствующим дополнительной информации.

Как можно заметить из описанных предпочтительных вариантов осуществления кодеров/декодеров на фиг.2, 4, 6 и 7, эти устройства используют те же самые функциональные блоки. Поэтому в другом предпочтительном варианте осуществления создают кодер и декодер, используя то же самое оборудование в пределах одного корпуса.

В альтернативном варианте осуществления настоящего изобретения можно динамически переключаться между различными схемами кодирования с помощью группирования различных каналов в пары каналов, что позволяет динамически использовать схему кодирования, которая обеспечивает возможно лучшее качество звука для данного многоканального аудиосигнала.

Нет необходимости передавать монофонический канал микширования вместе с параметрическим представлением многоканального аудиосигнала. Также можно передавать параметрическое представление отдельно для предоставления возможности слушателю, который уже имеет монофонический микшированный многоканальный аудиосигнал, например, в виде записи, воспроизводить многоканальный сигнал, используя его существующую многоканальную аппаратуру и параметрическую дополнительную информацию.

Вкратце, настоящее изобретение позволяет определять эти объединенные параметры преимущественно из известных параметров предшествующего уровня техники. Применяя соответствующую изобретению концепцию объединения параметров в иерархической структуре кодера/декодера, можно микшировать многоканальный аудиосигнал в основанное на монофоническом сигнале параметрическое представление, получая точную параметризацию исходного сигнала с низким расходом битов на отсчет, соответствующим дополнительной информации (= уменьшение расхода битов на отсчет).

Одной из целей настоящего изобретения является то, чтобы кодер объединял определенные параметры с целью сокращения количества параметров, которые должны передаваться. Затем декодер получает недостающие параметры из параметров, которые были переданы, вместо того, чтобы использовать значения параметра по умолчанию, как это происходит в системах предшествующего уровня техники, например, в той, которая показана на фиг.15.

Это преимущество становится очевидным, рассматривая снова вариант осуществления иерархического параметрического многоканального звукового кодера, использующий методики предшествующего уровня техники, пример, показанный на фиг.15. Там, входные сигналы (Lf, Rf, Lr, Rr, C и LFE, соответствующие левому фронтальному, правому фронтальному, левому тыловому, правому тыловому, центральному каналам и низкочастотному каналу расширения соответственно) сегментируются и преобразуются в частотную область для получения необходимых неперекрывающихся элементов времени/частоты. Результирующие сигналы впоследствии попарно объединяются. Например, сигналы Lf и Lr объединяются для формирования сигнала «L». Соответствующий набор пространственных параметров (1) генерируют для моделирования пространственных свойств между сигналами Lf и Lr (т.е. состоящий из одного или большего количества IID, ICC, IPD). В варианте осуществления согласно предшествующему уровню техники, показанному на фиг.15, этот процесс повторяют до тех пор, пока не будет получен один выходной канал (M), причем данный выходной канал сопровождается пятью наборами параметров. Применение методик иерархического кодирования предшествующего уровня техники подразумевает дальнейшую передачу всех наборов параметров.

Следует отметить, однако, что не все наборы параметров должны содержать значения для всех возможных пространственных параметров. Например, набор параметров 1 на фиг.15 может состоять из параметров IID и ICC, в то время как набор параметров 3 может состоять только из параметров IDD. Если некоторые параметры не передаются для определенных наборов, то иерархический декодер предшествующего уровня техники будет применять значения по умолчанию для этих параметров (например, ICC = + 1, IPD = 0 и т.д.). Таким образом, каждый набор параметров представляет комбинацию только определенных сигналов и не описывает пространственные свойства остальных пар каналов.

Эту потерю информации о пространственных свойствах сигналов, чьи параметры не передаются, можно избежать, используя отвечающую изобретению концепцию, согласно которой кодер объединяет определенные параметры так, что самые важные пространственные свойства исходного сигнала сохраняются.

Когда, например, параметры ICC объединяются в одно значение, объединенные параметры могут использоваться в декодере вместо всех отдельных параметров (или отдельный параметр, используемый в декодере, может быть получен из переданных параметров). Важной особенностью является то, что процесс объединения параметров кодера выполняют так, что звуковой образ исходного многоканального сигнала сохраняют настолько точно, насколько это возможно, после реконструкции декодером. Передавая параметры ICC, это означает, что ширина (декорреляция) исходного звукового поля должна быть сохранена.

Следует отметить, что самым важным значением ICC является значение ICC между левым и правым каналами, так как слушатель обычно смотрит вперед при прослушивании. Это может учитываться преимущественно для создания структуры иерархического кодирования так, что подходящее параметрическое представление аудиосигнала может быть получено в течение процесса итерационного кодирования, причем результирующее объединенное значение ICC представляет, главным образом, лево-правую декорреляцию. Это будет объяснено более подробно позже при обсуждении предпочтительных вариантов осуществления настоящего изобретения.

Отвечающая изобретению схема кодирования/декодирования позволяет уменьшать количество передаваемых с кодера на декодер параметров, используя иерархическую структуру системы пространственного звука, посредством двух следующих показателей:

- объединение отдельных параметров кодера для формирования объединенного параметра, который передают на декодер вместо отдельных параметров. Объединение параметров выполняют так, что звуковой образ сигнала (включающего в себя L/R корреляцию/когерентность) сохраняется в максимально возможной степени;

- передаваемый объединенный параметр используют в декодере вместо нескольких отдельных передаваемых параметров (или фактически используемые параметры получают из объединенного параметра).

В зависимости от конкретных требований по реализации отвечающих изобретению способов отвечающие изобретению способы могут быть воплощены в оборудовании или в программном обеспечении. Воплощение можно выполнять, используя цифровой носитель данных, в частности диск, цифровой многофункциональный диск (DVD) или компакт-диск (CD), содержащий считываемые с помощью электроники управляющие сигналы, которые взаимодействуют с программируемой компьютерной системой так, чтобы выполнялись отвечающие изобретению способы. Таким образом, в общем случае настоящее изобретение является компьютерным программным продуктом с кодом программы, хранящимся на машиночитаемом носителе, причем код программы предназначен для выполнения отвечающих изобретению способов, когда компьютерный программный продукт исполняется на компьютере. Другими словами, отвечающие изобретению способы, таким образом, являются компьютерной программой, имеющей код программы для выполнения по меньшей мере одного из отвечающих изобретению способов, когда данная компьютерная программа исполняется на компьютере.

Хотя вышеизложенное конкретно показано и описано в отношении конкретных вариантов осуществления, специалистам будет понятно, что могут быть сделаны различные другие изменения в форме и деталях, не отступая от объема и сущности изобретения. Следует понимать, что различные изменения могут быть сделаны при согласовании с различными вариантами осуществления, не отступая от раскрытых более широких концепций и осмысливая их с помощью приведенной далее формулы изобретения.

Источник поступления информации: Роспатент

‹ › ×

Авторы
Правообладатели

Showing 1-10 of 336 items.

20.08.2013

№216.012.5f96

Способ сварки и конструктивный элемент

Изобретение может быть использовано при ремонте конструктивных элементов с заполнением сваркой углублений поврежденной области. Углубление (4) имеет контур (16), который ограничивает наружную поверхность (13) конструктивного элемента относительно углубления (4). Углубление (4) заполняют слоями...

Тип: Изобретение

Номер охранного документа: 0002490102

Дата охранного документа: 20.08.2013