×
09.06.2019
219.017.7a58

СПОСОБ СОВМЕЩЕНИЯ ПАРАМЕТРИЧЕСКОГО МНОГОКАНАЛЬНОГО АУДИОКОДИРОВАНИЯ С МАТРИЧНЫМ МНОГОКАНАЛЬНЫМ КОДИРОВАНИЕМ ОБЪЕМНОГО ЗВУЧАНИЯ

Вид РИД

Изобретение

Юридическая информация Свернуть Развернуть
№ охранного документа
0002382418
Дата охранного документа
20.02.2010
Краткое описание РИД Свернуть Развернуть
Аннотация: Изобретение относится к многоканальному аудиокодированию и передаче и, в частности, к способам кодирования многоканального аудиосигнала, полностью обратно совместимого со стереоустройствами и форматами. Сущность изобретения состоит в том, чтобы совместить параметрическое многоканальное аудиокодирование с матричным многоканальным кодированием объемного звучания путем постепенного улучшения звука сигнала прямого смешения при повышении скорости передачи данных, используемой для передачи побочной информации, начиная с 0 и до скоростей передачи данных, используемых для параметрических способов. Более конкретно - оно обеспечивает способ гибкого выбора "рабочей точки" где-либо между матричной реконструкцией объемного звучания (отсутствие побочной информации, ограниченное аудиокачество) и полностью параметрической реконструкцией (полная требуемая скорость передачи побочной информации, хорошее качество). Эта рабочая точка может быть выбрана динамически (то есть, изменяясь во времени) и в ответ на допустимую скорость передачи побочной информации, когда она диктуется индивидуальным применением. Технический результат - обеспечение эффективного кодирования многоканальных аудиосигналов и в то же время обратно совместимое с решениями для кодирования на матричной основе. 4 н. и 9 з.п. ф-лы, 10 ил.
Реферат Свернуть Развернуть

Область изобретения

Настоящее изобретение относится к многоканальному аудиокодированию и передаче и, в частности, к способам кодирования многоканального аудиосигнала, полностью обратно совместимого со стереоустройствами и форматами, позволяющим проводить эффективное кодирование многоканальных аудиосигналов.

Предшествующий уровень техники

Параметрическое кодирование многоканальных аудиосигналов является предметом непрерывных исследований. В целом, можно выделить два подхода к кодированию многоканальных аудиосигналов. Комитет по стандартизации методов цифровой компрессии потоков видеоданных (MPEG) Международной Организации Стандартизации (ISO) в настоящее время работает над стандартизацией технологии для реконструкции многоканального аудиоконтента из стерео- или даже моносигналов с преобразованием «вниз» (прямым смешением) путем добавления лишь небольшого количества справочной информации к преобразованным прямым смешением сигналам.

Для параллельного преобразования «вверх» (обратного смешения) стерео в многоканальное аудио разрабатываются способы, которые не нуждаются ни в какой дополнительной побочной информации сверх той, которая уже (в неявном виде) содержится в сигнале прямого смешения, чтобы реконструировать пространственный образ первоначального многоканального аудиосигнала.

Существующие способы стереосовместимой многоканальной передачи без дополнительной побочной информации, которые приобрели практическое значение, могут характеризоваться, главным образом, как способы с матричным представлением объемного звучания, такие как Dolby Pro Logic (Dolby Pro Logic II) и Logic-7, как описано более подробно в "Dolby Surround Pro Logic II Decoder - Principles of Operation", http://www.dolby.com/assets/pdf/tech_ library/209_Dolby_Surround_Pro_Logic_II_Decoder_Principles_of_Operation.pdf и в "Multichannel Matrix Surround Decoders for Two-Eared Listeners", Griesinger, D., 101st AES Convention, Los Angeles, USA, 1996, Preprint 4402. Общий принцип этих способов заключается в том, что они используют заранее определенные способы многоканального или стереопрямого смешения, где кодер применяет фазовые сдвиги к каналам объемного звучания перед смешиванием их вместе с фронтальным и центральным каналами, чтобы сформировать стереосигнал прямого смешения. Создание сигнала (Lt, Rt) прямого смешения описывается следующим уравнением:

Левый сигнал (Lt) прямого смешения содержит левый - фронтальный сигнал (Lf), центральный сигнал (C), умноженный на коэффициент q, левый - объемный сигнал (Ls), повернутый по фазе на 90° ("j") и умноженный на масштабный коэффициент a, и правый - объемный сигнал (Rs), который также повернут по фазе на 90° и умножен на масштабный коэффициент b. Правый сигнал (Rt) прямого смешения создается подобным образом. Типичные коэффициенты при преобразовании вниз равны 0,707 для q и a и 0,408 для b. Обоснование разных знаков каналов объемного звучания для правого сигнала (Rt) прямого смешения и левого сигнала (Lt) прямого смешения заключается в том, что выгодно смешивать каналы объемного звучания в противофазе в паре при прямом смешении (Lt, Rt). Это свойство помогает декодеру различать передний и задний каналы из пары сигналов прямого смешения. Следовательно, матрица прямого смешения позволяет осуществить частичную реконструкцию многоканального выходного сигнала из стереосигнала прямого смешения внутри декодера, применяя операцию обратного матричного преобразования. Насколько близко воссозданный многоканальный сигнал походит на первоначальный входной сигнал кодера, зависит, однако, от конкретных свойств многоканального аудиоконтента.

Примером способа кодирования, добавляющего справочную информацию, также называемую побочной информацией, является аудиокодирование MPEG Surround. Этот эффективный способ параметрического многоканального аудиокодирования описан, например, в "The Reference Model Architecture for MPEG Spatial Audio Coding", Herre, J., Purnhagen, H., Breebaart, J., Faller, C., Disch, S., Kjoerling, K., Schuijers, E., Hilpert, J., Myburg, F., Proc. 118th AES Convention, Barcelona, Spain, 2005 и в "Text of Working Draft for Spatial Audio Coding (SAC)", ISO/IEC JTC1/SC29/WG11 (MPEG), Document N7136, Busan, Korea, 2005.

Схематическое представление кодера, используемого при пространственном аудиокодировании, показано на фиг.6. Кодер разделяет поступающие сигналы 10 (входной сигнал 1,... входной сигнал N) на отдельные элементы с зависимостью "частота-время" посредством квадратурных зеркальных фильтров 12 (QMF). Возникающие в результате группы частотных элементов (полос) упоминаются как "полосы параметров". Для каждой полосы параметров множество пространственных параметров 14 определяется устройством 16 анализа параметров, который описывает свойства пространственного образа, например разницы уровней между парами каналов (CLD), взаимная корреляция между парами каналов (ICC) или информация об огибающих сигналах (CPC). Эти параметры в дальнейшем квантуются, кодируются и компилируются совместно в битовый поток пространственных данных. В зависимости от рабочего режима, этот битовый поток может охватывать широкий диапазон скоростей передачи данных, начиная от нескольких кбит/сек для достижения многоканального аудио хорошего качества и до десятков кбит/сек для почти абсолютно точного качества.

Помимо извлечения параметров, кодер также создает из многоканального входного сигнала моно- или стереосигнал прямого смешения. Кроме того, в случае стереосигнала прямого смешения пользователь имеет на выбор вариант обычного (ITU-стиль) стереосигнала прямого смешения или вариант прямого смешения, который совместим с матричными системами представления объемного звучания. Наконец, стереосигнал прямого смешения преобразуется во временную область посредством групп 18 QMF-синтеза. Результирующий сигнал прямого смешения может быть передан на декодер, сопровождаясь пространственными параметрами или битовым потоком 14 пространственных параметров. Предпочтительно, сигнал прямого смешения также кодируется перед передачей (используя обычный моно- или стерео- основной кодер), хотя битовые потоки основного кодера и пространственные параметры могут дополнительно объединяться (мультиплексироваться), чтобы формировать единый выходной битовый поток.

Декодер, схематично показанный на фиг.7, в принципе, выполняет процесс, обратный процессу, выполняемому кодером. Входящий поток разделяется на битовый поток основного кодера и битовый поток параметров. Это не показано на фиг.7. Затем декодированный сигнал 20 прямого смешения обрабатывается группой 22 QMF-анализа, чтобы получить полосы параметров, которые являются теми же самыми, которые применялись в кодере. Устройство 24 пространственного синтеза восстанавливает многоканальный сигнал с помощью управляющих данных 26 (то есть переданных пространственных параметров). Наконец, сигналы QMF-области преобразуются во временную область посредством группы 27 устройств QMF-синтеза, которая получает окончательные многоканальные выходные сигналы 28.

На фиг.8 показан простой пример QMF-анализа, как он выполняется в кодере предшествующего уровня техники, показанном на фиг.6, и декодере предшествующего уровня техники, показанном на фиг.7. Выборка 30 аудиосигнала, взятая во временной области и имеющая четыре значения выборки, вводится в группу 32 фильтров. На выходе группы 32 фильтров получаются три выходных выборки 34a, 34b и 34c, каждая из которых имеет четыре значения выборки. В идеальном случае на выходе группы 32 фильтров получают выходные выборки 34a-34c, так что выборки внутри выходных сигналов содержат только информацию о диапазонах дискретных частот основного аудиосигнала 30. В случае, показанном на фиг.8, выборка 34a имеет информацию об интервале частот в диапазоне от f0 до fl, выборка 34b имеет информацию об интервале частот [fl, f2] и выборка 34c имеет информацию об интервале частот [f2, f3]. Хотя интервалы частот на фиг.8 не перекрываются, в более общем случае интервалы частот выходных выборок на выходе группы фильтров могут иметь весьма значительное перекрытие частот.

Кодер предшествующего уровня техники, как уже описывалось выше, может обеспечивать либо сигнал ITU-типа прямого смешения, либо сигнал прямого смешения с матричным представлением объемного звучания, когда желателен двухканальный сигнал прямого смешения. В случае сигнала прямого смешения с совместимым матричным представлением объемного звучания (используемого для примера матричного подхода, приведенного в уравнении 1), возможна вероятность, что кодер напрямую создает сигнал прямого смешения с совместимым матричным представлением объемного звучания.

На фиг.9 показан альтернативный подход к созданию сигнала прямого смешения, совместимого с системой объемного звучания, используя блок 30 заключительной обработки сигнала прямого смешения, работающий с регулярным стереосигналом 32 прямого смешения. Процессор 30 системы объемного звучания (кодек MTX) изменяет регулярный стереосигнал 32 прямого смешения так, чтобы сделать его совместимым с системой объемного звучания, управляемой пространственными параметрами 14, извлеченными устройством 16 извлечения параметров. Для передачи сигнал 34 прямого смешения, совместимый с системой объемного звучания, преобразуется во временную область с помощью QMF-синтеза, используя группу 18 QMF-синтеза.

Получение совместимого с системой объемного звучания сигнала посредством заключительной обработки регулярного стереосигнала прямого смешения имеет то преимущество, что обработка совместимости с системой объемного звучания может быть полностью реверсирована на стороне декодера, если в наличии имеются пространственные параметры.

Хотя оба подхода пригодны для передачи многоканального сигнала, в системах предшествующего уровня техники имеются определенные недостатки. Способы объемного звучания очень эффективны (поскольку не требуются никакие дополнительные параметры) за счет очень ограниченного качества многоканальной реконструкции.

Параметрические многоканальные подходы, с другой стороны, требуют более высокой скорости передачи данных из-за побочной информации, которая становится проблемой, когда предел устанавливается как максимальная приемлемая скорость передачи данных для параметрического представления. Когда кодируемые параметры требуют сравнительно высокой величины скорости передачи данных, единственный возможный способ остаться в пределах такого ограничения скорости передачи данных состоит в снижении качества кодируемого канала при преобразовании вниз посредством повышения сжатия канала. Следовательно, результатом является общая потеря качества звука, которая может быть недопустимо высокой. Другими словами, для параметрических многоканальных методов часто существует жесткое ограничение минимальной скорости передачи данных, требуемой для уровня пространственных параметров, которое в некоторых случаях может быть неприемлемо высоким.

Хотя принципиальная обратная совместимость между способами объемного звучания и пространственными аудиоспособами может быть достигнута с помощью кодера предшествующего уровня техники, показанного на фиг.9, никакая дополнительная скорость передачи данных не может быть сохранена при таком подходе, когда требуется только декодирование на матричной основе. Даже тогда должен быть передан полный набор пространственных параметров, тратя напрасно ширину полос передачи.

Принимая во внимание, что скорость передачи данных, которая должна быть использована при применении параметрического способа, может быть слишком высокой в случае определенных сценариев применения, качество аудио, полученного способами без передачи побочной информации, может быть недостаточным.

Патентная заявка США 2005157883 представляет устройство для создания многоканального аудиосигнала, используя входной сигнал и параметрическую побочную информацию, причем входной сигнал содержит первый входной канал и второй входной канал, полученные из первоначального многоканального сигнала, а параметрическая побочная информация описывает взаимосвязи между каналами многоканального исходного сигнала.

Сущность изобретения

Задача настоящего изобретения заключается в том, чтобы обеспечить более эффективное кодирование многоканальных аудиосигналов и в то же самое время обратно совместимое с решениями для кодирования на матричной основе.

В соответствии с первым аспектом настоящего изобретения эта задача решается многоканальным аудиодекодером для обработки аудиосигнала и для обработки первых параметрических данных, описывающих первую часть многоканального сигнала, причем для второй части многоканального сигнала никакие параметрические данные не обрабатываются или обрабатываются вторые параметрические данные, причем вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала, содержащие процессор для получения промежуточного сигнала из аудиосигнала, используя первое правило получения для получения первой части промежуточного сигнала, причем первая часть промежуточного сигнала соответствует первой части многоканального аудиосигнала, причем первое правило получения зависит от первых параметрических данных; и используя второе правило получения для получения второй части промежуточного сигнала, причем второе правило получения не использует никаких параметрических данных или использует вторые параметрические данные.

В соответствии со вторым аспектом настоящего изобретения эта задача решается с помощью многоканального кодера для создания параметрического представления, описывающего пространственные свойства многоканального аудиосигнала, причем многоканальный кодер содержит генератор параметров для создания пространственных параметров, выходной интерфейс для создания параметрического представления, причем генератор параметров или выходной интерфейс выполнены с возможностью создания параметрического представления, параметрическое представление содержит первые параметрические данные для первой части многоканального сигнала, а для второй части многоканального сигнала в параметрическом представлении не содержится никаких параметрических данных или содержатся вторые параметрические данные, при этом вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.

В соответствии с третьим аспектом настоящего изобретения эта задача решается способом обработки аудиосигнала и обработки первых параметрических данных, описывающих первую часть многоканального сигнала, причем для второй части многоканального сигнала никакие параметрические данные или вторые параметрические данные не обрабатываются, вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала, причем способ содержит этапы, на которых получают промежуточный сигнал из сигнала прямого смешения, используя первое правило получения, зависящее от первых параметрических данных, для получения первой части промежуточного сигнала, причем первая часть промежуточного сигнала соответствует первой части многоканального аудиосигнала; и получают вторую часть промежуточного сигнала, используя второе правило получения, причем второе правило получения использует вторые параметрические данные или не использует никаких параметрических данных.

В соответствии с четвертым аспектом настоящего изобретения эта задача решается способом создания параметрического представления, описывающего пространственные свойства многоканального аудиосигнала, причем способ содержит этапы, на которых создают пространственные параметры и создают параметрическое представление так, что параметрическое представление содержит первые параметрические данные для первой части многоканального сигнала, причем для второй части многоканального сигнала в параметрическом представлении не содержатся никакие параметрические данные или содержатся вторые параметрические данные, при этом вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.

В соответствии с пятым аспектом настоящего изобретения эта задача решается с помощью параметрического представления, описывающего пространственные свойства многоканального аудиосигнала, при этом параметрическое представление содержит первые параметрические данные для первой части многоканального сигнала, параметрическое представление не содержит никаких параметрических данных или содержит вторые параметрические данные для второй части многоканального сигнала, при этом вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.

В соответствии с шестым аспектом настоящего изобретения эта задача решается с помощью компьютерной программы, имеющей программный код для выполнения, при исполнении на компьютере, способа обработки аудиосигнала и обработки первых параметрических данных, описывающих первую часть многоканального сигнала, причем для второй части многоканального сигнала никакие параметрические данные не обрабатываются или обрабатываются вторые параметрические данные, причем вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала, причем способ содержит получение промежуточного сигнала из сигнала прямого смешения, используя первое правило получения, зависящее от первых параметрических данных, для получения первой части промежуточного сигнала, причем первая часть промежуточного сигнала соответствует первой части многоканального аудиосигнала; и получения второй части промежуточного сигнала, используя второе правило получения, причем второе правило получения использует вторые параметрические данные или не использует никаких параметрических данных.

В соответствии с седьмым аспектом настоящего изобретения эта задача решается с помощью компьютерной программы, имеющей программный код для выполнения, при исполнении на компьютере, способа создания параметрического представления, описывающего пространственные свойства многоканального аудиосигнала, причем способ содержит создание пространственных параметров и создание параметрического представления так, что параметрическое представление содержит первые параметрические данные для первой части многоканального сигнала, причем в параметрическом представлении для второй части многоканального сигнала не содержится никаких параметрических данных или содержатся вторые параметрические данные, при этом вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.

В соответствии с восьмым аспектом настоящего изобретения эта задача решается транскодером для создания параметрического представления многоканального аудиосигнала, используя пространственные параметры, описывающие пространственные свойства многоканального аудиосигнала, причем транскодер содержит генератор параметров для создания параметрического представления, причем параметрическое представление содержит первые параметрические данные, получаемые из пространственных параметров для первой части многоканального сигнала, причем в параметрическом представлении для второй части многоканального сигнала не содержится никаких параметрических данных или содержатся вторые параметрические данные, при этом вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.

Настоящее изобретение основано на том факте, что многоканальный аудиосигнал может быть эффективно представлен параметрическим представлением, когда первое правило получения используется для получения первых параметрических данных параметрического представления, описывающих первую часть многоканального сигнала, и когда для второй части многоканального сигнала в параметрическом представлении содержатся вторые параметрические данные или не содержится никаких параметрических данных, принимая во внимание, что вторые параметрические данные требуют меньшего количества информационных единиц, чем первые параметрические данные, при описании одинаковых частей многоканального сигнала.

Таким образом, первая часть многоканального сигнала представляется первыми параметрами, позволяющими произвести реконструкцию многоканального сигнала с более высоким качеством, и вторая часть может быть представлена вторыми параметрами, позволяющими произвести реконструкцию с несколько более низким качеством. Скорость передачи данных, используемая первыми параметрическими данными, соответственно выше, чем скорость передачи данных, используемая вторыми параметрическими данными, когда и те и другие параметрические данные должны описывать одну и ту же часть многоканального сигнала. Другими словами, первые параметры требуют большей скорости передачи данных в расчете на некоторую часть сигнала, чем вторые параметры.

Задача изобретения состоит в том, чтобы совместить оба направления предшествующего уровня техники, постепенно улучшая звук сигнала прямого смешения при повышении скорости передачи данных используемой побочной информации, начиная от 0 и до скоростей передачи данных, используемых параметрическими способами. То есть настоящее изобретение направлено на ликвидацию разрыва в скоростях передачи данных и качестве восприятия между полностью параметрическими способами и матричными способами представления объемного звучания. Более конкретно, оно обеспечивает способ гибкого выбора "рабочей точки" где-то между матричным представлением объемного звучания (без побочной информации, с ограниченным качеством аудиосигнала) и полностью параметрической реконструкцией (требуется полная скорость передачи побочной информации, хорошее качество). Эта рабочая точка может выбираться динамически (то есть с изменением во времени) и в ответ на допустимую скорость передачи побочной информации, как она диктуется индивидуальным применением.

Путем динамического выбора размера первой части многоканального аудиосигнала, которая является частью многоканального аудиосигнала, представляемого пространственными аудиопараметрами, требуемая скорость передачи данных может меняться в пределах широкого диапазона. Представление основных частей многоканального сигнала с помощью пространственных аудиопараметров потребует сравнительно высокой скорости передачи данных для получения хорошего качества восприятия. Поскольку для второй части многоканального аудиосигнала выбирается правило получения параметров, в результате использования которого требуется меньшая скорость передачи данных, результирующая общая скорость передачи данных может быть уменьшена путем увеличения размера второй части многоканального сигнала. В предпочтительном варианте осуществления настоящего изобретения для второй части многоканального сигнала никакие параметрические данные вообще не передаются, что, конечно, позволяет максимально экономить на скорости передачи двоичных сигналов. Поэтому посредством динамического изменения размера первой части по отношению к размеру второй части скорость передачи данных (или качество восприятия) может динамически регулироваться в соответствии с потребностями.

В предпочтительном варианте осуществления настоящего изобретения сигнал прямого смешения получается матрично совместимым способом. Поэтому первая часть многоканального аудиосигнала может быть воспроизведена с высоким качеством восприятия, используя пространственные аудиопараметры, а вторая часть многоканального сигнала может быть воспроизведена, используя решения на основе матриц. Это позволяет выполнять высококачественное воспроизведение частей сигналов, требующих повышенного качества. В то же самое время общая скорость передачи данных снижается, опираясь на воспроизведение на основе матриц для частей сигнала, менее критичных для качества воспроизводимого сигнала.

В дополнительном предпочтительном варианте осуществления настоящего изобретения концепция изобретения применяется на стороне декодера в пределах QMF-представления принятого сигнала прямого смешения. Процесс обратного смешения принципиально может быть разделен на три этапа:

предварительная обработка входных сигналов (сигналов прямого смешения, принятых в QMF-области) путем применения матрицы предварительного декоррелятора;

декорреляция части предварительно обработанных сигналов; и

смешение полученных таким образом сигналов (предварительно обработанных сигналов и декоррелированных сигналов) внутри матрицы смешения, при этом выходным результатом смешения являются каналы сигнала прямого смешения.

Как матрица предварительного декоррелятора, так и матрица смешения являются двумерными матрицами с размерностями "число временных интервалов", с одной стороны, и "число полос параметров", с другой стороны. В пределах процесса декодирования элементы этих матриц заполняются значениями, которые выводятся из параметров, считанных из битового потока пространственных данных, то есть с помощью первых параметрических данных. Когда первые параметрические данные принимаются только для первой части многоканального сигнала, только эта часть реконструкции многоканального сигнала может быть получена, используя предоставленные первые параметрические данные. Матричные элементы для получения второй части реконструкции многоканального сигнала в соответствии с настоящим изобретением получаются с использованием схемы совместимого с матрицами кодирования. Эти матричные элементы могут поэтому быть получены либо только на основании информации, извлеченной из сигнала прямого смешения, либо быть заменены на заранее определенные значения.

В предпочтительном варианте осуществления многоканальный аудиодекодер, соответствующий настоящему изобретению, распознает с помощью объема переданных первых параметрических данных, какая часть матричного или какая часть многоканального аудиосигнала должна быть обработана в соответствии с правилом, зависящим от пространственных параметров, и какая часть должна быть обработана в соответствии с решением, основанным на матрице.

В другом варианте осуществления настоящего изобретения аудиокодер создает информацию окна, указывая, какие части многоканального сигнала обрабатываются с помощью решения, основанного на матрице, или с помощью подхода, совместимого с пространственным аудиосигналом. Информация окна содержится в параметрическом представлении многоканального сигнала.

Декодер, соответствующий изобретению, поэтому способен принимать и обрабатывать информацию окна, созданную для применения соответствующих правил обратного смешения к частям многоканального аудиосигнала, указанным с помощью информации окна.

В предпочтительном варианте осуществления настоящего изобретения концепция изобретения применяется в QMF-области во время обработки сигнала, то есть в области, в которой сигналы представлены многочисленными представлениями и каждое представление содержит информацию об определенной полосе частот.

В дополнительном предпочтительном варианте осуществления настоящего изобретения способ, свободный от побочной информации (подход, основанный на матрице), применяется только к более высокочастотным частям, тогда как (явная) параметрическая информация (то есть первое правило кодирования и декодирования) применяется для надлежащего воспроизведения низкочастотных частей. Это создает выгоду из-за свойства человеческого слуха гораздо легче замечать малые отклонения двух подобных сигналов (например, фазовые отклонения) для низких частот, чем для высоких частот.

Большим преимуществом настоящего изобретения является то, что обратная совместимость схемы кодирования и декодирования пространственного аудиосигнала с решениями, основанными на матрицах, достигается без необходимости вводить дополнительное аппаратурное или программное обеспечение, когда правила кодирования и декодирования пространственных аудиокодеров выбраны соответствующим образом.

Кроме того, совместимость достигается без необходимости передавать дополнительные данные, как это имеет место в случаях на предшествующем уровне техники. Схема кодирования, соответствующая настоящему изобретению, кроме того, чрезвычайно гибка, поскольку позволяет плавно регулировать скорости передачи данных или качество, то есть плавно переходить от кодирования, полностью основанного на матрицах, к полному пространственному аудиокодированию конкретного сигнала. То есть применяемая схема кодирования может приспосабливаться к фактическим нуждам, ориентируясь либо на требуемую скорость передачи данных, либо на желаемое качество.

Краткое описание чертежей

Предпочтительные варианты осуществления настоящего изобретения в дальнейшем описываются со ссылкой на приложенные чертежи, на которых

фиг. l - кодер, соответствующий изобретению;

фиг. 2 - иллюстрация примера двоичного потока параметров, созданного с помощью принципа изобретения;

фиг. 2a - транскодер, соответствующий изобретению;

фиг. 3 - декодер, соответствующий изобретению;

фиг. 4 - иллюстрация примера пространственного аудиодекодера, соответствующего изобретению;

фиг. 5 - проиллюстрировано использование различных схем кодирования на стороне декодера;

фиг. 6 - кодер, соответствующий предшествующему уровню техники;

фиг. 7 - декодер, соответствующий предшествующему уровню техники;

фиг. 8 - блок-схема группы фильтров; и

фиг. 9 - иллюстрация дополнительного примера кодера, соответствующего предшествующему уровню изобретения.

Подробное описание предпочтительных вариантов осуществления

На фиг.1 показан многоканальный кодер, соответствующий изобретению. Многоканальный кодер 100 имеет генератор 102 параметров и выходной интерфейс 104.

Многоканальный аудиосигнал 106 поступает на кодер 100, в котором обрабатываются первая часть 108 и вторая часть 110 многоканального сигнала 106. Генератор 102 параметров принимает первую часть 108 и вторую часть 110 и создает пространственные параметры, описывающие пространственные свойства многоканального сигнала 106.

Пространственные параметры передаются на выходной интерфейс 104, который создает параметрическое представление 112 из многоканального сигнала 106, в котором параметрическое представление 112 содержит первые параметрические данные для первой части 108 многоканального сигнала и в котором для второй части 110 многоканального сигнала 106 вторые параметрические данные, требующие меньшего количества информации, чем первые параметрические данные, или не требующие никаких параметрических данных, содержатся в параметрическом представлении 112.

Для решения одной и той же задачи возможны несколько разновидностей многоканального кодера 100. Например, генератор 102 параметров может применять два различных правила получения параметров к первой части 108 и ко второй части 110, что приводит в результате к различным наборам параметров, которые затем передаются в выходной интерфейс 104, который объединяет различные наборы параметров в параметрическое представление 112. Особый и предпочтительный случай заключается в том, что для второй части 110 в параметрическое представление не вводятся никакие параметры (и поэтому не создаются генератором 102 параметров), поскольку на стороне декодера декодер получает требуемые параметры декодирования с помощью некоторых эвристических правил.

Другая возможность состоит в том, что генератор 102 параметров получает полный набор пространственных аудиопараметров как для первой части 108, так и для второй части 110. Следовательно, выходной интерфейс 104 должен обрабатывать пространственные параметры при условии, чтобы вторые параметрические данные требовали меньшее количество битов, чем первые параметрические данные.

Кроме того, выходной интерфейс 104 может добавлять дополнительный сигнал окна к параметрическому представлению 112, что должно сообщить декодеру, как во время кодирования многоканальный сигнал 106 был разделен на первую часть 108 и на вторую часть 110. В модифицированном варианте предпочтительного варианта осуществления многоканального кодера 100 многоканальный кодер 100 может дополнительно иметь устройство принятия решения по делению на части для определения, какая часть многоканального сигнала 106 используется в качестве первой части 108 и какая часть используется в качестве второй части 110 решения, основанного на критерии качества.

Критерий качества может быть получен в отношении результирующей общей скорости передачи данных параметрического представления 112 или в отношении аспектов качества, учитывая качество восприятия воспроизведения многоканального сигнала 106, основанного на параметрическом представлении 112.

Главное преимущество состоит в том, что скорость передачи данных, используемая при параметрическом представлении, может, таким образом, варьироваться во времени, полагая, что критерий качества удовлетворяется в любое время в течение кодирования, позволяя в то же время общее снижение требуемой скорости передачи данных по сравнению со способами, соответствующими предшествующему уровню техники.

На фиг.2 показан пример параметрического представления 112, созданного кодером, соответствующим изобретению.

Как упоминалось выше, обработка аудиосигналов делается блочным способом, то есть множество следующих друг за другом выборок многоканального сигнала во временной области, образующих так называемый кадр, обрабатываются на одном этапе. На фиг.2 показан битовый поток параметров, то есть параметрическое представление для двух последовательных кадров. Битовый поток параметров имеет представление высококачественного кадра 120 и представление более низкокачественного кадра 122. Во время кодирования высококачественного кадра 120 было принято решение, что первая часть 108, которая представляется параметрическими данными, должна быть большей по сравнению со второй частью, что может, например, иметь место, когда аудиосцена, которая должна кодироваться, довольно сложна. Двоичный поток параметров, показанный на фиг.2, кроме того, создается при предположении, что используется предпочтительный вариант осуществления кодера, соответствующего изобретению, который не получает никаких параметрических данных для второй части 110 многоканального сигнала 106. Как можно видеть на фиг.2, в параметрическом представлении используются 28 пространственные параметры ICC и ICLD, чтобы описать высококачественный кадр 120. Например, 28 пространственные параметры описывают низкочастотные полосы QMF-представления многоканального сигнала.

Низкокачественный кадр 122 содержит только 21 набор пространственных параметров, имеющих параметры ICC и ICLD, поскольку это было признано достаточным для желаемого качества восприятия.

На фиг.2a показан транскодер 150, соответствующий изобретению. Транскодер, соответствующий изобретению, в качестве входных данных принимает входной поток 152 битовых данных, имеющий полный набор пространственных параметров, описывающих первый кадр 154 и второй кадр 156 многоканального аудиосигнала.

Транскодер 150 создает поток 158 битовых данных, содержащий параметрическое представление, представляющее пространственные свойства многоканального аудиосигнала. В примере, показанном на фиг.2a, транскодер 150 создает параметрическое представление, в котором для первого кадра число 160 параметров уменьшается лишь очень незначительно. Число 162 параметров, описывающих второй кадр, соответствующий входным параметрам 156, существенно уменьшено, что существенно уменьшает величину скорости передачи данных, необходимую для результирующего параметрического представления. Такой транскодер 150, соответствующий изобретению, может поэтому использоваться для заключительной обработки уже существующего потока битовых данных пространственных параметров, чтобы получить параметрическое представление, соответствующее изобретению, требующее меньшей скорости передачи данных во время передачи или меньшего пространства хранения, когда оно запоминается на читаемом компьютером носителе. Здесь следует заметить, что, конечно, также возможно осуществить транскодер для транскодирования в другом направлении, то есть использовать параметрическое представление для создания пространственных параметров.

Транскодер 150, соответствующий изобретению, может быть осуществлен множеством различных способов, например, путем снижения количества параметров с помощью заданного правила или путем дополнительного приема многоканального аудиосигнала, чтобы проанализировать снижение скорости передачи данных, возможное без нарушения качества восприятия, выходящего за допустимый предел.

На фиг.3 показан многоканальный аудиодекодер 200, соответствующий изобретению, имеющий процессор 202.

Процессор принимает в качестве входного сигнал 204 прямого смешения, получаемый из многоканального аудиосигнала, первые параметрические данные 206, описывающие первую часть многоканального сигнала, и для второй части многоканального сигнала принимает необязательные вторые параметрические данные 208, требующие меньшего количества битов, чем первые параметрические данные 206. Процессор 202 создает промежуточный сигнал 210 из сигнала 204 прямого смешения, используя первое правило получения для получения высококачественной части 212 промежуточного сигнала, причем высококачественная часть 212 промежуточного сигнала 212 соответствует первой части многоканального аудиосигнала. Процессор 202 использует второе правило получения для второй части 214 промежуточного сигнала 210, причем второе правило получения использует вторые параметрические данные или не использует никаких параметрических данных, причем первое правило получения зависит от первых параметрических данных 206.

Промежуточный сигнал 210, полученный процессором 202, образуется из комбинации высококачественной части 212 и второй части 214.

Многоканальный аудиодекодер 200 может самостоятельно определять, какие части сигнала 204 прямого смешения должны обрабатываться с помощью первых параметрических данных 206 путем применения некоторых соответствующих правил, например, путем подсчета числа пространственных параметров, содержащихся в первых параметрических данных 206. Альтернативно, процессору 202 с помощью некоторой дополнительной информации окна, которая получается на стороне кодера и которая дополнительно передается на многоканальный аудиодекодер 200, могут быть сообщены отдельные доли высококачественной части 212 и второй части 214 в пределах сигнала 204 прямого смешения.

В предпочтительном варианте осуществления вторые параметрические данные 208 отсутствуют и процессор 202 создает второе правило получения из информации, уже содержащейся в сигнале 204 прямого смешения.

На фиг.4 дополнительно показан вариант осуществления настоящего изобретения, в котором соответствующий изобретению признак матричной совместимости вводится в пространственный аудиодекодер. Многоканальный аудиодекодер 600 содержит предварительный декоррелятор 601, декоррелятор 602 и преобразующую матрицу 603.

Многоканальный аудиодекодер 600 является гибким устройством, позволяющим работать в различных режимах, в зависимости от конфигурации входных сигналов 605, поступающих на предварительный декоррелятор 601. В целом, предварительный декоррелятор 601 получает промежуточные сигналы 607, которые служат в качестве входных сигналов для декоррелятора 602 и которые частично передаются неизмененными, чтобы вместе с декоррелированными сигналами, вычисленными декоррелятором 602, сформировать входные сигналы 608. Входные сигналы 608 являются сигналами, поступающими на вход преобразующей матрицы 603, которая получает конфигурации 610a или 610b выходных каналов, в зависимости от конфигурации 605 входных каналов.

В конфигурации 1-5 сигнал прямого смешения и необязательный остаточный сигнал подаются на предварительный декоррелятор 601, который получает четыре промежуточных сигнала (е1-e4), использующихся в качестве входных сигналов декоррелятора, который получает четыре декоррелированных сигнала (dl-d4), которые формируют входные параметры 608 вместе с напрямую переданным сигналом m, полученным из входного сигнала.

Можно заметить, что в случае, когда дополнительный остаточный сигнал подается в качестве входного сигнала, декоррелятор 602, который обычно работает в области субполосы, может действовать так, чтобы просто направлять остаточный сигнал вместо получения декоррелированого сигнала. Это может также делаться способом отбора частот только для определенных полос частот.

В конфигурации 2-5 входные сигналы 605 содержат сигналы левого канала, правого канала и, необязательно, остаточный сигнал. В этой конфигурации матрица 601 предварительного декоррелятора получает сигналы левого, правого и центрального каналов и, кроме того, двух промежуточных каналов (e1, e2). Следовательно, входные сигналы на матрицу 603 смешения формируются сигналами левого канала, правого канала, центрального канала центра и двумя декоррелироваными сигналами (dl и d2).

В дополнительной модификации матрица предварительного декоррелятора может производить дополнительный промежуточный сигнал (e5), который используется в качестве входного сигнала для декоррелятора (D5}, выходной сигнал которого представляет собой комбинацию декоррелированого сигнала (d5), произведенного из сигнала (e5), и декоррелированых сигналов (dl и d2). В этом случае может быть гарантирована дополнительная декорреляция между центральным каналом и левым, и правым каналами.

Аудиодекодер 600, соответствующий изобретению, осуществляет принцип изобретения в конфигурации 2-5. Переданное параметрическое представление используется в матрице 601 предварительной декорреляции и в матрице 603 смешения. В этом случае принцип изобретения может быть осуществлен различными способами, как показано более подробно на фиг.5.

На фиг.5 предварительный декоррелятор, реализованный в виде матрицы 601 предварительного декоррелятора, и матрица 603 смешения показаны на чертеже, демонстрирующем принцип работы, на котором другие компоненты многоканального аудиодекодера 600 не приведены.

Матрица, использованная для выполнения предварительной декорреляции и смешения, имеет столбцы, представляющие временные интервалы, то есть индивидуальные выборки сигнала во времени, и строки, представляющие различные полосы параметров, то есть каждая строка связана с одной полосой параметров аудиосигнала.

В соответствии с принципом настоящего изобретения матричные элементы матриц 601 и 603 только частично производятся из переданных параметрических данных, в которых остальные матричные элементы производятся декодером, основываясь, например, на знании сигнала прямого смешения. На фиг.5 показан один пример, где ниже граничной линии 622 заданной частоты 622 элементы матрицы 601 предварительного декоррелятора и матрицы 603 смешения производятся из параметров 620, считываемых из потока двоичных данных, то есть основываются на информации, переданной от кодера. Выше граничной линии 622 для частоты матричные элементы производятся в декодере, основываясь только на знании сигнала прямого смешения.

Частота пограничной линии (или, в целом, количество матричных элементов, произведенных из переданных данных) может свободно адаптироваться в соответствии с ограничениями по качеству и/или скорости передачи данных, которые должны удовлетворяться для конкретного прикладного сценария.

Для нового способа кодирования, описанного здесь, предпочтительно, чтобы процесс обратного смешения без использования побочной информации мог быть выполнен в той же самой структуре, которая была описана в эталонной модели 0 пространственного аудиокодирования MPEG. Настоящее изобретение может заключаться в описании способа обратного смешения без использования побочной информации, но предпочтительно обеспечивает способ для непрерывной и выгодной комбинации таких концепций со способами обратного смешения, поддерживаемыми побочной информацией.

В отличие от эталонной модели 0 пространственного аудиокодирования MPEG в процессе обратного смешения без использования побочной информации элементы матриц M1 (601) и M2 (603) предпочтительно производятся не из данных, переданных в потоке двоичных данных, а другими средствами без помощи побочной информации, например, применяя эвристические правила, основанные только на знании, полученном из прямого смешения сигнала.

Таким образом, имеется возможность достигнуть постепенного изменения соотношения между обоими методами - с точки зрения скорости передачи данных, а также с точки зрения качества звука - посредством получения только части матриц, основываясь на переданных параметрах и применяя правила способа без использования побочной информации для заполнения остающихся частей. Говоря в общем, это соответствует передаче для определенных частей матриц пространственных параметров и созданию других их частей в декодере.

Определение частей матриц, которые должны быть произведены тем или другим способом, может быть выполнено самыми разными способами, такими как

получение частей матриц ниже заданной горизонтальной граничной линии одним способом и выше этой граничной линии другим способом;

получение частей матриц слева от заданной вертикальной граничной линии одним способом и справа от этой граничной линии другим способом;

определение произвольных элементов "время-частота" внутри обоих матриц, элементы которых получаются одним способом, и получение элементов остальных элементов "время-частота" другим способом.

В предыдущих абзацах было подробно сказано, что преимущество состоит в том, чтобы описывать все части диапазона частот многоканального сигнала до определенной граничной частоты границы с помощью пространственных параметров, тогда как остальные части диапазона частот многоканального сигнала не представляются пространственными параметрами. Это учитывает характеристики человеческого слуха, который обладает лучшим восприятием более низких частот, чем высоких частот. Конечно, настоящее изобретение ни в коем случае не ограничивается этим разделением многоканального сигнала на первую часть и вторую часть, поскольку может также быть выгодно или необходимо описывать высокочастотные части сигнала с большей точностью. Это может чаще всего иметь место, когда в низкочастотном диапазоне сигнала содержится только небольшая часть энергии, тогда как большая часть энергии содержится в высокочастотной области аудиосигнала. Благодаря маскирующим эффектам над низкочастотной частью при этом в большой степени будут доминировать высокочастотные части и это может быть выгодно для обеспечения возможности высококачественного воспроизведения высокочастотной части сигнала.

В зависимости от определенных требований к реализации способов изобретения способы изобретения могут осуществляться посредством аппаратурного или программного обеспечения. Реализация может осуществляться, используя цифровой носитель данных, в частности цифровой универсальный диск DVD или компакт-диск CD с хранящимися на них электронно считываемыми управляющими сигналами, которые взаимодействуют с программируемой компьютерной системой таким образом, что способы изобретения выполняются. В целом, настоящее изобретение поэтому является компьютерным программным продуктом с программным кодом, хранящимся на читаемом машиной носителе, причем программный код которого действует для выполнения способов изобретения, когда компьютерный программный продукт исполняется на компьютере. Другими словами, способы, соответствующие изобретению, являются поэтому компьютерной программой, имеющей программный код для выполнения, по меньшей мере, одного из заявленных способов, когда компьютерная программа исполняется на компьютере.

Хотя вышесказанное показано и описано со ссылкой на конкретные варианты осуществления изобретения, специалистам в данной области техники будет понятно, что различные другие изменения в форме и деталях могут быть сделаны без отступления от сущности и объема настоящего изобретения. Должно быть понятно, что различные изменения могут быть сделаны при адаптации к различным вариантам осуществления, не отступая от более широких концепций, раскрытых здесь и содержащихся в формуле изобретения, приведенной далее.

Источник поступления информации: Роспатент

Показаны записи 1-2 из 2.
20.02.2019
№219.016.c116

Частотно-ориентированное кодирование каналов в параметрических системах многоканального кодирования

Изобретение относится к области стереофонических систем с более чем двумя каналами. Техническим результатом заявленного изобретения является снижение нагрузки по обработке данных и в кодере, и в декодере, а также уменьшение потоков битов кодов ВСС. Технический результат достигается тем, что...
Тип: Изобретение
Номер охранного документа: 0002323551
Дата охранного документа: 27.04.2008
18.05.2019
№219.017.5882

Устройство и способ для формирования многоканального выходного сигнала

Изобретение относится к многоканальному декодированию и, в частности, к многоканальному декодированию, при котором представлены, по меньшей мере, два канала передачи. По существу устройство для формирования многоканального выходного сигнала выполняет компенсацию центрального канала, чтобы...
Тип: Изобретение
Номер охранного документа: 0002361185
Дата охранного документа: 10.07.2009
Показаны записи 1-10 из 52.
20.06.2013
№216.012.4e39

Устройство и способ расчета коэффициентов фильтра эхоподавления

Изобретение относится к устройствам и способам расчета коэффициентов пропускания адаптивного фильтра, предназначенного для подавления эха микрофонного сигнала, возбуждаемого сигналом громкоговорителя. Техническим результатом является улучшение качества звука в системах подавления или...
Тип: Изобретение
Номер охранного документа: 0002485607
Дата охранного документа: 20.06.2013
20.09.2013
№216.012.6d3e

Устройство, способ и компьютерная программа для обеспечения набора пространственных указателей на основе сигнала микрофона и устройство для обеспечения двухканального аудиосигнала и набора пространственных указателей

Устройство для обеспечения набора пространственных указателей, связанных с аудиосигналом повышающего микширования, имеющим более двух каналов, на основе двухканального сигнала микрофона, содержит анализатор сигнала и генератор дополнительной пространственной информации. Анализатор сигнала...
Тип: Изобретение
Номер охранного документа: 0002493617
Дата охранного документа: 20.09.2013
10.10.2013
№216.012.7499

Устройство и способ расчета параметров управления фильтра эхоподавления и устройство и способ расчета величины задержки

Изобретение относится к устройствам и способам расчета параметров управления заграждающим фильтром. Техническим результатом является улучшение качества звучания акустических систем за счет подавления отраженных сигналов пропорционально уровню шумов. Устройство (200) для расчета параметров...
Тип: Изобретение
Номер охранного документа: 0002495506
Дата охранного документа: 10.10.2013
20.02.2015
№216.013.28a7

Аудио или видео кодер, аудио или видео и относящиеся к ним способы для обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания

Изобретение относится к средствам обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания. Технический результат заключается в повышении качества аудио или видео. Объединяют два аудио или видео канала для получения первого сигнала объединения в...
Тип: Изобретение
Номер охранного документа: 0002541864
Дата охранного документа: 20.02.2015
10.04.2015
№216.013.3b0a

Способ и кодер и декодер для воспроизведения без промежутка аудио сигнала

Заявленное изобретение относится к средствам для выдачи информации относительно достоверности закодированных аудиоданных. Технический результат заключается в обеспечении возможности обрезания недостоверных данных. Каждый блок закодированных аудиоданных может содержать информацию относительно...
Тип: Изобретение
Номер охранного документа: 0002546602
Дата охранного документа: 10.04.2015
10.04.2015
№216.013.3d89

Аудиокодек, поддерживающий режимы кодирования во временной области и в частотной области

Изобретение относится к средствам, поддерживающим режимы кодирования во временной области и в частотной области. Технический результат заключается в уменьшении задержки и повышении эффективности кодирования с точки зрения отношения скорость/искажения. Конфигурируют аудиокодер таким образом, что...
Тип: Изобретение
Номер охранного документа: 0002547241
Дата охранного документа: 10.04.2015
20.11.2015
№216.013.920e

Эхоподавление, содержащее моделирование компонентов поздней реверберации

Изобретение относится к устройствам для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра. Технический результат заключается в повышении качества звука системы эхоподавления или системы эхокомпенсации. Адаптивный фильтр используется для фильтрации сигнала микрофона, чтобы...
Тип: Изобретение
Номер охранного документа: 0002569006
Дата охранного документа: 20.11.2015
27.01.2016
№216.014.bca5

Устройство для декодирования сигнала, содержащего переходные процессы, используя блок объединения и микшер

Изобретение относится к средствам для генерирования декоррелированного сигнала. Технический результат заключается в повышении эффективности генерирования декоррелированного сигнала. Устройство содержит блок отделения сигнала переходного процесса, декоррелятор переходного процесса, второй...
Тип: Изобретение
Номер охранного документа: 0002573774
Дата охранного документа: 27.01.2016
10.03.2016
№216.014.cb83

Аудиокодер, аудиодекодер и связанные способы обработки многоканальных аудиосигналов с использованием комплексного предсказания

Изобретение относится к средствам кодирования и декодирования. Технический результат заключается в повышении качества аудиосигнала. Комбинируют два аудиоканала для получения первого комбинированного сигнала в качестве среднего сигнала и остаточного сигнала, который может быть выведен с...
Тип: Изобретение
Номер охранного документа: 0002577195
Дата охранного документа: 10.03.2016
10.04.2016
№216.015.30b9

Устройство для генерирования декоррелированного сигнала, используя переданную фазовую информацию

Изобретение относится к области декодирования аудио. Техническим результатом является исключение случаев, когда компоненты переходных сигналов имеют отрицательные акустические воздействия на выходные сигналы. Устройство для генерирования декоррелированного сигнала содержит блок (650) приема для...
Тип: Изобретение
Номер охранного документа: 0002580084
Дата охранного документа: 10.04.2016
+ добавить свой РИД