‹ › ×

01.11.2019

№219.017.dc7d

УСТРОЙСТВО И СПОСОБ КОДИРОВАНИЯ ИЛИ ДЕКОДИРОВАНИЯ МНОГОКАНАЛЬНОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ПАРАМЕТРА ШИРОКОПОЛОСНОГО ВЫРАВНИВАНИЯ И МНОЖЕСТВА ПАРАМЕТРОВ УЗКОПОЛОСНОГО ВЫРАВНИВАНИЯ

Вид РИД

Изобретение

Юридическая информация Юридическая информация Свернуть Развернуть

Авторы

Правообладатели

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

№ охранного документа

0002704733

Дата охранного документа

30.10.2019

Краткое описание РИД Краткое описание РИД Свернуть Развернуть

Аннотация: Изобретение относится к области технологий для кодирования многоканального сигнала. Технический результат заключается в повышении точности кодирования многоканального сигнала. Технический результат достигается за счет определения параметра широкополосного выравнивания и множества параметров узкополосного выравнивания из многоканального сигнала; выравнивания, по меньшей мере, двух каналов с использованием параметра широкополосного выравнивания и множества параметров узкополосного выравнивания для получения выровненных каналов; вычисления среднего сигнала и бокового сигнала с использованием выровненных каналов; кодирования среднего сигнала для получения кодированного среднего сигнала и кодирования бокового сигнала для получения кодированного бокового сигнала; и генерирования кодированного многоканального сигнала, содержащего кодированный средний сигнал, кодированный боковой сигнал, информацию о параметре широкополосного выравнивания и информацию о множестве параметров узкополосного выравнивания. 6 н. и 28 з.п. ф-лы, 16 ил.

Реферат Реферат Свернуть Развернуть

Настоящая заявка относится к обработке стереосигнала или, в общем случае, обработке многоканального сигнала, где многоканальный сигнал имеет два канала, например, левый канал и правый канал в случае стереосигнала, или более двух каналов, например, три, четыре, пять или любое другое количество каналов.

Речевой стереосигнал и, в частности, разговорный речевой стереосигнал привлекал гораздо меньшее научное внимание, чем хранение и вещание стереофонической музыки. Действительно, в настоящее время в речевой связи все же, по большей части, используется монофоническая передача. Однако с увеличением сетевой полосы и пропускной способности, предполагается, что связь на основе стереофонических технологий будет более популярной и создавать лучшее ощущение прослушивания.

Эффективное кодирование стереофонического аудиоматериала долгое время исследовалось в перцептивном аудиокодировании музыки для эффективного хранения или вещания. При высоких битовых скоростях, где важно сохранять форму волны, долгое время применялся суммарно-разностный стереосигнал, известный как средний/боковой (M/S) стереосигнал. Для низких битовых скоростей было введено кодирование стереосигнала по интенсивности, и более недавно, параметрическое кодирование стереосигнала. Последний метод принят в разных стандартах, например, HeAACv2 и Mpeg USAC. Он генерирует понижающее микширование двухканального сигнала и связывает компактную пространственную вспомогательную информацию.

Совместное кодирование стереосигнала обычно строится на основе временно-частотного преобразования сигнала высокого частотного разрешения, т.е. низкого временного разрешения, и поэтому не совместимо с низкой задержкой и обработкой во временной области, осуществляемой в большинстве речевых кодеров. Кроме того, порождаемая битовая скорость обычно высока.

С другой стороны, в параметрической стереофонии используется дополнительный банк фильтров, расположенный на входном каскаде кодера в качестве препроцессора и на выходном каскаде декодера в качестве постпроцессора. Таким образом, параметрическая стереофония может использоваться с традиционными речевыми кодерами, например ACELP, как это осуществляется в MPEG USAC. Кроме того, параметризация звуковой сцены может достигаться с минимальным объемом вспомогательной информации, пригодной для низких битовых скоростей. Однако параметрическая стереофония, например, в MPEG USAC, в частности, не предназначенном для низкой задержки и не доставляет согласованного качества для разных разговорных сценариев. В традиционном параметрическом представлении пространственной сцены, ширина стереоскопического изображения искусственно воспроизводится декоррелятором, применяемым на двух синтезированных каналах, и управляется параметрами межканальной когерентности (IC), вычисленными и переданными кодером. Для большинства речевых стереосигналов, этот способ расширения стереоскопического изображения не пригоден для воссоздания естественного окружения речи, которая является довольно прямым звуком, поскольку она создается единственным источником, расположенным в конкретной позиции в пространстве (иногда с некоторой реверберацией от комнаты). Напротив, музыкальные инструменты имеют гораздо большую естественную ширину, чем речь, которую можно лучше имитировать путем декорреляции каналов.

Проблемы также возникают при записи речи с помощью несовмещенных микрофонов, например, в конфигурации A-B, где микрофоны отдалены друг от друга или для бинауральной записи или рендеризации. Эти сценарии могут предполагаться для захвата речи в телеконференциях или для создания виртуальной звуковой сцены с отдаленными говорящими в многоточечном блоке управления (MCU). В этом случае время прихода сигнала отличается от канала к каналу в отличие от записей, производимых на совмещенных микрофонах наподобие X-Y (записи интенсивности) или M-S (записи среднего-бокового). В этом случае вычисление когерентности таких невыровненных по времени двух каналов может неверно оцениваться, что не позволяет осуществлять синтез искусственного окружения.

Ссылки на уровень техники, относящиеся к обработке стереосигнала, представляют собой патент США 5,434,948 или патент США 8,811,621.

В документе WO 2006/089570 A1 раскрыта почти прозрачная или прозрачная схема многоканального кодера/декодера. Схема многоканального кодера/декодера дополнительно генерирует остаточный сигнал типа формы волны. Этот остаточный сигнал передается совместно с одним или более многоканальными параметрами на декодер. В отличие от чисто параметрического многоканального декодера, улучшенный декодер генерирует многоканальный выходной сигнал, имеющий улучшенное выходное качество ввиду дополнительного остаточного сигнала. На стороне кодера, левый канал и правый канал фильтруются банком фильтров анализа. Затем, для сигнал каждой подполосы, значение выравнивания и значение коэффициента усиления вычисляются для подполосы. Затем такое выравнивание осуществляется до дополнительной обработки. На стороне декодера осуществляется обработка снятия выравнивания и коэффициента усиления, и затем соответствующие сигналы синтезируются банком фильтров синтеза для генерирования декодированного левого сигнала и декодированного правого сигнала.

Было установлено, что такие традиционные процедуры не обеспечивают оптимальных аудиосигналов и, в частности, речевых сигналов, где присутствует более одного говорящего, т.е. в сценарии конференции или сцене разговорной речи.

Задачей настоящего изобретения является обеспечение усовершенствованного принципа кодирования или декодирования многоканального сигнала.

Эта задача решается посредством устройства для кодирования многоканального сигнала по п. 1, способа кодирования многоканального сигнала по п. 20, устройства для декодирования кодированного многоканального сигнала по п. 21 или способа декодирования кодированного многоканального сигнала по п. 33 или компьютерной программы по п. 34.

Устройство для кодирования многоканального сигнала, имеющего, по меньшей мере, два канала содержит блок определения параметра для определения параметра широкополосного выравнивания с одной стороны и множества параметров узкополосного выравнивания с другой стороны. Эти параметры используются блоком выравнивания сигнала для выравнивания, по меньшей мере, двух каналов с использованием этих параметров для получения выровненных каналов. Затем процессор сигнала вычисляет средний сигнал и боковой сигнал с использованием выровненных каналов, и затем средний сигнал и боковой сигнал кодируются и добавляются в кодированный выходной сигнал, который дополнительно имеет, в качестве параметрической вспомогательной информации, параметр широкополосного выравнивания и множество параметров узкополосного выравнивания.

На стороне декодера декодер сигнала декодирует кодированный средний сигнал и кодированный боковой сигнал для получения декодированных среднего и боковых сигналов. Затем эти сигналы обрабатываются процессором сигнала для вычисления декодированного первого канала и декодированного второго канала. Затем эти декодированные каналы подвергаются снятию выравнивания с использованием информации о параметре широкополосного выравнивания и информации о множестве узкополосных параметров, включенных в кодированный многоканальный сигнал, для получения декодированного многоканального сигнала.

В конкретной реализации, параметр широкополосного выравнивания представляет собой параметр межканальной разницы во времени, и множество параметров узкополосного выравнивания состоит из межканальных разностей фаз.

Настоящее изобретение базируется на том факте, что, в частности, для речевых сигналов, где присутствует более одного говорящего, но также для других аудиосигналов, где присутствует несколько аудиоисточников, разные места аудиоисточников, которые оба отображаются в два канала многоканального сигнала, могут учитываться для использования параметра широкополосного выравнивания, например, параметра межканальной разницы во времени, который применяется ко всему спектру одного или обоих каналов. Помимо этого параметра широкополосного выравнивания, было установлено, что несколько параметров узкополосного выравнивания, которые отличаются от подполосы к подполосе, дополнительно приводят к лучшему выравниванию сигнала на обоих каналах.

Таким образом, широкополосное выравнивание, соответствующее одной и той же задержке по времени в каждой подполосе совместно с выравниванием по фазе, соответствующим разным фазовым сдвигам для разных подполос приводит к оптимальному выравниванию обоих каналов до того, как эти два канала преобразуются в среднее/боковое представление, которое затем дополнительно кодируется. Ввиду того, что получено оптимальное выравнивание, с одной стороны, энергия в среднем сигнале имеет максимально возможное значение, и, с другой стороны, энергия в боковом сигнале имеет минимально возможное значение, что позволяет получить оптимальный результат кодирования с минимально возможной битовой скоростью или максимально возможным качеством аудиосигнала для определенной битовой скорости.

В частности для разговорного речевого материала, обычно возникает ощущение, что в двух разных местах присутствуют активные говорящие. Дополнительно, ситуация такова, что, обычно, только один говорящий говорит из первого места, и затем второй говорящий говорит из второго места или положения. Влияние разных положений на два канала, например, первый или левый канал или второй или правый канал, отражается в различии времен прихода и, таким образом, некоторой задержке по времени между двумя каналами вследствие разных положений, и эта задержка по времени время от времени изменяется. В общем случае, это влияние отражается в двух канальных сигналах как широкополосное снятие выравнивания, которое может определяться параметром широкополосного выравнивания.

С другой стороны, другие эффекты, в частности, обусловленные реверберацией или дополнительными источниками шума могут учитываться отдельными параметрами выравнивания по фазе для отдельных полос, которые накладываются на широкополосные разные времена прихода или широкополосное снятие выравнивания обоих каналов.

В связи с этим, использование как параметра широкополосного выравнивания, так и множества параметров узкополосного выравнивания помимо параметра широкополосного выравнивания приводит к оптимальному выравниванию каналов на стороне кодера для получения хорошего и очень компактного среднего/бокового представления, тогда как, с другой стороны, соответствующее снятие выравнивания после декодирования на стороне декодера приводит к хорошему качеству аудиосигнала для определенной битовой скорости или к малой битовой скорости для определенного необходимого качества аудиосигнала.

Преимущество настоящего изобретения состоит в том, что оно обеспечивает новую схему кодирования стереосигнала, гораздо более пригодную для преобразования речевого стереосигнала, чем существующие схемы кодирования стереосигнала. В соответствии с изобретением, технологии параметрической стереофонии и технологии совместного кодирования стереосигнала объединяются, в частности, путем использования межканальной разницы во времени, возникающей на каналах многоканального сигнала, в частности, в случае речевых источников, а также в случае других аудиоисточников.

Некоторые варианты осуществления обеспечивают полезные преимущества, рассмотренные ниже.

Новый способ предусматривает гибридный подход смешивания элементов из традиционной M/S стереофонии и параметрической стереофонии. В традиционной M/S, каналы пассивно смешиваются с понижением для генерирования среднего и бокового сигналов. Процесс можно дополнительно расширить за счет вращения канала с использованием преобразования Карунена-Лева (KLT), также известного как анализ основных компонент (PCA), до суммирования и дифференцирования каналов. Средний сигнал кодируется путем кодирования первичным кодом, а боковой сигнал переносится на вторичный кодер. Усовершенствованная M/S стереофония может дополнительно использовать предсказание бокового сигнала по среднему каналу, кодированному в текущем или предыдущем кадре. Главной целью вращения и предсказание является максимизация энергии среднего сигнала при минимизации энергии бокового сигнала. M/S стереофония сохраняет форму волны и в этом отношении очень устойчива к любым стереофоническим сценариям, но может быть очень дорогостоящей в отношении расходования битов.

Для наивысшей эффективности при низких битовых скоростях, параметрическая стереофония вычисляет и кодирует параметры, например, межканальные разности уровней (ILD), межканальные разности фаз (IPD), межканальные разности по времени (ITD) и межканальную когерентность (IC). Они компактно представляют стереоскопическое изображение и являются сигналами звуковой сцены (местоположением источника, панорамированием, стереобазой …). Затем задача состоит в том, чтобы параметризовать стереофоническую сцену и кодировать только сигнал понижающего микширования, который может быть на декодере, и с помощью передаваемых стереосигналов вновь преобразовывать в пространственную область.

В нашем подходе смешаны два принципа. Первый, ITD и IPD стереосигналов вычисляются и применяются на двух каналах. Целью является представление разницы во времени в широкой полосе и по фазе в разных полосах частот. Затем два канала выравниваются по времени и фазе, и затем осуществляется кодирование M/S. Установлено, что ITD и IPD полезны для моделирования речевого стереосигнала и являются хорошей заменой вращения на основе KLT в M/S. В отличие от чисто параметрического кодирования, окружение не является более моделируемым посредством IC, но непосредственно боковым сигналом, который кодируется и/или предсказывается. Было установлено, что этот подход более надежен, особенно при обработке речевых сигналов.

Вычисление и обработка ITD является важной частью изобретения. ITD уже применялись в традиционном кодировании бинаурального сигнала (BCC), но таким образом, что это было неэффективно, поскольку ITD изменялись с течением времени. Чтобы избавиться от этого недостатка, было разработано конкретное вырезание для сглаживания переходов между двумя разными ITD, позволяющее плавно переключаться между говорящими, расположенными в разных местах.

Дополнительные варианты осуществления относятся к процедуре, в которой, на стороне кодера, определение параметров для определения множества параметров узкополосного выравнивания осуществляется с использованием каналов, которые уже выровнены с ранее определенным параметром широкополосного выравнивания.

Соответственно, узкополосное снятие выравнивания на стороне декодера осуществляется до широкополосного снятия выравнивания осуществляется с использованием обычно единственного параметра широкополосного выравнивания.

В дополнительных вариантах осуществления, предпочтительно, чтобы, либо на стороне кодера, но еще важнее, на стороне декодера, некоторого рода вырезание и операция сложения с перекрытием, либо любого рода плавный переход от блока к блоку осуществляется после всех выравниваний и, в частности, после выравнивания по времени с использованием параметра широкополосного выравнивания. Это избавляет от любых слышимых артефактов, например, щелчков, когда время или параметр широкополосного выравнивания изменяется от блока к блоку.

В других вариантах осуществления применяются разные спектральные разрешения. В частности, канальные сигналы подвергаются временно-спектральному преобразованию, имеющему высокое частотное разрешение, например, спектр DFT, тогда как параметры, например, параметры узкополосного выравнивания, определяются для параметрических полос, имеющих более низкое спектральное разрешение. Обычно параметрическая полоса имеет более одной спектральной линии, чем спектр сигнала и обычно имеет набор спектральных линий из спектра DFT. Кроме того, параметрические полосы увеличиваются от низких частот к высоким частотам для учета психоакустических вопросов.

Дополнительные варианты осуществления относятся к дополнительному использованию параметра уровня, например, разности уровней, или другим процедурам для обработки бокового сигнала, например, параметров стереозаполнения и т.д. Кодированный боковой сигнал может представляться самим фактическим боковым сигналом, или остаточным сигналом предсказания, осуществляемым с использованием среднего сигнала текущего кадра или любого другого кадра, или боковым сигналом или боковым остаточным сигналом предсказания только в поднаборе полос и параметрами предсказания только для оставшихся полос, или даже параметрами предсказания для всех полос без какой-либо информации бокового сигнала высокого частотного разрешения. Следовательно, в последней вышеописанной альтернативе, кодированный боковой сигнал представляется только параметром предсказания для каждой параметрической полосы или только поднабора параметрических полос таким образом, что для оставшихся параметрических полос не существует никакой информации о первоначальном боковом сигнале.

Кроме того, предпочтительно иметь множество параметров узкополосного выравнивания не для всех параметрических полос, отражающих всю полосу широкополосного сигнала, но только для набора более низких полос, например, более низких 50 процентов параметрических полос. С другой стороны, параметры стереозаполнения не используются для пары более низких полос, поскольку, для этих полос, сам боковой сигнал или остаточный сигнал предсказания передается для уверенности в том, что, по меньшей мере, для более низких полос, доступно представление, правильное с точки зрения формы волны. С другой стороны, боковой сигнал не передается в представлении, точном с точки зрения формы волны для более высоких полос для дополнительного снижения битовой скорости, но боковой сигнал обычно представлен параметрами стереозаполнения.

Кроме того, предпочтительно осуществлять всего анализа параметров и выравнивания в одной и той же частотной области на основании одного и того же спектра DFT. Для этого дополнительно предпочтительно использовать технологию обобщенной взаимной корреляции с фазовым преобразованием (GCC-PHAT) с целью определения межканальной разницы во времени. В предпочтительном варианте осуществления этой процедуры, сглаживание корреляционного спектра на основании информации о спектральной формы, причем информация, предпочтительно, является мерой спектральной плоскостности, осуществляется таким образом, что сглаживание будет слабым в случае шумоподобных сигналов, и сглаживание будет усиливаться в случае тоноподобных сигналов.

Кроме того, предпочтительно осуществлять особое фазовращение, где учитываются амплитуды каналов. В частности, фазовращение распределяется между двумя каналами с целью выравнивания на стороне кодера и, конечно, с целью снятия выравнивания на стороне декодера, где канал, имеющий более высокую амплитуду рассматривается как ведущий канал и будет менее подвержен фазовращению, т.е. будет меньше поворачиваться, чем канал с более низкой амплитудой.

Кроме того, вычисление суммы-разности осуществляется с использованием масштабирования энергии с масштабным коэффициентом, который выводится из энергии обоих каналов и, дополнительно, ограничивается определенным диапазоном для уверенности в том, что вычисление среднего/бокового сигнала не слишком сильно влияет на энергию. С другой стороны, однако, следует отметить, что, с целью настоящего изобретения, такого рода сохранение энергии не является столь критичным, как в традиционных процедурах, поскольку время и фаза были заранее выровнены. Таким образом, флуктуации энергия вследствие вычисления среднего сигнала и бокового сигнала из левого и правого (на стороне кодера) или вследствие вычисления левого и правого сигнала из среднего и бокового (на стороне декодера) не столь значительны, как в уровне техники.

Далее будут рассмотрены предпочтительные варианты осуществления настоящего изобретения в отношении прилагаемых чертежей, в которых:

фиг. 1 - блок-схема предпочтительной реализации устройства для кодирования многоканального сигнала;

фиг. 2 - предпочтительный вариант осуществления устройства для декодирования кодированного многоканального сигнала;

фиг. 3 - иллюстрация разных частотных разрешений и других частотных аспектов для некоторых вариантов осуществления;

фиг. 4a демонстрирует блок-схему операций процедур, осуществляемых в устройстве для кодирования с целью выравнивания каналов;

фиг. 4b демонстрирует предпочтительный вариант осуществления процедур, осуществляемых в частотной области;

фиг. 4c демонстрирует предпочтительный вариант осуществления процедур, осуществляемых в устройстве для кодирования с использованием окна анализа с участками заполнения нулями и диапазонами перекрытия;

фиг. 4d демонстрирует блок-схему операций для дополнительных процедур, осуществляемых в устройстве для кодирования;

фиг. 4e демонстрирует блок-схему операций, показывающую предпочтительную реализацию оценивания межканальной разницы во времени;

фиг. 5 демонстрирует блок-схему операций, демонстрирующую дополнительный вариант осуществления процедур, осуществляемых в устройстве для кодирования;

фиг. 6a демонстрирует блок-схему варианта осуществления кодера;

фиг. 6b демонстрирует блок-схему операций соответствующего варианта осуществления декодера;

фиг. 7 демонстрирует предпочтительный сценарий вырезания с мало перекрывающимися синусоидальными окнами с заполнением нулями для временно-частотный анализа и синтеза стереосигнала;

фиг. 8 демонстрирует таблицу, демонстрирующую расходование битов разных значений параметра;

фиг. 9a демонстрирует процедуры, осуществляемые устройством для декодирования кодированного многоканального сигнала в предпочтительном варианте осуществления;

фиг. 9b демонстрирует предпочтительную реализацию устройства для декодирования кодированного многоканального сигнала; и

фиг. 9c демонстрирует процедуру, осуществляемую в контексте широкополосного снятия выравнивания в контексте декодирования кодированного многоканального сигнала.

Фиг. 1 демонстрирует устройство для кодирования многоканального сигнала, имеющего, по меньшей мере, два канала. Многоканальный сигнал 10 поступает на блок 100 определения параметра с одной стороны и блок 200 выравнивания сигнала с другой стороны. Блок 100 определения параметра определяет, с одной стороны, параметр широкополосного выравнивания и, с другой стороны, множество параметров узкополосного выравнивания из многоканального сигнала. Эти параметры выводятся через параметрическую линию 12. Кроме того, эти параметры также выводятся через дополнительную параметрическую линию 14 на выходной интерфейс 500, как показано. На параметрической линии 14, дополнительные параметры, например, параметры уровня пересылаются от блока 100 определения параметра на выходной интерфейс 500. Блок 200 выравнивания сигнала выполнен с возможностью выравнивания, по меньшей мере, двух каналов многоканального сигнала 10 с использованием параметра широкополосного выравнивания и множества параметров узкополосного выравнивания, принятых через параметрическую линию 10 для получения выровненных каналов 20 на выходе блока 200 выравнивания сигнала. Эти выровненные каналы 20 пересылаются на процессор 300 сигнала, который выполнен с возможностью вычисления среднего сигнала 31 и бокового сигнала 32 из выровненных каналов, принятых по линии 20. Устройство для кодирования дополнительно содержит кодер 400 сигнала для кодирования среднего сигнала из линии 31 и бокового сигнала из линии 32 для получения кодированного среднего сигнала на линии 41 и кодированного бокового сигнала на линии 42. Оба эти сигнала пересылаются на выходной интерфейс 500 для генерирования кодированного многоканального сигнала на выходной линии 50. Кодированный сигнал на выходной линии 50 содержит кодированный средний сигнал из линии 41, кодированный боковой сигнал из линии 42, параметры узкополосного выравнивания и параметры широкополосного выравнивания из линии 14 и, в необязательном порядке, параметр уровня из линии 14 и, дополнительно в необязательном порядке, параметр стереозаполнения, генерируемый кодером 400 сигнала и пересылаемый на выходной интерфейс 500 через параметрическую линию 43.

Предпочтительно, блок выравнивания сигнала выполнен с возможностью выравнивания каналов из многоканального сигнала с использованием параметра широкополосного выравнивания, до того, как блок 100 определения параметра фактически вычислит узкополосные параметры. Таким образом, в этом варианте осуществления, блок 200 выравнивания сигнала отправляет широкополосные выровненные каналы обратно на блок 100 определения параметра через соединительную линию 15. Затем блок 100 определения параметра определяет множество параметров узкополосного выравнивания от уже в отношении широкополосной характеристики выровненный многоканальный сигнал. Однако в других вариантах осуществления параметры определяются без этой конкретной последовательности процедур.

Фиг. 4a демонстрирует предпочтительную реализацию, где осуществляется конкретная последовательность этапов, которая предусматривает соединительную линию 15. На этапе 16 определяется параметр широкополосного выравнивания с использованием двух каналов, и получается параметр широкополосного выравнивания, например, межканальная разница во времени или параметр ITD. Затем, на этапе 21, два канала выравниваются блоком 200 выравнивания сигнала, показанным на фиг. 1, с использованием параметра широкополосного выравнивания. Затем, на этапе 17, узкополосные параметры определяются с использованием выровненных каналов в блоке 100 определения параметра для определения множества параметров узкополосного выравнивания, например, множества параметров межканальной разности фаз для разных полос многоканального сигнала. Затем, на этапе 22, спектральные значения в каждой параметрической полосе выравниваются с использованием соответствующего параметра узкополосного выравнивания для этой конкретной полосы. Когда эта процедура на этапе 22 осуществляется для каждой полосы, для которой доступен параметр узкополосного выравнивания, выровненные первый и второй или левый/правый каналы доступны для дополнительной обработки сигнала процессором 300 сигнала, показанным на фиг. 1.

Фиг. 4b демонстрирует дополнительную реализацию многоканального кодера, показанного на фиг. 1, где несколько процедур осуществляется в частотной области.

В частности, многоканальный кодер дополнительно содержит временно-спектральный преобразователь 150 для преобразования многоканального сигнала во временной области в спектральном представлении, по меньшей мере, двух каналов в частотной области.

Кроме того, как показано на 152, блок определения параметра, блок выравнивания сигнала и процессор сигнала, проиллюстрированные на 100, 200 и 300 на фиг. 1, действуют в частотной области.

Кроме того, многоканальный кодер и, в частности, процессор сигнала дополнительно содержит спектально-временной преобразователь 154 для генерирования представления во временной области, по меньшей мере, среднего сигнала.

Предпочтительно, спектрально-временной преобразователь дополнительно преобразует спектральное представление бокового сигнала, также определенное процедурами, представленными блоком 152, в представление во временной области, и кодер 400 сигнала на фиг. 1 затем выполнен с возможностью дополнительно кодировать средний сигнал и/или боковой сигнал как сигналы во временной области в зависимости от конкретной реализации кодера 400 сигнала на фиг. 1.

Предпочтительно, временно-спектральный преобразователь 150 на фиг. 4b выполнен с возможностью реализации этапов 155, 156 и 157 на фиг. 4c. В частности, этап 155 содержит обеспечение окна анализа с, по меньшей мере, одним участком заполнения нулями на одном его конце и, в частности, участком заполнения нулями на начальном участке окна и участке заполнения нулями на конечном участке окна, как показано, например, на фиг. 7 ниже. Кроме того, окно анализа дополнительно имеет диапазоны перекрытия или участки перекрытия в первой половине окна и во второй половине окна и, дополнительно, предпочтительно среднюю часть, которая является диапазоном без перекрытия, в зависимости от обстоятельств.

На этапе 156, каждый канал вырезается с использованием окна анализа с диапазонами перекрытия. В частности, каждый канал вырезается с использованием окна анализа таким образом, что получается первый блок канала. Затем получается второй блок того же канала, который имеет определенный диапазон перекрытия с первым блоком и т.д., таким образом, что после, например, пяти операций вырезания, доступно пять блоков вырезанных выборок каждого канала, которые затем по отдельности преобразуются в спектральном представлении, как показано на 157 на фиг. 4c. Та же процедура осуществляется для другого канала, также таким образом, что, в конце этапа 157, доступна последовательность блоков спектральных значений и, в частности, комплексных спектральных значений, например, спектральных значений DFT или комплексных выборок подполосы.

На этапе 158, который осуществляется блоком 100 определения параметра на фиг. 1, определяется параметр широкополосного выравнивания и на этапе 159, который осуществляется путем выравнивания 200 сигнала на фиг. 1, круговой сдвиг осуществляется с использованием параметра широкополосного выравнивания. На этапе 160, опять же осуществляемом блоком 100 определения параметра на фиг. 1, параметры узкополосного выравнивания определяются для отдельных полос/подполос и на этапе 161, выровненные спектральные значения вращаются для каждой полосы с использованием соответствующих параметров узкополосного выравнивания определенный для конкретных полос.

Фиг. 4d демонстрирует дополнительные процедуры, осуществляемые процессором 300 сигнала. В частности, процессор 300 сигнала выполнен с возможностью вычисления среднего сигнала и бокового сигнала, как показано на этапе 301. На этапе 302 может осуществляться некоторого рода дополнительная обработка бокового сигнала и затем, на этапе 303, каждый блок среднего сигнала и бокового сигнала преобразуется обратно во временную область и, на этапе 304, окно синтеза применяется к каждому блоку, полученному на этапе 303 и, на этапе 305, операция перекрытия/сложения для среднего сигнала с одной стороны и операция перекрытия/сложения для бокового сигнала с другой стороны осуществляется для окончательного получения средних/боковых сигналов во временной области.

В частности, операции этапов 304 и 305 приводят к тому, что разновидность плавного перехода от одного блока среднего сигнала или бокового сигнала к следующему блоку среднего сигнала и бокового сигнала осуществляется таким образом, что, даже когда происходят любые изменения параметра, например, параметра межканальной разницы во времени или параметра межканальной разности фаз, это, тем не менее, не будет слышно в средних/боковых сигналах во временной области, полученных на этапе 305 на фиг. 4d.

Новое кодирование стереосигнала с низкой задержкой является совместным кодированием среднего/бокового (M/S) стереосигнала с использованием некоторых пространственных сигналов, где средний канал кодируется первичным монофоническим базовым кодер, и боковой канал кодируется вторичный базовым кодером. Принципы кодера и декодера изображены на фиг. 6a, 6b.

Обработка стереосигнала осуществляется, в основном, в частотной области (FD). В необязательном порядке, некоторая обработка стереосигнала может осуществляться во временной области (TD) до частотного анализа. Это возможно для вычисления ITD, которая может вычисляться и применяться до частотного анализа для выравнивания каналов по времени до осуществления анализ и обработка стереосигнала. Альтернативно, обработка ITD может осуществляться непосредственно в частотной области. Поскольку обычные речевые кодеры, например ACELP, не содержат никакого внутреннего временно-частотного разложения, кодирование стереосигнала добавляет дополнительный комплексный модулированный банк фильтров посредством анализа и банк фильтров синтеза до базового кодера и другой каскад банка фильтров анализа-синтеза после базового декодера. В предпочтительном варианте осуществления используется передискретизированное DFT с областью низкого перекрывания. Однако в других вариантах осуществления может использоваться любое комплекснозначное временно-частотное разложение с аналогичным временным разрешением.

Обработка стереосигнала состоит из вычисления пространственных сигналов: межканальной разницы во времени (ITD), межканальных разностей фаз (IPD) и межканальных разностей уровней (ILD). ITD и IPD используются на входном стереосигнале для выравнивания двух каналов L и R по времени и по фазе. ITD вычисляется в широкой полосе или во временной области, тогда как IPD и ILD вычисляются для каждой или части параметрических полос, соответствующих неоднородному разложению частотному пространству. После выравнивания двух каналов применяется совместная M/S стереофония, где боковой сигнал затем дополнительно предсказывается из среднего сигнала. Коэффициент усиления предсказания выводится из ILD.

Средний сигнал дополнительно кодируется первичным базовым кодером. В предпочтительном варианте осуществления, первичный базовый кодер отвечает стандарту 3GPP EVS, или осуществляет кодирование, выведенное из него, которое может переключаться между режимом кодирования речи, ACELP, и музыкальным режимом на основании преобразования MDCT. Предпочтительно, кодер на основе ACELP и MDCT поддерживаются модулями расширения полосы во временной области (TD-BWE) и/или интеллектуального заполнения промежутка (IGF), соответственно.

Сначала боковой сигнал предсказывается по среднему каналу с использованием коэффициентов усиления предсказания, выведенных из ILD. Остаток может дополнительно предсказываться по задержанной версии среднего сигнала или непосредственно кодироваться вторичным базовым кодером, осуществляемым в предпочтительном варианте осуществления в области MDCT. Обработка стереосигнала на кодере может быть представлена на фиг. 5, как будет объяснено далее.

Фиг. 2 демонстрирует блок-схему варианта осуществления устройства для декодирования кодированного многоканального сигнала, принятого на входной линии 50.

В частности, сигнал принимается входным интерфейсом 600. Ко входному интерфейсу 600 подключены декодер 700 сигнала и блок 900 снятия выравнивания сигнала. Кроме того, процессор 800 сигнала подключен к декодеру 700 сигнала с одной стороны и подключен к блоку снятия выравнивания сигнала с другой стороны.

В частности, кодированный многоканальный сигнал содержит кодированный средний сигнал, кодированный боковой сигнал, информацию о параметре широкополосного выравнивания и информацию о множестве узкополосных параметров. Таким образом, кодированный многоканальный сигнал на линии 50 может быть в точности тем сигналом, который выводится выходным интерфейсом 500 на фиг. 1.

Однако здесь важно отметить, что, в отличие от того, что проиллюстрировано на фиг. 1, параметр широкополосного выравнивания и множество параметров узкополосного выравнивания, включенные в кодированный сигнал в определенной форме, могут быть в точности параметрами выравнивания, используемыми блоком 200 выравнивания сигнала на фиг. 1, но, альтернативно, также могут быть их обратными значениями, т.е. параметрами, которые могут использоваться в точности теми же операциями, осуществляемыми блоком 200 выравнивания сигнала, но с обратными значениями, благодаря чему, получается снятие выравнивания.

Таким образом, информация о параметрах выравнивания может представлять собой параметры выравнивания, используемые блоком 200 выравнивания сигнала на фиг. 1, или может представлять собой обратные значения, т.е. фактические ''параметры снятия выравнивания''. Дополнительно, эти параметры обычно будут квантоваться в определенной форме, что будет рассмотрено далее со ссылкой на фиг. 8.

Входной интерфейс 600, показанный на фиг. 2, отделяет информацию о параметре широкополосного выравнивания и множество параметров узкополосного выравнивания от кодированных средних/боковых сигналов и пересылает эту информацию через параметрическую линию 610 на блок 900 снятия выравнивания сигнала. С другой стороны, кодированный средний сигнал пересылается на декодер 700 сигнала по линии 601, и кодированный боковой сигнал пересылается на декодер 700 сигнала через сигнальную линию 602.

Декодер сигнала выполнен с возможностью декодирования кодированного среднего сигнала и декодирования кодированного бокового сигнала для получения декодированного среднего сигнала на линии 701 и декодированного бокового сигнала на линии 702. Эти сигналы используются процессором 800 сигнала для вычисления декодированного сигнала первого канала или декодированного левого сигнала и для вычисления сигнала декодированного второго канала или декодированного правого канала из декодированного среднего сигнала и декодированного бокового сигнала, и декодированный первый канал и декодированный второй канал выводятся на линиях 801, 802, соответственно. Блок 900 снятия выравнивания сигнала выполнен с возможностью снятия выравнивания декодированного первого канала на линии 801 и декодированного правого канала 802 с использованием информации о параметре широкополосного выравнивания и дополнительно с использованием информации о множестве параметров узкополосного выравнивания для получения декодированного многоканального сигнала, т.е. декодированного сигнала, имеющего, по меньшей мере, два декодированных и со снятым выравниванием каналов на линиях 901 и 902.

Фиг. 9a демонстрирует предпочтительную последовательность этапов, осуществляемых блоком 900 снятия выравнивания сигнала из фиг. 2. В частности, этап 910 принимает выровненные левый и правый каналы, имеющиеся на линиях 801, 802 из фиг. 2. На этапе 910 блок 900 снятия выравнивания сигнала снимает выравнивание отдельных подполос с использованием информации о параметрах узкополосного выравнивания для получения декодированных первого и второго или левого и правого каналов со снятым выравниванием по фазе на 911a и 911b. На этапе 912 выравнивание каналов снимается с использованием параметра широкополосного выравнивания таким образом, что, на 913a и 913b, получаются каналы со снятым выравниванием по фазе и времени.

На этапе 914 осуществляется любая дополнительная обработка, которая содержит использование вырезания или любую операцию сложения с перекрытием или, в общем случае, любую операцию плавного перехода для получения, на 915a или 915b, декодированного сигнала с ослабленными артефактами или с отсутствующими артефактами, т.е. декодированных каналов, которые не имеют никаких артефактов, хотя обычно существуют изменяющиеся со временем параметры снятия выравнивания для широкой полосы с одной стороны и для множества узких полос с другой стороны.

Фиг. 9b демонстрирует предпочтительную реализацию многоканального декодера, проиллюстрированного на фиг. 2.

В частности, процессор 800 сигнала из фиг. 2 содержит временно-спектральный преобразователь 810.

Процессор сигнала дополнительно содержит преобразователь 820 среднего/бокового в левый/правый для вычисления из среднего сигнала M и бокового сигнала S в левый сигнал L и правый сигнал R.

Однако, важно, что для вычисления L и R путем преобразования средний/боковой-левый/правый в блоке 820, не обязательно использовать боковой сигнал S. Напротив, как рассмотрено далее, левый/правый сигналы первоначально вычисляются только с использованием параметра коэффициента усиления, выведенного из параметра межканальной разности уровней ILD. В общем случае, коэффициент усиления предсказания также может рассматриваться как форма ILD. Коэффициент усиления может выводиться из ILD, но также может непосредственно вычисляться. Предпочтительно больше не вычислять ILD, но непосредственно вычислять коэффициент усиления предсказания и передавать и использовать на декодере коэффициент усиления предсказания вместо параметра ILD.

Таким образом, в этой реализации, боковой сигнал S используется только в блоке 830 обновления канала, который действует для обеспечения лучшего левого/правого сигнала с использованием передаваемого бокового сигнала S, как показано обходной линией 821.

Таким образом, преобразователь 820 действует с использованием параметра уровня, полученного через вход 822 параметра уровня и без фактического использования бокового сигнала S, но затем блок 830 обновления канала действует с использованием бокового сигнала 821 и, в зависимости от конкретной реализации, с использованием параметра стереозаполнения, принятого по линии 831. В этом случае блок 900 выравнивания сигнала содержит блок снятия выравнивания по фазе и блок 910 масштабирования энергии. Масштабирование энергии регулируется масштабным коэффициентом, выведенным вычислителем 940 масштабного коэффициента. На вычислитель 940 масштабного коэффициента поступает выходной сигнал блока 830 обновления канала. На основании параметров узкополосного выравнивания, принятых через вход 911, осуществляется снятие выравнивания по фазе и, в блоке 920, на основании параметра широкополосного выравнивания, принятого по линии 921, осуществляется снятие выравнивания по времени. Окончательно, спектрально-временное преобразование 930 осуществляется для окончательного получения декодированного сигнала.

Фиг. 9c демонстрирует последовательность этапов, дополнительную к обычно осуществляемую в блоках 920 и 930, показанных на фиг. 9b, в предпочтительном варианте осуществления.

В частности, узкополосные каналы со снятым выравниванием поступают на функциональные возможности широкополосного снятия выравнивания, соответствующие блоку 920 на фиг. 9b. В блоке 931 осуществляется DFT или любое другое преобразование. После фактического вычисления выборок во временной области осуществляется необязательное синтетическое вырезание с использованием окна синтеза. Окно синтеза, предпочтительно, в точности такое же, как окно анализа, или выводится из окна анализа, например, путем интерполяции или прореживания, но зависит определенным образом от окна анализа. Эта зависимость, предпочтительно, такова, что коэффициенты умножения, определяемые двумя перекрывающимися окнами, суммируются до единицы для каждой точки в диапазоне перекрытия. Таким образом, после окна синтеза в блоке 932, операция перекрытия и осуществляется следующая операция сложения. Альтернативно, вместо синтетического вырезания и операции перекрытия/сложения, осуществляется любой плавный переход между следующими блоками для каждого канала для получения, как уже рассмотрено в контексте фиг. 9a, декодированного сигнала с ослабленными артефактами.

При рассмотрении фиг. 6b, становится очевидно, что фактические операции декодирования для среднего сигнала, т.е. ''декодер EVS'' с одной стороны и, для бокового сигнала, обратное векторное квантование VQ^-1 и операция обратного MDCT (IMDCT) соответствуют декодеру 700 сигнала на фиг. 2.

Кроме того, операции DFT в блоках 810 соответствуют элементу 810 на фиг. 9b, и функциональные возможности обратной обработки стереосигнала и обратного сдвига по времени соответствуют блокам 800, 900 на фиг. 2 и операции обратного DFT 930 на фиг. 6b соответствуют соответствующей операции в блоке 930 на фиг. 9b.

Теперь более подробно рассмотрим фиг. 3. В частности, фиг. 3 демонстрирует спектр DFT, имеющий отдельные спектральные линии. Предпочтительно, спектр DFT или любой другой спектр, проиллюстрированный на фиг. 3, является комплексным спектром и каждая линия является комплексной спектральной линией, имеющей величину и фазу, или имеющей действительную часть и мнимую часть.

Дополнительно, спектр также делится на разные параметрические полосы. Каждая параметрическая полоса имеет, по меньшей мере, одну и, предпочтительно, более одной спектральных линий. Дополнительно, параметрические полосы увеличиваются от более низких к более высоким частотам. Обычно параметр широкополосного выравнивания является единственным параметром широкополосного выравнивания для всего спектра, т.е. для спектра, содержащего все полосы с 1 по 6 в иллюстративном варианте осуществления на фиг. 3.

Кроме того, множество параметров узкополосного выравнивания обеспечивается таким образом, что для каждой параметрической полосы существует единственный параметр выравнивания. Это означает, что параметр выравнивания для полосы всегда применяется ко всем спектральным значениям в соответствующей полосе.

Кроме того, помимо параметров узкополосного выравнивания, параметры уровня также обеспечиваются для каждой параметрической полосы.

В отличие от параметров уровня, которые обеспечиваются для каждой параметрической полосы от полосы 1 до полосы 6, предпочтительно обеспечивать множество параметров узкополосного выравнивания только для ограниченного количества более низких полос, например, полос 1, 2, 3 и 4.

Дополнительно, параметры стереозаполнения обеспечиваются для некоторого количества полос за исключением более низких полос, например, в иллюстративном варианте осуществления, для полос 4, 5 и 6, тогда как существуют спектральные значения бокового сигнала для более низких параметрических полос 1, 2 и 3 и, следовательно, параметров стереозаполнения не существует для этих более низких полос, где совпадение формы волны получается с использованием либо самого бокового сигнала, либо остаточного сигнала предсказания, представляющего боковой сигнал.

Как указано ранее, существует больше спектральных линий в более высоких полосах, например, согласно варианту осуществления на фиг. 3, семь спектральных линий в параметрической полосе 6 и только три спектральных линии в параметрической полосе 2. Естественно, однако, количество параметрических полос, количество спектральных линий и количество спектральных линий в параметрической полосе и также разные пределы для определенных параметров будут разными.

Тем не менее, фиг. 8 демонстрирует распределение параметров и количество полос, для которого обеспечиваются параметры в определенном варианте осуществления, где присутствует, в отличие от фиг. 3, фактически 12 полос.

Как показано, параметр уровня ILD обеспечивается для каждой из 12 полос и квантуется до точности квантования, представленной пятью битами на полосу.

Кроме того, параметры узкополосного выравнивания IPD обеспечиваются только для более низких полос до граничной частоты 2,5 кГц. Дополнительно, межканальная разница во времени или параметр широкополосного выравнивания обеспечивается только как единственный параметр для всего спектра, но с очень высокой точностью квантования, представленной восемью битами для всей полосы.

Кроме того, обеспечиваются весьма грубо квантованные параметры стереозаполнения, представленные тремя битами на полосу и не для более низких полос ниже 1 кГц, поскольку, для более низких полос, включены фактически кодированный боковой сигнал или остаточные спектральные значения бокового сигнала.

Затем, предпочтительная обработка на стороне кодера описана в общих чертах со ссылкой на фиг. 5. На первом этапе осуществляется DFT-анализ левого и правого канала. Эта процедура соответствует этапам 155-157 на фиг. 4c. На этапе 158, вычисляется параметр широкополосного выравнивания и, в частности, предпочтительный параметр широкополосного выравнивания межканальная разница во времени (ITD). Как показано на 170, сдвиг по времени L и R в частотной области осуществляется. Альтернативно, этот сдвиг по времени также может осуществляться во временной области. Затем осуществляется обратное DFT, осуществляется сдвиг по времени во временной области и осуществляется дополнительное прямое DFT, чтобы, опять же, иметь спектральные представления после выравнивания с использованием параметра широкополосного выравнивания.

Параметры ILD, т.е. параметры уровня и параметры фазы (параметры IPD), вычисляются для каждой параметрической полосы на сдвинутых представлениях L и R, как показано на этапе 171. Этот этап соответствует, например, этапу 160 на фиг. 4c. Сдвинутые по времени представления L и R вращаются как функция параметров межканальной разности фаз, как показано на этапе 161 на фиг. 4c или фиг. 5. Затем вычисляются средний и боковой сигналы, как показано на этапе 301, и, предпочтительно, дополнительно с энергосберегающей операцией, как рассмотрено далее. На следующем этапе 174 осуществляется предсказание S с помощью M как функция ILD и, в необязательном порядке, с помощью прошлого сигнала M, т.е. среднего сигнала более раннего кадра. Затем осуществляется обратное DFT среднего сигнала и бокового сигнала, которое соответствует этапам 303, 304, 305 на фиг. 4d в предпочтительном варианте осуществления.

На окончательном этапе 175, средний сигнал M во временной области и, в необязательном порядке, остаточный сигнал кодируются, как показано на этапе 175. Эта процедура соответствует осуществляемой кодером 400 сигнала на фиг. 1.

На декодере при обратной обработке стереосигнала, сигнал Side генерируется в области DFT и сначала предсказывается из сигнала Mid в виде:

где g - коэффициент усиления, вычисленный для каждой параметрической полосы и является функцией передаваемой межканальной разности уровней (ILD).

Затем остаток предсказания можно уточнять двумя разными путями:

- путем вторичного кодирования остаточного сигнала:

где - глобальный коэффициент усиления, передаваемый для всего спектра;

- путем остаточного предсказания, известного как стереозаполнение, предсказывающего спектр остаточного бокового сигнала с помощью спектра предыдущий декодированный сигнала Mid из предыдущего кадра DFT:

где - предсказательный коэффициент усиления, передаваемый для каждой параметрической полосы.

Два типа уточнения кодирования могут смешиваться в одном и том же спектре DFT. В предпочтительном варианте осуществления, остаточное кодирование применяется на более низких параметрических полосах, тогда как на оставшихся полосах применяется остаточное предсказание. Остаточное кодирование в предпочтительном варианте осуществления осуществляется, как описано на фиг. 1, в области MDCT после синтеза остаточного бокового сигнала во временной области и его преобразования посредством MDCT. В отличие от DFT, MDCT критично дискретизируется и более пригодно для кодирования аудиосигнала. Коэффициенты MDCT подвергаются непосредственно векторному квантованию посредством решеточного векторного квантования, но могут альтернативно кодироваться скалярным квантователем с последующей передачей на энтропийный кодер. Альтернативно, остаточный боковой сигнал также может кодироваться во временной области методом кодирования речи или непосредственно в области DFT.

1. Временно-частотный анализ: DFT

Важно, чтобы дополнительное временно-частотное разложение из обработки стереосигнала, осуществляемой посредством DFT, допускало хороший анализ звуковой сцены без значительного увеличения общей задержки системы кодирования. По умолчанию, используется временное разрешение 10 мс (вдвое большее кадрирования 20 мс базового кодера). Окна анализа и синтеза одинаковы и симметричны. Окно представлено на частоте дискретизации 16 кГц на фиг. 7. Можно видеть, что перекрывающая область ограничена для уменьшения порождаемой задержки, и что заполнение нулями также добавляется для уравновешивания кругового сдвига при применении ITD в частотной области, как будет объяснено ниже.

2. Стереофонические параметры

Стереофонические параметры могут передаваться, как максимум, с временным разрешением стереофонического DFT. Как максимум, оно может снижаться до разрешения кадрирования базового кодера, т.е. 20 мс. По умолчанию, когда переходов не обнаружено, параметры вычисляются каждые 20 мс в 2 окнах DFT. Параметрические полосы образуют неоднородное и неперекрывающееся разложение спектра с последующими примерно 2-кратным или 4-кратным эквивалентным прямоугольным полосам (ERB). По умолчанию, масштаб 4-кратного ERB используется для всего 12 полос для полосы частот 16 кГц (частота дискретизации 32 кбит/с, сверхширокополосный стереосигнал). На фиг. 8 приведен пример конфигурации, в которой вспомогательная информация стереосигнала передается со скоростью около 5 кбит/с.

3. Вычисление ITD и выравнивание каналов по времени

ITD вычисляются путем оценивания задержки по времени прихода (TDOA) с использованием обобщенной взаимной корреляции с фазовым преобразованием (GCC-PHAT):

где L и R - частотные спектры левого и правого каналов соответственно. Частотный анализ может осуществляться независимо от DFT, используемого для последующей обработки стереосигнала или может совместно использоваться. Для вычисления ITD используется следующий псевдокод:

Фиг. 4e демонстрирует блок-схему операций для осуществления ранее проиллюстрированного псевдокода для получения надежного и эффективного вычисления межканальной разницы во времени в качестве примера параметра широкополосного выравнивания.

В блоке 451 осуществляется DFT-анализ сигналов во временной области для первого канала (l) и второго канала (r). Этот DFT-анализ обычно идентичен DFT-анализу, рассмотренному в контексте этапов 155-157, например, на фиг. 5 или фиг. 4c.

Затем взаимная корреляция осуществляется для каждого частотного бина, как показано в блоке 452.

Таким образом, спектр взаимной корреляции получается для всего спектрального диапазона левого и правого каналов.

Затем на этапе 453 мера спектральной плоскостности вычисляется из спектров величины L и R и, на этапе 454, выбирается большая мера спектральной плоскостности. Однако выбор на этапе 454 не обязан быть выбором большей, но это определение единственной SFM из обоих каналов также может быть выбором и вычислением только левого канала или только правого канала или может быть вычислением взвешенного среднего обоих значений SFM.

Затем, на этапе 455, спектр взаимной корреляции сглаживается по времени в зависимости от меры спектральной плоскостности.

Предпочтительно, мера спектральной плоскостности вычисляется делением среднего геометрического спектра величины на среднее арифметическое спектра величины. Таким образом, значения SFM заключены между нулем и единицей.

На этапе 456, затем сглаженный спектр взаимной корреляции нормализуется по своей величине и на этапе 457 вычисляется обратное DFT нормализованного и сглаженного спектра взаимной корреляции. На этапе 458 предпочтительно осуществляется определенная фильтрация во временной области, но эта фильтрация во временной области также может оставаться в стороне в зависимости от реализации, но предпочтительно, как будет изложено далее.

На этапе 459 оценивание ITD осуществляется путем отбора пика обобщенной по фильтру взаимно-корреляционной функции и путем осуществления определенной операции порогового ограничения.

Если определенный порог не получен, то IDT устанавливается на нуль и для этого соответствующего блока не осуществляется выравнивания по времени.

Ниже также кратко писано вычисление ITD. Взаимная корреляция вычисляется в частотной области до сглаживания в зависимости от измерения спектральной плоскостности. SFM заключено между 0 и 1. В случае шумоподобных сигналов SFM будет высоким (т.е. около 1), и сглаживание будет слабым. В случае тоноподобного сигнала, SFM будет низким, и сглаживание будет усиливаться. Затем сглаженная взаимная корреляция нормализуется по своей амплитуде до преобразования обратно во временную область. Нормализация соответствует фазовому преобразованию взаимной корреляции, и, как известно, демонстрирует более высокую производительность, чем нормальная взаимная корреляция в окружениях с низким шумом и относительно высокой реверберацией. Сначала полученная таким образом функция временной области фильтруется для достижения более надежного отбора пика. Индекс соответствующий максимальной амплитуде, соответствует оценке разницы во времени между левым и правым каналами (ITD). Если амплитуда максимума ниже, чем данный порог, то оценка ITD не считается надежной и устанавливается на нуль.

Если выравнивание по времени применяется во временной области, ITD вычисляется в отдельном DFT-анализе. Сдвиг осуществляется следующим образом:

Он требует дополнительной задержки на кодере, которая равна, как максимум, максимальной абсолютной ITD, которая может обрабатываться. Изменение ITD по времени сглаживается путем аналитического вырезания DFT.

Альтернативно, выравнивание по времени может осуществляться в частотной области. В этом случае, вычисление ITD и кругового сдвига находится в одной и той же области DFT, области, совместно используемой с этой другой обработкой стереосигнала. Круговой сдвиг задается согласно:

Заполнение нулями окон DFT необходимо для моделирования сдвига по времени круговым сдвигом. Размер заполнения нулями соответствует максимальной абсолютной ITD, которая может обрабатываться. В предпочтительном варианте осуществления, заполнение нулями делится однородно по обе стороны окон анализа, путем добавления 3,125 мс нулей на обоих концах. В этом случае максимально возможная абсолютная ITD равна 6,25 мс. В установке микрофонов A-B, она, в худшем случае, соответствует максимальному расстоянию около 2,15 метров между двумя микрофонами. Изменение ITD по времени сглаживается путем синтетического вырезания и сложения с перекрытием DFT.

Важно, чтобы после сдвига по времени следовало вырезание сдвинутого сигнала. В этом состоит главное отличие от традиционного кодирования бинаурального сигнала (BCC), где сдвиг по времени применяется на вырезанном сигнале, но дополнительно не вырезается на стадии синтеза. В результате, любое изменение ITD по времени создает искусственный переходный/щелчок в декодированном сигнале.

4. Вычисление IPD и вращение канала

IPDs вычисляются после выравнивания по времени двух каналов, и это для каждой параметрической полосы или, по меньшей мере, до данной , в зависимости от стереофонической конфигурации.

Затем IPD применяется к двум каналам для выравнивания их фаз:

где , и b - индекс параметрической полосы, которому принадлежит частотный индекс k. Параметр определяет распределение величины фазовращения между двумя каналами при их выравнивании по фазе. зависит от IPD, но также уровня относительной амплитуды каналов, ILD. Если канал имеет более высокую амплитуду, он будет считаться ведущим каналом и будет менее подвержен фазовращению, чем канал с более низкой амплитудой.

5. Кодирование суммарно-разностного и бокового сигнала

Преобразование суммы-разности осуществляется на выровненных по времени и фазе спектрах двух каналов таким образом, что энергия запасается в среднем сигнале.

где заключено между 1/1,2 и 1,2, т.е. от -1,58 и +1,58 дБ. Ограничение позволят устранять артефакты при регулировке энергии M и S. Напомним, что это сохранение энергии менее важно, когда время и фаза заранее выровнены. Альтернативно, границы могут увеличиваться или уменьшаться.

Боковой сигнал S дополнительно предсказывается согласно M:

где где . Альтернативно, оптимальный коэффициент усиления предсказания g можно найти путем минимизации среднеквадратической ошибки (MSE) остатка и ILD, выведенной из вышеприведенного уравнения.

Остаточный сигнал может моделироваться двумя средствами: либо путем его предсказания с помощью задержанного спектра M, либо путем его кодирования непосредственно в области MDCT.

6. Декодирование стереосигнала

Сначала средний сигнал X и боковой сигнал S преобразуются в левый и правый каналы L и R следующим образом:

где коэффициент усиления g для каждой параметрической полосы выводится из параметра ILD:

где

Для параметрических полос ниже cod_max_band, два канала обновляются декодированным боковым сигналом:

Для более высоких параметрических полос, боковой сигнал предсказывается, и каналы обновляются в виде:

Наконец, каналы умножаются на комплексное значение для восстановления начальной энергии и межканальной фазы стереосигнала:

где

где a задано и ограничено, как определено ранее, и где , и где atan2(x,y) - четырехквадрантная обратная функция тангенса x по y.

Наконец, каналы сдвигаются по времени во временной или в частотной области в зависимости от передаваемых ITD. Каналы во временной области синтезируются посредством обратного DFT и сложения с перекрытием.

Конкретные признаки изобретения относятся к комбинации пространственных сигналов и совместного суммарно-разностного кодирования стереосигнала. В частности, пространственные сигналы IDT и IPD вычисляются и применяются на стереоканалах (левом и правом). Кроме того, сигналы суммы-разности (M/S) вычисляются и, предпочтительно, применяется предсказание S с помощью M.

На стороне декодера, широкополосные и узкополосные пространственные сигналы объединяются совместно с суммарно-разностным совместным кодированием стереосигнала. В частности, боковой сигнал предсказывается с помощью среднего сигнала с использованием, по меньшей мере, одного пространственного сигнала, например ILD, и обратная сумма-разность вычисляется для получения левого и правого канала и, дополнительно, широкополосные и узкополосные пространственные сигналы применяются на левом и правом каналы.

Предпочтительно, кодер имеет окно и сложение с перекрытием в отношении выровненных по времени каналов после обработки с использованием ITD. Кроме того, декодер дополнительно имеет операцию вырезания и сложения с перекрытием сдвинутых или со снятым выравниванием версий каналов после применения межканальной разницы во времени.

Вычисление межканальной разницы во времени способом GCC-PHAT является особенно надежным способом.

Новая процедура является преимущественно традиционной, поскольку достигает кодирования битовой скорости стереофонического аудиосигнала или многоканального аудиосигнала с низкой задержкой. Она, в частности, предназначена быть надежной для разных характеров входных сигналов и разных установок многоканальной или стереофонической записи. В частности, настоящее изобретение обеспечивает хорошее качество кодирования битовой скорости речевых стереосигналов.

Предпочтительные процедуры находят использование в распространении вещания всех типов контента стереофонического или многоканального аудиосигнала, например, наподобие речи и музыки с постоянным перцептивным качеством при данной низкой битовой скорости. Такими областями применение являются цифровое радио, потоковая передача в интернете или приложения передачи аудиосигнала.

Аудиосигнал, кодированный согласно изобретению, может храниться на цифровом носителе данных или нетранзиторном носителе данных или может передаваться в среде передачи, например, беспроводной среде передачи или проводной среде передачи, например, интернете.

Хотя некоторые аспекты были описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признака этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы аппаратными средствами или программными средствами. Реализация может осуществляться с использованием цифрового носителя данных, например, флоппи-диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флеш-памяти, на котором хранятся электронно считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой, таким образом, что осуществляется один из описанных здесь способов.

В общем случае, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код способен осуществлять один из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из описанных здесь способов, хранящихся на машиночитаемом носителе или нетранзиторном носителе данных.

Другими словами, вариант осуществления способа, отвечающего изобретению, является, таким образом, компьютерной программой, имеющей программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.

Дополнительный вариант осуществления способов, отвечающих изобретению, таким образом, является носителем данных (или цифровым носителем данных, или компьютерно-считываемым носителем), на котором записана компьютерная программа для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления способа, отвечающего изобретению, является, таким образом, потоком данных или последовательностью сигналов, представляющей компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, быть выполнена с возможностью переноса через соединение передачи данных, например, через интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер, или программируемое логическое устройство, выполненное с возможностью или адаптированное для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления содержит компьютер, на котором установлена компьютерная программа для осуществления одного из описанных здесь способов.

В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) может использоваться для осуществления некоторых или всех из функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления, вентильная матрица, программируемая пользователем, может взаимодействовать с микропроцессором для осуществления одного из описанных здесь способов. В общем случае, способы предпочтительно осуществляются любым аппаратным устройством.

Вышеописанные варианты осуществления призваны лишь иллюстрировать принципы настоящего изобретения. Следует понимать, что модификации и вариации описанных здесь конфигураций и деталей будут очевидны другим специалистам в данной области техники. Таким образом, следует ограничиваться только объемом нижеследующей формулы изобретения, но не конкретными деталями, представленными посредством описания и объяснения рассмотренных здесь вариантов осуществления.

УСТРОЙСТВО И СПОСОБ КОДИРОВАНИЯ ИЛИ ДЕКОДИРОВАНИЯ МНОГОКАНАЛЬНОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ПАРАМЕТРА ШИРОКОПОЛОСНОГО ВЫРАВНИВАНИЯ И МНОЖЕСТВА ПАРАМЕТРОВ УЗКОПОЛОСНОГО ВЫРАВНИВАНИЯ

Источник поступления информации: Роспатент

Авторы
Правообладатели

Showing 1-10 of 331 items.

20.08.2013

№216.012.5f96

Способ сварки и конструктивный элемент

Изобретение может быть использовано при ремонте конструктивных элементов с заполнением сваркой углублений поврежденной области. Углубление (4) имеет контур (16), который ограничивает наружную поверхность (13) конструктивного элемента относительно углубления (4). Углубление (4) заполняют слоями...

Тип: Изобретение

Номер охранного документа: 0002490102

Дата охранного документа: 20.08.2013

Показать авторов и правообладателей

10.09.2013

№216.012.6915

Силовой полупроводниковый модуль с боковыми стенками слоистой конструкции

Изобретение относится к силовому полупроводниковому модулю. Технический результат - предложение силового полупроводникового модуля, обладающего высокой взрывоустойчивостью и изготавливаемого с особенно оптимальными затратами. Достигается тем, что в силовом полупроводниковом модуле (1),...

Тип: Изобретение

Номер охранного документа: 0002492548

Дата охранного документа: 10.09.2013

Показать авторов и правообладателей

20.09.2013

№216.012.6d3e

Устройство, способ и компьютерная программа для обеспечения набора пространственных указателей на основе сигнала микрофона и устройство для обеспечения двухканального аудиосигнала и набора пространственных указателей

Устройство для обеспечения набора пространственных указателей, связанных с аудиосигналом повышающего микширования, имеющим более двух каналов, на основе двухканального сигнала микрофона, содержит анализатор сигнала и генератор дополнительной пространственной информации. Анализатор сигнала...

Тип: Изобретение

Номер охранного документа: 0002493617

Дата охранного документа: 20.09.2013

Показать авторов и правообладателей

20.11.2013

№216.012.827b

Способ получения прозрачного проводящего покрытия из оксида металла путем импульсного высокоионизирующего магнетронного распыления

Прозрачное проводящее покрытие из оксида металла наносят на подложку путем распыления, по меньшей мере, одного компонента покрытия из оксида металла импульсным магнетронным методом и конденсирования его на подложке. Пиковая плотность мощности импульсов магнетрона составляет свыше 1,5 кВт/см,...

Тип: Изобретение

Номер охранного документа: 0002499079

Дата охранного документа: 20.11.2013

Показать авторов и правообладателей

20.08.2014

№216.012.eb94

Транспортное средство с отражателем звуковых волн

Группа изобретений относится к области транспортного машиностроения. Транспортное средство по первому варианту содержит потолок и один динамик. Потолок имеет первую часть, отражающую звуковые волны и имеющую первую характеристику отражения звуковых волн, и вторую часть, имеющую вторую...

Тип: Изобретение

Номер охранного документа: 0002526116

Дата охранного документа: 20.08.2014

Показать авторов и правообладателей

10.09.2014

№216.012.f1d9

Устройство, способ и компьютерная программа для выработки широкополосного сигнала с использованием управляемого расширения ширины полосы и слепого расширения ширины полосы

Изобретение относится к средствам для выработки широкополосного сигнала с использованием входного сигнала низкой полосы. Технический результат заключается в расширении полосы при низкой скорости передачи битов и сохранении высокого качества сигнала. Процессор выполняет операции управляемого...

Тип: Изобретение

Номер охранного документа: 0002527735

Дата охранного документа: 10.09.2014

Показать авторов и правообладателей

20.02.2015

№216.013.28a7

Аудио или видео кодер, аудио или видео и относящиеся к ним способы для обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания

Изобретение относится к средствам обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания. Технический результат заключается в повышении качества аудио или видео. Объединяют два аудио или видео канала для получения первого сигнала объединения в...

Тип: Изобретение

Номер охранного документа: 0002541864

Дата охранного документа: 20.02.2015

Показать авторов и правообладателей

10.04.2015

№216.013.3ad7

Поставщик транспортного потока, поставщик сигнала dab, анализатор транспортного потока, приемник dab, способ, компьютерная программа и сигнал транспортного потока

Изобретение относится к поставщикам транспортного потока. Технический результат заключается в повышении безопасности передачи данных. Поставщик транспортного потока конфигурируется для предоставления пакета транспортного потока первого типа пакета, содержащего таблицу взаимосвязи программ и...

Тип: Изобретение

Номер охранного документа: 0002546551

Дата охранного документа: 10.04.2015

Показать авторов и правообладателей

10.04.2015

№216.013.3b0a

Способ и кодер и декодер для воспроизведения без промежутка аудио сигнала

Заявленное изобретение относится к средствам для выдачи информации относительно достоверности закодированных аудиоданных. Технический результат заключается в обеспечении возможности обрезания недостоверных данных. Каждый блок закодированных аудиоданных может содержать информацию относительно...

Тип: Изобретение

Номер охранного документа: 0002546602

Дата охранного документа: 10.04.2015

Показать авторов и правообладателей

10.04.2015

№216.013.3d89

Аудиокодек, поддерживающий режимы кодирования во временной области и в частотной области

Изобретение относится к средствам, поддерживающим режимы кодирования во временной области и в частотной области. Технический результат заключается в уменьшении задержки и повышении эффективности кодирования с точки зрения отношения скорость/искажения. Конфигурируют аудиокодер таким образом, что...

Тип: Изобретение

Номер охранного документа: 0002547241

Дата охранного документа: 10.04.2015

Показать авторов и правообладателей

Showing 1-10 of 18 items.

20.04.2015

№216.013.41e8

Электрический шкаф распределительного устройства

Изобретение относится к электротехнике и может быть использовано в электрических шкафах низковольтных распределительных устройств для применения с напряжениями до 500 В и электрическим током до 63 А. Технический результат состоит в упрощении изготовления и эксплуатации. Шкаф распределительного...

Тип: Изобретение

Номер охранного документа: 0002548370

Дата охранного документа: 20.04.2015

Показать авторов и правообладателей

19.01.2018

№218.016.09eb

Устройство и способ выбора одного из первого алгоритма кодирования и второго алгоритма кодирования с использованием уменьшения гармоник

Изобретение относится к средствам для выбора алгоритма кодирования. Технический результат заключается в уменьшении сложности выбора между первым алгоритмом кодирования и вторым алгоритмом кодирования. Устройство для выбора одного из первого алгоритма кодирования и второго алгоритма кодирования,...

Тип: Изобретение

Номер охранного документа: 0002632151

Дата охранного документа: 02.10.2017

Показать авторов и правообладателей

20.06.2018

№218.016.6448

Устройство и способ для генерации адаптивной формы спектра комфотного шума

Изобретение относится к акустике, в частности к устройствам декодирования аудиосигналов. Устройство содержит интерфейс приема для приема кадров аудиоинформации, генератор коэффициентов и средство восстановления сигнала. Генератор коэффициентов выполнен с возможностью проверки текущего...

Тип: Изобретение

Номер охранного документа: 0002658128

Дата охранного документа: 19.06.2018

Показать авторов и правообладателей

08.07.2018

№218.016.6da4

Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем разделения огибающей аудиосигнала с использованием квантования и кодирования распределения

Изобретение относится к области радиосвязи и предназначено для кодирования, обработки и декодирования аудиосигнала, для получения восстановленной огибающей аудиосигнала. Технический результат – предоставление улучшенных концепций для кодирования и декодирования огибающей аудиосигнала и...

Тип: Изобретение

Номер охранного документа: 0002660633

Дата охранного документа: 06.07.2018

Показать авторов и правообладателей

26.12.2018

№218.016.aab5

Устройство и способ улучшенного плавного изменения сигнала в различных областях во время маскирования ошибок

Изобретение относится к акустике, в частности к декодерам звукового сигнала. Устройство содержит средство приема звукового сигнала, которое выполнено с возможностью приема кадров, содержащих звуковую информацию. Устройство содержит блок отслеживания уровня шума, первый блок восстановления для...

Тип: Изобретение

Номер охранного документа: 0002675777

Дата охранного документа: 24.12.2018

Показать авторов и правообладателей

30.03.2019

№219.016.f9f4

Сокращенное декодирование

Изобретение относится к области вычислительной техники для декодирования аудиоданных. Технический результат заключается в повышении точности аудиодекодирования. Технический результат достигается за счет подавления искажений во временной области, подвергая обработанный с помощью оконной функции...

Тип: Изобретение

Номер охранного документа: 0002683487

Дата охранного документа: 28.03.2019

Показать авторов и правообладателей

04.11.2019

№219.017.de44

Устройство и способ для кодирования или декодирования многоканального сигнала с использованием сихронизации управления кадрами

Изобретение относится к области обработки многоканальных сигналов. Технический результат заключается в повышении точности обработки многоканального сигнала. Технический результат достигается за счет преобразования последовательностей блоков значений дискретизации двух каналов в представление...

Тип: Изобретение

Номер охранного документа: 0002705007

Дата охранного документа: 01.11.2019

Показать авторов и правообладателей

18.04.2020

№220.018.15d5

Аудиокодер для кодирования аудиосигнала, способ для кодирования аудиосигнала и компьютерная программа, учитывающие детектируемую спектральную область пиков в верхнем частотном диапазоне

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования. Детектируют (802) спектральную область пиков в верхнем частотном диапазоне аудиосигнала. Формируют (804) нижний частотный диапазон аудиосигнала с...

Тип: Изобретение

Номер охранного документа: 0002719008

Дата охранного документа: 16.04.2020

Показать авторов и правообладателей

03.07.2020

№220.018.2dfa

Устройство и способ для кодирования или декодирования многоканального сигнала с использованием коэффициента передачи побочного сигнала и коэффициента передачи остаточного сигнала

Изобретение относится к кодированию многоканального сигнала 100. Технический результат - улучшение концепции для обработки многоканальных данных. Для этого предусмотрено по меньшей мере два канала 101, 102 и устройство содержит понижающий микшер 120 для расчета сигнала 122 понижающего...

Тип: Изобретение

Номер охранного документа: 0002725178

Дата охранного документа: 30.06.2020

Показать авторов и правообладателей

24.07.2020

№220.018.37fc

Устройство и способ кодирования аудиосигнала с использованием значения компенсации

Изобретение для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования. Осуществляют базовое кодирование первых аудиоданных в первой спектральной полосе. Осуществляют параметрическое кодирование вторых аудиоданных во второй спектральной полосе,...

Тип: Изобретение

Номер охранного документа: 0002727728

Дата охранного документа: 23.07.2020

Показать авторов и правообладателей