13.02.2018

№218.016.20eb

Результат интеллектуальной деятельности: СТРУКТУРА ДЕКОРРЕЛЯТОРА ДЛЯ ПАРАМЕТРИЧЕСКОГО ВОССТАНОВЛЕНИЯ ЗВУКОВЫХ СИГНАЛОВ

Вид РИД

Изобретение

Юридическая информация Юридическая информация Свернуть Развернуть

Авторы

Правообладатели

№ охранного документа

0002641463

Дата охранного документа

17.01.2018

Краткое описание РИД Краткое описание РИД Свернуть Развернуть

Аннотация: Изобретение относится к области кодирования и декодирования звуковых сигналов. Технический результат – повышение точности восстановления звуковых сигналов. Система кодирования кодирует множественные звуковые сигналы () в виде сигнала () понижающего микширования вместе с коэффициентами (, ) управляемого и прямого повышающего микширования. В системе декодирования блок предварительного умножения вычисляет промежуточный сигнал () путем линейного отображения сигнала понижающего микширования в соответствии с первым набором коэффициентов (); декорреляционная секция выдает декоррелированный сигнал () на основании промежуточного сигнала; секция управляемого повышающего микширования вычисляет сигнал управляемого повышающего микширования; секция прямого повышающего микширования вычисляет сигнал прямого повышающего микширования; секция суммирования предоставляет многомерный восстановленный сигнал () путем суммирования сигналов управляемого и прямого повышающего микширования; и преобразователь вычисляет первый набор коэффициентов, основываясь на коэффициентах управляемого и прямого повышающего микширования, и подает его на блок предварительного умножения. 5 н. и 13 з.п. ф-лы, 4 ил.

Реферат Реферат Свернуть Развернуть

ПЕРЕКРЕСТНЫЕ ССЫЛКИ НА РОДСТВЕННЫЕ ЗАЯВКИ

Настоящая заявка испрашивает приоритет по предварительным заявкам на патенты США № 61/973,646, поданной 1 апреля 2014, и № 61/893,770, поданной 21 октября 2013, каждая из которых полностью включается в данный документ путем ссылки.

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящее изобретение, раскрываемое в данном документе, в целом, имеет отношение к кодированию и декодированию звуковых сигналов, а в частности к параметрическому восстановлению множества звуковых сигналов из сигнала понижающего микширования и ассоциированных метаданных.

УРОВЕНЬ ТЕХНИКИ

Системы воспроизведения звука, содержащие несколько громкоговорителей, часто используются для воспроизведения звуковой сцены, представленной множеством звуковых сигналов, при этом соответственные звуковые сигналы воспроизводятся на соответственных громкоговорителях. Звуковые сигналы, например, могли быть записаны при помощи множества акустических преобразователей или могли быть сгенерированы посредством оборудования для проектирования звуковых данных. Во многих ситуациях имеются ограничения полосы пропускания для передачи звуковых сигналов к воспроизводящему оборудованию и/или ограниченное пространство для хранения звуковых сигналов в компьютерном запоминающем устройстве или на переносном устройстве хранения данных. Существуют системы кодирования звука для параметрического кодирования звуковых сигналов, чтобы уменьшить полосу пропускания или необходимую емкость хранилища. На стороне кодера эти системы обычно осуществляют понижающее микширование звуковых сигналов в сигнал понижающего микширования, который обычно является монофоническим (один канал) или стереофоническим (два канала) понижающим микшированием, и выделяют дополнительную информацию, описывающую характеристики звуковых сигналов посредством параметров, таких как разности уровней и взаимная корреляция. Затем понижающее микширование и дополнительная информация кодируются и отправляются на сторону декодера. На стороне декодера множество звуковых сигналов восстанавливают, т.е. аппроксимируют, из понижающего микширования, руководствуясь параметрами из дополнительной информации. Декорреляторы часто используются в рамках параметрического восстановления для повышения размерности звукового содержимого, предоставленного понижающим микшированием, чтобы обеспечить возможность более верного восстановления множества звуковых сигналов. То, каким образом спроектировать и реализовать декорреляторы, может быть ключевыми факторами для повышения точности восстановления.

Ввиду широкого ассортимента разных типов устройств и систем, пригодных для воспроизведения множества звуковых сигналов, представляющих звуковую сцену, включая сюда перспективный сегмент, нацеленный на конечных пользователей в своих домах, существует потребность в новых и альтернативных методах эффективного кодирования множества звуковых сигналов, с тем чтобы уменьшить требования к полосе пропускания и/или требуемую емкость запоминающего устройства для хранения, и/или облегчить восстановление множества звуковых сигналов на стороне декодера.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

В дальнейшем иллюстративные варианты осуществления будут описаны более подробно и со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 является обобщенной структурной схемой секции параметрического восстановления для восстановления множества звуковых сигналов на основании сигнала понижающего микширования и ассоциированных коэффициентов управляемого (wet) и прямого (dry) повышающего микширования в соответствии с одним из иллюстративных вариантов осуществления;

Фиг. 2 является обобщенной структурной схемой системы декодирования звука, содержащей секцию параметрического восстановления, изображенную на Фиг. 1, в соответствии с одним из иллюстративных вариантов осуществления;

Фиг. 3 является обобщенной структурной схемой секции параметрического кодирования для кодирования множества звуковых сигналов в виде данных, подходящих для параметрического восстановления, в соответствии с одним из иллюстративных вариантов осуществления; и

Фиг. 4 является обобщенной структурной схемой системы кодирования звука, содержащей секцию параметрического кодирования, изображенную на Фиг. 3, в соответствии с одним из иллюстративных вариантов осуществления.

Все эти чертежи являются схематичными и лишь в общих чертах демонстрируют элементы, которые необходимы для того, чтобы пояснить настоящее изобретение, тогда как другие элементы могут быть опущены или просто предполагаться.

ОПИСАНИЕ ИЛЛЮСТРАТИВНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Как используется в данном документе, звуковой сигнал может быть чистым звуковым сигналом, звуковой частью видеозвукового сигнала или мультимедийного сигнала или каждого из них в сочетании с метаданными.

Как используется в данном документе, канал представляет собой звуковой сигнал, ассоциированный с предварительно заданным/фиксированным пространственным положением/ ориентацией или с незаданным пространственным положением, таким как "слева" или "справа".

Как используется в данном документе, звуковой объект или сигнал звукового объекта представляет собой звуковой сигнал, ассоциированный с пространственным положением, допускающим изменяемость со временем, т.е. пространственным положением, значение которого может быть повторно назначено или обновлено с течением времени.

I. Краткий обзор

В соответствии с первым аспектом, иллюстративные варианты осуществления предлагают системы декодирования звука, а также способы и компьютерные программные продукты для восстановления множества звуковых сигналов. Предлагаемые системы, способы и компьютерные программные продукты для декодирования в соответствии с первым аспектом, могут в общем смысле быть связаны одними и теми же признаками и преимуществами.

В соответствии с иллюстративными вариантами осуществления предоставляется способ восстановления множества звуковых сигналов. Способ содержит этапы, на которых: принимают временной/частотный фрагмент сигнала понижающего микширования вместе с ассоциированными коэффициентами управляемого и прямого повышающего микширования, при этом сигнал понижающего микширования содержит меньше каналов, чем количество звуковых сигналов, подлежащих восстановлению; вычисляют первый сигнал с одним или несколькими каналами, называемый промежуточным сигналом, как линейное отображение сигнала понижающего микширования, причем первый набор коэффициентов применяется к каналам сигнала понижающего микширования в рамках вычисления промежуточного сигнала; генерируют второй сигнал с одним или несколькими каналами, называемый декоррелированным сигналом, путем обработки одного или нескольких каналов промежуточного сигнала; вычисляют третий сигнал с множеством каналов, называемый сигналом управляемого повышающего микширования, как линейное отображение декоррелированного сигнала, причем второй набор коэффициентов применяется к одному или нескольким каналам декоррелированного сигнала в рамках вычисления сигнала управляемого повышающего микширования; вычисляют четвертый сигнал с множеством каналов, называемый сигналом прямого повышающего микширования, как линейное отображение сигнала понижающего микширования, причем третий набор коэффициентов применяется к каналам сигнала понижающего микширования в рамках вычисления сигнала прямого повышающего микширования; и суммируют сигналы управляемого и прямого повышающего микширования, чтобы получить многомерный восстановленный сигнал, соответствующий временному/частотному фрагменту множества звуковых сигналов, подлежащих восстановлению. В настоящем иллюстративном варианте осуществления второй и третий наборы коэффициентов соответствуют принятым коэффициентам управляемого и прямого повышающего микширования соответственно; а первый набор коэффициентов вычисляется согласно предварительно заданному правилу на основании коэффициентов управляемого и прямого повышающего микширования.

Добавление декоррелированного сигнала служит для увеличения размерности содержимого многомерного восстановленного сигнала, который воспринимается слушателем, и повышения точности воспроизведения многомерного восстановленного сигнала. Каждый из одного или нескольких каналов декоррелированного сигнала может иметь, по меньшей мере, приблизительно такой же спектр, как соответствующий канал из одного или нескольких каналов промежуточного сигнала, или могут иметь спектры, соответствующие перемасштабированной/нормализованной версии спектра соответствующего канала из одного или нескольких каналов промежуточного сигнала, и один или несколько каналов декоррелированного сигнала могут быть, по меньшей мере, почти взаимно некоррелированными. Один или несколько каналов декоррелированного сигнала, по возможности, могут быть, по меньшей мере, почти некоррелированными относительно одного или нескольких каналов промежуточного сигнала и каналов сигнала понижающего микширования. Хотя и можно синтезировать взаимно некоррелированные сигналы с заданным спектром, например из белого шума, один или несколько каналов декоррелированного сигнала в соответствии с настоящим иллюстративным вариантом осуществления генерируются путем обработки промежуточного сигнала, например, включающей в себя применение соответственных всечастотных фильтров к соответственным одному или нескольким каналам промежуточного сигнала или перекомпоновку частей соответственных одного или нескольких каналов промежуточного сигнала, чтобы сохранить как можно больше характеристик, особенно локально постоянных характеристик, промежуточного сигнала, в том числе относительно менее явные, обусловленные психофизиологией слухового восприятия, характеристики промежуточного сигнала, такие как тембр.

Авторы настоящего изобретения поняли, что выбор промежуточного сигнала, из которого выводится декоррелированный сигнал, может повлиять на точность воспроизведения восстановленных звуковых сигналов, и что если некоторые характеристики подлежащих восстановлению звуковых сигналов изменяются, например, если подлежащие восстановлению звуковые сигналы являются звуковыми объектами с изменяющимися во времени положениями, точность воспроизведения восстановленных звуковых сигналов может быть повышена, если вычисления, с помощью которых получается промежуточный сигнал, соответствующим образом адаптируются. В настоящем иллюстративном варианте осуществления вычисление промежуточного сигнала включает в себя применение первого набора коэффициентов к каналам сигналов понижающего микширования, а следовательно, первый набор коэффициентов обеспечивает возможность, по меньшей мере, некоторого контроля над тем, как вычисляется промежуточный сигнал, что позволяет повысить точность воспроизведения восстановленных звуковых сигналов.

Авторы настоящего изобретения также поняли, что принятые коэффициенты управляемого и прямого повышающего микширования, используемые для вычисления сигналов управляемого и прямого повышающего микширования, соответственно несут информацию, которая может быть использована, чтобы вычислять подходящие значения для первого набора коэффициентов. Благодаря вычислению первого набора коэффициентов, согласно предварительно заданному правилу, на основании коэффициентов управляемого и прямого повышающего микширования объем информации, необходимый для того чтобы обеспечить условия для восстановления множества звуковых сигналов, уменьшается, что позволяет сократить объем метаданных, передаваемых вместе с сигналом понижающего микширования со стороны кодера. За счет уменьшения объема данных, необходимого для параметрического восстановления, требуемая полоса пропускания для передачи параметрического представления множества звуковых сигналов, подлежащих восстановлению, и/или требуемая емкость запоминающего устройства для хранения такого представления могут быть уменьшены.

Под соответствием второго и третьего наборов коэффициентов принятым коэффициентам управляемого и прямого повышающего микширования соответственно подразумевается, что второй и третий наборы коэффициентов совпадают с коэффициентами управляемого и прямого повышающего микширования соответственно, или что второй и третий наборы коэффициентов однозначно регулируются (или выводятся из них) коэффициентами управляемого и прямого повышающего микширования соответственно. Например, второй набор коэффициентов может быть выведен из коэффициентов управляемого повышающего микширования, даже если число коэффициентов управляемого повышающего микширования ниже, чем число коэффициентов во втором наборе коэффициентов, например если предварительно заданные формулы для определения второго набора коэффициентов на основании коэффициентов управляемого повышающего микширования известны на стороне декодера.

Суммирование сигналов управляемого и прямого повышающего микширования может включать в себя добавление звукового содержимого из соответственных каналов сигнала управляемого повышающего микширования к звуковому содержимому соответственных отвечающих каналов сигнала прямого повышающего микширования, например аддитивное микширование по каждому отсчету или по каждому коэффициенту преобразования.

Под тем, что промежуточный сигнал является линейным отображением сигнала понижающего микширования, подразумевается, что промежуточный сигнал получается путем применения первого линейного преобразования к сигналу понижающего микширования. Это первое преобразование берет предварительно заданное число каналов в качестве входа и предоставляет предварительно заданное число из одного или нескольких каналов в качестве выхода, а первый набор коэффициентов включает в себя коэффициенты, задающие количественные характеристики этого первого линейного преобразования.

Под тем, что сигнал управляемого повышающего микширования является линейным отображением декоррелированного сигнала, подразумевается, что сигнал управляемого повышающего микширования получается путем применения второго линейного преобразования к декоррелированному сигналу. Это второе преобразование берет предварительно заданное число из одного или нескольких каналов в качестве входа и предоставляет предварительно заданное (второе) число каналов в качестве выхода, а второй набор коэффициентов включает в себя коэффициенты, задающие количественные характеристики этого второго линейного преобразования.

Под тем, что сигнал прямого повышающего микширования является линейным отображением сигнала понижающего микширования, подразумевается, что сигнал прямого повышающего микширования получается путем применения третьего линейного преобразования к сигналу понижающего микширования. Это третье преобразование берет предварительно заданное (третье) число каналов в качестве входа и предоставляет предварительно заданное число каналов в качестве выхода, а третий набор коэффициентов включает в себя коэффициенты, задающие количественные характеристики этого третьего линейного преобразования.

Системы кодирования/декодирования звука, как правило, разделяют частотно-временное пространство на временные/частотные фрагменты, например, применяя подходящие банки фильтров к входным звуковым сигналам. Под временным/частотным фрагментом в общем случае подразумевается часть частотно-временного пространства, соответствующая временному интервалу и частотному поддиапазону. Временной интервал, как правило, может соответствовать продолжительности временного кадра, используемого в системе кодирования/декодирования звука. Частотный поддиапазон, как правило, может соответствовать одному или нескольким соседним частотным поддиапазонам, задаваемым банком фильтров, использующимся в системе кодирования/ декодирования. В случае когда частотный поддиапазон соответствует нескольким соседним частотным поддиапазонам, задаваемым банком фильтров, это позволяет иметь неоднородные частотные поддиапазоны в процессе декодирования/восстановления звукового сигнала, например более широкие частотные поддиапазоны для более высоких частот звукового сигнала. В широкополосном случае, когда система кодирования/декодирования звука работает во всей полосе частот, частотный поддиапазон временного/частотного фрагмента может соответствовать всей полосе частот. Способ в соответствии с настоящим иллюстративным вариантом осуществления описывается через этапы для восстановления множества звуковых сигналов для одного такого временного/частотного фрагмента. Однако следует понимать, что способ может быть повторен для каждого временного/частотного фрагмента системы кодирования/декодирования звука. Кроме того, следует понимать, что несколько временных/частотных фрагментов могут быть восстановлены одновременно. Как правило, соседние временные/частотные фрагменты могут быть непересекающимися или могут частично перекрываться.

В одном из иллюстративных вариантов осуществления промежуточный сигнал, который должен быть переработан в декоррелированный сигнал, может быть получен путем линейного отображения сигнала прямого повышающего микширования, т.е. промежуточный сигнал может быть получен путем применения линейного преобразования к сигналу прямого повышающего микширования. Благодаря использованию промежуточного сигнала, получаемого путем линейного отображения сигнала прямого повышающего микширования, который вычисляется как линейное отображение сигнала понижающего микширования, сложность вычислений, требуемых для получения декоррелированного сигнала, может быть уменьшена, что обеспечивает возможность более эффективного в вычислительном отношении восстановления звуковых сигналов. По меньшей мере, в некоторых иллюстративных вариантах осуществления коэффициенты прямого повышающего микширования могли быть определены на стороне кодера таким образом, что сигнал прямого повышающего микширования, вычисленный на стороне декодера, аппроксимирует звуковые сигналы, подлежащие восстановлению. Генерирование декоррелированного сигнала на основании промежуточного сигнала, получаемого путем линейного отображения результата такой аппроксимации, может повысить точность воспроизведения восстановленных звуковых сигналов.

В одном из иллюстративных вариантов осуществления промежуточный сигнал может быть получен путем применения к сигналу прямого повышающего микширования набора коэффициентов, представляющих собой абсолютные значения коэффициентов управляемого повышающего микширования. Промежуточный сигнал, например, может быть получен путем формирования одного или нескольких каналов промежуточного сигнала в виде соответственных одной или нескольких линейных комбинаций каналов сигнала прямого повышающего микширования, при этом абсолютные значения коэффициентов управляемого повышающего микширования могут быть применены к соответственным каналам сигнала прямого повышающего микширования в качестве коэффициентов усиления в одной или нескольких линейных комбинациях. Благодаря использованию промежуточного сигнала, получаемого путем отображения сигнала прямого повышающего микширования, в результате применения набора коэффициентов, представляющих собой абсолютные значения коэффициентов управляемого повышающего микширования, может быть снижен риск потери точности, возникающей в промежуточном сигнале между вкладами от соответственных каналов сигнала прямого повышающего микширования, из-за коэффициентов управляемого повышающего микширования, имеющих разные знаки. За счет снижения риска потери точности в промежуточном сигнале энергия/амплитуда декоррелированного сигнала, генерируемого из промежуточного сигнала, согласуется с энергией/амплитудой звуковых сигналов в восстановленном виде, и резкие колебания коэффициентов управляемого повышающего микширования могут быть предотвращены или могут возникать реже.

В одном из иллюстративных вариантов осуществления первый набор коэффициентов может быть вычислен путем обработки коэффициентов управляемого повышающего микширования согласно предварительно заданному правилу и перемножения обработанных коэффициентов управляемого повышающего микширования и коэффициентов прямого повышающего микширования. Например, обработанные коэффициенты управляемого повышающего микширования и коэффициенты прямого повышающего микширования могут быть упорядочены в виде соответственных матриц, и первый набор коэффициентов может соответствовать матрице, вычисленной как матричное произведение этих двух матриц.

В одном из иллюстративных вариантов осуществления предварительно заданное правило для обработки коэффициентов управляемого повышающего микширования может включать в себя операцию поэлементного получения абсолютного значения.

В одном из иллюстративных вариантов осуществления коэффициенты управляемого и прямого повышающего микширования могут быть упорядочены в виде соответственных матриц, и предварительно заданное правило для обработки коэффициентов управляемого повышающего микширования может включать в себя, в любом порядке, поэлементное вычисление абсолютных значений всех элементов и переупорядочивание элементов, чтобы обеспечить возможность непосредственного матричного умножения на матрицу коэффициентов прямого повышающего микширования. В настоящем иллюстративном варианте осуществления подлежащие восстановлению звуковые сигналы вносят вклад в один или несколько каналов декоррелированного сигнала через сигнал понижающего микширования, на котором основывается промежуточный сигнал, и один или несколько каналов декоррелированного сигнала вносят вклад в звуковые сигналы в восстановленном виде через сигнал управляемого повышающего микширования. Авторы настоящего изобретения поняли, что для того чтобы повысить точность воспроизведения звуковых сигналов в восстановленном виде, может быть целесообразно стремиться соблюдать следующий принцип: звуковые сигналы, в которые заданный канал декоррелированного сигнала вносит вклад при параметрическом восстановлении, должны вносить вклад через сигнал понижающего микширования в тот же канал промежуточного звукового сигнала, из которого генерируется этот заданный канал декоррелированного сигнала, и, желательно, в сопоставимом/равном объеме. Предварительно заданное правило в соответствии с настоящим иллюстративным вариантом осуществления можно сказать отражает этот принцип.

Благодаря включению операции поэлементного получения абсолютного значения в предварительно заданное правило для обработки коэффициентов управляемого повышающего микширования может быть снижен риск потери точности, возникающей в промежуточном сигнале между вкладами от соответственных каналов сигнала прямого повышающего микширования, из-за коэффициентов управляемого повышающего микширования, имеющих разные знаки. За счет снижения риска потери точности в промежуточном сигнале энергия/амплитуда декоррелированного сигнала, генерируемого из промежуточного сигнала, согласуется с энергией/амплитудой звуковых сигналов в восстановленном виде, и резкие колебания коэффициентов управляемого повышающего микширования могут быть предотвращены или могут возникать реже.

В одном из иллюстративных вариантов осуществления этапы вычисления и суммирования могут быть выполнены на представлении сигналов в области квадратурного зеркального фильтра (QMF).

В одном из иллюстративных вариантов осуществления может быть принято множество значений коэффициентов управляемого и прямого повышающего микширования, при этом каждое значение ассоциируется с конкретной опорной точкой. В настоящем иллюстративном варианте осуществления способ может дополнительно содержать этапы, на которых: вычисляют, основываясь на значениях коэффициентов управляемого и прямого повышающего микширования, ассоциированных с двумя последовательными опорными точками, соответствующие значения первого набора коэффициентов, затем интерполируют значение первого набора коэффициентов, по меньшей мере, для одного момента времени, заключенного между последовательными опорными точками, основываясь на уже вычисленных значениях первого набора коэффициентов. Другими словами, значения первого набора коэффициентов, вычисленные для двух последовательных опорных точек, используются для интерполяции между этими двумя последовательными опорными точками, чтобы получить значение первого набора коэффициентов, по меньшей мере, для одного момента времени, заключенного между этими двумя последовательными опорными точками. Это предотвращает излишнее повторение относительно более затратного вычисления первого набора коэффициентов на основании коэффициентов управляемого и прямого повышающего микширования.

В соответствии с иллюстративными вариантами осуществления предоставляется система декодирования звука с секцией параметрического восстановления, выполненной с возможностью приема временного/частотного фрагмента сигнала понижающего микширования и ассоциированных коэффициентов управляемого и прямого повышающего микширования, и восстановления множества звуковых сигналов, причем сигнал понижающего микширования имеет меньше каналов, чем количество звуковых сигналов, подлежащих восстановлению. Секция параметрического восстановления содержит: блок предварительного умножения, выполненный с возможностью приема временного/частотного фрагмента сигнала понижающего микширования и выдачи промежуточного сигнала, вычисленного путем линейного отображения сигнала понижающего микширования в соответствии с первым набором коэффициентов, т.е. путем формирования одной или нескольких линейных комбинаций каналов сигнала понижающего микширования с использованием первого набора коэффициентов; декорреляционную секцию, выполненную с возможностью приема промежуточного сигнала и выдачи на его основании декоррелированного сигнала; секцию управляемого повышающего микширования, выполненную с возможностью приема коэффициентов управляемого повышающего микширования, а также декоррелированного сигнала, и вычисления сигнала управляемого повышающего микширования путем линейного отображения декоррелированного сигнала в соответствии с коэффициентами управляемого повышающего микширования, т.е. путем формирования линейных комбинаций одного или нескольких каналов декоррелированного сигнала с использованием коэффициентов управляемого повышающего микширования; секцию прямого повышающего микширования, выполненную с возможностью приема коэффициентов прямого повышающего микширования и параллельно с блоком предварительного умножения временного/частотного фрагмента сигнала понижающего микширования, и выдачи сигнала прямого повышающего микширования, вычисленного путем линейного отображения сигнала понижающего микширования в соответствии с коэффициентами прямого повышающего микширования, т.е. путем формирования линейных комбинаций каналов сигнала понижающего микширования с использованием коэффициентов прямого повышающего микширования; и секцию суммирования, выполненную с возможностью приема сигнала управляемого повышающего микширования и сигнала прямого повышающего микширования и суммирования этих сигналов для получения многомерного восстановленного сигнала, соответствующего временному/частотному фрагменту множества звуковых сигналов, подлежащих восстановлению. Секция параметрического восстановления дополнительно содержит преобразователь, выполненный с возможностью приема коэффициентов управляемого и прямого повышающего микширования, вычисления согласно предварительно заданному правилу первого набора коэффициентов и подачи этого, т.е. первого набора коэффициентов на блок предварительного умножения.

В соответствии со вторым аспектом иллюстративные варианты осуществления предлагают системы кодирования звука, а также способы и компьютерные программные продукты для кодирования множества звуковых сигналов. Предлагаемые системы, способы и компьютерные программные продукты для кодирования в соответствии со вторым аспектом могут в общем смысле быть связаны одними и теми же признаками и преимуществами. Более того, преимущества, представленные выше для признаков систем, способов и компьютерных программных продуктов для декодирования, в соответствии с первым аспектом могут в общем смысле сохранять силу и для соответствующих признаков систем, способов и компьютерных программных продуктов для кодирования в соответствии со вторым аспектом.

В соответствии с иллюстративными вариантами осуществления предоставляется способ кодирования множества звуковых сигналов в виде данных, пригодных для параметрического восстановления. Способ содержит этапы, на которых: принимают временной/частотный фрагмент множества звуковых сигналов; вычисляют сигнал понижающего микширования путем формирования линейных комбинаций звуковых сигналов согласно правилу понижающего микширования, причем сигнал понижающего микширования содержит меньше каналов, чем количество звуковых сигналов, подлежащих восстановлению; определяют коэффициенты прямого повышающего микширования, чтобы задать линейное отображение сигнала понижающего микширования, аппроксимирующее звуковые сигналы, которые должны быть закодированы во временном/частотном фрагменте; определяют коэффициенты управляемого повышающего микширования, основываясь на ковариации звуковых сигналов, которые приняты, и ковариации звуковых сигналов, которые аппроксимированы путем линейного отображения сигнала понижающего микширования; и выдают сигнал понижающего микширования вместе с коэффициентами управляемого и прямого повышающего микширования, причем эти коэффициенты сами по себе обеспечивают возможность вычисления согласно предварительно заданному правилу дополнительного набора коэффициентов, задающих линейное отображение предварительной декорреляции в рамках параметрического восстановления звуковых сигналов. В этом контексте линейное отображение предварительной декорреляции может, к примеру, обеспечивать возможность полной или частичной реконструкции ковариации звуковых сигналов.

Тот факт, что коэффициенты управляемого и прямого повышающего микширования сами по себе обеспечивают возможность вычисления согласно предварительно заданному правилу дополнительного набора коэффициентов, означает, что как только известны коэффициенты (их значения) управляемого и прямого повышающего микширования, дополнительный набор коэффициентов может быть вычислен согласно предварительно заданному правилу, без обращения к каким-либо добавочным коэффициентам (их значениям), отправленным со стороны кодера. Например, способ может включать в себя этап, на котором выдают только сигнал понижающего микширования, коэффициенты управляемого повышающего микширования и коэффициенты прямого повышающего микширования.

На стороне декодера параметрическое восстановление звуковых сигналов может, как правило, включать в себя суммирование сигнала прямого повышающего микширования, полученного посредством линейного отображения сигнала понижающего микширования, с вкладами от декоррелированного сигнала, сгенерированного на основании сигнала понижающего микширования. Под тем, что дополнительный набор коэффициентов задает линейное отображение предварительной декорреляции в рамках параметрического восстановления звуковых сигналов, подразумевается, что дополнительный набор коэффициентов включает в себя коэффициенты, задающие количественные характеристики линейного преобразования, берущего сигнал понижающего микширования в качестве входа и выдающего сигнал с одним или несколькими каналами, называемый промежуточным сигналом, на котором выполняется процедура декорреляции для генерирования декоррелированного сигнала.

Так как дополнительный набор коэффициентов может быть вычислен согласно предварительно заданному правилу, основываясь на коэффициентах управляемого и прямого повышающего микширования, объем информации, необходимый для того, чтобы обеспечить возможность восстановления множества звуковых сигналов, уменьшается, что позволяет сократить объем метаданных, передаваемых вместе с сигналом понижающего микширования на сторону декодера. За счет уменьшения объема данных, необходимого для параметрического восстановления, требуемая полоса пропускания для передачи параметрического представления множества звуковых сигналов, подлежащих восстановлению, и/или требуемая емкость запоминающего устройства для хранения такого представления может быть уменьшена.

Правило понижающего микширования, используемое при вычислении сигнала понижающего микширования, задает количественные характеристики линейных комбинаций звуковых сигналов, т.е. коэффициенты, которые будут применяться к соответственным звуковым сигналам при формировании линейных комбинаций.

Под тем, что коэффициенты прямого повышающего микширования задают линейное отображение сигнала понижающего микширования, аппроксимирующее звуковые сигналы, которые должны быть закодированы, подразумевается, что коэффициенты прямого повышающего микширования являются коэффициентами, задающими количественные характеристики линейного преобразования, берущего сигнал понижающего микширования в качестве входа и выдающего набор звуковых сигналов, аппроксимирующих звуковые сигналы, подлежащих кодированию. Определенный набор коэффициентов прямого повышающего микширования может, например, задавать линейное отображение сигнала понижающего микширования, соответствующее аппроксимации по критерию минимальной среднеквадратической ошибки звукового сигнала, т.е. среди набора линейных отображений сигнала понижающего микширования, определенный набор коэффициентов прямого повышающего микширования может задавать линейное отображение, которое лучше всего аппроксимирует звуковой сигнал в смысле минимума среднеквадратического отклонения.

Коэффициенты управляемого повышающего микширования могут, например, быть определены, основываясь на разности, или путем сравнения, ковариации звуковых сигналов, которые приняты, и ковариации звуковых сигналов, которые аппроксимированы путем линейного отображения сигнала понижающего микширования.

В одном из иллюстративных вариантов осуществления может быть принято множество временных/частотных фрагментов звуковых сигналов, и сигнал понижающего микширования может единообразно вычисляться согласно предварительно заданному правилу понижающего микширования. Другими словами, коэффициенты, применяемые к соответственным звуковым сигналам при формировании линейных комбинаций звуковых сигналов, предварительно заданы и постоянны в пределах последовательных временных кадров. Например, правило понижающего микширования может быть адаптировано для предоставления обратно совместимого сигнала понижающего микширования, т.е. для предоставления сигнала понижающего микширования, который может быть воспроизведен на воспроизводящем оборудовании прежней версии, использующем стандартизированную конфигурацию каналов.

В одном из иллюстративных вариантов осуществления может быть принято множество временных/частотных фрагментов звуковых сигналов, и сигнал понижающего микширования может вычисляться согласно адаптированному к сигналу правилу понижающего микширования. Другими словами, по меньшей мере один из коэффициентов, применяемых при формировании линейных комбинаций звуковых сигналов, является адаптированным к сигналу, т.е. значение по меньшей мере одного, а желательно нескольких, из коэффициентов может регулироваться/выбираться системой кодирования, основываясь на звуковом содержимом одного или нескольких звуковых сигналов.

В одном из иллюстративных вариантов осуществления коэффициенты управляемого повышающего микширования могут быть определены посредством установки целевой ковариации для дополнения ковариации звуковых сигналов, которые аппроксимированы путем линейного отображения сигнала понижающего микширования; разложения целевой ковариации в виде произведения матрицы и ее собственной транспозиции, причем элементы матрицы после выборочного перемасштабирования по столбцам соответствуют коэффициентам управляемого повышающего микширования. В настоящем иллюстративном варианте осуществления матрица, в которую разлагается целевая ковариация, т.е. которая при умножении на свою собственную транспозицию дает целевую ковариацию, может быть квадратной матрицей или неквадратной матрицей. В соответствии, по меньшей мере, с некоторыми иллюстративными вариантами осуществления целевая ковариация может быть определена, основываясь на одном или нескольких собственных векторах матрицы, сформированной как разность между ковариационной матрицей звуковых сигналов, которые приняты, и ковариационной матрицей звуковых сигналов, которые аппроксимированы путем линейного отображения сигнала понижающего микширования.

В одном из иллюстративных вариантов осуществления способ может дополнительно содержать этап, на котором перемасштабируют по столбцам матрицу, в которую разлагается целевая ковариация, т.е. целевая ковариация разлагается в виде произведения матрицы и ее собственной транспозиции, причем элементы матрицы после перемасштабирования по столбцам соответствуют коэффициентам управляемого повышающего микширования. В настоящем иллюстративном варианте осуществления перемасштабирование по столбцам может обеспечивать то, что вариация каждого сигнала, полученного в результате применения линейного отображения предварительной декорреляции к сигналу понижающего микширования, равна обратной величине квадрата соответствующего масштабного множителя, используемого при перемасштабировании по столбцам, при условии, что коэффициенты, задающие линейное отображение предварительной декорреляции, вычисляются согласно предварительно заданному правилу. Линейное отображение предварительной декорреляции может использоваться на стороне декодера, чтобы генерировать декоррелированный сигнал для дополнения сигнала понижающего микширования при параметрическом восстановлении звуковых сигналов, подлежащих восстановлению. Благодаря перемасштабированию по столбцам в соответствии с настоящим иллюстративным вариантом осуществления коэффициенты управляемого повышающего микширования задают линейное отображение декоррелированного сигнала, обеспечивающее ковариацию, соответствующую целевой ковариации.

В одном из иллюстративных вариантов осуществления предварительно заданное правило может означать соотношение линейного масштабирования между дополнительным набором коэффициентов и коэффициентами управляемого повышающего микширования, и перемасштабирование по столбцам может сводиться к умножению на диагональную часть матричного произведения:

возведенную в степень -1/4, при этом обозначает поэлементное получение абсолютного значения для матрицы, в которую разлагается целевая ковариация, а является матрицей, соответствующей ковариации звуковых сигналов, которые аппроксимированы путем линейного отображения сигнала понижающего микширования. Под диагональной частью заданной матрицы, например вышеупомянутого матричного произведения, подразумевается диагональная матрица, полученная путем установки всех недиагональных элементов в ноль в заданной матрице. Под возведением такой диагональной матрицы в степень -1/4 подразумевается, что каждый из матричных элементов в диагональной матрице возводится в степень -1/4. Соотношение линейного масштабирования между дополнительным набором коэффициентов и коэффициентами управляемого повышающего микширования, например, может быть таким, что перемасштабирование по столбцам матрицы, в которую разлагается целевая ковариация, соответствует перемасштабированию по строкам или по столбцам матрицы, имеющей дополнительный набор коэффициентов в качестве матричных элементов, причем перемасштабирование по строкам или по столбцам матрицы, имеющей дополнительный набор коэффициентов в качестве матричных элементов, использует те же масштабные множители, что используются и при перемасштабировании по столбцам матрицы, в которую разлагается целевая ковариация.

Линейное отображение предварительной декорреляции может использоваться на стороне декодера, чтобы генерировать декоррелированный сигнал для дополнения сигнала понижающего микширования при параметрическом восстановлении звуковых сигналов, подлежащих восстановлению. Благодаря перемасштабированию по столбцам в соответствии с настоящим иллюстративным вариантом осуществления коэффициенты управляемого повышающего микширования задают линейное отображение декоррелированного сигнала, обеспечивающее ковариацию, соответствующую целевой ковариации, при условии, что коэффициенты, задающие линейное отображение предварительной декорреляции, вычисляются согласно предварительно заданному правилу.

В одном из иллюстративных вариантов осуществления целевая ковариация может быть выбрана для того, чтобы сумма целевой ковариации и ковариации звуковых сигналов, которые аппроксимированы путем линейного отображения сигнала понижающего микширования, приближалась, или, по меньшей мере, в значительной степени совпадала с ней, к ковариации звуковых сигналов, которые приняты, что позволяет звуковым сигналам, которые параметрически восстановлены на стороне декодера, на основании сигнала понижающего микширования и параметров управляемого и прямого повышающего микширования, иметь ковариацию, приближающуюся, или, по меньшей мере, в значительной степени совпадающую с ней, к ковариации звуковых сигналов, которые приняты.

В одном из иллюстративных вариантов осуществления способ может дополнительно содержать этап, на котором выполняют компенсацию энергии следующим образом: определяют отношение оценочной полной энергии звуковых сигналов, которые приняты, и оценочной полной энергии звуковых сигналов, которые параметрически восстановлены на основании сигнала понижающего микширования, коэффициентов управляемого повышающего микширования и коэффициентов прямого повышающего микширования; и перемасштабируют коэффициенты прямого повышающего микширования в соответствии с обратной величиной квадратного корня из этого отношения. В настоящем иллюстративном варианте осуществления перемасштабированные коэффициенты прямого повышающего микширования могут выдаваться вместе с сигналом понижающего микширования и коэффициентами управляемого повышающего микширования. По меньшей мере, в некоторых иллюстративных вариантах осуществления предварительно заданное правило может означать соотношение линейного масштабирования между дополнительным набором коэффициентов и коэффициентами прямого повышающего микширования, так что компенсация энергии, выполняемая на коэффициентах прямого повышающего микширования, имеет соответствующий эффект в дополнительном наборе коэффициентов. Компенсация энергии в соответствии с настоящим иллюстративным вариантом осуществления позволяет звуковым сигналам, которые параметрически восстановлены на стороне декодера, на основании сигнала понижающего микширования и параметров управляемого и прямого повышающего микширования иметь полную энергию, приближающуюся к полной энергии звуковых сигналов, которые приняты.

По меньшей мере, в каком-то из иллюстративных вариантов осуществления коэффициенты управляемого повышающего микширования могут быть определены перед выполнением компенсации энергии, т.е. коэффициенты управляемого повышающего микширования могут быть определены на основании коэффициентов управляемого повышающего микширования, которые еще не были компенсированы энергией.

В соответствии с иллюстративными вариантами осуществления предоставляется система кодирования звука, включающая в себя секцию параметрического кодирования, выполненную с возможностью кодирования множества звуковых сигналов в виде данных, пригодных для параметрического восстановления. Секция параметрического кодирования содержит: секцию понижающего микширования, выполненную с возможностью приема временного/частотного фрагмента множества звуковых сигналов и вычисления сигнала понижающего микширования путем формирования линейных комбинаций звуковых сигналов согласно правилу понижающего микширования, причем сигнал понижающего микширования содержит меньше каналов, чем количество звуковых сигналов, подлежащих восстановлению; первую секцию анализа, выполненную с возможностью определения коэффициентов прямого повышающего микширования для того, чтобы задать линейное отображение сигнала понижающего микширования, аппроксимирующее звуковые сигналы, которые должны быть закодированы во временном/частотном фрагменте; и вторую секцию анализа, выполненную с возможностью определения коэффициентов управляемого повышающего микширования, основываясь на ковариации звуковых сигналов, которые приняты, и ковариации звуковых сигналов, которые аппроксимированы путем линейного отображения сигнала понижающего микширования. В настоящем иллюстративном варианте осуществления секция параметрического кодирования выполняется с возможностью выдачи сигнала понижающего микширования вместе с коэффициентами управляемого и прямого повышающего микширования, причем коэффициенты управляемого и прямого повышающего микширования сами по себе обеспечивают возможность вычисления согласно предварительно заданному правилу дополнительного набора коэффициентов, задающих линейное отображение предварительной декорреляции в рамках параметрического восстановления звуковых сигналов.

В соответствии с иллюстративными вариантами осуществления предоставляется компьютерный программный продукт, содержащий машиночитаемый носитель с инструкциями для выполнения любого из способов в рамках первого и второго аспектов.

В соответствии с одним из иллюстративных вариантов осуществления по меньшей мере один во множестве звуковых сигналов может относиться или может быть использован для его представления, к сигналу звукового объекта, ассоциированному с пространственным локатором, т.е. хотя множество звуковых сигналов может включать в себя, например, каналы, ассоциированные со статическими пространственными положениями/ориентациями, множество звуковых сигналов также может включать в себя один или несколько звуковых объектов, ассоциированных с переменным во времени пространственным положением.

Дополнительные иллюстративные варианты осуществления задаются в зависимых пунктах формулы изобретения. Следует отметить, что иллюстративные варианты осуществления включают в себя все комбинации признаков, пусть даже перечисленных в отличных друг от друга пунктах формулы изобретения.

II. Иллюстративные варианты осуществления

Ниже предоставляется математическое описание кодирования и декодирования. Для более подробного теоретического обоснования см. статью "A Backward-Compatible Multichannel Audio Codec", Hotho и др., в журнале IEEE Transactions on Audio, Speech, and Language Processing, Том 16, № 1, январь 2008.

На стороне кодера, что будет описано со ссылкой на Фиг. 3 и 4, сигнал понижающего микширования вычисляется путем формирования линейных комбинаций множества звуковых сигналов следующим образом:

где dn_,_m являются коэффициентами понижающего микширования, представленными матрицей D понижающего микширования, и где звуковые сигналы были собраны в матрицу . Сигнал Y понижающего микширования включает в себя M каналов, а множество звуковых сигналов X включает в себя N звуковых сигналов, где . На стороне декодера, что будет описано со ссылкой на Фиг. 1 и 2, параметрическое восстановление множества звуковых сигналов X выполняется следующим образом:

где cn_,_m являются коэффициентами прямого повышающего микширования, представленными матрицей C прямого повышающего микширования, pn_,_k являются коэффициентами управляемого повышающего микширования, представленными матрицей P управляемого повышающего микширования, а zk представляют собой K каналов декоррелированного сигнала , где . Декоррелированный сигнал Z генерируется на основании промежуточного сигнала , полученного в следующей форме:

где коэффициенты qk_,_m представлены матрицей Q предварительной декорреляции, задающей линейное отображение предварительной декорреляции сигнала Y понижающего микширования. K каналов декоррелированного сигнала Z получаются из соответственных K каналов промежуточного сигнала W посредством операции декорреляции, которая сохраняет энергии/вариации соответственных каналов промежуточного сигнала W, но делает каналы декоррелированного сигнала Z взаимно некоррелированными, т.е. декоррелированный сигнал Z может быть выражен в виде

где decorr() обозначает эту операцию декорреляции.

Как видно из уравнений (1), (3) и (4), подлежащие восстановлению звуковые сигналы X вносят вклад в каналы декоррелированного сигнала Z через сигнал Y понижающего микширования и промежуточный сигнал W, а как видно из уравнения (2), каналы декоррелированного сигнала Z вносят вклад в восстановленные звуковые сигналы через сигнал DZ управляемого повышающего микширования. Авторы настоящего изобретения поняли, что для того чтобы повысить точность воспроизведения восстановленных звуковых сигналов , может быть целесообразно стремиться соблюдать следующий принцип:

звуковые сигналы, в которые заданный канал декоррелированного сигнала Z вносит вклад при параметрическом восстановлении, должны вносить вклад, через сигнал Y понижающего микширования, в тот же канал промежуточного звукового сигнала W, из которого генерируется этот заданный канал декоррелированного сигнала Z, и желательно в сопоставимом/равном объеме.

Один из подходов к соблюдению этого принципа состоит в вычислении коэффициентов Q предварительной декорреляции следующим образом:

где обозначает матрицу, полученную путем взятия абсолютных значений элементов матрицы P управляемого повышающего микширования. Уравнения (3) и (5) подразумевают, что промежуточный сигнал W, который должен быть переработан в декоррелированный сигнал Z, может быть получен посредством линейного отображения сигнала CY "прямого" повышающего микширования, которое может рассматриваться как аппроксимация звуковых сигналов X, подлежащих восстановлению. Это отражает описанный выше принцип для выведения декоррелированного сигнала Z. Правило (5) для вычисления коэффициентов Q предварительной декорреляции предусматривает только вычисления с относительно низкой сложностью и, следовательно, может легко использоваться на стороне декодера. Предусматриваются альтернативные методы вычисления коэффициентов Q предварительной декорреляции на основании коэффициентов C прямого повышающего микширования и коэффициентов P управляемого повышающего микширования. Например, они могут быть вычислены как , где матрица P₀ получается путем нормализации каждого столбца в P. Эффект этого альтернативного метода вычисления коэффициентов Q предварительной декорреляции состоит в том, что параметрическое восстановление, обеспечиваемое через уравнение (2), линейно масштабируется с модулем матрицы P управляемого повышающего микширования.

Коэффициенты C прямого повышающего микширования, например, могут быть определены путем вычисления наилучшего сигнала CY "прямого" повышающего микширования в смысле наименьших квадратов, т.е. путем решения нормальных уравнений:

Ковариационная матрица звуковых сигналов, которые аппроксимированы прямым повышающим микшированием CY, может сравниваться с ковариационной матрицей Rxx звуковых сигналов X, подлежащих восстановлению, путем составления

где Ryy является ковариационной матрицей сигнала Y понижающего микширования, а ΔR представляет собой "недостающую" ковариацию, которая может быть полностью или частично обеспечена сигналом PZ "управляемого" повышающего микширования. Недостающая ковариация ΔR может быть проанализирована через разложение по собственным значениям, т.е. на основании ее собственных значений и ассоциированных собственных векторов. Если параметрическое восстановление согласно уравнению (2) должно быть выполнено на стороне декодера с использованием не больше, чем K декорреляторов, т.е. с декоррелированным сигналом Z, имеющим K каналов, целевая ковариация R_wet может быть установлена для сигнала PZ управляемого повышающего микширования путем сохранения только тех частей разложения по собственным значениям ΔR, которые соответствуют K собственным векторам, ассоциированным с наибольшими величинами собственных значений, т.е. путем удаления тех частей недостающей ковариации ΔR, которые соответствуют иным собственным векторам. Если матрица D понижающего микширования, используемая на стороне кодера, согласно уравнению (1) является невырожденной, можно показать, что недостающая ковариация ΔR имеет ранг не более N-M, и что требуется не больше, чем K=N-M декорреляторов, чтобы обеспечить полную недостающую ковариацию ΔR. Для подтверждения см., например, статью "A Backward-Compatible Multichannel Audio Codec", Hotho и др., в журнале IEEE Transactions on Audio, Speech, and Language Processing, Том 16, № 1, январь 2008. В результате сохранения вкладов, ассоциированных с наибольшими собственными значениями, важные/существенные для восприятия части недостающей ковариации ΔR могут быть воспроизведены благодаря сигналу RZ управляемого повышающего микширования, даже если только меньшее количество декорреляторов используется на стороне декодера. В частности, даже использование единственного декоррелятора, т.е. K=1, обеспечивает существенное улучшение точности воспроизведения восстановленных звуковых сигналов по сравнению с параметрическим восстановлением без декорреляции, при относительно низких дополнительных затратах в вычислительной сложности на стороне декодера. При увеличении, т.е. количества декорреляторов точность воспроизведения восстановленных звуковых сигналов может быть увеличена за счет дополнительных передаваемых параметров P управляемого повышающего микширования. Количество используемых каналов M понижающего микширования, а также количество используемых декорреляторов K может выбираться, например, исходя из целевой скорости передачи битов для передачи данных на сторону декодера и требуемой точности воспроизведения/качества восстановленных звуковых сигналов.

Принимая во внимание, что целевая ковариация R_wet была установлена на основании частей недостающей ковариации ΔR, ассоциированных с K собственными значениями, целевую ковариацию R_wet можно разложить в виде:

где V является матрицей с N строками и K столбцами, а матрица P управляемого повышающего микширования может быть получена в форме:

где S является диагональной матрицей с положительными элементами, обеспечивающими перемасштабирование по столбцам матрицы V. Для матрицы P управляемого повышающего микширования, имеющей форму (9), и матрицы C прямого повышающего микширования, полученной в результате решения уравнения (6), ковариационная матрица восстановленных сигналов может быть выражена в виде:

где diag() обозначает операцию установки всех недиагональных элементов матрицы на ноль. Следовательно, условие для достижения сигналом PZ управляемого повышающего микширования целевой ковариации может быть выражено в виде:

и оно выполняется, если перемасштабирование по столбцам, задаваемое матрицей S, обеспечивает то, что вариация каждого сигнала, полученного в результате применения линейного отображения предварительной декорреляции к сигналу Y понижающего микширования, т.е. каналам промежуточного сигнала W, полученным с помощью уравнения (3), которые имеют диагональные элементы в качестве вариаций, равна обратной величине квадрата соответствующего множителя перемасштабирования по столбцам в матрице S. При матрице Q предварительной декорреляции, имеющей форму (5), имеется соотношение линейного масштабирования между коэффициентами P управляемого повышающего микширования и коэффициентами Q предварительной декорреляции, позволяющее собрать в уравнении (10) несколько экземпляров матрицы S, что приводит к достаточному условию:

где I является единичной матрицей. Отсюда вытекает, что коэффициенты P управляемого повышающего микширования могут быть получены в виде , где

Фиг. 3 является обобщенной структурной схемой секции 300 параметрического кодирования в соответствии с одним из иллюстративных вариантов осуществления. Секция 300 параметрического кодирования выполняется с возможностью кодирования множества звуковых сигналов в виде данных, пригодных для параметрического восстановления согласно уравнению (2). Секция 300 параметрического кодирования содержит секцию 301 понижающего микширования, которая принимает временной/частотный фрагмент множества звуковых сигналов X и вычисляет сигнал понижающего микширования путем формирования линейных комбинаций звуковых сигналов X согласно уравнению (1), причем сигнал Y понижающего микширования содержит меньшее число M каналов, чем количество N звуковых сигналов X, подлежащих восстановлению. В настоящем иллюстративном варианте осуществления множество звуковых сигналов X включает в себя сигналы звуковых объектов, ассоциированные с переменными во времени пространственными положениями, и сигнал Y понижающего микширования вычисляется согласно адаптированному к сигналу правилу, т.е. коэффициенты D понижающего микширования, используемые при формировании линейных комбинаций согласно уравнению (1), зависят от звуковых сигналов X. В настоящем иллюстративном варианте осуществления коэффициенты D понижающего микширования определяются секцией 301 понижающего микширования на основании пространственных положений, ассоциированных со звуковыми объектами, включенными во множество звуковых сигналов X, таким образом, чтобы обеспечивать то, что объекты, расположенные относительно далеко друг от друга, кодируются в разные каналы сигнала Y понижающего микширования, тогда как объекты, расположенные относительно близко друг к другу, могут быть закодированы в один и тот же канал сигнала Y понижающего микширования. Эффект такого адаптированного к сигналу правила понижающего микширования состоит в том, что оно облегчает восстановление сигналов звуковых объектов на стороне декодера и/или дает возможность более верного восстановления сигналов звуковых объектов, которые воспринимаются слушателем.

В настоящем иллюстративном варианте осуществления первая секция 302 анализа определяет коэффициенты прямого повышающего микширования, представленные матрицей C прямого повышающего микширования, чтобы задать линейное отображение сигнала Y понижающего микширования, аппроксимирующее звуковые сигналы X, подлежащие восстановлению. Это линейное отображение сигнала Y понижающего микширования обозначено как CY в уравнении (2). В настоящем иллюстративном варианте осуществления коэффициенты C прямого повышающего микширования определяются согласно уравнению (6) таким образом, что линейное отображение CY сигнала Y понижающего микширования соответствует аппроксимации с минимальным среднеквадратическим отклонением звуковых сигналов X, подлежащих восстановлению. Вторая секция 303 анализа определяет коэффициенты управляемого повышающего микширования, представленные матрицей P управляемого повышающего микширования, основываясь на ковариационной матрице звукового сигнала X, который принят, и ковариационной матрице звукового сигнала, который аппроксимирован путем линейного отображения сигнала Y понижающего микширования, т.е. основываясь на недостающей ковариации ΔR в уравнении (7). В настоящем иллюстративном варианте осуществления первая секция 304 обработки вычисляет ковариационную матрицу звукового сигнала X, который принят. Секция 305 умножения вычисляет линейное отображение CY сигнала Y понижающего микширования путем перемножения сигнала Y понижающего микширования и матрицы C управляемого повышающего микширования и предоставляет его второй секции 306 обработки, которая вычисляет ковариационную матрицу звукового сигнала, который аппроксимирован путем линейного отображения CY сигнала Y понижающего микширования.

В настоящем иллюстративном варианте осуществления определяемые коэффициенты P управляемого повышающего микширования предназначаются для параметрического восстановления согласно уравнению (2), с использованием декоррелированного сигнала Z, имеющего K каналов. Вторая секция 303 анализа, таким образом, устанавливает целевую ковариацию R_wet, основываясь на K собственных векторах, ассоциированных с наибольшими (по модулю) собственными значениями недостающей ковариации ΔR в уравнении (7), и разлагает целевую ковариацию R_wet согласно уравнению (8). Затем получают коэффициенты P управляемого повышающего микширования из матрицы V, в которую была разложена целевая ковариация R_wet, после перемасштабирования по столбцам с помощью матрицы S, согласно уравнениям (9) и (11). В настоящем иллюстративном варианте осуществления дополнительный набор коэффициентов Q, называемых коэффициентами предварительной декорреляции, выводятся из коэффициентов C прямого повышающего микширования и коэффициентов P управляемого повышающего микширования согласно уравнению (5), и задает линейное отображение предварительной декорреляции сигнала Y понижающего микширования, описываемое уравнением (3).

В настоящем иллюстративном варианте осуществления , так что сигнал PZ управляемого повышающего микширования не обеспечивает полную недостающую ковариацию ΔR в уравнении (7). Следовательно, восстановленные звуковые сигналы , как правило, имеют более низкую энергию, чем звуковые сигналы X, подлежащие восстановлению, и первая секция 302 анализа может дополнительно выполнять компенсацию энергии путем перемасштабирования коэффициентов CY прямого повышающего микширования после того как коэффициенты управляемого повышающего микширования были определены второй секцией 303 анализа. В иллюстративных вариантах осуществления, когда вместо этого сигнал PZ управляемого повышающего микширования может обеспечить полную недостающую ковариацию ΔR в уравнении (7), и в этом случае может отсутствовать потребность в компенсации энергии.

Если компенсация энергии должна быть выполнена, первая секция 302 анализа определяет отношение оценочной полной энергии звуковых сигналов X, которые приняты, и оценочной полной энергии звуковых сигналов , которые восстановлены согласно уравнению (2), т.е. на основании сигнала Y понижающего микширования, коэффициентов P управляемого повышающего микширования и коэффициентов C прямого повышающего микширования. Затем первая секция 302 анализа перемасштабирует ранее определенные коэффициенты C прямого повышающего микширования в соответствии с обратной величиной квадратного корня из определенного отношения. Затем секция 300 параметрического кодирования выдает сигнал Y понижающего микширования вместе с коэффициентами P управляемого повышающего микширования и перемасштабированными коэффициентами C прямого повышающего микширования. Так как коэффициенты Q предварительной декорреляции определяются согласно предварительно заданному правилу, описываемому уравнением (5), имеется соотношение линейного масштабирования между коэффициентами C прямого повышающего микширования и коэффициентами Q предварительной декорреляции. Следовательно, перемасштабирование коэффициентов C прямого повышающего микширования влечет за собой перемасштабирование как сигнала CY прямого повышающего микширования, так и сигналов PZ управляемого повышающего микширования в ходе параметрического восстановления на стороне декодера согласно уравнению (2).

Фиг. 4 является обобщенной структурной схемой системы 400 кодирования звука в соответствии с одним из иллюстративных вариантов осуществления, содержащей секцию 300 параметрического кодирования, описанную со ссылкой Фиг. 3. В настоящем иллюстративном варианте осуществления звуковое содержимое, например записанное одним или несколькими акустическими преобразователями 401 или сгенерированное посредством оборудования 401 для проектирования звуковых данных, предоставляется в форме множества звуковых сигналов X. Секция 402 анализа с квадратурным зеркальным фильтром (QMF) преобразует звуковой сигнал X, по временным сегментам, в область QMF для обработки секцией 300 параметрического кодирования звукового сигнала X в форме временных/частотных фрагментов. Использование области QMF подходит для обработки звуковых сигналов, например для выполнения повышающего/понижающего микширования и параметрического восстановления, и обеспечивает возможность восстановления звуковых сигналов практически без потерь на стороне декодера.

Сигнал Y понижающего микширования, выдаваемый секцией 300 параметрического кодирования, преобразуется обратно из области QMF секцией 403 синтеза QMF и преобразуется в область модифицированного дискретного косинусного преобразования (МДКП) секцией 404 преобразования. Секции 405 и 406 квантования квантуют коэффициенты C прямого повышающего микширования и коэффициенты P управляемого повышающего микширования соответственно. Например, может использоваться равномерное квантование с размером шага 0,1 или 0,2 (безразмерным), с последующим энтропийным кодированием в форме кодирования Хаффмана. Более грубое квантование с размером шага 0,2 может, например, использоваться для экономии полосы пропускания для передачи, а квантование с меньшим шагом, с размером шага 0,1, может, например, использоваться для повышения точности восстановления на стороне декодера. Затем МДКП-преобразованный сигнал Y понижающего микширования, а также квантованные коэффициенты C прямого повышающего микширования и коэффициенты P управляемого повышающего микширования, объединяются в битовый поток B с помощью мультиплексора 407 для передачи на сторону декодера. Система 400 кодирования звука также может содержать базовый кодер (не показан на Фиг. 4), выполненный с возможностью кодирования сигнала Y понижающего микширования с использованием перцепционного звукового кодека, такого как Dolby Digital или MPEG AAC, перед тем как сигнал Y понижающего микширования будет предоставлен в мультиплексор 407.

Поскольку множество звуковых сигналов X включает в себя сигналы звуковых объектов, ассоциированные с переменными во времени пространственными положениями, или пространственными локаторами, метаданные R для рендеринга (воспроизведения), в том числе такие пространственные локаторы, например, могут быть закодированы в битовом потоке B системой 400 кодирования звука, для рендеринга сигналов звуковых объектов на стороне декодера. Метаданные R для рендеринга могут, например, предоставляться в мультиплексор 407 от оборудования 401 для проектирования звуковых данных, используемого для генерирования множества звуковых сигналов X.

Фиг. 1 является обобщенной структурной схемой секции 100 параметрического восстановления в соответствии с одним из иллюстративных вариантов осуществления, выполненной с возможностью восстановления множества звуковых сигналов X на основании сигнала Y понижающего микширования, а также ассоциированных коэффициентов P управляемого повышающего микширования и коэффициентов C прямого повышающего микширования. Блок 101 предварительного умножения принимает временной/частотный фрагмент сигнала Y понижающего микширования и выдает промежуточный сигнал W, вычисленный путем линейного отображения сигнала понижающего микширования в соответствии с первым набором коэффициентов, т.е. согласно уравнению (3), причем первый набор коэффициентов является набором коэффициентов предварительной декорреляции, представленных матрицей Q предварительной декорреляции. Декорреляционная секция 102 принимает промежуточный сигнал и выдает на его основании декоррелированный сигнал . В настоящем иллюстративном варианте осуществления K каналов декоррелированного сигнала Z выводятся путем обработки K каналов промежуточного сигнала W, включающей в себя применение соответственных всечастотных фильтров к каналам промежуточного сигнала W, чтобы предоставить каналы, которые являются взаимно некоррелированными, и со звуковым содержимым, которое спектрально подобно, и слушателем воспринимается тоже как аналогичное звуковому содержимому промежуточного звукового сигнала W. Декоррелированный сигнал Z служит для увеличения размерности восстановленной версии множества звуковых сигналов X, которая воспринимается слушателем. В настоящем иллюстративном варианте осуществления каналы декоррелированного сигнала Z имеют, по меньшей мере, приблизительно такие же энергии или вариации, как и соответственные каналы промежуточного звукового сигнала W. Секция 103 управляемого повышающего микширования принимает коэффициенты P управляемого повышающего микширования, а также декоррелированный сигнал Z, и вычисляет сигнал управляемого повышающего микширования путем линейного отображения декоррелированного сигнала Z в соответствии с коэффициентами P управляемого повышающего микширования, т.е. согласно уравнению (2), где сигнал управляемого повышающего микширования обозначен через PZ. Секция 104 прямого повышающего микширования принимает коэффициенты C прямого повышающего микширования, а также параллельно с блоком 101 предварительного умножения временной/частотный фрагмент сигнала Y понижающего микширования. Секция 103 прямого повышающего микширования выдает сигнал прямого повышающего микширования, обозначенный через CY в уравнении (2), вычисленный путем линейного отображения сигнала Y понижающего микширования в соответствии с набором коэффициентов C прямого повышающего микширования. Секция 105 суммирования принимает сигнал CY прямого повышающего микширования и сигнал PZ управляемого повышающего микширования и суммирует эти сигналы, чтобы получить многомерный восстановленный сигнал , соответствующий временному/частотному фрагменту множества звуковых сигналов X, подлежащих восстановлению. В настоящем иллюстративном варианте осуществления секция 105 суммирования получает многомерный восстановленный сигнал путем суммирования звукового содержимого соответственных каналов сигнала CY прямого повышающего микширования с соответственными каналами сигнала PZ управляемого повышающего микширования согласно уравнению (2). Секция 100 параметрического восстановления дополнительно содержит преобразователь 106, который принимает коэффициенты P управляемого повышающего микширования и коэффициенты C прямого повышающего микширования, и вычисляет согласно предварительно заданному правилу, описываемому уравнением (5), первый набор коэффициентов, т.е. коэффициенты Q предварительной декорреляции, и подает первый набор коэффициентов Q на блок 101 предварительного умножения.

В настоящем иллюстративном варианте осуществления секция 100 параметрического восстановления в некоторых случаях может задействовать интерполяцию. Например, секция 100 параметрического восстановления может принимать множество значений коэффициентов P, C управляемого и прямого повышающего микширования, где каждое значение ассоциируется с конкретной опорной точкой. Преобразователь 106 вычисляет на основании значений коэффициентов P, C управляемого и прямого повышающего микширования, ассоциированных с двумя последовательными опорными точками, соответствующие значения первого набора коэффициентов Q. Вычисленные значения подаются на первый интерполятор 107, который выполняет интерполяцию первого набора коэффициентов Q между двумя последовательными опорными точками, например интерполируя значение первого набора коэффициентов Q по меньшей мере, для одного момента времени, заключенного между последовательными опорными точками, основываясь на уже вычисленных значениях первого набора коэффициентов Q. Используемая схема интерполяции может быть, например, линейной интерполяцией. В качестве альтернативы может использоваться ступенчатая интерполяция, когда старые значения для первого набора коэффициентов Q продолжают использоваться до некоторого момента времени, например, указанного в метаданных, закодированных в битовом потоке B, в который новые значения для первого набора коэффициентов Q должны заменить старые значения. Интерполяция также может использоваться на самих коэффициентах P, C управляемого и прямого повышающего микширования. Второй интерполятор 108 может принимать несколько значений коэффициентов управляемого повышающего микширования и может выполнять интерполяцию по времени перед подачей коэффициентов P управляемого повышающего микширования в секцию 103 управляемого повышающего микширования. Аналогично третий интерполятор 109 может принимать несколько значений коэффициентов C прямого повышающего микширования и может выполнять интерполяцию по времени перед подачей коэффициентов C прямого повышающего микширования в секцию 104 прямого повышающего микширования. Схема интерполяции, используемая для коэффициентов P, C управляемого и прямого повышающего микширования, может быть такой же, как схема интерполяции, используемая для первого набора коэффициентов Q, или может быть другой схемой интерполяции.

Фиг. 2 является обобщенной структурной схемой системы 200 декодирования звука в соответствии с одним из иллюстративных вариантов осуществления. Система 200 декодирования звука содержит секцию 100 параметрического восстановления, описанную со ссылкой на Фиг. 1. Принимающая секция 201, например включающая в себя демультиплексор, принимает битовый поток B, передаваемый от системы 400 кодирования звука, описанной со ссылкой на Фиг. 4, и выделяет сигнал Y понижающего микширования, а также ассоциированные коэффициенты C прямого повышающего микширования и коэффициенты P управляемого повышающего микширования, из битового потока B. В случае, когда сигнал Y понижающего микширования кодируется в битовом потоке B с использованием перцепционного звукового кодека, такого как Dolby Digital или MPEG AAC, система 200 декодирования звука может содержать базовый декодер (не показан на Фиг. 2), выполненный с возможностью декодирования сигнала Y понижающего микширования при выделении из битового потока B. Секция 202 преобразования преобразует сигнал Y понижающего микширования путем выполнения обратного МДКП, и секция 203 анализа QMF преобразует сигнал Y понижающего микширования в область QMF для обработки секцией 100 параметрического восстановления сигнала Y понижающего микширования в форме временных/частотных фрагментов. Секции 204 и 205 деквантования деквантуют коэффициенты C прямого повышающего микширования и коэффициенты P управляемого повышающего микширования, например, из энтропийно закодированного формата, перед подачей их в секцию 100 параметрического восстановления. Как описано со ссылкой на Фиг. 4, квантование могло быть выполнено с одним из двух разных размеров шага, например 0,1 или 0,2. Фактический используемый размер шага может быть предварительно задан или может быть сообщен системе 200 декодирования звука со стороны кодера, например, через битовый поток B.

В настоящем иллюстративном варианте осуществления многомерный восстановленный звуковой сигнал , выдаваемый секцией 100 параметрического восстановления, преобразуется обратно из области QMF секцией 206 синтеза QMF, а затем предоставляется в блок 207 рендеринга. В настоящем иллюстративном варианте осуществления звуковые сигналы X, подлежащие восстановлению, включают в себя сигналы звуковых объектов, ассоциированные с переменными во времени пространственными положениями. Метаданные R для рендеринга, в том числе пространственные локаторы для звуковых объектов могли быть закодированы в битовом потоке B на стороне кодера, и принимающая секция 201 может выделить метаданные R для рендеринга и предоставить их в блок 207 рендеринга. На основании восстановленных звуковых сигналов и метаданных R для рендеринга блок 207 рендеринга осуществляет рендеринг восстановленных звуковых сигналов в выходных каналах блока 207 рендеринга в формате, подходящем для воспроизведения на системе 208 с несколькими громкоговорителями. Блок 207 рендеринга может, например, содержаться в системе 200 декодирования звука или может представлять собой отдельное устройство, которое принимает входные данные от системы 200 декодирования звука.

III. Эквиваленты, расширения, альтернативы и прочее

Дополнительные варианты осуществления настоящего раскрытия предмета изобретения станут очевидными для специалиста в данной области техники после изучения приведенного выше описания. Но хотя настоящее описание и чертежи раскрывают варианты осуществления и примеры, раскрытие предмета изобретения не ограничивается этими конкретными примерами. Многочисленные модификации и изменения могут быть сделаны без отступления от объема настоящего раскрытия предмета изобретения, который определяется прилагаемой формулой изобретения. Любые ссылочные позиции, встречающиеся в формуле изобретения, не следует понимать как ограничение ее объема.

Кроме того, изменения в раскрытых вариантах осуществления могут быть поняты и произведены специалистом в данной области техники при применении на практике настоящего раскрытию предмета изобретения, благодаря изучению чертежей, раскрытия предмета изобретения и прилагаемой формулы изобретения. В формуле изобретения слово "содержит" не исключает других элементов или этапов, а использование единственного числа не исключает множественности. Сам по себе тот факт, что конкретные меры перечислены в разных взаимно зависимых пунктах формулы изобретения, не означает, что комбинация этих мер не может быть использована с выгодой.

Устройства и способы, раскрытые выше в данном документе, могут быть реализованы в виде программного обеспечения, программно-аппаратного обеспечения, аппаратного обеспечения или их комбинации. При аппаратной реализации разделение задач между функциональными блоками, упомянутыми в вышеприведенном описании, не обязательно соответствует разделению на физические блоки; наоборот, один физический компонент может обладать множественными функциональными возможностями, а одна задача может совместно выполняться несколькими физическими компонентами. Некоторые компоненты или все компоненты могут быть реализованы в виде программного обеспечения, исполняемого цифровым сигнальным процессором или микропроцессором, либо быть реализованы в виде аппаратного обеспечения или в виде специализированной интегральной схемы. Такое программное обеспечение может распространяться на машиночитаемых носителях, которые могут содержать компьютерные носители данных (или долговременные носители) и средства связи (или промежуточные носители). Как хорошо известно специалисту в данной области техники, термин «компьютерные носители данных» включает в себя как энергозависимые, так и энергонезависимые, съемные и несъемные носители, реализованные любым способом или в любой технологии для хранения информации, такой как машиночитаемые инструкции, структуры данных, программные модули или иные данные. Компьютерные носители данных включают в себя, но не ограничиваются этим, ОЗУ, ПЗУ, ЭСППЗУ, электрически перепрограммируемое постоянное запоминающее устройство или запоминающее устройство, изготовленное по иной технологии, CD-ROM, универсальные цифровые диски (DVD) или иное хранилище на оптических дисках, магнитные кассеты, магнитную ленту, хранилище на магнитных дисках или иные магнитные устройства хранения данных, или любой иной носитель, который может быть использован для хранения требуемой информации, и к которому можно получить доступ с помощью компьютера. Дополнительно специалисту в данной области техники хорошо известно, что средства связи, как правило, воплощают машиночитаемые инструкции, структуры данных, программные модули или иные данные в модулированном сигнале данных, таком как несущая волна или иной транспортный механизм, и включают в себя любые средства доставки информации.

СТРУКТУРА ДЕКОРРЕЛЯТОРА ДЛЯ ПАРАМЕТРИЧЕСКОГО ВОССТАНОВЛЕНИЯ ЗВУКОВЫХ СИГНАЛОВ

Источник поступления информации: Роспатент

‹ › ×

Авторы
Правообладатели

Showing 1-10 of 96 items.

20.06.2013

№216.012.4e37

Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования

Изобретение относится к декодированию множественных объектов путем преобразования закодированного многообъектного сигнала на базе доступного многоканального понижающего микширования и вспомогательных управляющих данных. Техническим результатом является обеспечение осуществления повышающего...

Тип: Изобретение

Номер охранного документа: 0002485605

Дата охранного документа: 20.06.2013