10.04.2019
219.017.0275

СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ СТЕРЕОСИГНАЛА

Вид РИД

Изобретение

Юридическая информация Свернуть Развернуть
№ охранного документа
0002392671
Дата охранного документа
20.06.2010
Краткое описание РИД Свернуть Развернуть
Аннотация: Изобретение относится к способам кодирования данных, например к способу кодирования аудиоданных и/или видеоданных, используя переменные углы поворота для компонентов данных. Раскрыт способ кодирования входных сигналов (1, r) для генерации кодированных данных (100), содержит обработку входных сигналов (1, r) для определения первых параметров (φ, φ), описывающих относительную разность фаз и временную разность между сигналами (1, r), и применение этих первых параметров (φ, φ) для обработки входных сигналов для генерации промежуточных сигналов. Способ включает в себя обработку промежуточных сигналов для определения вторых параметров (α; IID, ρ), описывающих угловой поворот первых промежуточных сигналов для генерации основного сигнала (m) и остаточного сигнала (s), причем основной сигнал (m) имеет амплитуду или энергию большую, чем остаточный сигнал (s), причем вторые параметры выполнены с возможностью применения для обработки промежуточных сигналов для генерации основного (m) и остаточного (s) сигналов. Способ также содержит квантование первых параметров, вторых параметров и основного и остаточного сигналов (m, s) для генерации соответствующих квантованных данных для последующего мультиплексирования с целью генерации кодированных данных (100). Технический результат - обеспечение эффективного кодирования данных. 8 н. и 15 з.п. ф-лы, 9 ил.
Реферат Свернуть Развернуть

Настоящее изобретение относится к способам кодирования данных, например, к способу кодирования аудио и/или видеоданных, используя переменные углы поворота для компонентов данных. Более того, настоящее изобретение также относится к кодерам, использующим такие способы, и к декодерам, выполненным с возможностью декодирования данных, сгенерированных этими кодерами. Кроме того, настоящее изобретение относится к кодированным данным, передаваемым посредством носителей данных и/или сетей передачи данных, причем кодированные данные генерируются, согласно упомянутым способам.

Многочисленные, известные в настоящее время способы, отличаются тем, что кодируют аудио и/или видеоданные для генерации соответствующих выходных кодированных данных. Примером такого известного способа кодирования аудио является MPEG-1 Layer III, известный как MP3, и описанный в ISO/IEC JTC1/SC29/WG11 MPEG, IS 11172-3, Information Technology - Coding of Movie Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit/s, Part 3: Audio, MPEG-1, 1992. Некоторые из современных способов приспособлены для повышения эффективности кодирования, то есть обеспечения сжатия информации, используя (M/S) стереокодирование или кодирование суммарного/разностного сигнала, как описано J.D. Jonston и A.J. Ferreira, “Sum-difference stereo transform coding” in Proc. IEEE, Int. Conf. Acoust., Speech and Signal Proc., San Francisco, CA, March 1992, pp. II: pp. 569-572.

В M/S кодировании, сигнал состоит из левого и правого сигналов l[n], r[n], которые соответственно являются кодированными в виде суммарного сигнала m[n] и разностного сигнала s[n], например, путем применения обработки, описанной Уравнениями 1 и 2 (Eq. 1 and 2):

m[n]=r[n]+l[n] Eq.1
s[n]=r[n]-l[n] Eq.2

Если сигналы l[n] и r[n] являются практически одинаковыми, M/S кодирование способно обеспечить значительное сжатие данных, в связи с тем, что разностный сигнал s[n] стремится к нулю и, таким образом, передает относительно небольшой объем информации, в то время как суммарный сигнал эффективно включает в себя большую часть объема информации сигнала. В такой ситуации, скорость битовой передачи данных, необходимая для представления суммарных и разностных сигналов, близка к половине скорости, необходимой для независимого кодирования сигналов l[n] и r[n].

Уравнения 1 и 2 можно представить с помощью матрицы поворота, в виде Уравнения 3 (Eq.3):

Eq.3

где c представляет собой масштабный постоянный коэффициент, часто используемый для предотвращения ограничения.

Хотя Уравнение 3 эффективно относится к повороту сигналов l[n], r[n] на угол 45°, возможны другие углы поворота, как показано в Уравнении 4 (Eq. 4), где α представляет собой угол поворота, применяемый к сигналам l[n], r[n] для генерации соответствующих кодированных сигналов m'[n], s'[n], описанных далее в настоящем описании, в качестве основного и остаточного сигналов соответственно:

Eq.4

Угол α используется как переменный для обеспечения улучшенного сжатия для обширной категории сигналов l[n], r[n] путем уменьшения объема информации, представленного в остаточном сигнале s'[n], и следовательно, до предела увеличивая мощность основного сигнала m'[n].

Методы кодирования, представленные Уравнениями 1-4, обычно применяются не для широкополосных сигналов, а для подсигналов, каждый из которых представляет лишь малую часть всей полосы пропускания, используемой при передачи аудиосигналов. Более того, методы, основанные на Уравнениях 1-4, также обычно применяются для частотного представления сигналов l[n], r[n].

В опубликованном патенте США № US 5621855 описан способ подполосного кодирования цифрового сигнала, имеющего первый и второй компонент сигнала, цифровой сигнал закодирован с помощью подполосного кодирования для получения первого подполосного сигнала, содержащего первую q-выборку блока сигнала в ответ на первый компонент сигнала, и второго подполосного сигнала, содержащего вторую q-выборку блока сигнала в ответ на второй компонент сигнала, причем первый и второй подполосные сигналы находятся в одной и той же подполосе, а первый и второй блоки сигнала эквивалентны по времени.

Первый и второй блоки сигнала обрабатываются для получения минимального значения расстояния между точечными представлениями выборок, эквивалентных по времени. Когда минимальное значение расстояния меньше или равно пороговому значению расстояния, образуется составленный из q-выборок композитный блок путем добавления соответствующих пар выборок, эквивалентных по времени в первый и во второй блоки сигналов, после умножения каждой из выборок первого блока на cos(α), а каждой из выборок второго блока сигнала на -sin(α).

Хотя применение вышеупомянутого угла поворота α приводит к устранению многих недостатков M/S кодирования, при котором применяется только поворот на угол 45°, такие подходы становятся проблематичными для применения к группам сигналов, например к паре стереосигналов, если в этих сигналах появляются значительные относительные разности фаз или временные сдвиги. Настоящее изобретение направлено на решение этой проблемы.

Цель настоящего изобретения заключается в предоставлении способа кодирования данных.

Согласно первому аспекту настоящего изобретения, предоставляется способ кодирования множества входных сигналов (l, r) для генерации соответствующих закодированных данных, причем способ включает в себя следующие этапы:

(a) обработки входных сигналов (l, r) для определения первых параметров (φ2), описывающих, по меньшей мере, относительную разность фаз или временную разность между сигналами (l, r), и применение указанных первых параметров (φ2) для обработки входных сигналов для генерации соответствующих промежуточных сигналов;

(b) обработки промежуточных сигналов и/или входных сигналов (l,r) для определения вторых параметров, описывающих поворот промежуточных сигналов, требуемый для генерации основного сигнала (m) и остаточного сигнала (s), причем указанный основной сигнал (m), имеет амплитуду или энергию большую, чем у разностного сигнала (s), и применение этих вторых параметров для обработки промежуточных сигналов для генерации основного (m) и остаточного (s) сигналов;

(с) квантования первых параметров, вторых параметров и кодирования, по меньшей мере, части основного сигнала (m) и остаточного сигнала (s) для генерации соответствующих квантованных данных; и

(d) мультиплексирования квантованных данных для генерации кодированных данных.

Настоящее изобретение имеет преимущество в том, что оно обеспечивает более эффективное кодирование данных.

Предпочтительно, в способе только часть остаточного сигнала (s) включена в кодированные данные. Такое неполное включение остаточного сигнала (s) позволяет улучшить сжатие данных, достигаемое при кодировании данных.

Более предпочтительно, в способе кодированные данные также содержат один или более параметров, указывающих на части остаточного сигнала, включенные в кодированные данные. Такие указывающие параметры позволяют выполнять последующее декодирование кодированных данных в более простом варианте.

Предпочтительно, этапы (a) и (b) настоящего способа осуществляются с помощью комплексного поворота входных сигналов (l[n], r[n]), представленных в частотном домене (l[k], r[k]). Реализация комплексного поворота позволяет более эффективно учитывать относительные временные и/или фазовые разности, возникающие между множеством входных сигналов. Более предпочтительно, если этапы (a) и (b) выполняются в частотном домене или подполосном домене. “Подполосный” следует толковать как частотный регион, меньший, чем полная полоса пропускания, необходимая для сигнала.

Предпочтительно, способ применяется в поддиапазонах полного диапазона частот, соответствующего входным сигналам (l, r). Более предпочтительно, если другие поддиапазоны полного диапазона частот будут кодированы с использованием альтернативных методов кодирования, например, общепринятого M/S кодирования, как описано выше.

Предпочтительно, после этапа (c) кодирования без потерь квантованных данных способ включает в себя дополнительный этап генерации кодированных данных с целью предоставления данных для мультиплексирования на этапе (d). Более предпочтительно, чтобы кодирование без потерь применялось с использованием кодирования по алгоритму Хаффмана. Использование кодирования без потерь потенциально дает возможность добиваться более высокого качества аудиосигнала.

Предпочтительно, способ включает в себя этап манипулирования остаточным сигналом (s), путем избавления от перцептуально нерелевантной частотно-временной информации, представленной в остаточном сигнале (s), причем указанный остаточный сигнал (s), над которым совершаются манипуляции, дает вклад в кодированные данные (100), и указанная перцептуально нерелевантная информация соответствует выбранным частям спектровременного представления входных сигналов. Устранение перцептуально нерелевантной информации позволяет способу обеспечить более высокий уровень сжатия данных в кодированных данных.

Предпочтительно, на этапе (b) способа, вторые параметры (α; IID, ρ) получают с помощью минимизации амплитуды или энергии остаточного сигнала (s). Такой подход обеспечивает большую вычислительную эффективность при генерации вторых параметров, по сравнению с альтернативными подходами получения параметров.

Предпочтительно, в способе вторые параметры (α; IID, ρ) представляют через параметры разности межканальной интенсивности и параметры когерентности (IID, ρ). Такая реализация способа обеспечивает совместимость с существующим вариантом параметрического стереокодирования и с соответствующим декодирующим аппаратным обеспечением или программным обеспечением.

Предпочтительно, на этапах (c) и (d) настоящего способа, кодированные данные размещены по “слоям” по своей значимости, причем указанные слои включают в себя базовый слой, передающий основной сигнал (m), первый слой расширения, включающий в себя первые и/или вторые параметры, согласно параметрам передачи стереосигнала, второй слой расширения, передающий представление остаточного сигнала (s). Более предпочтительно, второй слой расширения дополнительно подразделяется на первый подслой для передачи наиболее релевантной частотно-временной информации остаточного сигнала (s) и второй подслой для передачи менее релевантной частотно-временной информации остаточного сигнала (s). Представление входных сигналов с помощью этих слоев и подслоев позволяет, по мере необходимости, повысить устойчивость к ошибкам при передаче кодированных данных и осуществлять их обратно совместимое воспроизведение на простом декодирующем аппаратном обеспечении.

Согласно второму аспекту настоящего изобретения, предоставляется кодер для кодирования множества входных сигналов (l, r) для генерации соответствующих кодированных данных, причем кодер содержит:

(a) первое средство обработки для обработки входных сигналов (l, r) для определения первых параметров (φ2), описывающих, по меньшей мере, относительную разность фаз или временную разность, между сигналами (l, r), причем первое средство обработки используется для применения первых параметров (φ2), с целью обработки входных сигналов для генерации соответствующих промежуточных сигналов;

(b) второе средство обработки для обработки промежуточных сигналов для определения вторых параметров, описывающих поворот промежуточного сигнала, необходимый для генерации основного сигнала (m) и остаточного сигнала (s), причем указанный основной сигнал (m), имеет амплитуду или энергию большую, чем остаточный сигнал (s), и второе средство обработки используется для применения вторых параметров с целью обработки промежуточных сигналов для генерации, по меньшей мере, основного (m) и остаточного (s) сигналов;

(с) средство квантования для квантования первых параметров (φ2), вторых параметров (α; IID, ρ) и, по меньшей мере, части основного сигнала (m) и остаточного сигнала (s) для генерации соответствующих квантованных данных; и

(d) средство мультиплексирования для мультиплексирования квантованных данных с целью генерации кодированных данных.

Преимущество настоящего кодера заключается в том, что он способен обеспечить более эффективное кодирование данных.

Предпочтительно, кодер содержит средства обработки для манипулирования остаточным сигналом (s) путем избавления от перцептуально нерелевантной частотно-временной информации, представленной в остаточном сигнале (s), указанный измененный остаточный сигнал (s) является частью кодированных данных (100) и указанная перцептуально нерелевантная частотно-временная информация соответствует выбранным частям спектровременного представления входных сигналов. Избавление от перцептуально нерелевантной информации позволяет кодеру обеспечить больший уровень сжатия кодированных данных.

Согласно третьему аспекту настоящего изобретения, предоставляется способ декодирования кодированных данных для преобразования соответствующих представлений множества входных сигналов (l', r'), причем указанные входные сигналы (l, r) заранее кодированы для генерации указанных кодированных данных, способ содержит следующие этапы:

(a) демультиплексирование кодированных данных для генерации соответствующих квантованных данных;

(b) обработка квантованных данных для генерации соответствующих первых параметров (φ2), вторых параметров и, по меньшей мере, основного сигнала (m) и остаточного сигнала (s), причем указанный основной сигнал (m) имеет большую амплитуду или энергию, чем остаточный сигнал (s);

(c) поворот основного сигнала (m) и остаточного сигнала (s), используя вторые параметры для генерации соответствующих промежуточных сигналов; и

(d) обработка промежуточных сигналов, применяя первые параметры (φ2) для генерации указанных представлений указанных входных сигналов (l', r'), причем первые параметры (φ2) описывают, по меньшей мере, относительную разность фаз или временную разность между сигналами (l, r).

Способ выгоден тем, что позволяет эффективно декодировать данные, которые были эффективно кодированы с использованием способа по первому аспекту настоящего изобретения.

Предпочтительно, этап (b) включает в себя дополнительный этап, предназначенный для добавления пропущенной частотно-временной информации остаточного сигнала (s) с помощью искусственного остаточного сигнала, полученного из основного сигнала (m). Генерация искусственного сигнала обеспечивает эффективное декодирование кодированных данных.

Предпочтительно, в способе кодированные данные включают в себя параметры, указывающие, какие части разностного сигнала (s) кодированы в кодированные данные. Введение таких указывающих параметров позволяет выполнять эффективное декодирование с меньшими в вычислительном отношении требованиями.

Согласно четвертому аспекту настоящего изобретения, предоставляется декодер для декодирования кодированных данных с целью преобразования соответствующих представлений множества входных сигналов (l', r'), причем указанные сигналы (l, r) были кодированы с целью генерации кодированных данных, при этом декодер содержит:

(a) средства демультиплексирования для демультиплексирования кодированных данных для генерации соответствующих квантованных данных;

(b) первое средство обработки для обработки квантованных данных для генерации соответствующих первых параметров (φ2), вторых параметров и, по меньшей мере, основного сигнала (m) и остаточного сигнала (s), причем указанный основной сигнал (m) имеет амплитуду или энергию большую, чем остаточный сигнал (s);

(с) второе средство обработки для поворота основного (m) и остаточного (s) сигналов, применяя вторые параметры для генерации соответствующих промежуточных сигналов; и

(d) третье средство обработки для обработки промежуточных сигналов, применяя первые параметры (φ2) для преобразования указанных представлений входных сигналов (l, r), причем первые параметры (φ2) описывают, по меньшей мере относительную разность фаз или временную разность между сигналами (l, r).

Предпочтительно, второе средство обработки выполнено с возможностью генерации дополнительного искусственного сигнала, полученного из декодированного основного сигнала (m) для добавления информации, пропущенной в декодированном остаточном сигнале.

Согласно пятому аспекту настоящего изобретения, предоставляются кодированные данные, генерированные, согласно способу по первому аспекту настоящего изобретения, причем данные, по меньшей мере, либо записаны на носитель данных, либо передаются через сеть передачи данных.

Согласно шестому аспекту настоящего изобретения, предоставляется программный продукт для выполнения способа по пятому аспекту настоящего изобретения на вычислительных аппаратных средствах.

Согласно седьмому аспекту настоящего изобретения, предоставляется программный продукт для выполнения способа по третьему аспекту настоящего изобретения на вычислительных аппаратных средствах.

Согласно восьмому аспекту настоящего изобретения, предоставляются кодированные данные которые, по меньшей мере, либо записаны на носитель данных, либо передаются через сеть передачи данных, причем указанные данные содержат результат мультиплексирования квантованных первых параметров, квантованных вторых параметров, и квантованных данных, соответствующих, по меньшей мере, части основного сигнала (m) и остаточному сигналу (s), причем основной сигнал (m) имеет амплитуду или энергию большую, чем у остаточного сигнала (s), указанный основной сигнал (m) и указанный остаточный сигнал (s) получаются с помощью поворота промежуточных сигналов, определяемого вторыми параметрами, причем указанные промежуточные сигналы генерируются путем обработки множества входных сигналов для компенсации относительных фазовых и/или временных задержек между сигналами, описанных первыми параметрами.

Очевидно, что особенности настоящего изобретения допускают комбинирование в любых сочетаниях без отклонения от сути настоящего изобретения, которая определяется прилагаемой формулой изобретения.

Ниже в виде примеров описаны варианты осуществления настоящего изобретения, со ссылками на следующие чертежи:

Фиг.1 представляет собой иллюстрацию последовательности выборок для сигналов l[n], r[n], имеющих относительные временные и фазовые задержки;

Фиг.2 представляет собой иллюстрацию приложения условного M/S преобразования, определяемого Уравнениями 1 и 2 и применяемого к сигналам по Фиг.1 для генерации соответствующих суммарного и разностного сигналов m[n],s[n];

Фиг.3 представляет собой иллюстрацию приложения преобразования поворота, определяемого Уравнением 4 и применяемого к сигналам по Фиг.1 для генерации соответствующих основного m[n] и остаточного s[n] сигналов;

Фиг.4 представляет собой иллюстрацию приложения комплексного преобразования поворота, согласно настоящему изобретению и определяемого Уравнениями 5-15, для генерации соответствующих основного m[n] и остаточного s[n] сигналов, причем разностный сигнал имеет относительно небольшую амплитуду несмотря на сигналы по Фиг.1, имеющие относительную фазовую и временную задержку;

Фиг.5 представляет собой принципиальную схему кодера согласно настоящему изобретению;

Фиг.6 представляет собой принципиальную схему декодера согласно настоящему изобретению, причем декодер совместим с кодером по Фиг.5

Фиг.7 представляет собой принципиальную схему параметрического стереодекодера;

Фиг.8 представляет собой принципиальную схему улучшенного параметрического стереокодера согласно настоящему изобретению; и

Фиг.9 представляет собой принципиальную схему улучшенного параметрического стереодекодера, согласно настоящему изобретению, причем декодер совместим с кодером по Фиг.8.

В общем, настоящее изобретение относится к способу кодирования данных, которые представлены с помощью M/S способов кодирования, описанных в описанном выше применении различных углов поворота. Способ был разработан для лучшего кодирования данных, относящихся к группам сигналов, подвергаемых значительному сдвигу фаз и/или во времени. Более того, способ имеет преимущества по сравнению с традиционными методами кодирования, применяя значения для угла поворота α, что может быть использовано, когда сигналы l[n], r[n] представляются с помощью их эквивалентных комплексных частотных представлений l[k], r[k] соответственно.

Угол α может быть представлен как вещественный, и вещественный поворот фазы применяется к взаимно “связанным” l[n], r[n] сигналам для того, чтобы согласовать временную и/или фазовую задержки между этими сигналами. Однако использование комплексных значений для угла поворота α позволяет легче осуществить реализацию настоящего изобретения. Такой альтернативный подход для реализации поворота на угол α не выходит за пределы объема настоящего изобретения.

Частотное представление указанных сигналов временной области l[n], r[n] предпочтительно получается с помощью применения временных оконных процедур, как описано Уравнениями 5 и 6 (Eq. 5 и 6) для предоставления обработанных методом окна сигналов lq[n], rq[n]:

lq[n]=l[n+qH]h[n] Eq.5
rq[n]=r[n+qH]h[n], Eq.6

причем

q = основной индекс, такой что q=0, 1, 2,… для индикации последующих сигналов;

H = размер интервала связи или дополненный размер; и

n = временной индекс, со значением от 0 до L-1, причем параметр L равен длине окна h[n].

Оконные сигналы lq[n], rq[n] могут быть преобразованы в частотный домен, с использованием Дискретного Преобразования Фурье (ДПФ), или функционально эквивалентного преобразования, как описано Уравнениями 7 и 8 (Eq. 7 и 8):

l[k]=lq[n]exp Eq.7
r[k]=rq[n]exp Eq.8

причем параметр N представляет собой длину ДПФ такую, что N≥L. Вследствие того, что ДФТ вещественной последовательности симметрична, после преобразования сохраняются только первые точек. Для сохранения энергии сигнала во время применения ДПФ предпочтительно применяется следующее масштабирование, описанное Уравнениями 9 и 10 (Eq.9 и 10):

l[0]= Eq.9
r[0]= Eq.10

Способ настоящего изобретения, выполняющий действия по обработке сигнала, как показано Уравнением 11 (Eq.11) для преобразования частотного представления сигналов l[k], r[k] из Уравнений 7 и 8 в соответствующие повернутые суммарный и разностный сигналы m''[k], s''[k] в частотном домене:

Eq.11

причем

α = вещественный переменный угол поворота;

φ1 = стандартный угол, используемый для максимизации продолжения сигналов за пределы соответствующих границ; и

φ2 = угол, используемый для минимизации энергии остаточного сигнала s''[k] с помощью поворота фазы правого сигнала r[k].

Использование угла φ1 является необязательным. Более того, повороты согласно Уравнению 11 предпочтительно должны быть выполнены покадрово, то есть динамически для последовательных кадров. Однако такие динамические поочередные изменения по кадрам, потенциально, могут вызвать разрыв сигнала в суммарном сигнале m''[k], что может быть, по меньшей мере, частично устранено подходящим подбором угла φ1.

Более того, полоса частот k=0… Уравнения 11 предпочтительно делится на подполосы, точнее диапазоны. Во время кодирования каждому диапазону соответствуют угловые параметры α, φ1 и φ2, которые затем независимо определяются, кодируются и, далее, пересылаются или иначе передаются на декодер для последующего декодирования. С помощью распределения полосы частот на подполосы характеристики сигнала могут быть лучше учтены во время кодирования, что потенциально может привести к более высокому коэффициенту сжатия.

После осуществленных преобразований с помощью Уравнений 7-11 сигналы m''[k], s''[k] подвергаются Дискретному Преобразованию Фурье, как описано в Уравнении 12 и 13 (Eq. 12 и 13):

mq[n]=m[k]exp Eq.12
sq[n]=s[k]exp Eq.13

причем

mq[n] = основное временное представление; и

sq[n] = остаточное (разностное) временное представление.

Основное и остаточное представления затем преобразуются в представления в оконном базисе, к которому применяется перекрывание, как предоставлено операциями по обработке, описанными Уравнениями 14 и 15 (Eq.14 и 15):

m[n+qH]=m[n+qH]+2Re{mq[n]h[n]} Eq. 14
s[n+qH]=s[n+qH]+2Re{sq[n]h[n]} Eq. 15

В качестве альтернативы, операции по обработке способа настоящего изобретения, как описано Уравнениями 5-15, допускают, по крайней мере, частично, что их можно выполнять, применяя блок фильтров с комплексной модуляцией. Для осуществления настоящего изобретения может использоваться цифровая обработка, реализуемая вычислительными аппаратными средствами.

Для иллюстрации способа настоящего изобретения, ниже будет описан пример обработки сигнала согласно настоящему изобретению. Например, в качестве начальных сигналов, предназначенных для обработки с использованием настоящего способа используются два временных сигнала, причем сигналы определяются Уравнениями 16 и 17 (Eq.16 и 17):

l[n]=0,5cos(0,32n+0,4)+0,05z1[n]+0,06z2[n] Eq. 16
r[n]=0,25cos(0,32n+1,8)+0,03z1[n]+0,05z3[n], Eq. 17

причем z1[n], z2[n] и z3[n] являются взаимно независимыми последовательностями белого шума с единичной дисперсией. Чтобы лучше оценить работу способа настоящего изобретения, некоторые части сигналов l[n], r[n], описанные Уравнениями 16 и 17, показаны на Фиг.1.

На Фиг.2 проиллюстрированы сигналы m[n] и s[n], подвергнутые M/S преобразованию, причем преобразованные сигналы извлекаются из сигналов l[n], r[n] Уравнений 16 и 17 с помощью традиционной обработки, согласно Уравнениям 1 и 2. Из Фиг.2 видно, что такой традиционный подход для генерации сигналов m[n] и s[n] из сигналов, описанных Уравнениями 16 и 17, приводит к тому, что энергия остаточного сигнала s[n] становится выше, чем энергия входного сигнала r[n] в Уравнении 17. Очевидно, что традиционная обработка M/S преобразованного сигнала, применяемая к сигналам, описанным Уравнениями 16 и 17, является безрезультатной для сжатия, поскольку сигнал s[n] не имеет пренебрежимо малую амплитуду.

Применяя преобразование поворота, как описано Уравнением 4, возможно, например, уменьшить остаточную энергию сигналов l[n], r[n] в их соответствующем остаточном сигнале s[n] и, соответственно, увеличить их основной сигнал m[n], как проиллюстрировано на Фиг.3. Хотя подход вращения по Уравнению 4 обеспечивает лучший результат, чем традиционная M/S обработка, как представлено на Фиг.2, сигналы l[n], r[n] подвергаются относительным фазовым и/или временным сдвигам.

Если образцовые сигналы l[n], r[n] по Уравнениям 16 и 17 подвергаются трансформации в частотной области, затем подвергаются оптимизирующему комплексному повороту по Уравнениям 5-15, то возможно уменьшение энергии остаточного сигнала s[n] до сравнительно небольшой амплитуды, как проиллюстрировано на Фиг.4.

Далее будут описаны варианты осуществления аппаратного обеспечения для кодера, выполненного с возможностью осуществления обработки сигналов, как описано Уравнениями 5-15.

На Фиг.5 показан кодер, согласно настоящему изобретению, указанный ссылочной позицией 10. Кодер 10 получает левый (l) и правый (r) взаимосвязанные входные сигналы и кодирует эти сигналы для генерации кодированного потока 100 битов (bs). Более того, кодер 10 включает в себя блок 20 поворота фаз, блок 30 поворота сигнала, частотный/временной селектор 40, первый кодер 50, второй кодер 60, блок (Q) обработки квантованных параметров 70 и мультиплексорный блок 80 потока битов.

Входные сигналы l, r объединяются для введения в блок 20 поворота фаз, чьи соответственные выходы связывают с блоком 30 поворота сигнала. Основной и остаточный сигналы блока 30 поворота сигнала обозначены соответственно m, s. Основной сигнал m передается через первый кодер 50 на мультиплексорный блок 80. Более того, остаточный сигнал s подают через частотно-временной селектор 40 на второй кодер 60 и, после этого, на мультиплексорный блок 80. Угловые параметры выходов φ1, φ2 блока 20 поворота фаз подают через блок 70 обработки на мультиплексорный блок 80. Более того, угловой параметр выхода α блока 30 поворота сигнала подают через блок 70 обработки на мультиплексорный блок 80. Мультиплексорный блок 80 содержит вышеупомянутый выходной поток 100 битов (bs).

При работе, блок 20 поворота фаз выполняет обработку сигналов l, r чтобы компенсировать относительные разницы фаз между ними, и, таким образом, генерирует параметры φ1, φ2, причем параметр φ2 представляет указанную относительную разность фаз, параметры φ1, φ2 пропускаются через блок 70 обработки для квантования и, таким образом, включаются в качестве соответствующих параметров данных в кодированный битовый 100 поток. Сигналы l, r с компенсированой относительной разностью фаз подают в блок 30 поворота сигнала, который определяет оптимизированное значение угла α для концентрации максимальной энергии сигнала в основном сигнале m и минимальной энергии сигнала в остаточном сигнале s. Основной и остаточный сигналы m, s затем передаются через кодеры 50, 60 для преобразования в подходящий формат для включения в поток 100 битов. Блок 70 обработки принимает углы сигналов α, φ1, φ2 и мультиплексирует их вместе с выходами кодеров 50, 60 для генерации выходного потока 100 битов (bs). Таким образом, поток 100 битов (bs) содержит поток данных, включающих в себя представления основного и остаточного сигналов m, s вместе с данными угловых параметров α, φ1, φ2, причем параметр φ2 является необходимым, а параметры φ1 являются необязательными, но обеспечивающими дополнительные преимущества.

Кодеры 50, 60 предпочтительно осуществляются в виде двух моноаудиокодеров, или, в качестве альтернативы, как один двойной моноаудиокодер. При желании, некоторые части остаточного сигнала s, например установленные во время представления в частотно-временной плоскости, и не влияющие ощутимо на поток 100 битов, могут быть исключены в частотно-временном селекторе 40, таким образом, обеспечивая масштабируемое сжатие информации, как это будет более детально описано ниже.

Кодер 10 при желании может быть использован для обработки входных сигналов (l, r) поверх части всей полосы частот, соответствующей входным сигналам. Эти части входных сигналов (l, r) не кодируются с помощью кодера 10, а кодируются далее, при параллельном кодировании, используя другие способы, например, используя традиционное M/S кодирование, как описано выше. При необходимости может быть выполнено отдельное кодирование левого (l) и правого (r) входных сигналов.

Кодер 10 доступен для реализации в аппаратном обеспечении, например, в качестве специализированной микросхемы или группы таких микросхем. В качестве альтернативы, кодер 10 может быть реализован в виде программного продукта, выполняемого на вычислительных аппаратных средствах, например, на интегральной микросхеме обработки сигнала со специализированным управляющим программным обеспечением или группе таких микросхем.

На Фиг.6 декодер, совместимый с кодером 10, указан ссылочной позицией 200. Декодер 200 содержит демультиплексор 210 потока битов, первый и второй декодеры 220, 230, блок 240 обработки для деквантованных параметров, блок 250 декодера поворота сигнала и декодирующий блок 260 поворота фаз, предоставляющий декодированные выходные сигналы l', r', соответствующие входным сигналам l, r, подающимся на кодер 10. Демультиплексор 210 принимает поток 100 битов (bs), генерируемых кодером 10, например, передаваемых с кодера 10 на декодер 200 с помощью носителя данных, например, с помощью оптического диска, такого как CD или DVD, и/или через сеть передачи данных, например Интернет. Демультиплексированные выходные сигналы демультиплексора 210 подаются на входы декодеров 220, 230 и на блок 240 обработки. Первый и второй декодеры содержат основной и остаточный декодированные выходы m', s', которые, соответственно, подаются на блок 250 поворота декодера. Более того, блок 240 обработки включает в себя выход угла поворота α', который также подается на блок 250 поворота декодера; угол α' соответствует декодированным версиям вышеупомянутого угла α, по отношению к кодеру 10. Выходные сигналы углов φ1', φ2' соответствуют декодированным версиям вышеупомянутых углов φ1, φ2 по отношению к кодеру 10; причем углы φ1', φ2' передаются вместе с декодированными основными и остаточными выходами сигнала из блока 250 поворота декодера в декодирующий блок 260 поворота фаз, который, как показано, включает в себя декодированные выходы l', r'.

При работе декодер 200 выполняет инверсию этапов кодирования, осуществленных на кодере 10. Таким образом, в декодере 200 поток битов 100 демультиплексируется в демультиплексоре 210 для разделения данных, соответствующих основному и остаточному сигналам, которые восстановлены с помощью декодеров 220, 230 для генерации декодированного основного и остаточного сигналов m', s'. Далее сигналы m', s' поворачивают на угол α' и затем корректируют их относительную фазу, используя углы φ1', φ2', для восстановления левого и правого сигналов l', r'. Углы φ1', φ2', α' восстанавливаются из параметров, демультиплексированных в демультиплексоре 210 и разделенных в блоке 240 обработки.

В кодере 10 и, таким образом, в декодере 200, предпочтительно передавать в потоке 100 битов IID значение и значение ρ когерентности, а не вышеупомянутый угол α. IID значение служит для представления межканальной разницы, то есть указывает частоту и временный вариант разницы амплитуд между левым и правым сигналами l, r. Значение ρ когерентности указывает на частотную когерентность, или подобие, между левым l и правым r сигналами после фазовой синхронизации. Однако, например, в декодере 200, угол α без труда извлекается из значений IID и ρ, применяя Уравнение 18 (Eq.18):

Eq.18

Параметрический декодер указан ссылочной позицией 400 на Фиг.7, причем этот декодер 400 является комплиментарным для кодеров согласно настоящему изобретению. Декодер 400 содержит демультиплексор 410 потока битов, декодер 420, блок 430 декорреляции, блок 440 масштабирования, блок 450 поворота сигнала, блок 460 поворота фаз и блок 470 деквантования. Демультиплексор 410 содержит вход для приема сигнала потока 100 битов (bs) и четыре соответствующих выхода для сигнала m, s данных, данных углового параметра, IID данных и данных ρ когерентности, эти выходы соединены с декодером 420 и с блоком 470 деквантования, как показано на фигуре. Выходной сигнал с декодера 420 подают через блок 430 декорреляции для восстановления представления остаточного сигнала s' на вход блока 440 масштабирования.

Помимо этого, восстановленное представление основного сигнала m' передается с блока 420 декодирования на блок 440 масштабирования. В блок 440 масштабирования также подают данные IID' и данные ρ' когерентности из блока 470 деквантования. Выходные сигналы блока 440 масштабирования подают в блок 450 поворота сигнала для генерации промежуточных выходных сигналов. Эти промежуточные выходные сигналы затем корректируются в блоке 460 поворота фаз, используя углы φ1, φ2, декодированные в блоке 470 деквантования для восстановления представления левого и правого сигналов l', r'.

Декодер 400 отличается от декодера 200 на Фиг.6 тем, что декодер 400 включает в себя блок 430 декорреляции для оценки остаточного сигнала s', основываясь на основном сигнале m' путем выполнения процесса декорреляции в блоке 430 декорреляции. Более того, уровень когерентности между левым и правым выходными сигналами l', r' определяется путем процесса масштабирования. Процесс масштабирования выполняется в блоке 440 масштабирования и связан с соотношением между основным сигналом m' и остаточным сигналом s'.

На Фиг.8 проиллюстрирован улучшенный кодер, обозначенный ссылочной позицией 500. Кодер 500 содержит блок 510 поворота фаз для полученных левого и правого входных сигналов l, r соответственно, блок 520 поворота сигнала, частотный/временной селектор 530, первый и второй кодеры 540, 550 соответственно, блок 560 квантования и мультиплексор 570, включающий в себя выход потока 100 битов (bs). Выходные сигналы углов φ1, φ2 блока 510 поворота фаз передают из блока 510 поворота фаз на блок 560 квантования. Помимо этого, выходные сигналы со скорректированными фазами из блока 510 поворота фаз пропускают через блок 520 поворота сигнала и через частотный/временной селектор 530 для генерации основного и остаточного сигналов m, s соответственно, а также IID и ρ данных/параметров когерентности. IID и ρ данные/параметры когерентности подают на блок 560 квантования, тогда как основной и остаточный сигналы m, s пропускают через первый и второй кодеры 540, 550 для генерации соответствующих данных для мультиплексора 570. Мультиплексор 570 также выполнен с возможностью получения параметров, описывающих углы φ1, φ2, когерентность ρ и IID. Мультиплексор 570 выполняет мультиплексирование данных из кодеров 540, 550 и блока 560 квантования для генерации потока битов 100 (bs).

В кодере 500, остаточный сигнал s кодируется непосредственно в поток 100 битов. При желании, блок 530 частотного/временного селектора может работать для определения того, какие части частотно-временной плоскости остаточного сигнала s кодированы в поток 100 битов (bs), блок 530, таким образом, определяет степень включения остаточной информации в поток 100 битов и, следовательно, влияет на баланс между достигаемым сжатием в кодере 500 и количеством информации, включенной в поток 100 битов.

На Фиг.9 улучшенный параметрический декодер обозначен ссылочной позицией 600, декодер 600 является комплиментарным кодеру 500, показанному на Фиг.8. Декодер 600 содержит блок 610 демультиплексирования, первый и второй декодеры 620, 640 соответственно, блок 630 декорреляции, блок 650 объединения, блок 660 масштабирования, блок 670 поворота сигнала, блок 680 поворота фаз и блок 690 деквантования. Блок 610 демультиплексирования связан с получением кодированного потока 100 битов (bs) и предоставляет соответствующие демультиплексированные выходные сигналы на первый и второй декодеры 620, 640 и также на блок 690 деквантования. Декодеры 620, 640 совместно с блоком 630 декорреляции и блоком 650 объединения действуют для восстановления представлений основного и остаточного сигналов m', s' соответственно. Эти представления подвергаются масштабированию в блоке 660 масштабирования, с последующими поворотами в блоке 670 поворота сигнала для генерации промежуточных сигналов, которые для восстановления представления левого и правого сигналов l', r' затем подвергаются повороту фаз в блоке 680 поворота в соответствии с угловыми параметрами, сгенерированными блоком 690 деквантования.

В декодере 600 поток битов 100 демультиплексируется в отдельные потоки для основного сигнала m', для остаточного сигнала s' и для стереопараметров. Основной и остаточный сигналы m', s' затем декодируются с помощью декодеров 620, 640 соответственно. Спектральные/временные части остаточного сигнала s', которые были кодированы в потоке 100 битов, передают в потоке 100 битов либо в неявном виде, то есть детектируя “пустые” области на плоскости время-частота, или в явном виде, то есть при помощи сигнальных параметров, декодированных из потока 100 битов. Блок 630 декорреляции и блок 650 объединения действуют для заполнения пустых областей время-частота в декодированном остаточном сигнале s' по существу с помощью искусственного остаточного сигнала. Этот искусственный сигнал генерируется с использованием декодированного основного сигнала m' и выходного сигнала из блока 650 декорреляции. Для всех других областей время-частота остаточный сигнал s применяется для создания декодированного остаточного сигнала s'; для этих областей не применяется масштабирование в блоке 660 масштабирования. Необязательно, для этих областей, дополнительные преимущества обеспечивает передача вышеупомянутого угла α в кодер 500, взамен IID и когерентности ρ, поскольку скорость передачи данных, необходимая для передачи одного параметра угла α, меньше, чем необходимая для передачи соответствующих данных IID и параметра ρ когерентности. Однако передача параметра угла α в потоке 100 битов вместо параметров IID и ρ приводит к отсутствию обратной совместимости кодера 500 и декодера 600 с традиционными Параметрическими Стереосистемами (PS), которые используют параметры IID и ρ.

Селекторные блоки 40, 530 кодеров 10, 500 соответственно предпочтительно выполнены с возможностью применения перцептуальной модели во время выбора областей время-частота остаточного сигнала s, нуждающихся в кодировании в поток 100 битов. С помощью различных аспектов кодирования время-частота остаточного сигнала s в кодерах 10, 500, возможно выполнение масштабируемых по скорости кодеров и декодеров. Если слои в потоке битов 100 взаимно зависимы, кодируемые данные, соответствующие перцептуально наиболее релевантному частотно-временному аспекту, включаются в базовый слой, при этом перцептуально менее релевантные данные перемещаются в уплотняющие слои или слои расширения; “слой расширения” также называется “слоем уплотнения”. В такой конфигурации, базовый слой предпочтительно содержит поток битов, относящийся к основному сигналу m, первый слой расширения содержит поток битов, соответствующий стереопараметрам, таким как указанные выше углы α, φ1, φ2, и второй слой расширения, содержит поток битов, относящийся к остаточному сигналу s.

Такая конфигурация слоев в данных потока 100 битов допускает потерю или удаление второго слоя расширения, передающего остаточный сигнал s; более того, декодер 600, проиллюстрированный на Фиг.10, способен комбинировать декодированные оставшиеся слои с искусственным остаточным сигналом, как описано выше, для восстановления остаточного сигнала, который имеет перцептуальный смысл для пользователя. Более того, если декодер 600 не обеспечивается (необязательно) вторым декодером 640, например, по причине ограничений, связанных со стоимостью и/или сложностью, то декодирование остаточного сигнала s возможно, хотя и с пониженным качеством.

Дополнительное уменьшение битовой скорости в потоке 100 битов (bs), как упомянуто выше, возможно с помощью отбрасывания кодированных параметров угла φ1, φ2. В такой ситуации блок 680 поворота фаз в декодере 600 реконструирует восстановленные выходные сигналы l', r', используя угол поворота, фиксированной величины, присвоенной по умолчанию, например с нулевым значением; такое дополнительное уменьшение битовой скорости использует особенности, связанные с тем, что человеческая слуховая система относительно нечувствительна к фазе высоких аудиочастот. Например, параметры φ2 могут передаваться в потоке 100 битов (bs), а параметры φ1 могут отбрасываются для уменьшения битовой скорости.

Кодеры и комплиментарные декодеры согласно настоящему изобретению, описанные выше, потенциально могут быть использованы в разнообразных электрических устройствах и системах, например, по меньшей мере, в одном из: Интернет-радио, потоковая передача сигнала через Интернет, Электронная Дистрибуция Музыки (EMD), плееры и рекордеры на базе твердотельных устройств, а также в телевидении и создании аудиопродукции.

Хотя выше описан способ кодирования выходных сигналов (l, r) для генерации потока 100 битов и также описаны комплиментарные способы декодирования потока 100 битов, необходимо учесть, что изобретение можно адаптировать для кодирования более чем двух входных сигналов. Например, настоящее изобретение может быть адаптировано для обеспечения кодирования данных и соответствующего декодирования данных для многоканального аудио, например, 5-канальной системы домашнего кинотеатра.

В прилагаемой формуле изобретения числа и другие символы, заключенные в скобки, включены для обеспечения лучшего понимания формулы изобретения и не ограничивают каким-либо образом объем формулы изобретения.

Необходимо учесть, что описанные выше варианты осуществления настоящего изобретения могут быть модифицированы без выхода за рамки сути настоящего изобретения, который определен прилагаемой формулой изобретения.

Выражения типа “содержит”, “включает в себя”, “включает”, “заключает”, “является” и “имеет” должны толковаться при интерпретации описания и прилагаемой формулы изобретения не исключающим способом, то есть при их толковании допускается возможность включения других, явно не определенных, элементов или компонентов. Ссылка на единственное число также должна рассматриваться как ссылка на множественное число и vice versa.

Источник поступления информации: Роспатент

Всего документов: 11

Похожие РИД в системе