10.08.2019

№219.017.be17

Результат интеллектуальной деятельности: ПРИНЦИП СРАЩИВАНИЯ АУДИОДАННЫХ

Вид РИД

Изобретение

Юридическая информация Юридическая информация Свернуть Развернуть

Авторы

Правообладатели

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

№ охранного документа

0002696602

Дата охранного документа

05.08.2019

Краткое описание РИД Краткое описание РИД Свернуть Развернуть

Аннотация: Изобретение относится к области технологии сращивания (вставке) аудиоданных для аудиокодеков MPEG, например, AAC или MPEG-H 3D Audio. Техническим результатом является обеспечение принципа вставки аудио, более эффективного в отношении, например, процедурной сложности процесса вставки на сплайсерах потоков и/или аудиодекодерах. Предложено сращивание аудиоданных, которое осуществляется более эффективно благодаря использованию одного или более пакетов единиц усечения, вставленных в поток аудиоданных для указания аудиодекодеру, для заданной единицы доступа, концевого участка кадра аудиоданных, с которым связана заданная единица доступа, как подлежащего отбрасыванию при воспроизведении. 6 н. и 11 з.п. ф-лы, 17 ил.

Реферат Реферат Свернуть Развернуть

Настоящая заявка посвящена сращиванию (вставке) аудиоданных.

Кодированные аудиоданные обычно поступают в виде секций выборок, часто 1024, 2048 или 4096 выборок в каждой секции. Такие секции именуются в дальнейшем кадрами. В отношении аудиокодеков MPEG, например, AAC или MPEG-H 3D Audio, эти секции/кадры именуются гранулами, кодированные секции/кадры именуются единицами доступа (AU), и декодированные секции именуются единицами композиции (CU). В транспортных системах аудиосигнал доступен и адресуем только в гранулярности этих кодированных секций (единиц доступа). Однако полезно иметь возможность адресовать аудиоданные с некоторой окончательной гранулярностью, особенно в целях вставки потоков или изменений конфигурации кодированных аудиоданных, синхронных и выровненных с другим потоком, например, видеопотоком.

В настоящее время известно отбрасывание некоторых выборок единицы кодирования. Формат файла MPEG-4, например, имеет так называемые списки редактирования, которые можно использовать с целью отбрасывания выборок аудиосигнала в начале и конце кодированного аудиофайла/битового потока [3]. К сожалению, этот способ списков редактирования работает только с форматом файла MPEG-4, т.е. зависит от формата файла, и не работает с форматами потока, например транспортными потоками MPEG-2. Кроме того, списки редактирования глубоко внедрены в формат файла MPEG-4 и, соответственно, не могут легко модифицироваться в оперативном режиме устройствами вставки потоков. В AAC [1], информацию усечения можно вставлять в поток данных в форме extension_payload. Однако такой extension_payload в кодированной единице доступа AAC имеет недостаток в том, что информация усечения глубоко внедрена в AAC AU и не может легко модифицироваться в оперативном режиме устройствами вставки потоков.

Соответственно, задачей настоящего изобретения является обеспечение принципа вставки аудио, более эффективного в отношении, например, процедурной сложности процесса вставки на сплайсерах потоков и/или аудиодекодерах.

Эта задача решается посредством предмета независимых пунктов нижеследующей формулы изобретения.

В основе изобретения, раскрытого в настоящей заявке, лежит идея о том, что вставку аудио можно осуществлять более эффективно, используя один или более пакетов единиц усечения, вставленных в поток аудиоданных для указания аудиодекодеру, для заданной единицы доступа, концевого участка кадра аудиоданных, с которым связана заданная единица доступа, как подлежащего отбрасыванию при воспроизведении.

В соответствии с аспектом настоящей заявки, поток аудиоданных первоначально снабжается таким пакетом единицы усечения, чтобы обеспеченный таким образом поток аудиоданных мог быть более легко сращиваемым на заданной единице доступа с более мелкой временной гранулярностью, чем длина кадра аудиоданных. Таким образом, один или более пакетов единиц усечения, адресуются аудиодекодеру и сплайсеру потоков, соответственно. В соответствии с вариантами осуществления, сплайсер потоков просто ищет такой пакет единицы усечения для определения положения возможной точки вставки. Сплайсер потоков устанавливает пакет единицы усечения, соответственно, для указания концевого участка кадра аудиоданных, с которым связана заданная единица доступа, подлежащим отбрасыванию при воспроизведении, разрезает первый поток аудиоданных на заданной единице доступа и вставляет поток аудиоданных в другой поток аудиоданных, чтобы они смыкались друг с другом на заданной единице доступа. Поскольку пакет единицы усечения уже обеспечен в сращиваемом потоке аудиоданных, процесс вставки не приводит к вставке дополнительных данных, и, соответственно, потребление битовой скорости остается неизменным.

В качестве альтернативы, пакет единицы усечения можно вставлять во время вставки. Независимо от первоначального снабжения потока аудиоданных пакетом единицы усечения или его снабжения пакетом единицы усечения во время вставки, сращенный поток аудиоданных имеет такой пакет единицы усечения, вставленный в него, где концевой участок, будучи задним концевым участком в случае заданной единицы доступа, является частью потока аудиоданных, предшествующей точке вставки, будучи передним концевым участком в случае заданной единицы доступа, является частью потока аудиоданных, следующей за точкой вставки.

Преимущественные аспекты реализаций настоящей заявки являются предметом зависимых пунктов формулы изобретения. В частности, предпочтительные варианты осуществления настоящей заявки описаны ниже со ссылкой на чертежи, из которых:

фиг. 1 схематически демонстрирует сверху вниз аудиосигнал, поток аудиоданных, имеющий аудиосигнал, закодированный в нем в единицах кадров аудиоданных аудиосигнала, видео, состоящее из последовательности кадров, и другой поток аудиоданных и закодированный в нем аудиосигнал для потенциальной замены исходного аудиосигнала, начиная с определенного видеокадра;

фиг. 2 демонстрирует схему сращиваемого потока аудиоданных, т.е. потока аудиоданных, снабженного пакетами TU для облегчения действий вставки, в соответствии с вариантом осуществления настоящей заявки;

фиг. 3 демонстрирует схему, иллюстрирующую пакет TU в соответствии с вариантом осуществления;

фиг. 4 схематически демонстрирует пакет TU в соответствии с альтернативным вариантом осуществления, согласно которому пакет TU способен сигнализировать передний концевой участок и задний концевой участок, соответственно;

фиг. 5 демонстрирует блок-схему аудиокодера в соответствии с вариантом осуществления;

фиг. 6 демонстрирует схему, иллюстрирующую источник инициирующего сигнала для моментов времени входа во вставку и выхода из вставки в соответствии с вариантом осуществления, где они зависят от растра видеокадров;

фиг. 7 демонстрирует упрощенную блок-схему сплайсера потоков в соответствии с вариантом осуществления, причем на чертеже дополнительно показано, что сплайсер потоков принимает поток аудиоданных, показанный на фиг. 2, и выводит сращенный поток аудиоданных на его основании;

фиг. 8 демонстрирует блок-схему операций режима работы сплайсера потоков, показанного на фиг. 7, при вставке нижнего потока аудиоданных в верхний в соответствии с вариантом осуществления;

фиг. 9 демонстрирует блок-схему операций режима работы сплайсера потоков при вставке из нижнего потока аудиоданных обратно в верхний в соответствии с вариантом осуществления;

фиг. 10 демонстрирует блок-схему аудиодекодера согласно варианту осуществления, где дополнительно показано, что аудиодекодер принимает сращенный поток аудиоданных, показанный на фиг. 7;

фиг. 11 демонстрирует блок-схему операций режима работы аудиодекодера, показанного на фиг. 10, для иллюстрации различной обработки единиц доступа в зависимости от того, являются ли они единицами доступа IPF и/или единицами доступа, содержащими пакеты TU;

фиг. 12 демонстрирует пример синтаксиса пакета TU;

фиг. 13A-C демонстрируют различные примеры сращивания одного потока аудиоданных с другим, где момент времени вставки определяется видеосигналом, в данном случае, видеосигналом с частотой кадров 50 кадров в секунду, и аудиосигналом, закодированным в потоки аудиоданных на частоте 48 кГц с гранулами или кадрами аудиоданных шириной 1024 выборки и с осью времени меток времени 90 кГц, таким образом, что длительность одного видеокадра равна 1800 меток на оси времени, тогда как длительность одного кадра аудиоданных или одной аудиогранулы один равна 1920 меток на оси времени;

фиг. 14 демонстрирует схему, иллюстрирующую другой иллюстративный случай вставки двух потоков аудиоданных в момент времени вставки, определенный растром кадров аудиоданных с использованием иллюстративных частот кадров и выборок, показанных на фиг. 13A-C;

фиг. 15 демонстрирует схему, иллюстрирующую действие кодера при вставке двух потоков аудиоданных разных конфигураций кодирования в соответствии с вариантом осуществления;

фиг. 16 демонстрирует различные случаи использования вставки в соответствии с вариантом осуществления; и

фиг. 17 демонстрирует блок-схему аудиокодера, поддерживающего разные конфигурации кодирования в соответствии с вариантом осуществления.

Фиг. 1 демонстрирует иллюстративный участок потока аудиоданных для иллюстрации проблем возникающих при попытке сращивания соответствующего потока аудиоданных с другим потоком аудиоданных. Таким образом, поток аудиоданных, показанный на фиг. 1, образует вид основы потоков аудиоданных, показанных на последующих чертежах. Соответственно, нижеследующее описание потока аудиоданных, показанного на фиг. 1, пригодно также для потоков аудиоданных, дополнительно описанных ниже.

Поток аудиоданных, в целом, указан на фиг. 1 ссылочной позицией 10. Поток аудиоданных имеет закодированный в него аудиосигнал 12. В частности, аудиосигнал 12 кодируется в поток аудиоданных в единицах кадров 14 аудиоданных, т.е. временных участков аудиосигнала 12, которые могут, как показано на фиг. 1, не перекрываться и смыкаются друг с другом во времени или, в качестве альтернативы, перекрываться друг с другом. Способ кодирования аудиосигнала 12 в единицах кадров 14 аудиоданных в поток 10 аудиоданных можно выбирать по-разному: преобразовательное кодирование можно использовать для кодирования аудиосигнала в единицах кадров 14 аудиоданных в поток данных 10. В этом случае, к аудиосигналу кадра 14 аудиоданных можно применять одно или несколько преобразований спектрального разложения, при этом одно или более преобразований спектрального разложения покрывают во времени кадр 14 аудиоданных, выходя за пределы его переднего и заднего концов. Коэффициенты преобразования спектрального разложения содержатся в потоке данных, что позволяет декодеру реконструировать соответствующий кадр посредством обратного преобразования. Взаимно перекрывающиеся и даже выходящие за пределы границ кадра аудиоданных участки преобразования, в единицах которых осуществляется спектральное разложение аудиосигнала, обрезаются так называемыми вырезающими функциями на стороне кодера и/или декодера таким образом, что так называемый процесс перекрытия и суммирования на стороне декодера, согласно которому обратно преобразованные сигнализируемые преобразования спектрального объединения перекрываются друг с другом и суммируются, позволяет реконструировать аудиосигнал 12.

В качестве альтернативы, например, аудиосигнал 12 кодируется в потоке 10 аудиоданных в единицах кадров 14 аудиоданных с использованием линейного предсказания, согласно которому кадры аудиоданных кодируются с использованием коэффициентов линейного предсказания и кодированного представления остатка предсказания с использованием, в свою очередь, коэффициентов долгосрочного предсказания (LTP), например коэффициента усиления LTP и отставания LTP, индексов кодовой книги и/или преобразовательного кодирования возбуждения (остаточного сигнала). Даже в этом случае, реконструкция кадра 14 аудиоданных на декодирующей стороне может зависеть от кодирования предшествующего кадра или в, например, временные предсказания от одного кадра аудиоданных к другому или перекрытия окон преобразования для преобразовательного кодирования сигнала возбуждения и т.п. Это обстоятельство упомянуто здесь потому, что оно играет роль в нижеследующем описании.

В целях передачи и сетевой обработки, поток 10 аудиоданных образован последовательностью пакетов 16 полезной нагрузки. Каждый из пакетов 16 полезной нагрузки принадлежит соответствующей одной из последовательности единиц 18 доступа, на которые разбит поток 10 аудиоданных в порядке 20 потока. Каждая из единиц 18 доступа связана с соответствующим одним из кадров 14 аудиоданных, как указано двусторонними стрелками 22 на фиг. 1. Как показано на фиг. 1, временной порядок кадров 14 аудиоданных может совпадать с порядком связанных кадров 18 аудиоданных в потоке 10 данных: кадр 14 аудиоданных, непосредственно следующий за другим кадром, может быть связан с единицей доступа в потоке 10 данных, непосредственно следующей за единицей доступа другого кадра аудиоданных в потоке 10 данных.

Таким образом, как изображено на фиг. 1, каждая единица 18 доступа может иметь один или более пакетов 16 полезной нагрузки. В одном или более пакетах 16 полезной нагрузки определенной единицы 18 доступа закодированы вышеупомянутые параметры кодирования, описывающие связанный кадр 14, например коэффициенты преобразования спектрального разложения, LPC и/или кодирование сигнала возбуждения.

Поток 10 аудиоданных также может содержать информацию 24 метки времени, которая указывает для каждой единицы 18 доступа потока данных 10 эту метку времени t_i, на которой кадр аудиоданных i, с которым связана соответствующая единица 18 доступа AU_i, подлежит воспроизведению. Как показано на фиг. 1, информация 24 метки времени может быть вставлена в один из одного или более пакетов 16 каждой единицы 18 доступа для указания метки времени связанного кадра аудиоданных, но допустимы и другие решения, например, вставка информации метки времени t_i кадра аудиоданных i в каждый из одного или более пакетов связанной единицы доступа AU_i.

Благодаря пакетизации, разбиению на единицы доступа и информации 24 метки времени, поток 10 аудиоданных особенно пригоден для потоковой передачи между кодером и декодером. Таким образом, поток 10 аудиоданных, показанный на фиг. 1, является потоком аудиоданных формата потока. Поток аудиоданных, показанный на фиг. 1 может быть, например, потоком аудиоданных согласно MPEG-H 3D Audio или MHAS [2].

Для облегчения транспортной/сетевой обработки, пакеты 16 могут иметь выровненные по байтам размеры, и можно различать пакеты 16 разных типов. Например, некоторые пакеты 16 могут относиться к первому аудиоканалу или первому набору аудиоканалов и имеют связанный с ним первый тип пакета, тогда как пакеты, имеющие связанный с ними другой тип пакета, имеют закодированный в них другой аудиоканал или другой набор аудиоканалов закодированного в них аудиосигнала 12. Другие пакеты могут относиться к типу пакета, несущего редко изменяющиеся данные, например, данные конфигурации, параметры кодирования, пригодные или используемые последовательностью единиц доступа. Другие пакеты 16 могут относиться к типу пакета, несущего параметры кодирования, пригодные для единицы доступа, которой они принадлежат, тогда как другие пакеты полезной нагрузки несут кодировки значений выборок, коэффициенты преобразования, коэффициенты LPC и т.п. Соответственно, каждый пакет 16 может содержать указатель типа пакета, который легко доступен промежуточным сетевым субъектам и декодеру, соответственно. Описанные в дальнейшем пакеты TU можно отличать от пакетов полезной нагрузки по типу пакета.

При условии, что поток 10 аудиоданных передается как есть, проблем не возникает. Однако предположим, что аудиосигнал 12 подлежит воспроизведению на декодирующей стороне только до некоторого момента времени, в порядке примера указанного τ на фиг. 1. Фиг. 1 иллюстрирует, например, что этот момент времени τ может определяться некоторым внешним тактовым генератором, например, тактовым генератором видеокадров. Фиг. 1, например, иллюстрирует позицией 26 видео, состоящее из последовательности кадров 28 с выравниванием по времени относительно аудиосигнала 12, друг над другом. Например, метка времени T_frame может быть меткой времени первого изображения новой сцены, новой программы и т.п., и, соответственно, может потребоваться разрезать аудиосигнал 12 в этот момент времени τ=T_frame и заменять другим аудиосигналом 12 начиная с этого времени, представляющим, например, тональный сигнал новой сцены или программы. Фиг. 1, например, иллюстрирует уже существующий поток аудиоданных 30, построенный таким же образом, как поток 10 аудиоданных, т.е. с использованием единиц 18 доступа, состоящих из одного или более пакетов 16 полезной нагрузки, в который аудиосигнал 32, сопутствующий или описывающий последовательность изображений кадров 28, начиная с метки времени T_frame в кадрах 14 аудиоданных таким образом, что передний конец первого кадра 14 аудиоданных совпадает с меткой времени T_frame, т.е. аудиосигнал 32 подлежит воспроизведению, где передний конец кадра 14 согласован с воспроизведением метки времени T_frame.

К сожалению, однако, частота кадров для кадров 14 потока 10 аудиоданных совершенно не зависит от частоты кадров видео 26. Она, соответственно, является совершенно случайной, куда попадает τ=T_frame в определенном кадре 14 аудиосигнала 12. Таким образом, без каких-либо дополнительных мер, возможно было бы лишь полностью отбрасывать единицу доступа AU_j, связанную с кадром 14 аудиоданных, j, в котором лежит τ, и присоединять на предшествующей единицей доступа AU_j-1 потока 10 аудиоданных последовательность единиц 18 доступа потока аудиоданных 30, что однако приводит к заглушению в переднем концевом участке 34 кадра аудиоданных j аудиосигнала 12.

Различные описанные ниже варианты осуществления преодолевают вышеупомянутый недостаток и обеспечивают обработку таких проблем вставки.

Фиг. 2 демонстрирует поток аудиоданных в соответствии с вариантом осуществления настоящей заявки. Поток аудиоданных, показанный на фиг. 2, указан в общем ссылочной позицией 40. В основном, конструкция аудиосигнала 40 совпадает с объясненной выше в отношении потока 10 аудиоданных, т.е. поток 40 аудиоданных содержит последовательность пакетов полезной нагрузки, а именно одного или более для каждой единицы 18 доступа, на которые разбит поток 40 данных. Каждая единица 18 доступа связана с определенным одним из кадров аудиоданных аудиосигнала, который кодируется в поток 40 данных в единицах кадров 14 аудиоданных. Однако, помимо этого, поток 40 аудиоданных «подготовлен» для вставки в кадре аудиоданных, с которым связана любая заданная единица доступа. В данном случае, это единица доступа AU_i и единица доступа AU_j. Рассмотрим сначала единицу доступа AU_i. В частности, поток 40 аудиоданных делается «сращиваемым» за счет вставки в него пакета 42 единицы усечения, причем пакет 42 единицы усечения имеет возможность установления таким образом, чтобы указывать, для единицы доступа AU_i, концевой участок связанного кадра аудиоданных i как подлежащий отбрасыванию при воспроизведении. Далее будут рассмотрены преимущества и эффекты пакета 42 единицы усечения. Однако можно сделать некоторые предварительные замечания в отношении позиционирования пакета 42 единицы усечения и его содержимого. Например, хотя на фиг. 2 показано, что пакет 42 единицы усечения располагается в единице доступа AU_i, т.е. в единице доступа, концевой участок которой указывает пакет 42 единицы усечения, пакет 42 единицы усечения может альтернативно размещаться в любой единице доступа, предшествующей единица доступа AU_i. Аналогично, даже если пакет 42 единицы усечения находится в единице доступа AU_i, единица доступа 42 не обязана быть первым пакетом в соответствующей единице доступа AU_i, как в порядке примера проиллюстрировано на фиг. 2.

В соответствии с вариантом осуществления, который проиллюстрирован на фиг. 3, концевой участок, указанный пакетом 42 единицы усечения, является задним концевым участком 44, т.е. участком кадра 14, проходящим от некоторого момента времени t_inner в кадре 14 аудиоданных к заднему концу кадра 14. Другими словами, в соответствии с вариантом осуществления, представленным на фиг. 3, не существует синтаксического элемента, сигнализирующего, должен ли концевой участок, указанный пакетом 42 единицы усечения, быть передним концевым участком или задним концевым участком. Однако пакет 42 единицы усечения, показанный на фиг. 3, содержит индекс 46 типа пакета, указывающий, что пакет 42 является пакетом единицы усечения, и элемент 48 длины усечения, указывающий длину усечения, т.е. временную длину Δt заднего концевого участка 44. Длина 48 усечения может измерять длину участка 44 в единицах отдельных выборок аудиосигнала, или в кортежах n последовательных выборок аудиосигнала, где n больше единицы и, например, меньше, чем N выборок, где N - количество выборок в кадре 14.

Ниже будет описано, что пакет 42 единицы усечения, в необязательном порядке, может содержать один или более флагов 50 и 52. Например, флаг 50 может быть флагом выхода из вставки, указывающим, что единица доступа AU_i, для которой пакет 42 единицы усечения указывает концевой участок 44, подготовлена к использованию в качестве точки выхода из вставки. Флаг 52 может быть флагом, указывающим декодеру, используется ли фактически текущая единица доступа AU_i в качестве точки выхода из вставки или нет. Однако, флаги 50 и 52, как описаны выше, являются лишь необязательными. Например, само присутствие пакета 42 TU может быть сигналом сплайсерам потоков и декодерам, что единица доступа, которой принадлежит единица усечения 42, является такой единицей доступа, пригодной для выхода из вставки, и установление длины 48 усечения на ноль может указывать декодеру, что не должно осуществляться ни усечение, ни, соответственно, выход из вставки.

Замечания, сделанные выше в отношении пакета 42 TU справедливы для любого пакета TU, например пакета 58 TU.

Как будет дополнительно описано ниже, также может потребоваться указание переднего концевого участка единицы доступа. В этом случае, пакет единицы усечения, например пакет 58 TU, может иметь возможность установления таким образом, чтобы указывать задний концевой участок, как изображено на фиг. 3. Такой пакет 58 TU может отличаться от пакетов единиц усечения переднего концевого участка, например 42, посредством пакета индекс 46 типа единиц усечения. Другими словами, с пакетами 42 TU могут быть связаны разные типы пакета, указывающие задний концевые участки и пакеты TU, указывающие передние концевые участки, соответственно.

Для полноты, фиг. 4 иллюстрирует возможность, согласно которому пакет 42 единицы усечения содержит, помимо элементов синтаксиса, показанных на фиг. 3, указатель 54 переднего/заднего конца, указывающий, измеряется ли длина 48 усечения от переднего конца или заднего конца кадра аудиоданных i к внутренней точке кадра аудиоданных i, т.е. является ли концевой участок, длина которого указана длиной 48 усечения, задним концевым участком 44 или передним концевым участком 56. Тип пакета пакетов TU будет таким же.

Как будет более подробно изложено ниже, пакет 42 единицы усечения делает единицу доступа AU_i пригодной для выхода из вставки, поскольку позволяет сплайсерам потоков, дополнительно описанным ниже, устанавливать задний концевой участок 44 таким образом, что, начиная с внешне заданного времени τ выхода из вставки (ср. с фиг. 1), воспроизведение кадра аудиоданных i останавливается. С этого времени могут воспроизводиться кадры аудиоданных вставленного потока аудиоданных.

Однако, фиг. 2 также показано, что в поток 40 аудиоданных дополнительный пакет 58 единицы усечения вставлен, причем этот дополнительный пакет 58 единицы усечения имеет возможность установления таким образом, чтобы указывать для единицы доступа AU_j, где j>i, что его концевой участок подлежит отбрасыванию при воспроизведении. Однако при этом единица доступа AU_j, т.е. единица доступа AU_j+1, имеет закодированный в нее связанный с ней кадр аудиоданных j независимо от непосредственно предшествующей единицы доступа AU_j-1, а именно, когда не требуется устанавливать предсказательные ссылки или внутренние регистры декодера в зависимости от предшествующей единицы доступа AU_j-1, или когда процесс перекрытия и суммирования не предъявляет к реконструкции единицы доступа AU_j-1 требования точной реконструкции и воспроизведения единица доступа AU_j. Чтобы отличить единицу доступа AU_j, которая является единицей доступа непосредственного воспроизведения, от других единиц доступа, страдающих вышеописанными взаимозависимостями единиц доступа, например, помимо прочего, AU_i, единица доступа AU_j выделяется штриховкой.

Фиг. 2 иллюстрирует тот факт, что с другими единицами доступа, показанными на фиг. 2, связаны кадры аудиоданных, закодированные в них таким образом, что их реконструкция зависит от непосредственно предшествующей единицы доступа в том смысле, что правильные реконструкция и воспроизведение соответствующего кадра аудиоданных на основании связанной единицы доступа возможны лишь в случае доступа к непосредственно предшествующей единице доступа, как показано малыми стрелками 60, указывающими от предшествующей единицы доступа к соответствующей единице доступа. В случае единицы доступа AU_j, стрелка, указывающая от непосредственно предшествующей единицы доступа, а именно AU_j-1, к единице доступа AU_j, перечеркивается для указания возможности непосредственного воспроизведения единицы доступа AU_j. Например, для обеспечения этой возможности непосредственного воспроизведения, в единице доступа AU_j кодируются дополнительные данные, например информация инициализации для инициализации внутренних регистров декодера, данные, позволяющие оценивать информацию подавления наложения спектров, обычно обеспечиваемую участком перекрывания во времени обратных преобразований непосредственно предшествующей единицы доступа и т.п.

Возможности единиц доступа AU_i и AU_j отличаются друг от друга: единица доступа AU_i, как изложено ниже, пригодна в качестве точки выхода из вставки благодаря присутствию пакета 42 единицы усечения. Другими словами, сплайсер потоков способен разрезать поток 40 аудиоданных на единице доступа AU_i для присоединения единиц доступа из другого потока аудиоданных, т.е. вставленного потока аудиоданных.

Это возможно также на единице доступа AU_j, при условии, что пакет 58 TU способен указывать задний концевой участок 44. Дополнительно или в качестве альтернативы, пакет 58 единицы усечения имеет возможность установления для указания переднего концевого участка, и в этом случае единица доступа AU_j может играть такую же роль, как в случае входа во вставку (снова). Таким образом, пакет 58 единицы усечения может указывать передний концевой участок кадра аудиоданных j, не подлежащего воспроизведению и до этого момента времени, т.е. до заднего конца этого заднего концевого участка, аудиосигнал (ранее) вставленного потока аудиоданных может воспроизводиться.

Например, пакет 42 единицы усечения может иметь флаг 50 выхода из вставки, установленный на ноль, тогда как флаг 50 выхода из вставки пакета 58 единицы усечения может быть установлен равным нулю или может быть установлен равным 1. Некоторые явные примеры будут дополнительно описаны ниже, например, со ссылкой на фиг. 16.

Следует отметить, что нет необходимости в существовании единицы доступа AU_j, способной к входу во вставку. Например, поток аудиоданных, который должен быть вставлен, может предназначаться для полной замены воспроизведения потока 40 аудиоданных, начиная с момента времени τ, т.е. без входа во вставку (снова) с потоком 40 аудиоданных. Если же поток аудиоданных, который должен быть вставлен, служит лишь для предварительной замены аудиосигнала потока 40 аудиоданных, то необходим вход во вставку обратно в поток 40 аудиоданных, и в этом случае, для любого пакета 42 TU выхода из вставки должен существовать пакет 58 TU входа во вставку, который следует в порядке 20 потока данных.

Фиг. 5 демонстрирует аудиокодер 70 для формирования потока 40 аудиоданных, показанного на фиг. 2. Аудиокодер 70 содержит ядро 72 аудиокодирования и средство 74 вставки пакета усечения. Ядро 72 аудиокодирования выполнено с возможностью кодировать аудиосигнал 12, поступающий на ядро 72 аудиокодирования в единицах кадров аудиоданных аудиосигнала, в пакеты полезной нагрузки потока 40 аудиоданных, как описано выше, например, со ссылкой на фиг. 1. Таким образом, ядро 72 аудиокодирования может быть преобразовательным кодером, кодирующим аудиосигнал 12 с использованием преобразования с перекрытием, например MDCT, и затем кодирующим коэффициенты преобразования, причем окна преобразования с перекрытием могут, как описано выше, пересекать границы кадра между последовательными кадрами аудиоданных, что приводит к взаимозависимости следующих непосредственно друг за другом кадров аудиоданных и связанных с ними единиц доступа. В качестве альтернативы, ядро 72 аудиокодера может использовать кодирование на основе линейного предсказания для кодирования аудиосигнала 12 в поток 40 данных. Например, ядро 72 аудиокодирования кодирует коэффициенты линейного предсказания, описывающие спектральную огибающую аудиосигнала 12 или некоторую ее заранее фильтрованную версию, по меньшей мере, на покадровой основе, с дополнительным кодированием сигнала возбуждения. Непрерывные обновления кодирования с предсказанием или вопросы преобразования с перекрытием, касающиеся кодирования сигнала возбуждения, могут приводить к взаимозависимостям между следующими непосредственно друг за другом кадрами аудиоданных и связанными с ними единицами доступа. Однако можно применять и другие принципы кодирования.

Средство 74 вставки единицы усечения вставляет в поток 40 аудиоданных пакеты единиц усечения, например 42 и 58, показанные на фиг. 2. Для этого, как показано на фиг. 5, средство 74 вставки пакета TU может реагировать на инициирующий сигнал 76 позиции вставки. Например, инициирующий сигнал 76 позиции вставки можно информировать об изменениях сцены или программы или других изменениях в видео, т.е. в последовательности кадров, и может соответственно сигнализировать средству 74 вставки пакета единицы усечения любой первый кадр такой новой сцены или программы. Аудиосигнал 12, например, непрерывно представляет звуковое сопровождение видео для случая, когда, например, ни одна из отдельных сцен или программ в видео не заменяется другими последовательностями кадров и т.п. Например, предположим, что видеосигнал представляет игру в футбол в прямом эфире, и что аудиосигнал 12 является связанным с ним тональным сигналом. Тогда инициирующий сигнал 76 позиции вставки может оперироваться вручную или автоматически для идентификации временных участков видеосигнала игры в футбол, которые подвергаются потенциальной замене рекламой, т.е. рекламными видеороликами, и, соответственно, инициирующий сигнал 76 будет сигнализировать начальные точки таких участков средству 74 вставки пакета TU таким образом, что последний может, в соответствии с ними, вставлять пакет 42 TU в такой позиции, а именно, относящейся к единице доступа, связанной с кадром аудиоданных, в которой начинается первый видеокадр участка видео, потенциально подлежащего замене. Кроме того, инициирующий сигнал 76 информирует средство 74 вставки пакета TU на заднем конце о таких участках, потенциально подлежащих замене, чтобы вставлять пакет 58 TU на соответствующей единице доступа, связанной с кадром аудиоданных, куда попадает конец такого участка. Что касается таких пакетов 58 TU, ядро 72 аудиокодирования также реагирует на инициирующий сигнал 76, чтобы иначе или исключительно кодировать соответствующий кадр аудиоданных в такую единицу доступа AU_j (ср. с фиг. 2) для обеспечения непосредственного воспроизведения, как описано выше. Внутри, т.е. в таких участках, потенциально подлежащих замене, видеосигнала, инициирующий сигнал 76 может время от времени входа во вставку или точкой выхода из вставки. В соответствии с конкретным примером, инициирующий сигнал 76 информирует, например, аудиокодер 70 о метках времени первого или начального кадра такого участка, потенциально подлежащего замене, и о метке времени последнего или конечного кадра такого участка, причем кодер 70 идентифицирует кадры аудиоданных и связанные единицы доступа, в отношении которых должно происходить вставка пакета TU и, потенциально, кодирование непосредственного воспроизведения путем идентификации тех кадров аудиоданных, куда попадают метки времени, полученные от инициирующего сигнала 76.

Это проиллюстрировано на фиг. 6, где показан фиксированный растр кадров, на котором работает ядро 72 аудиокодирования, а именно, 80, совместно с фиксированным растром 82 кадров видеосигнала, которому принадлежит аудиосигнал 12. Участок 84 видеосигнала 86 указан фигурной скобкой. Этот участок 84, например, определяется оператором вручную или полностью или частично автоматически посредством обнаружения сцены. С первым и последним кадрами 88 и 90 связаны метки времени T_b и T_e, которые лежат в кадрах аудиоданных i и j растра 80 кадров. Соответственно, средство 74 вставки пакета TU снабжает эти кадры 14 аудиоданных, т.е. i и j, пакетами TU, причем ядро 72 аудиокодирования использует режим непосредственного воспроизведения, чтобы сформировать единицу доступа, соответствующую кадру аудиоданных j.

Следует отметить, что средство 74 вставки пакета TU может быть выполнен с возможностью вставлять пакеты 42 и 58 TU со значениями, принятыми по умолчанию. Например, синтаксический элемент 48 длины усечения может быть установлен равным нулю. Что касается флага 50 входа во вставку, который является необязательным, он устанавливается средством 74 вставки пакета TU, как изложено выше со ссылкой на фиг. 2-4, а именно, путем указания возможности выхода из вставки для пакетов 42 TU и для всех пакетов 58 TU кроме согласованных с окончательным кадром или изображением видеосигнала 86. Флаг 52 активной вставки устанавливается на ноль, поскольку вставка до сих пор не применялась.

В отношении аудиокодера, показанного на фиг. 6, следует отметить, что управление вставкой пакетов TU, т.е. выбор единиц доступа, для которых осуществляется вставка, объясненный со ссылкой на фиг. 5 и 6, является лишь иллюстративным, и допустимы также другие способы определения единиц доступа, для которых осуществляется вставка. Например, каждая единица доступа, каждая N-я (N>2) единица доступа или каждая единица доступа IPF может альтернативно снабжаться соответствующим пакетом TU.

Это не было упомянуто выше в явном виде, но, предпочтительно, пакеты TU кодируются в несжатой форме, благодаря чему, потребление битов (битовая скорость кодирования) соответствующего пакета TU не зависит от фактического установления пакета TU. Таким образом, стоит дополнительно отметить, что кодер может, в необязательном порядке, содержать управление скоростью (не показанное на фиг. 5), выполненное с возможностью регистрировать уровень заполнения буфера кодированного аудиосигнала, чтобы гарантировать, что буфер кодированного аудиосигнала на стороне декодера, где принимается поток 40 данных, не бывает недонаполненным, что приводило бы к остановкам, а также не бывает переполненным, что приводило бы к потере пакетов 12. Кодер может, например, регулировать/изменять размер шага квантования в соответствии с ограничением уровня заполнения, оптимизируя некоторую меру скорости/искажения. В частности, управление скоростью может оценивать уровень заполнения буфера кодированного аудиосигнала декодера на основании заданной емкости/битовой скорости передачи, которая может быть постоянной или квазипостоянной и, например, заранее установленной внешним субъектом, например, сетью передачи. Управление скоростью учитывает скорость кодирования пакетов TU потока 40 данных. Таким образом, в форме, показанной на фиг. 2, т.е. в версии, формируемой кодером 70, поток 40 данных сохраняет заранее установленную битовую скорость, однако изменяя ее в некоторых пределах для компенсации изменяющейся сложности кодирования, если аудиосигнал 12 в отношении его скорости/коэффициента искажений, либо не имеет перегрузки уровня заполнения кодированного аудио декодера (приводящей к переполнению), либо не выходит за его пределы (что приводило бы к недозаполнению). Однако, как было кратко изложено выше и будет описано более подробно ниже, предполагается, что каждая единица доступа выхода из вставки AU_i, в соответствии с предпочтительными вариантами осуществления, участвует в воспроизведении на стороне декодера лишь в течение промежутка времени, меньшего, чем временная длина ее кадра аудиоданных i. Как явствует из нижеприведенного описания, (передняя) единица доступа вставленного потока аудиоданных, сращенного с потоком 40 данных на соответствующей AU выхода из вставки, например AU_i в качестве интерфейса сращивания, будет смещать последующие AU соответствующей AU выхода из вставки. Таким образом, начиная с этого времени, управление битовой скоростью, осуществляемое на кодере 70, устаревает. Кроме того, упомянутую переднюю AU предпочтительно кодировать независимо для обеспечения непосредственного воспроизведения, что приводит к необходимости использования большей битовой скорости кодирования по сравнению с AU без IPF. Таким образом, в соответствии с вариантом осуществления, кодер 70 планирует или диспетчеризует управление скоростью таким образом, что зарегистрированный уровень заполнения на конце соответствующей AU выхода из вставки, т.е. на ее границе с непосредственно последующей AU, предполагает, например, заданное значение, например, ¼ или значение от ¾ до 1/8 максимального уровня заполнения. Таким образом, другие кодеры, подготавливающие потоки аудиоданных, предположительно подлежащие вставке в поток 40 данных на AU выхода из вставки потока 40 данных, могут опираться на тот факт, что уровень заполнения буфер кодированного аудиосигнала декодера во время начала приема своих собственных AU (в дальнейшем иногда отличаемых от первоначальных апострофом) имеет заданное значение, благодаря чему, эти другие кодеры могут дополнительно совершенствовать управление скоростью, соответственно. Вышеприведенное описание сосредоточено на AU выхода из вставки потока 40 данных, но соблюдение заданного оцененного/зарегистрированного уровня заполнения также может достигаться путем управления скоростью для AU входа во вставку (снова), например AU_j, даже не играющих двойную роль точки входа во вставку и выхода из вставки. Таким образом, упомянутые другие кодеры могут, аналогично, управлять своим управлением скоростью, таким образом, что оцененный или зарегистрированный уровень заполнения предполагает заданный уровень заполнения на задней AU их последовательности AU потока данных. Он могут быть таким же, как упомянутый для кодера 70 в отношении AU выхода из вставки. Можно предположить, что такие задние AU образуют AU входа во вставку снова, которые, предположительно, образуют точку вставки с AU входа во вставку потока 40 данных, например AU_j. Таким образом, если управление скоростью кодера 70 запланировало кодированную битовую скорость таким образом, что оцененный/зарегистрированный уровень заполнения предполагает заданный уровень заполнения на (или лучше после) AU_j, то это управление битовой скоростью остается пригодным даже в случае, когда вставка осуществлялась после кодирования и вывода потока 40 данных. Вышеупомянутый заданный уровень заполнения может быть известен кодерам по умолчанию, т.е. по соглашению между ними. В качестве альтернативы, соответствующая AU может снабжаться явной сигнализацией этого оцененного/зарегистрированного уровня заполнения, предполагаемого сразу после соответствующей AU входа во вставку или выхода из вставки. Например, значение может передаваться в пакете TU соответствующей AU входа во вставку или выхода из вставки. Это стоит дополнительной служебной нагрузки побочной информации, но управление скоростью кодера можно сделать более свободным в развитии оцененного/зарегистрированного уровня заполнения на AU входа во вставку или выхода из вставки: например, достаточно, чтобы оцененный/зарегистрированный уровень заполнения после соответствующей AU входа во вставку или выхода из вставки был ниже некоторого порога, например ¾ максимального уровня заполнения, т.е. максимально гарантированной емкости буфера кодированного аудиосигнала декодера.

В отношении потока 40 данных, это означает, что он допускает управление скоростью для изменения в окрестности заданной средней битовой скорости, т.е. он имеет среднюю битовую скорость. Фактическая битовая скорость сращиваемого потока аудиоданных изменяется по последовательности пакетов, т.е. во времени. Отклонение (текущее) от заданной средней битовой скорости может интегрироваться по времени. Это интегральное отклонение предполагает, на единицах доступа входа во вставку и выхода из вставки, значение в заданном интервале, который может быть вдвое уже диапазона (max-min) интегрального отклонения битовой скорости, или может предусматривать фиксированное значение, например значение, одинаковое для всех AU входа во вставку и выхода из вставки, которое может быть меньше, чем ¾ максимального интегрального отклонения битовой скорости. Как описано выше, это значение может быть заранее заданным по умолчанию. В качестве альтернативы, значение не является фиксированным и не является одинаковым для всех AU входа во вставку и выхода из вставки, но может сигнализироваться в потоке данных.

Фиг. 7 демонстрирует сплайсер потоков для сращивания потоков аудиоданных в соответствии с вариантом осуществления. Сплайсер потоков обозначен ссылочной позицией 100 и содержит первый входной аудиоинтерфейс 102, второй входной аудиоинтерфейс 104, средство 106 установки точки вставки и мультиплексор 108 вставки.

На интерфейсе 102 сплайсер потоков ожидает приема «сращиваемого» потока аудиоданных, т.е. потока аудиоданных, снабженного одним или более пакетами TU. На фиг. 7 в порядке примера проиллюстрировано, что поток 40 аудиоданных, показанный на фиг. 2, поступает в сплайсер 100 потоков на интерфейсе 102.

Предполагается, что другой поток 110 аудиоданных принимается на интерфейсе 104. В зависимости от реализации сплайсера 100 потоков, поток 110 аудиоданных, поступающий на интерфейсе 104, может быть ʺнеподготовленнымʺ потоком аудиоданных, например, объясненным и описанным со ссылкой на фиг. 1, или подготовленным, как будет в порядке иллюстрации представлено ниже.

Средство 106 установки точки вставки выполнено с возможностью устанавливать пакет единицы усечения, включенный в поток данных, поступающий на интерфейсе 102, т.е. пакеты 42 и 58 TU потока 40 данных в случае фиг. 7, и, при наличии, пакеты единиц усечения другого потока 110 данных, поступающего на интерфейсе 104, причем два таких пакета TU в порядке примера показаны на фиг. 7, а именно, пакет 112 TU в передней или первой единице доступа AUʹ₁ потока 110 аудиоданных, и пакет 114 TU в последней или задней единице доступа AUʹ_K потока 110 аудиоданных. В частности, апостроф используется на фиг. 7 для того, чтобы отличать единицы доступа потока 110 аудиоданных от единиц доступа потока 40 аудиоданных. Кроме того, в примере, изложенном со ссылкой на фиг. 7, предполагается, что поток 110 аудиоданных заранее закодирован и имеет фиксированную длину, а именно, в данном случае, K единиц доступа, в соответствии с K кадрами аудиоданных, которые совместно покрывают во времени интервал времени, в котором аудиосигнал, кодируемый в поток 40 данных, подлежит замене. На фиг. 7, в порядке примера предполагается, что этот интервал времени, подлежащий замене, проходит от кадра аудиоданных, соответствующего единице доступа AU_i, к кадру аудиоданных, соответствующему единице доступа AU_j.

В частности, средство 106 установки точки вставки, как более подробно изложено ниже, выполнено с возможностью устанавливать пакеты единиц усечения таким образом, чтобы становилось ясно, что усечение фактически происходит. Например, хотя длина 48 усечения в единицах усечения потоков данных, поступающих на интерфейсы 102 и 104, может быть установлена равной нулю, средство 106 установки точки вставки может изменять установленную длину 48 преобразования пакетов TU на ненулевое значение. Как определяется значение, объяснено ниже.

Мультиплексор 108 вставки выполнен с возможностью разрезать поток 40 аудиоданных, поступающий на интерфейсе 102 на единице доступа с пакетом TU, например, единице доступа AU_i с пакетом 42 TU, для получения подпоследовательности пакетов полезной нагрузки этого потока 40 аудиоданных, а именно, в данном случае на фиг. 7, в порядке примера, подпоследовательности пакетов полезной нагрузки, соответствующих единицам доступа, предшествующим и включающим в себя единицу доступа AU_i, и затем вставки этой подпоследовательности с последовательностью пакетов полезной нагрузки другого потока 110 аудиоданных, поступающего на интерфейсе 104, таким образом, что они следуют непосредственно одна за другой и смыкаются друг с другом на заданной единице доступа. Например, мультиплексор 108 вставки разрезает поток 40 аудиоданных на единице доступа AU_i, чтобы включать в себя только пакет полезной нагрузки, принадлежащий этой единице доступа AU_i, с последующим присоединением единиц доступа AUʹ потока 110 аудиоданных, начиная с единицы доступа AUʹ₁, таким образом, что единицы доступа AU_i и AUʹ₁ смыкаются друг с другом. Как показано на фиг 7, мультиплексор 108 вставки действует аналогично в случае единицы доступа AU_j, содержащей пакет 58 TU: на этот раз, мультиплексор 108 вставки присоединяет поток 40 данных, начиная с пакетов полезной нагрузки, принадлежащих единице доступа AU_j, к концу потока 110 аудиоданных таким образом, что единица доступа AUʹ_K примыкает к единице доступа AU_j.

Соответственно, средство 106 установки точки вставки устанавливает пакет 42 TU единицы доступа AU_i для указания, что концевой участок, подлежащий отбрасыванию при воспроизведении, является задним концевым участком, поскольку аудиосигнал потока 40 аудиоданных подлежит замене, предварительно, аудиосигналом, закодированным в поток 110 аудиоданных, начиная с этого времени. В случае единицы 58 усечения, ситуация отличается: здесь, средство 106 установки точки вставки устанавливает пакет 58 TU для указания, что концевой участок, подлежащий отбрасыванию при воспроизведении, является передним концевым участком кадра аудиоданных, с которым связана единица доступа AU_j. Однако следует помнить, что тот факт, что пакет 42 TU относится к заднему концевому участку, тогда как пакет 58 TU относится к переднему концевому участку, уже можно вывести из входящего потока 40 аудиоданных с использованием, например, разных идентификаторов 46 пакетов TU для пакета 42 TU с одной стороны и пакета 58 TU с другой стороны.

Сплайсер 100 потоков выводит полученный таким образом сращенный поток аудиоданных на выходном интерфейсе 116, причем сращенный поток аудиоданных обозначен ссылочной позицией 120.

Следует отметить, что порядок, в котором мультиплексор 108 вставки и средство 106 установки точки вставки действуют на единицах доступа, не обязан быть таким, как изображенный на фиг. 7. Таким образом, хотя на фиг. 7 показано, что вход мультиплексора 108 вставки подключен к интерфейсам 102 и 104, соответственно, и его выход подключен к выходному интерфейсу 116 через средство 106 установки точки вставки, порядок между мультиплексором 108 вставки и средством 106 установки точки вставки может изменяться.

Сплайсер 100 потоков может быть выполнен с возможностью, в ходе эксплуатации, проверять синтаксический элемент 50 входа во вставку, содержащийся в пакетах 52 и 58 единиц усечения в потоке 40 аудиоданных, чтобы осуществлять операцию разрезания и вставки в зависимости от того, указывает ли синтаксический элемент входа во вставку соответствующий пакет единицы усечения как относящийся к единице доступа входа во вставку. Это означает следующее: процесс вставки, проиллюстрированный выше и изложенный более подробно ниже, может инициироваться пакетом 42 TU, флаг 50 входа во вставку устанавливается на единицу, как описано со ссылкой на фиг. 2. Соответственно, сплайсер 100 потоков обнаруживает установление этого флага на единицу, после чего осуществляется операция входа во вставку, более подробно описанный ниже, но уже изложенная выше.

Как изложено выше, средству 106 установки точки вставки может не требоваться изменять какие-либо установки в пакетах единиц усечения в связи с различием между пакетами TU входа во вставку, например пакетом 42 TU, и пакетами TU выхода из вставки, например пакетами 58 TU. Однако средство 106 установки точки вставки устанавливает временную длину соответствующего концевого участка, подлежащего отбрасыванию при воспроизведении. Для этого, средство 106 установки точки вставки может быть выполнено с возможностью устанавливать временную длину концевого участка, к которому относятся пакеты 42, 58, 112 и 114 TU, в соответствии с внешним тактовым генератором. Этот внешний тактовый генератор 122 происходит, например, из тактового генератора видеокадров. Например, рассмотрим случай, когда аудиосигнал, закодированный в поток 40 аудиоданных, представляет тональный сигнал, сопутствующий видеосигналу, и когда этот видеосигнал является видеосигналом 86, показанным на фиг. 6. Предположим, что дальше встречается кадр 88, т.е. кадр, с которого начинается временной участок 84, в который вставляется реклама. Средство 106 установки точки вставки может заранее обнаружить, что соответствующая единица доступа AU_i содержит пакет 42 TU, но внешний тактовый генератор 122 сообщает средству 106 установки точки вставки точное время T_b, когда первоначальный тональный сигнал этого видеосигнала должен заканчиваться и заменяться аудиосигналом, закодированным в поток 110 данных. Например, этот момент времени точки вставки может быть моментом времени, соответствующим первому изображению или кадру, подлежащему замене рекламным видеороликом, который, в свою очередь, сопровождается тональным сигналом, закодированным в поток 110 данных.

Для более подробной иллюстрации режима работы сплайсера 100 потоков, показанного на фиг. 7, обратимся к фиг. 8, где показана последовательность этапов, осуществляемых сплайсером 100 потоков. Процесс начинается с цикла 130 ожидания. Таким образом, сплайсер 100 потоков, например мультиплексор 108 вставки и/или средство 106 установки точки вставки, проверяет поток 40 аудиоданных на предмет точки входа во вставку, т.е. на предмет единицы доступа, которой принадлежит пакет 42 единицы усечения. В случае, показанном на фиг. 7, единица доступа i является первой единицей доступа, проверка 132 которой дает ответ «да», после того, как проверка 132 зацикливалась на себя. Как только обнаружена единица доступа точки входа во вставку AU_i, ее пакет TU, т.е. 42, устанавливается для согласования заднего концевого участка единицы доступа точки входа во вставку (ее переднего конца) с моментом времени, выведенным из внешнего тактового генератора 122. После этого установления 134 средством 106 установки точки вставки мультиплексор 108 вставки переключается на другой поток данных, т.е. поток 110 аудиоданных, таким образом, что после текущей единицы доступа входа во вставку AU_i, на выходной интерфейс 116 поступают единицы доступа потока 110 данных, а не последующие единицы доступа потока 40 аудиоданных. Исходя из того, что аудиосигнал, который служит для замены аудиосигнала потока 40 аудиоданных, начиная с момента времени входа во вставку, кодируется в поток 110 аудиоданных таким образом, что этот аудиосигнал согласуется с, т.е. начинается сразу с начала первого кадра аудиоданных, который связан с первой единицей доступа AUʹ₁, сплайсер 100 потоков лишь адаптирует информацию метки времени, содержащуюся в потоке 110 аудиоданных, таким образом, что метка времени переднего кадра, связанного с первой единицей доступа AUʹ₁, например, совпадает с моментом времени входа во вставку, т.е. моментом времени AU_i плюс временная длина кадра аудиоданных, связанного с AU_i минус временная длина заднего концевого участка, установленного на этапе 134. Таким образом, после переключения 136 мультиплексора, адаптация 138 является задачей, непрерывно осуществляемой для единицы доступа AUʹ потока 110 данных. Однако в течение этого времени также осуществляется описанная ниже процедура выхода из вставки.

В частности, процедура выхода из вставки, осуществляемая сплайсером 100 потоков, начинается с цикла ожидания, в котором единицы доступа потока 110 аудиоданных непрерывно проверяются на предмет того, снабжена ли единица доступа пакетом 114 TU или являются ли она последней единицей доступа потока 110 аудиоданных. Эта проверка 142 непрерывно осуществляется для последовательности единиц доступа AUʹ. Как только встречается единица доступа выхода из вставки, а именно AUʹ_K в случае, показанном на фиг. 7, средство 106 установки точки вставки устанавливает пакет 114 TU этой единицы доступа выхода из вставки для согласования заднего концевого участка, подлежащего отбрасыванию при воспроизведении, причем кадр аудиоданных соответствует этой единице доступа AU_K, с моментом времени, полученным от внешнего тактового генератора, например, меткой времени видеокадра, а именно, первого после рекламы, которому принадлежит тональный сигнал, закодированный в поток 110 аудиоданных. После этого установления 144, мультиплексор 108 вставки переключается со своего входа, на который поступает поток 110 данных, на другой свой вход. В частности, переключение 146 осуществляется таким образом, что в сращенном потоке 120 аудиоданных, единица доступа AU_j следует непосредственно за единицей доступа AUʹ_K. В частности, единица доступа AU_j является единицей доступа потока 40 данных, кадр аудиоданных которого отдален во времени от кадра аудиоданных, связанного с единицей доступа входа во вставку AU_i временным промежутком, который соответствует временной длине аудиосигнала, закодированного в поток 110 данных, или отклоняется от него меньше, чем на заданную величину, например, длину или половину длины кадров аудиоданных единиц доступа потока 40 аудиоданных.

Далее средство 106 установки точки вставки устанавливает на этапе 148 пакет 58 TU единицы доступа AU_j для согласования его переднего концевого участка, подлежащего отбрасыванию при воспроизведении, с моментом времени, с которым на этапе 144 был согласован задний концевой участок кадра аудиоданных единицы доступа AUʹ_K. Таким образом, метка времени кадра аудиоданных единицы доступа AU_j равна метке времени кадра аудиоданных единицы доступа AUʹ_K плюс временная длина кадра аудиоданных единицы доступа AUʹ_K минус сумма заднего концевого участка кадра аудиоданных единицы доступа AUʹ_K и переднего концевого участка кадра аудиоданных единицы доступа AU_j. Этот факт поясняется на примерах дополнительно приведенных ниже.

Эта процедура входа во вставку также начинается после переключения 146. По аналогии с пинг-понгом, сплайсер 100 потоков переключается между непрерывным потоком 40 аудиоданных с одной стороны и потоками аудиоданных заданной длины для замены заданных участков, а именно, между единицами доступа с пакетами TU с одной стороны и пакетами 58 TU с другой стороны, и обратно на аудиопоток 40.

Переключение от интерфейса 102 к 104 осуществляется посредством процедуры входа во вставку, тогда как процедура выхода из вставки ведет от интерфейса 104 к 102.

Однако следует еще раз подчеркнуть, что пример, приведенный со ссылкой на фиг. 7, выбран лишь в целях иллюстрации. Таким образом, сплайсер 100 потоков, показанный на фиг. 7, не ограничивается ʺмостовымиʺ участками, подлежащими замене одного потока 40 аудиоданных потоками 110 аудиоданных, в которых закодированы в аудиосигналы надлежащей длины, где первая единица доступа имеет закодированный в ней первый кадр аудиоданных, согласованный с началом аудиосигнала, подлежащего вставке во временной участок, подлежащий замене. Вместо этого, сплайсер потоков может осуществлять, например, только однократный процесс вставки. Кроме того, поток 110 аудиоданных не ограничивается согласованием своего первого кадра аудиоданных с началом аудиосигнала, подлежащего вставке. Вместо этого, поток 110 аудиоданных сам по себе может происходить из некоторого источника, имеющего свой собственный тактовый генератор кадров аудиоданных, который действует независимо от тактового генератора кадров аудиоданных, лежащего в основе потока 40 аудиоданных. В этом случае, переключение от потока 40 аудиоданных к потоку 110 аудиоданных, будет, помимо этапов, показанных на фиг. 8, также содержать этап установления, соответствующий этапу 148: установление пакета TU потока 110 аудиоданных.

Следует отметить, что вышеприведенное описание работы сплайсера потоков может изменяться в отношении метки времени AU сращенного потока 120 аудиоданных, для которого пакет TU указывает передний концевой участок, подлежащий отбрасыванию при воспроизведении. Вместо того, чтобы оставлять первоначальную метку времени AU, мультиплексор 108 вставки потоков может быть выполнен с возможностью изменять ее первоначальную метку времени, путем суммирования временной длины переднего концевого участка с первоначальной меткой времени, таким образом, указывая задний конец переднего концевого участка и, таким образом, время, начиная с которого фрагмент кадра аудиоданных AU должен фактически воспроизводиться. Эта альтернатива проиллюстрирована примерами метки времени, приведенными на фиг. 16, рассмотренной ниже.

Фиг. 10 демонстрирует аудиодекодер 160 в соответствии с вариантом осуществления настоящей заявки. В порядке примера, показано, что аудиодекодер 160 принимает сращенный поток 120 аудиоданных, генерируемый сплайсером 100 потоков. Однако, по аналогии с утверждением, сделанным в отношении сплайсера потоков, аудиодекодер 160, показанный фиг. 10, не ограничивается приемом сращенных потоков 120 аудиоданных, кратко объясненных со ссылкой на фиг. 7-9, где один базовый поток аудиоданных предварительно заменен другими потоками аудиоданных, в которых закодирован аудиосигнал соответствующей длины.

аудиодекодер 160 содержит ядро 162 аудиодекодера, которое принимает сращенный поток аудиоданных, и средство 164 усечения аудиосигнала. Ядро 162 аудиодекодирования осуществляет реконструкцию аудиосигнала в единицах кадров аудиоданных аудиосигнала из последовательности пакетов полезной нагрузки входящего потока 120 аудиоданных, причем, как объяснено выше, каждый из пакетов полезной нагрузки связан с соответствующей одной из последовательности единиц доступа, на которые разбит сращенный поток 120 аудиоданных. Поскольку каждая единица 120 доступа связана с соответствующим одним из кадров аудиоданных, ядро 162 аудиодекодирования выводит реконструированные выборки аудиосигнала для каждого кадра аудиоданных и связанной единицы доступа, соответственно. Как описано выше, при декодировании может применяться обратное спектральное преобразование, и, благодаря процессу перекрытия/суммирования или, в необязательном порядке, принципов кодирования с предсказанием, ядро 162 аудиодекодирования может реконструировать кадр аудиоданных из соответствующей единицы доступа дополнительно используя предшествующую единицу доступа, т.е. в зависимости от нее. Однако всякий раз, когда поступает единица доступа непосредственного воспроизведения, например единица доступа AU_j, ядро 162 аудиодекодирования способно использовать дополнительные данные для обеспечения непосредственного воспроизведения без необходимости или ожидания каких-либо данных из предыдущей единицы доступа. Кроме того, как объяснено выше, ядро 162 аудиодекодирования может работать с использованием декодирования с линейным предсказанием. Таким образом, ядро 162 аудиодекодирования может использовать коэффициенты линейного предсказания, содержащиеся в соответствующей единице доступа, для формирования синтезирующего фильтра и может декодировать сигнал возбуждения из единицы доступа с использованием, например, преобразовательного декодирования, т.е. обратного преобразования, поиска в таблицах с использованием индексов, содержащихся в соответствующей единице доступа, и/или кодирования с предсказанием или обновлений внутреннего состояния, затем подавая полученный, таким образом, сигнал возбуждения на синтезирующий фильтр или, в качестве альтернативы, модулируя сигнал возбуждения в спектральной области с использованием передаточной функции, сформированной в соответствии с передаточной функцией синтезирующего фильтра. Средство 164 усечения аудиосигнала реагирует на пакеты единиц усечения, вставленные в поток 120 аудиоданных, и усекает кадр аудиоданных, связанный с определенной единицей доступа, имеющей такие пакеты TU, чтобы отбрасывать его концевой участок, который указан как подлежащий отбрасыванию при воспроизведении пакета TU.

Фиг. 11 демонстрирует режим работы аудиодекодера 160, показанного на фиг. 10. Обнаружив 170 новую единицу доступа, аудиодекодер проверяет, закодирована ли эта единица доступа в режиме непосредственного воспроизведения. Если текущая единица доступа является единицей доступа кадра непосредственного воспроизведения, ядро 162 аудиодекодирования рассматривает эту единицу доступа как отдельный источник информации для реконструкции кадра аудиоданных, связанного с этой текущей единицей доступа. Таким образом, как объяснено выше, ядро 162 аудиодекодирования может заранее наполнять внутренние регистры для реконструкции кадра аудиоданных, связанного с текущей единицей доступа, на основании данных, закодированных в эту единицу доступа. Дополнительно или в качестве альтернативы, ядро 162 аудиодекодирования воздерживается от использования предсказания из какой-либо предшествующей единицы доступа, как в режиме без IPF. Дополнительно или в качестве альтернативы, ядро 162 аудиодекодирования не осуществляет никакого процесса перекрытия и суммирования ни с какой предшествующей единицей доступа или связанным с ней предшествующим кадром аудиоданных с целью подавления наложения спектров на переднем во времени конце кадра аудиоданных текущей единицы доступа. Вместо этого, например, ядро 162 аудиодекодирования выводит временную информацию подавления наложения спектров из самой текущей единицы доступа. Таким образом, если в результате проверки 172 оказывается, что текущая единица доступа является единицей доступа IPF, то ядро 162 аудиодекодирования осуществляет режим 174 декодирования IPF, таким образом, получая реконструкцию текущего кадра аудиоданных. В качестве альтернативы, если в результате проверки 172 оказывается, что текущая единица доступа не относится к IPF, то ядро 162 аудиодекодирования применяет к текущей единице доступа обычный режим декодирования без IPF. Таким образом, внутренние регистры ядра 162 аудиодекодирования могут применяться как есть после обработки предыдущей единицы доступа. Альтернативно или дополнительно, процесс перекрытия и суммирования можно использовать для помощи в реконструкции заднего во времени конца кадра аудиоданных текущей единицы доступа. Альтернативно или дополнительно, можно использовать предсказание из предшествующей единицы доступа. Декодирование без IPF 176 также заканчивается на реконструкции кадра аудиоданных текущей единицы доступа. Следующая проверка 178 проверяет, нужно ли осуществлять какое-либо усечение. Проверка 178 осуществляется средством 164 усечения аудиосигнала. В частности, средство 164 усечения аудиосигнала проверяет, имеет ли текущая единица доступа пакет TU, и указывает ли пакет TU концевой участок, подлежащий отбрасыванию при воспроизведении. Например, средство 164 усечения аудиосигнала проверяет, содержится ли пакет TU в потоке данных для текущей единицы доступа, и установлен ли флаг 52 активной вставки и/или равна ли длина 48 усечения нулю. Если усечения происходит, реконструированный кадр аудиоданных, полученный на любом из этапов 174 или 176, воспроизводится полностью на этапе 180. Если же усечение нужно осуществлять, средство 164 усечения аудиосигнала осуществляет усечение, и на этапе 182 воспроизводится лишь оставшаяся часть. В случае, когда концевой участок, указанный пакетом TU, является задним концевым участком, остаток реконструированного кадра аудиоданных воспроизводится, начиная с метки времени, связанной с этим кадром аудиоданных. В случае, когда концевой участок, указанный как подлежащий отбрасыванию при воспроизведении пакетом TU, является передним концевым участком, остаток кадра аудиоданных воспроизводится на метке времени этого кадра аудиоданных плюс временная длина переднего концевого участка. Таким образом, воспроизведение остатка текущего кадра аудиоданных задерживается на временную длину переднего концевого участка. Затем процесс переходит к следующей единице доступа.

Рассмотрим пример, показанный на фиг. 10: ядро 162 аудиодекодирования осуществляет нормальное декодирование без IPF 176 на единицы доступа AU_i-1 и AU_i. Однако последняя имеет пакет 42 TU. Этот пакет 42 TU указывает задний концевой участок, подлежащий отбрасыванию при воспроизведении, и, соответственно, средство 164 усечения аудиосигнала препятствует воспроизведению заднего конца 184 кадра 14 аудиоданных, связанного с единицей доступа AU_i, т.е. участию в формировании выходного аудиосигнала 186. Далее поступает единица доступа AUʹ₁. Она является единицей доступа кадра непосредственного воспроизведения и соответственно рассматривается ядром 162 аудиодекодирования на этапе 174. Следует отметить, что ядро 162 аудиодекодирования может, например, содержать способность открывать более чем одну свою реализацию. Таким образом, всякий раз, когда осуществляется декодирование IPF, которое предусматривает открывание дополнительной реализации ядра 162 аудиодекодирования. В любом случае, поскольку единица доступа AUʹ₁ является единицей доступа IPF, не имеет значения, что ее аудиосигнал фактически связан с полностью новой аудиосценой по сравнению с предшествующей ей AU_i-1 и AU_i. Ядро 162 аудиодекодирования не обращает на это внимания. Вместо этого, оно рассматривает единицу доступа AUʹ₁ как отдельную единицу доступа и реконструирует из нее кадр аудиоданных. Поскольку длина заднего концевого участка кадра аудиоданных предшествующей единицы доступа AU_i, вероятно, была установлена сплайсером 100 потоков, начало кадра аудиоданных единицы доступа AUʹ₁ непосредственно примыкает к заднему концу остатка кадра аудиоданных единицы доступа AU_i. Таким образом, они смыкаются в переходное время T₁ где-то в середине кадра аудиоданных единицы доступа AU_i. Встретив единицу доступа AUʹ_K, ядро 162 аудиодекодирования декодирует эту единицу доступа на этапе 176 для раскрытия или реконструкции этого кадра аудиоданных, после чего этот кадр аудиоданных усекается на своем заднем конце, благодаря указанию заднего концевого участка его пакетом 114 TU. Таким образом, воспроизводится только остаток кадра аудиоданных единицы доступа AUʹ_K вплоть до заднего концевого участка. Затем единица доступа AU_j декодируется ядром 162 аудиодекодирования при декодировании 174 IPF, т.е. независимо от единицы доступа AUʹ_K, самостоятельно, и кадр аудиоданных, полученный из нее, усекается на его переднем конце, поскольку его пакет 58 единицы усечения указывает передний концевой участок. Остатки кадров аудиоданных единиц доступа AUʹ_K и AU_j смыкаются друг с другом в переходное время T₂.

Вышеописанные варианты осуществления, в основном, используют сигнализацию, которая описывает, нужно ли и в каком количестве отбрасывать выборки аудиосигнала определенного кадра аудиоданных после декодирования связанной единицы доступа. Вышеописанные варианты осуществления могут, например, применяться для расширения аудиокодека, например, MPEG-H 3D Audio. Стандарт MEPG-H 3D Audio задает отдельный формат потока для преобразования данных MPEG-H 3D audio, именуемых MHAS [2]. В соответствии с вышеописанными вариантами осуществления, вышеописанный данные усечения пакетов единиц усечения могут сигнализироваться на уровне MHAS. Это может легко обнаруживаться и легко модифицироваться в оперативном режиме устройствами вставки потоков, например, сплайсером 100 потоков, показанным на фиг. 7. Такой новый тип пакета MHAS может тегироваться, например, посредством PACTYP_CUTRUNCATION. Полезная нагрузка этого типа пакета может иметь синтаксис, показанный на фиг. 12. Для облегчения согласования между конкретным примером синтаксиса, показанным на фиг. 12, и описанием, приведенным выше со ссылкой на фиг. 3 и 4, например, ссылочные позиции на фиг. 3 и 4 повторно использовались для идентификации соответствующих элементов синтаксиса, показанных на фиг. 12. Семантика может быть следующей:

isActive: если равно 1, сообщение усечения активно, если равно 0, декодер должен игнорировать сообщение.

canSplice: указывает устройству вставки, что вставка может начинаться или продолжаться. (Примечание: это, в основном, флаг начала рекламы, но устройство вставки может сбрасывать его на 0, поскольку он не несет никакой информации для декодера.)

truncRight: если равно 0, отсекать выборки от конца AU, если равно 1, отсекать выборки от начала AU.

nTruncSamples: количество выборок, подлежащих отсечению.

Заметим, что поток MHAS гарантирует, что полезная нагрузка пакета MHAS всегда выровнена по байтам, поэтому информация усечения легко доступна в оперативном режиме и может быть легко вставлена, удалена или модифицирована, например, устройством вставки потоков. Поток MPEG-H 3D Audio может содержать тип пакета MHAS с pactype PACTYP_CUTRUNCATION для каждой AU или для пригодного подмножества AU с isActive, установленным на 0. Затем устройство вставки потоков может изменять этот пакет MHAS согласно своим потребностям. Иначе устройство вставки потоков может легко вставлять такой пакет MHAS без добавления значительной служебной нагрузки битовой скорости, как описано ниже. Наибольший размер гранулы MPEG-H 3D Audio равен 4096 выборкам, поэтому 13 битов достаточно для nTruncSamples сигнализировать все значимые значения усечения. nTruncSamples и 3 однобитовых флага совместно занимают 16 битов или 2 байта, благодаря чему, не требуется дополнительного байтового выравнивания.

Фиг. 13a-c иллюстрируют, как можно использовать способ усечения CU для реализации вставки потоков с точностью до выборки.

Фиг. 13a демонстрирует видеопоток и аудиопоток. На видеокадре номер 5 программа переключается на другой источник. Выравнивание видео и аудио в новом источнике отличается от выравнивания в старом источнике. Для обеспечения переключения с точностью до выборки нужно удалять декодированные аудиовыборки PCM на конце последней CU старого потока и в начале нового потока. Короткий период плавного микширования в декодированной области PCM может потребоваться во избежание сбоев в выходном сигнале PCM. Фиг. 13a демонстрирует пример с конкретными значениями. Если по той или иной причине перекрытие AU/CU нежелательно, существует два возможных решения, изображенные на фиг. 13B и фиг. 13C. Первая AU нового потока должна нести данные конфигурации для нового потока и всю прокрутку, которая требуется для инициализации декодера новой конфигурацией. Это может осуществляться посредством кадра непосредственного воспроизведения (IPF), который задан в стандарте MPEG-H 3D Audio.

Другим применением способа усечения CU является изменение конфигурации потока MPEG-H 3D Audio. разные потоки MPEG-H 3D Audio могут иметь очень разные конфигурации. Например, стереопрограмма может сопровождаться программой с каналами 11.1 и дополнительными аудиообъектами. Конфигурация обычно будет изменяться на границе видеокадра, которая не выровнена с гранулами аудиопотока. Способ усечения CU можно использовать для реализации изменение аудиоконфигурация с точностью до выборки, как показано на фиг. 14.

Фиг. 14 демонстрирует видеопоток и аудиопоток. На видеокадре номер 5 программа переключается на другую конфигурацию. Первая CU с новой аудиоконфигурации выровнена с видеокадром, на котором произошло изменение конфигурации. Для обеспечения изменения, конфигурации с точностью до выборки аудиовыборки PCM на конце последней CU со старой конфигурацией нужно удалять. Первая AU с новой конфигурацией должна нести данные новой конфигурации и всю прокрутку, которая требуется для инициализации декодера новой конфигурацией. Это может осуществляться посредством кадра непосредственного воспроизведения (IPF), который задан в стандарте MPEG-H 3D Audio. Кодер может использовать выборки аудиосигнала PCM из старой конфигурации для кодирования прокрутки для новой конфигурации для каналов, которые присутствуют в обеих конфигурациях. Пример: при изменении конфигурации от стерео к 11.1, левый и правый каналы новой конфигурации 11.1 могут использовать данные прокрутки слева и справа от старой стереоконфигурации. Другие каналы новой конфигурации 11.1 используют нули для прокрутки. Фиг. 15 иллюстрирует работу кодера и формирование битового потока для этого примера.

Фиг. 16 демонстрирует дополнительные примеры сращиваемых или сращенных потоков аудиоданных. См., например, фиг. 16A. Фиг. 16A демонстрирует участок сращиваемого потока аудиоданных, в порядке примера содержащего семь последовательных единиц доступа AU₁ - AU₇. Вторая и шестая единицы доступа снабжены пакетом TU, соответственно. Когда флаг 52 установлен на ноль, ни один из них не используется, т.е. неактивен. Пакет TU единицы доступа AU₆ содержится в единице доступа типа IPF, т.е. позволяет осуществлять вставку назад в поток данных. В пункте B, фиг. 16 демонстрирует поток аудиоданных пункта A после вставки рекламы. Реклама кодируется в поток данных единиц доступа AUʹ₁ - AUʹ₄. В пунктах C и D, фиг. 16 демонстрирует случай, модифицированный по сравнению с A и B. В частности, в данном случае аудиокодер потока аудиоданных единиц доступа AU₁…, решил изменить установки кодирования где-то в кадре аудиоданных единицы доступа AU₆. Соответственно, первоначальный поток аудиоданных пункта C уже содержит две единицы доступа метки времени 6.0, а именно AU₆ и AUʹ₁, где соответствующий задний концевой участок и передний концевой участок, указаны как подлежащие отбрасыванию при воспроизведении, соответственно. При этом, активация усечения уже заранее установлена аудиодекодером. Тем не менее, единица доступа AUʹ₁ все еще пригодна в качестве единицы доступа повторного входа во вставку, и эта возможность проиллюстрирована в пункте D.

Пример изменения установок кодирования в точке выхода из вставки проиллюстрирован в пунктах E и F. Наконец, в пунктах G и H пример, приведенный в пунктах A и B на фиг. 16, расширяется посредством другого пакета TU, обеспеченного в единице доступа AU₅, которая может выступать в роли точки входа во вставку или продолжения.

Как было упомянуто выше, хотя предварительное снабжение единиц доступа потока аудиоданных пакетами TU может быть полезно в отношении способности учитывать потребление битовой скорости этих пакетов TU на очень ранней стадии формирования единиц доступа, оно не является обязательным. Например, сплайсер потоков, объясненный выше со ссылкой на фиг. 7-9 можно модифицировать в том отношении, что сплайсер потоков идентифицирует точки входа во вставку или выхода из вставки другими средствами, чем наличие пакета TU во входящем потоке аудиоданных на первом интерфейсе 102. Например, сплайсер потоков может реагировать на внешний тактовый генератор 122 также в отношении обнаружения точек входа во вставку и выхода из вставки. Согласно этой альтернативе, средство 106 установки точки вставки будет не только устанавливать пакет TU, но и вставлять его в поток данных. Однако заметим, что аудиокодер не освобождается от любой задачи подготовки: аудиокодеру все же придется выбирать режим кодирования IPF для единиц доступа, которые должны служить точками повторного входа во вставку.

Наконец, фиг. 17 демонстрирует, что полезный метод вставки также можно использовать в аудиокодере, который способен переключаться между разными конфигурациями кодирования. Аудиокодер 70, показанный на фиг. 17, построен таким же образом, как показанный на фиг. 5, но на этот раз аудиокодер 70 реагирует на инициирующий сигнал 200 изменения конфигурации. Таким образом, см., например, случай C на фиг. 16: ядро 72 аудиокодирования непрерывно кодирует аудиосигнал 12 в единицы доступа AU₁ - AU₆. Где-то в кадре аудиоданных единицы доступа AU₆, изменение конфигурации момент времени указано инициирующим сигналом 200. Соответственно, ядро 72 аудиокодирования, с использованием того же растра кадров аудиоданных, также кодирует текущий кадр аудиоданных единицы доступа AU₆ с использованием новой конфигурации, например, в режиме аудиокодирования, предусматривающем большее количество кодированных аудиоканалов и т.п. Ядро 72 аудиокодирования кодирует кадр аудиоданных в другой раз с использованием новой конфигурации с дополнительным использованием режима кодирования IPF. Это заканчивается единицей доступа AUʹ₁, которая непосредственно подчиняется порядку единиц доступа. Обе единицы доступа, т.е. единица доступа AU₆ и единица доступа AUʹ₁ снабжаются пакетами TU средством 74 вставки пакета TU, причем первый имеет задний концевой участок, указанный как подлежащий отбрасыванию при воспроизведении, и последний имеет передний концевой участок, указанный как подлежащий отбрасыванию при воспроизведении. Последний, поскольку он является единицей доступа IPF, также может служить точкой повторного входа во вставку.

Для всех вышеописанных вариантов осуществления следует отметить, что на декодере, может осуществляться плавное микширование между аудиосигналом, реконструированным из подпоследовательности AU сращенного потока аудиоданных вплоть до AU выхода из вставки (например, AU_i), которая, предположительно, фактически заканчивается на переднем конце заднего концевого участка кадра аудиоданных этой AU выхода из вставки с одной стороны, и аудиосигналом, реконструированным из подпоследовательности AU сращенного потока аудиоданных от AU, непосредственно следующей за AU выхода из вставки (например, AUʹ₁), которая, предположительно, начинается сразу от переднего конца кадра аудиоданных последующей AU, или на заднем конце переднего концевого участка кадра аудиоданных следующей за ней AU: Таким образом, во временном интервале, окружающем и пересекающем момент времени, в котором участки непосредственно следующих друг за другом AU, подлежащих воспроизведению, смыкаются друг с другом, фактически воспроизводимый аудиосигнал, который воспроизводится из сращенного потока аудиоданных декодером, может формироваться в виде комбинации кадров аудиоданных обеих непосредственно смыкающихся AU с долевым участием кадра аудиоданных последующей AU, возрастающим со временем в этом временном интервале, и долевым участием кадра аудиоданных AU выхода из вставки, убывающим со временем во временном интервале. Аналогично, плавное микширование может осуществляться между AU входа во вставку, например, AU_j и непосредственно предшествующими ей AU (например AUʹ_K), а именно, с образованием фактически воспроизводимого аудиосигнала путем объединения кадра аудиоданных AU входа во вставку и кадра аудиоданных предшествующей AU в интервале времени, окружающем и пересекающем момент времени, когда передний концевой участок кадра аудиоданных AU входа во вставку и задний концевой участок кадра аудиоданных предшествующей AU смыкаются друг с другом.

Другими словами, вышеописанные варианты осуществления, помимо прочего, предусматривают возможность пользования полосой, выделяемой транспортному потоку и доступной декодеру МГц: вид сообщения точки вставки аудиоданных отправляется совместно с кадром аудиоданных, подлежащим замене. Исходящий аудиопоток и входящий аудиопоток в окрестности точки вставки декодируются, и между ними можно осуществлять плавное микширование. Сообщение точки вставки аудиоданных лишь указывает декодерам, где следует осуществлять плавное микширование. Это, в сущности, «совершенная» вставка, поскольку вставка происходит в точном согласовании с областью PCM.

Таким образом, в вышеприведенном описании раскрыты, помимо прочего, следующие аспекты:

A1. Сращиваемый поток 40 аудиоданных, содержащий:

последовательность пакетов 16 полезной нагрузки, причем каждый из пакетов полезной нагрузки принадлежит соответствующей одной из последовательности единиц 18 доступа, на которые разбит сращиваемый поток аудиоданных, причем каждая единица доступа связана с соответствующим одним из кадров 14 аудиоданных аудиосигнала 12, который кодируется в сращиваемый поток аудиоданных в единицах кадров аудиоданных; и

пакет 42; 58 единицы усечения, вставленный в сращиваемый поток аудиоданных и имеющий возможность установления таким образом, чтобы указывать, для заданной единицы доступа, концевой участок 44; 56 кадра аудиоданных, с которым связана заданная единица доступа, как подлежащий отбрасыванию при воспроизведении.

A2. Сращиваемый поток аудиоданных согласно аспекту A1, в котором концевой участок кадра аудиоданных является задним концевым участком 44.

A3. Сращиваемый поток аудиоданных согласно аспекту A1 или A2, в котором сращиваемый поток аудиоданных дополнительно содержит:

дополнительный пакет 58 единицы усечения, вставленный в сращиваемый поток аудиоданных и имеющий возможность установления таким образом, чтобы указывать, для дополнительной заданной единицы доступа, концевой участок 44; 56 дополнительного кадра аудиоданных, с которым связана дополнительная заданная единица доступа, как подлежащий отбрасыванию при воспроизведении.

A4. Сращиваемый поток аудиоданных согласно аспекту A3, в котором концевой участок дополнительного кадра аудиоданных является передним концевым участком 56.

A5. Сращиваемый поток аудиоданных согласно аспекту A3 или A4, в котором пакет 42 единицы усечения и дополнительный пакет 58 единицы усечения содержат синтаксический элемент 50 выхода из вставки, соответственно, который указывает, относится ли соответствующий один из пакета единицы усечения и дополнительного пакета единицы усечения к единице доступа выхода из вставки, или нет.

A6. Сращиваемый поток аудиоданных согласно любому из аспектов A3 - A5, в котором заданная единица доступа, например AU_i, имеет закодированный в нее соответствующий связанный кадр аудиоданных, таким образом, что его реконструкция на декодирующей стороне зависит от единицы доступа, непосредственно предшествующей заданной единице доступа, и большинство единиц доступа имеет закодированные в них соответствующие связанные кадры аудиоданных, таким образом, что их реконструкция на декодирующей стороне зависит от соответствующей непосредственно предшествующей единицы доступа, и дополнительная заданная единица доступа AU_j имеет закодированный в нее соответствующий связанный кадр аудиоданных, таким образом, что его реконструкция на декодирующей стороне не зависит от единицы доступа, непосредственно предшествующей дополнительной заданной единице доступа, что позволяет осуществлять непосредственное воспроизведение.

A7. Сращиваемый поток аудиоданных согласно аспекту A6, в котором пакет 42 единицы усечения и дополнительный пакет 58 единицы усечения содержат синтаксический элемент 50 выхода из вставки, соответственно, который указывает, относится ли соответствующий один из пакета единицы усечения и дополнительного пакета единицы усечения к единице доступа выхода из вставки, или нет, причем синтаксический элемент 50 выхода из вставки, содержащийся в пакете единицы усечения, указывает, что пакет единицы усечения относится к единице доступа выхода из вставки, и синтаксический элемент, содержащийся в дополнительном пакете единицы усечения, указывает, что дополнительный пакет единицы усечения не относится к единице доступа выхода из вставки.

A8. Сращиваемый поток аудиоданных согласно аспекту A6, в котором пакет 42 единицы усечения и дополнительный пакет 58 единицы усечения содержат синтаксический элемент выхода из вставки, соответственно, который указывает, относится ли соответствующий один из пакета единицы усечения и дополнительного пакета единицы усечения к единице доступа выхода из вставки, или нет, причем синтаксический элемент 50 содержащийся в пакете единицы усечения, указывает, что пакет единицы усечения относится к единице доступа выхода из вставки, и синтаксический элемент выхода из вставки, содержащийся в дополнительном пакете единицы усечения, указывает, что дополнительный пакет единицы усечения также относится к единице доступа выхода из вставки, причем дополнительный пакет единицы усечения содержит синтаксический элемент 54 усечения переднего/заднего конца и элемент 48 длины усечения, причем синтаксический элемент усечения переднего/заднего конца служит для указания, является ли концевой участок дополнительного кадра аудиоданных задним концевым участком 44 или передним концевым участком 56, и элемент длины усечения служит для указания длины Δt концевого участка дополнительного кадра аудиоданных.

A9. Сращиваемый поток аудиоданных согласно любому из аспектов A1 - A8, который допускает управление скоростью для изменения в окрестности заданной средней битовой скорости без значительного отклонения от нее, таким образом, что интегральное отклонение битовой скорости от заданной средней битовой скорости предполагает, на заданной единице доступа, значение в заданном интервале, которое составляет по ширине менее ½ диапазона интегрального отклонения битовой скорости при изменении по полному сращиваемому потоку аудиоданных.

A10. Сращиваемый поток аудиоданных согласно любому из аспектов A1 - A8, который допускает управление скоростью для изменения в окрестности заданной средней битовой скорости без значительного отклонения от нее, таким образом, что интегральное отклонение битовой скорости от заданной средней битовой скорости предполагает, на заданной единице доступа, фиксированное значение, меньшее ¾ максимального интегрального отклонения битовой скорости при изменении по полному сращиваемому потоку аудиоданных.

A11. Сращиваемый поток аудиоданных согласно любому из аспектов A1 - A8, который допускает управление скоростью для изменения в окрестности заданной средней битовой скорости без значительного отклонения от нее, таким образом, что интегральное отклонение битовой скорости от заданной средней битовой скорости предполагает, на заданной единице доступа, а также других единицах доступа, для которых пакеты единиц усечения присутствуют в сращиваемом потоке аудиоданных, заданное значение.

B1. Сращенный поток аудиоданных, содержащий:

последовательность пакетов 16 полезной нагрузки, причем каждый из пакетов полезной нагрузки принадлежит соответствующей одной из последовательности единиц 18 доступа, на которые разбит сращенный поток аудиоданных, причем каждая единица доступа связана с соответствующим одним из кадров 14 аудиоданных;

пакет 42; 58; 114 единицы усечения, вставленный в сращенный поток аудиоданных и указывающий концевой участок 44; 56 кадра аудиоданных, с которым связана заданная единица доступа, как подлежащий отбрасыванию при воспроизведении,

причем в первой подпоследовательности пакетов полезной нагрузки последовательности пакетов полезной нагрузки, каждый пакет полезной нагрузки принадлежит единице доступа AU_# первого потока аудиоданных, имеющего закодированный в нем первый аудиосигнал в единицах кадров аудиоданных первого аудиосигнала, и единицы доступа первого потока аудиоданных включают в себя заданную единицу доступа, и во второй подпоследовательности пакетов полезной нагрузки последовательности пакетов полезной нагрузки, каждый пакет полезной нагрузки принадлежит единицам доступа AUʹ_# второго потока аудиоданных, имеющего закодированный в нем второй аудиосигнал в единицах кадров аудиоданных второго потока аудиоданных,

причем первая и вторая подпоследовательности пакетов полезной нагрузки следуют непосредственно одна за другой и смыкаются друг с другом на заданной единице доступа, и концевой участок является задним концевым участком 44 в случае, когда первая подпоследовательность предшествует второй подпоследовательности, и передним концевым участком 56 в случае, когда вторая подпоследовательность предшествуют первой подпоследовательности.

B2. Сращенный поток аудиоданных согласно аспекту B1, в котором первая подпоследовательность предшествует второй подпоследовательности и концевому участку в качестве заднего концевого участка 44.

B3. Сращенный поток аудиоданных согласно аспекту B1 или B2, в котором сращенный поток аудиоданных дополнительно содержит дополнительный пакет 58 единицы усечения, вставленный в сращенный поток аудиоданных и указывающий передний концевой участок 58 дополнительного кадра аудиоданных, с которым связана дополнительная заданная единица доступа AU_j, как подлежащий отбрасыванию при воспроизведении, причем в третьей подпоследовательности пакетов полезной нагрузки последовательности пакетов полезной нагрузки, каждый пакет полезной нагрузки принадлежит единицам доступа AUʹʹ_# третьего потока аудиоданных, имеющего закодированный в нем третий аудиосигнал, или единицам доступа AU_# первого потока аудиоданных, следующим за единицами доступа первого потока аудиоданных, которым принадлежат пакеты полезной нагрузки первой подпоследовательности, причем единицы доступа второго потока аудиоданных включают в себя дополнительную заданную единицу доступа.

B4. Сращенный поток аудиоданных согласно аспекту B3, в котором большинство единиц доступа сращенного потока аудиоданных, включающего в себя заданную единицу доступа, имеет закодированные в них соответствующие связанные кадры аудиоданных, таким образом, что их реконструкция на декодирующей стороне зависит от соответствующей непосредственно предшествующей единицы доступа, причем единица доступа, например AU_i+1, непосредственно следующая за заданной единицей доступа и образующая начало единиц доступа второго потока аудиоданных, имеет закодированный в нее соответствующий связанный кадр аудиоданных, таким образом, что его реконструкция не зависит от заданной единицы доступа, например AU_i, что позволяет осуществлять непосредственное воспроизведение, и дополнительная заданная единица доступа AU_j имеет закодированный в нее дополнительный кадр аудиоданных, таким образом, что его реконструкция не зависит от единицы доступа, непосредственно предшествующей дополнительной заданной единице доступа, что, соответственно, позволяет осуществлять непосредственное воспроизведение.

B5. Сращенный поток аудиоданных согласно аспекту B3 или B4, в котором сращенный поток аудиоданных дополнительно содержит еще один пакет 114 единицы усечения, вставленный в сращенный поток аудиоданных и указывающий задний концевой участок 44 еще одного кадра аудиоданных, с которым связана единица доступа, например AUʹ_K, непосредственно предшествующая дополнительной заданной единице доступа, например AU_j, как подлежащий отбрасыванию при воспроизведении, причем сращенный поток аудиоданных содержит информацию 24 метки времени, указывающую для каждой единицы доступа сращенного потока аудиоданных соответствующую метку времени, на которой кадр аудиоданных, с которым связана соответствующая единица доступа, подлежит воспроизведению, причем метка времени дополнительной заданной единицы доступа равна метке времени единицы доступа, непосредственно предшествующей дополнительной заданной единице доступа, плюс временная длина кадра аудиоданных, с которым связана единица доступа, непосредственно предшествующая дополнительной заданной единице доступа, минус сумма временной длины переднего концевого участка дополнительного кадра аудиоданных и заднего концевого участка еще одного кадра аудиоданных или равна метке времени единицы доступа, непосредственно предшествующей дополнительной заданной единице доступа, плюс временная длина кадра аудиоданных, с которым связана единица доступа, непосредственно предшествующая дополнительной заданной единице доступа, минус временная длина заднего концевого участка еще одного кадра аудиоданных.

B6. Сращенный поток аудиоданных согласно аспекту B2, в котором сращенный поток аудиоданных дополнительно содержит еще один пакет 58 единицы усечения, вставленный в сращенный поток аудиоданных и указывающий передний концевой участок 56 еще одного кадра аудиоданных, с которым связана единица доступа, например AU_j, непосредственно следующая за заданной единицей доступа, например AUʹ_K, как подлежащий отбрасыванию при воспроизведении, причем сращенный поток аудиоданных содержит информацию 24 метки времени, указывающую для каждой единицы доступа сращенного потока аудиоданных соответствующую метку времени, на которой кадр аудиоданных, с которым связана соответствующая единица доступа, подлежит воспроизведению, причем метка времени единицы доступа, непосредственно следующей за заданной единицей доступа, равна метке времени заданной единицы доступа плюс временная длина кадра аудиоданных, с которым связана заданная единица доступа, минус сумма временной длины заднего концевого участка кадра аудиоданных, с которым связана заданная единица доступа, и переднего концевого участка еще одной единицы доступа, или равна метке времени заданной единицы доступа плюс временная длина кадра аудиоданных, с которым связана заданная единица доступа, минус временная длина заднего концевого участка кадра аудиоданных, с которым связана заданная единица доступа.

B7. Сращенный поток аудиоданных согласно аспекту B6, в котором большинство единиц доступа сращенного потока аудиоданных имеет закодированные в них соответствующие связанные кадры аудиоданных, таким образом, что их реконструкция на декодирующей стороне зависит от соответствующей непосредственно предшествующей единицы доступа, причем единица доступа, непосредственно следующая за заданной единицей доступа и образующая начало единиц доступа второго потока аудиоданных, имеет закодированный в нее соответствующий связанный кадр аудиоданных, таким образом, что его реконструкция на декодирующей стороне не зависит от заданной единицы доступа, что позволяет осуществлять непосредственное воспроизведение.

B8. Сращенный поток аудиоданных согласно аспекту B7, в котором первый и второй потоки аудиоданных кодируются с использованием разных конфигураций кодирования, причем единица доступа, непосредственно следующая за заданной единицей доступа и образующая начало единиц доступа второго потока аудиоданных, имеет закодированные в нее данные конфигурации cfg для конфигурирования декодера заново.

B9. Сращенный поток аудиоданных согласно аспекту B4, в котором сращенный поток аудиоданных дополнительно содержит дополнительно еще один пакет 112 единицы усечения, вставленный в сращенный поток аудиоданных и указывающий передний концевой участок еще одного дополнительного кадра аудиоданных, с которым связана единица доступа, непосредственно следующая за заданной единицей доступа, как подлежащий отбрасыванию при воспроизведении, причем сращенный поток аудиоданных содержит информацию 24 метки времени, указывающую для каждой единицы доступа соответствующую метку времени, на которой кадр аудиоданных, с которым связана соответствующая единица доступа, подлежит воспроизведению, причем метка времени единицы доступа, непосредственно следующей за заданной единицей доступа, равна метке времени заданной единицы доступа плюс временная длина кадра аудиоданных, связанного с заданной единицей доступа, минус сумма временной длины переднего концевого участка еще одного дополнительного кадра аудиоданных и временной длины заднего концевого участка кадра аудиоданных, связанного с заданной единицей доступа, или равна метке времени заданной единицы доступа плюс временная длина кадра аудиоданных, связанного с заданной единицей доступа, минус временная длина временной длины заднего концевого участка кадра аудиоданных, связанного с заданной единицей доступа.

B10. Сращенный поток аудиоданных согласно аспекту B4, B5 или B9, в котором временная метка времени единицы доступа, непосредственно следующей за заданной единицей доступа, равна метке времени заданной единицы доступа плюс временная длина кадра аудиоданных, с которым связана заданная единица доступа, минус временная длина заднего концевого участка кадра аудиоданных, с которым связана заданная единица доступа.

C1. Сплайсер потоков для сращивания потоков аудиоданных, содержащий:

первый входной аудиоинтерфейс 102 для приема первого потока 40 аудиоданных, содержащего последовательность пакетов 16 полезной нагрузки, каждый из которых принадлежит соответствующей одной из последовательности единиц 18 доступа, на которые разбит первый поток аудиоданных, причем каждая единица доступа первого потока аудиоданных связана с соответствующим одним из кадров 14 аудиоданных первого аудиосигнала 12, который кодируется в первый поток аудиоданных, в единицах кадров аудиоданных первого аудиосигнала;

второй входной аудиоинтерфейс 104 для приема второго потока 110 аудиоданных, содержащего последовательность пакетов полезной нагрузки, каждый из которых принадлежит соответствующей одной из последовательности единиц доступа, на которые разбит второй поток аудиоданных, причем каждая единица доступа второго потока аудиоданных связана с соответствующим одним из кадров аудиоданных второго аудиосигнала, который кодируется во второй поток аудиоданных, в единицах кадров аудиоданных второго аудиосигнала;

средство установки точки вставки; и

мультиплексор вставки,

причем первый поток аудиоданных дополнительно содержит пакет 42; 58 единицы усечения, вставленный в первый поток аудиоданных и имеющий возможность установления таким образом, чтобы указывать, для заданной единицы доступа, концевой участок 44; 56 кадра аудиоданных, с которым связана заданная единица доступа, как подлежащий отбрасыванию при воспроизведении, и средство 106 установки точки вставки выполнено с возможностью устанавливать пакет 42; 58 единицы усечения таким образом, что пакет единицы усечения указывает концевой участок 44; 56 кадра аудиоданных, с которым связана заданная единица доступа, как подлежащий отбрасыванию при воспроизведении, или средство 106 установки точки вставки выполнено с возможностью вставлять пакет 42; 58 единицы усечения в первый поток аудиоданных и устанавливает его, чтобы указывать, для заданной единицы доступа, концевой участок 44; 56 кадра аудиоданных, с которым связана заданная единица доступа, как подлежащий отбрасыванию при воспроизведении, устанавливать пакет 42; 58 единицы усечения таким образом, что пакет единицы усечения указывает концевой участок 44; 56 кадра аудиоданных, с которым связана заданная единица доступа, как подлежащий отбрасыванию при воспроизведении; и

при этом мультиплексор 108 вставки выполнен с возможностью разрезать первый поток 40 аудиоданных на заданной единице доступа, чтобы получать подпоследовательность пакетов полезной нагрузки первого потока аудиоданных, в котором каждый пакет полезной нагрузки принадлежит соответствующей единице доступа из серии единиц доступа первого потока аудиоданных, включающего в себя заданную единицу доступа, и сращивать подпоследовательность пакетов полезной нагрузки первого потока аудиоданных и последовательность пакетов полезной нагрузки второго потока аудиоданных таким образом, что они следуют непосредственно одна за другой и смыкаются друг с другом на заданной единице доступа, причем концевой участок кадра аудиоданных, с которым связана заданная единица доступа, является задним концевым участком 44 в случае, когда подпоследовательность пакетов полезной нагрузки первого потока аудиоданных предшествует последовательности пакетов полезной нагрузки второго потока аудиоданных, и передним концевым участком 56 в случае, когда подпоследовательность пакетов полезной нагрузки первого потока аудиоданных следует за последовательностью пакетов полезной нагрузки второго потока аудиоданных.

C2. Сплайсер потоков согласно аспекту C1, в котором подпоследовательность пакетов полезной нагрузки первого потока аудиоданных предшествует второй подпоследовательности последовательность пакетов полезной нагрузки второго потока аудиоданных, и концевой участок кадра аудиоданных, с которым связана заданная единица доступа, является задним концевым участком 44.

C3. Сплайсер потоков согласно аспекту C2, в котором сплайсер потоков выполнен с возможностью проверять синтаксический элемент 50 выхода из вставки, содержащийся в пакете единицы усечения и осуществлять разрезание и вставку при условии, что синтаксический элемент 50 выхода из вставки указывает пакет единицы усечения как относящийся к единице доступа выхода из вставки.

C4. Сплайсер потоков согласно любому из аспектов C1 - C3, в котором средство установки точки вставки выполнено с возможностью устанавливать временную длину концевого участка в соответствии с внешним тактовым генератором.

C5. Сплайсер потоков согласно аспекту C4, в котором внешний тактовый генератор является тактовым генератором видеокадров.

C6. Сращенный поток аудиоданных согласно аспекту C2, в котором второй поток аудиоданных имеет, или средство 106 установки точки вставки обуславливает путем вставки, дополнительный пакет 114 единицы усечения, вставленный во второй поток 110 аудиоданных и имеющий возможность установления таким образом, чтобы указывать концевой участок дополнительного кадра аудиоданных, с которым связана конечная единица доступа, например AUʹ_K, второго потока 110 аудиоданных, как подлежащий отбрасыванию при воспроизведении, и первый поток аудиоданных дополнительно содержит еще один пакет 58 единицы усечения, вставленный в первый поток 40 аудиоданных и имеющий возможность установления таким образом, чтобы указывать концевой участок еще одного кадра аудиоданных, с которым связана еще одна заданная единица доступа, например AU_j, как подлежащий отбрасыванию при воспроизведении, причем временное расстояние между кадром аудиоданных заданной единицы доступа, например AU_i, и еще одним кадром аудиоданных еще одной заданной единицы доступа, например AU_j, совпадает с временной длиной второго аудиосигнала между его передней единицей доступа, например AUʹ₁, следующей, после вставки, за заданной единицей доступа, например AU_i, и задней единицей доступа, например AUʹ_K, причем средство 106 установки точки вставки выполнено с возможностью устанавливать дополнительный пакет 114 единицы усечения таким образом, что он указывает задний концевой участок 44 дополнительного кадра аудиоданных как подлежащий отбрасыванию при воспроизведении, и еще один пакет 58 единицы усечения таким образом, что он указывает передний концевой участок еще одного кадра аудиоданных как подлежащий отбрасыванию при воспроизведении, при этом мультиплексор 108 вставки выполнен с возможностью адаптировать информацию 24 метки времени, содержащуюся во втором потоке 110 аудиоданных и указывающую для каждой единицы доступа соответствующую метку времени, на которой кадр аудиоданных, с которым связана соответствующая единица доступа, подлежит воспроизведению, таким образом, что метка времени переднего кадра аудиоданных, с которым связана передняя единица доступа второго потока 110 аудиоданных, совпадает с меткой времени кадра аудиоданных, с которым связана заданная единица доступа, плюс временная длина кадра аудиоданных, с которым связана заданная единица доступа, минус временная длина заднего концевого участка кадра аудиоданных, с которым связана заданная единица доступа, и средство 106 установки точки вставки выполнено с возможностью устанавливать дополнительный пакет 114 единицы усечения и еще один пакет 58 единицы усечения таким образом, что метка времени еще одного кадра аудиоданных равна метке времени дополнительного кадра аудиоданных плюс временная длина дополнительного кадра аудиоданных минус сумма временной длины заднего концевого участка дополнительного кадра аудиоданных и переднего концевого участка еще одного кадра аудиоданных.

C7. Сращенный поток аудиоданных согласно аспекту C2, в котором второй поток 110 аудиоданных имеет, или средство 106 установки точки вставки обуславливает путем вставки, дополнительный пакет 112 единицы усечения, вставленный во второй поток аудиоданных и имеющий возможность установления таким образом, чтобы указывать концевой участок дополнительного кадра аудиоданных, с которым связана передняя единица доступа, например AUʹ₁, второго потока аудиоданных, как подлежащий отбрасыванию при воспроизведении, причем средство 106 установки точки вставки выполнено с возможностью устанавливать дополнительный пакет 112 единицы усечения таким образом, что он указывает передний концевой участок дополнительного кадра аудиоданных как подлежащий отбрасыванию при воспроизведении, причем информация 24 метки времени, содержащаяся в первом и втором потоках аудиоданных и указывающая для каждой единицы доступа соответствующую метку времени, на которой кадр аудиоданных, с которым связана соответствующая единица доступа первого и второго потоков аудиоданных, подлежит воспроизведению, выровнены во времени, и средство 106 установки точки вставки выполнено с возможностью устанавливать дополнительный пакет 112 единицы усечения таким образом, что метка времени дополнительного кадра аудиоданных минус временная длина кадра аудиоданных, с которым связана заданная единица доступа, например AU_i, плюс временная длина переднего концевого участка равна метке времени кадра аудиоданных, с которым связана заданная единица доступа, плюс временная длина кадра аудиоданных, с которым связана заданная единица доступа, минус временная длина заднего концевого участка.

D1. Аудиодекодер, содержащий:

ядро 162 аудиодекодирования, выполненное с возможностью реконструировать аудиосигнал 12, в единицах кадров 14 аудиоданных аудиосигнала, из последовательности пакетов 16 полезной нагрузки потока 120 аудиоданных, причем каждый из пакетов полезной нагрузки принадлежит соответствующей одной из последовательности единиц 18 доступа, на которые разбит поток аудиоданных, причем каждая единица доступа связана с соответствующим одним из кадров аудиоданных; и

средство 164 усечения аудиосигнала, выполненный с возможностью реагировать на пакет 42; 58; 114 единицы усечения, вставленный в поток аудиоданных, для усечения кадра аудиоданных, связанного с заданной единицей доступа, чтобы отбрасывать, при воспроизведении аудиосигнала, его концевой участок, указанный как подлежащий отбрасыванию при воспроизведении пакетом единицы усечения.

D2. Аудиодекодер согласно аспекту D1, в котором концевой участок является задним концевым участком 44 или передним концевым участком 56.

D3. Аудиодекодер согласно аспекту D1 или D2, в котором большинство единиц доступа потока аудиоданных имеет закодированные в них соответствующие связанные кадры аудиоданных, таким образом, что их реконструкция зависит от соответствующей непосредственно предшествующей единицы доступа, и ядро 162 аудиодекодирования выполнено с возможностью реконструировать кадр аудиоданных, с которым связана каждая из большинства единиц доступа, в зависимости от соответствующей непосредственно предшествующей единицы доступа.

D4. Аудиодекодер согласно аспекту D3, в котором заданная единица доступа имеет закодированный в нее соответствующий связанный кадр аудиоданных, таким образом, что его реконструкция не зависит от единицы доступа, непосредственно предшествующей заданной единице доступа, причем блок 162 аудиодекодирования выполнен с возможностью реконструировать кадр аудиоданных, с которым связана заданная единица доступа, независимо от единицы доступа, непосредственно предшествующей заданной единице доступа.

D5. Аудиодекодер согласно аспекту D3 или D4, в котором заданная единица доступа имеет закодированные в нее данные конфигурации, и блок 162 аудиодекодирования выполнен с возможностью использовать данные конфигурации для конфигурирования вариантов декодирования согласно данным конфигурации и применять варианты декодирования для реконструкции кадров аудиоданных, с которыми связаны заданная единица доступа и серия единиц доступа, непосредственно следующая за заданной единицей доступа.

D6. Аудиодекодер согласно любому из аспектов D1 - D5, в котором поток аудиоданных содержит информацию 24 метки времени, указывающую для каждой единицы доступа потока аудиоданных соответствующую метку времени, на которой кадр аудиоданных, с которым связана соответствующая единица доступа, подлежит воспроизведению, причем аудиодекодер выполнен с возможностью воспроизводить кадры аудиоданных с выравниванием во времени передних концов кадров аудиоданных согласно информации метки времени и с отбрасыванием концевого участка кадра аудиоданных, с которым связана заданная единица доступа.

D7. Аудиодекодер согласно любому из аспектов D1 - D6, выполненный с возможностью осуществления плавного микширования на стыке концевого участка и оставшегося участка кадра аудиоданных.

E1. Аудиокодер, содержащий:

ядро 72 аудиокодирования, выполненное с возможностью кодировать аудиосигнал 12, в единицах кадров 14 аудиоданных аудиосигнала, в пакеты 16 полезной нагрузки потока 40 аудиоданных таким образом, что каждый пакет полезной нагрузки принадлежит соответствующей одной из единиц 18 доступа, на которые разбит поток аудиоданных, причем каждая единица доступа связана с соответствующим одним из кадров аудиоданных, и

средство 74 вставки пакета усечения, выполненное с возможностью вставлять в поток аудиоданных пакет 44; 58 единицы усечения имеющий возможность установления таким образом, чтобы указывать концевой участок кадра аудиоданных, с которым связана заданная единица доступа, как подлежащий отбрасыванию при воспроизведении.

E2. Аудиокодер согласно аспекту E1, в котором аудиокодер выполнен с возможностью формировать сращиваемый поток аудиоданных согласно любому из аспектов A1 - A9.

E3. Аудиокодер согласно аспектам E1 или E2, в котором аудиокодер выполнен с возможностью выбирать заданную единицу доступа между единицами доступа в зависимости от внешнего тактового генератора.

E4. Аудиокодер согласно аспекту E3, причем внешний тактовый генератор является тактовым генератором видеокадров.

E5. Аудиокодер согласно любому из аспектов E1 - E5, выполненный с возможностью осуществления управления скоростью таким образом, что битовая скорость потока аудиоданных изменяется в окрестности, сильно не отклоняясь от заданной средней битовой скорости таким образом, что интегральное отклонение битовой скорости от заданной средней битовой скорости предполагает, на заданной единице доступа, значение в заданном интервале, которое составляет по ширине менее ½ диапазона интегрального отклонения битовой скорости при изменении по полному сращиваемому потоку аудиоданных.

E6. Аудиокодер согласно любому из аспектов E1 - E5, выполненный с возможностью осуществления управления скоростью таким образом, что битовая скорость потока аудиоданных изменяется в окрестности, сильно не отклоняясь от заданной средней битовой скорости таким образом, что интегральное отклонение битовой скорости от заданной средней битовой скорости предполагает, на заданной единице доступа, фиксированное значение, меньшее ¾ максимального интегрального отклонения битовой скорости при изменении по полному сращиваемому потоку аудиоданных.

E7. Аудиокодер согласно любому из аспектов E1 - E5, выполненный с возможностью осуществления управления скоростью таким образом, что битовая скорость потока аудиоданных изменяется в окрестности, сильно не отклоняясь от заданной средней битовой скорости таким образом, что интегральное отклонение битовой скорости от заданной средней битовой скорости предполагает, на заданной единице доступа, а также других единицах доступа для которых пакеты единиц усечения вставляются в поток аудиоданных, заданное значение.

E8. Аудиокодер согласно любому из аспектов E1 - E7, выполненный с возможностью осуществления управления скоростью путем регистрации состояния заполнения кодированного буфера аудиодекодера таким образом, что зарегистрированное состояние заполнения предполагает, на заданной единице доступа, заданное значение.

E9. Аудиокодер согласно аспекту E8, в котором заданное значение является общим между единицами доступа, для которых пакеты единиц усечения вставляются в поток аудиоданных.

E10. Аудиокодер согласно аспекту E8, выполненный с возможностью сигнализировать заданное значение в потоке аудиоданных.

Хотя некоторые аспекты были описаны в отношении устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в отношении этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все из этапов способа могут выполняться посредством (или с использованием) аппаратного устройства, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления, некоторые один или более из наиболее важных этапов способа могут выполняться таким устройством.

Сращенные или сращиваемые потоки аудиоданных, отвечающих изобретению, могут храниться на цифровом носителе данных или могут передаваться по среде передачи, например, беспроводной среде передачи или проводной среде передачи, например, интернету.

В зависимости от конкретных требований к реализации, варианты осуществления изобретения можно реализовать в оборудовании или в программном обеспечении. Реализация может осуществляться с использованием цифрового носителя данных, например, дискеты, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флеш-памяти, на котором хранятся электронно считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерном системой таким образом, что осуществляется соответствующий способ. Таким образом, цифровой носитель данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерном системой, таким образом, что осуществляется один из описанных здесь способов.

В общем случае, варианты осуществления настоящего изобретения можно реализовать в виде компьютерного программного продукта с программным кодом, причем программный код способен осуществлять один из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может храниться, например, на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из описанных здесь способов, хранящийся на машиночитаемом носителе.

Другими словами, вариант осуществления способа, отвечающего изобретению, является, таким образом, компьютерной программой, имеющей программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.

Таким образом, дополнительный вариант осуществления способов, отвечающих изобретению, является носителем данных (или цифровым носителем данных или машиночитаемым носителем), на котором записана компьютерная программа для осуществления одного из описанных здесь способов. Носитель данных, цифровой носитель данных или записанный носитель обычно являются материальными и/или постоянными.

Таким образом, дополнительный вариант осуществления способа, отвечающего изобретению, является потоком данных или последовательностью сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, быть выполнен(а) с возможностью переноса через соединение для передачи данных, например, через интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью или предназначенное для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления содержит компьютер, на котором установлена компьютерная программа для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью переноса (например, электронного или оптического) компьютерной программы для осуществления одного из описанных здесь способов получателю. Получателем может быть, например, компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система может, например, содержать файловый сервер для переноса компьютерной программы получателю.

В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) можно использовать для осуществления некоторых или всех из функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления, вентильная матрица, программируемая пользователем, может взаимодействовать с микропроцессором для осуществления одного из описанных здесь способов. В общем случае, способы предпочтительно осуществляются любым аппаратным устройством.

Описанное здесь устройство можно реализовать с использованием аппаратного устройства, или с использованием компьютера или с использованием комбинации аппаратного устройства и компьютера.

Описанные здесь способы можно осуществлять с использованием аппаратного устройства или с использованием компьютера или с использованием комбинации аппаратного устройства и компьютера.

Вышеописанные варианты осуществления призваны всего лишь иллюстрировать принципы настоящего изобретения. Следует понимать, что модификации и вариации описанных здесь конфигураций и деталей будут очевидны специалистам в данной области техники. Таким образом, они подлежат ограничению только объемом нижеследующей формулы изобретения, но не конкретными деталями, представленными посредством описания и объяснения рассмотренных здесь вариантов осуществления.

ССЫЛКИ

[1] METHOD AND ENCODER AND DECODER FOR SAMPLE-ACCURATE REPRESENTATION OF AN AUDIO SIGNAL, IIS1b-10 F51302 WO-ID, FH110401PID

[2] ISO/IEC 23008-3, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

[3] ISO/IEC DTR 14496-24: Information technology - Coding of audio-visual objects - Part 24: Audio and systems interaction.

Источник поступления информации: Роспатент

‹ › ×

Авторы
Правообладатели

Показаны записи 71-80 из 331.

25.08.2017

№217.015.acf3

Низкочастотное акцентирование для основанного на lpc кодирования в частотной области

Изобретение относится к области кодирования и декодирования аудиосигналов. Технический результат – обеспечение минимума слышимых артефактов кодирования в выходном аудиосигнале на низких частотах путем низкочастотного акцентирования на стороне кодера и деакцентирования на стороне декодера....

Тип: Изобретение

Номер охранного документа: 0002612589

Дата охранного документа: 09.03.2017