Главная  Радио и связь 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 [ 16 ] 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

Далее для каждого 20-миллисекундного сегмента оцениваются параметры фильтра кратковременного линейного предсказания - 8 коэффициентов частичной корреляции к„ i = 1.....8 (порядок предсказания М = 8), которые для передачи по каналу связи преобразуются в логарифмические отношения площадей л,-, причем для функции логарифма используется кусочно-линейная аппроксимация.

Сигналс выхода блока предварительной обработки фильтруется решетчатым, фильтром-анализатором кратковременного линейного предсказания, и по его выходному сигналу - остатку предсказания - оцениваются параметры долговременного пред-: сказания: коэффициент предсказания д и задержка d. При этом \ 160-выборочный сегмент остатка кратковременного предсказания вп разделяется на 4 подсегмента, по 40 выборок в каждом, и параметры д, d оцениваются для каждого из подсегментов в отдельности, причем для оценки задержки d для текущего подсегмента используется скользящий подсегмент из 40 выборок, перемещающийся в пределах предшествующих 128 выборок сигнала остатка предсказания вп- Сигнал е фильтруется фильтром-анализатором долговременного линейного предсказания, а выходной сигнал последнего - остаток предсказания - фильтруется сглаживающим фильтром, и по нему формируются параметры сигнала возбуждения, в отдельности для каждого из 40-выборочных подсегментов.

Сигнал возбуждения одного подсегмента состоит из 13 импульсов, следующих через равные промежутки времени (втрое большие, чем интервал дискретизации исходного сигнала), и имеющих различные амплитуды. Для формирования сигнала возбуждения 40 импульсов подсегмента сглаженного остатка обрабатываются следующим образом. Последний (сороковой) импульс отбрасывается, а первые 39 импульсов разбиваются на три последовательности: в первой - импульсы 1, 4, ...37, во второй - импульсы 2, 5, ...38, в третьей - импульсы 3, 6, ...39. В качестве сигнала возбуждения выбирается та из последовательностей, энергия которой больше. Амплитуды импульсов нормируются по отношению к импульсу с наибольшей амплитудой, и нормированные амплитуды кодируются тремя битами каждая при линейной шкале квантования. Абсолютное значение наибольшей амплитуды кодируется шестью битами в логарифмическом масштабе. Положение начального импульса 13-элементной последовательности кодируется двумя битами, т.е. номер последовательности, выбранной вм качестве сигнала возбуждения для данного подсегмента.

Таким образом, выходная информация кодера речи для одного 20-миллисекундного сегмента речи включает:

- параметры фильтра кратковременного линейного предсказания - 8 коэффициентов логарифмического отношВ ния площадей л„ / = 1,...,8 - один набор на весь сегмент;

- параметры фильтра долговременного линейного предсказания - коэффициент предсказания д и задержка d - для каждого из четырех подсегментов;

- параметры сигнала возбуждения - номер последовательности л, максимальная амплитуда v, нормированные амплитуды bj, i = 1.....13, импульсов последовательности -

для каждого из четырех подсегментов.

Число бит, отводимых на кодирование передаваемых параметров, приведено в табл. 2.7. Всего для одного 20-миллисекундного сегмента речи передается 260 бит информации, т.е. здесь кодер речи осуществляет сжатие информации почти в 5 раз (1280 : 260 = 4,92). Перед выдачей в канал связи выходная информация кодера речи также подвергается дополнительно канальному кодированию.

Узблица 2.7. Кодирование выходной информации кодера речи стандарта GSM

Передаваемые параметры

Число бит

Примечания

Параметры фильтра кратковременного предсказания (логарифмические отношения площадей л„ / = 1.....8)

Параметры фильтра долговременного предсказания (коэффициент предсказания д, задержка d , для каждого из четырех подсегментов)

36 36

П, Г2 - по 6 бит; Гз, Г4 - по 5 бит; Г5, Гб " по 4 бита; Гу, Г8 - по 3 бита

д-2 бита, d-7 бит

Параметры сигнала возбуждения (номер последовательности п, максимальная амплитуда v, Нормированные амплитуды импульсов Ь/, i = 1.....13, для

каждого из четырех подсегментов)

п-2 бита, V - 6 бит, Ь/ - 3 бита

Всего за 20-миллисекундный сегмент

Перейдем к декодеру. Последовательность выполняемых им функций в общем понятна из нижней части блок-схемы рис. 2.39, и Мы ограничимся небольшими пояснениями к ней. Блок формирования сигнала возбуждения, используя принятые параметры сигнала возбуждения, восстанавливает 13-импульсную последовательность сигнала возбуждения для каждого из подсегментов сигнала речи, включая амплитуды импульсов и их расположение во времени. Сформированный таким образом сигнал возбуждения фильтруется Фильтром-синтезатором долговременного предсказания, ка



Глава 2

Принципы постромшя и технические проблемы

выходе которого получается восстановленный остаток предсказания фильтра-анализатора кратковременного предсказания.

Последний фильтруется решетчатым фильтром-синтезато-, ром кратковременного предсказания, причем параметры фильтра предварительно преобразуются из логарифмических отношений площадей г, в коэффициенты частичной корреляции kj. Выходной сигнал фильтра-синтезатора кратковременного предсказания фильтруется (в блоке пост-фильтрации) цифровым фильтром, восстанавливающим амплитудные соотношения частотных составляющих сигнала речи, т.е. компенсирующим предьюкажение, внесенное входным фильтром блока предварительной обработки кодера. Сигнал на выходе постфильтра является восстановленным цифровым сигналом речи.

Таким образом, мы рассмотрели все намеченные вопросы, относящиеся к собственно кодированию речи в сотовой связи. Однако, прежде чем закончить этот раздел, остановимся еще на двух вопросах: методах оценки качества кодирования и непрерывно продолжающемся прогрессе в технике кодирования.

Из предшествующего изложения ясно, что создание экономичного и совершенного кодека речи является сложным творческим процессом, связанным с непрерывными поисками и находками, причем многие технические решения настолько разнородны, что их сопоставление само по себе оказывается непростой зада-.чей. Поэтому совершенно необходимы методы и критерии, позволяющие более или менее объективно сопоставлять и оценивать различные методы кодирования и на основании этих оценок принимать обоснованные решения. Такие методы существуют, и основные критерии в них связаны с восприятием речи человеком, т.е. с экспертными оценками.

При оценке качества кодирования и сопоставлении различных кодеков оцениваются разборчивость речи и качество синтеза (качество звучания) речи. Для оценки разборчивости речи используется метод DRT (Diagnostic Rhyme Test - диагностический рифмованный тест). В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными (типа "дот -тот", "кол - гол"), которые многократно произносятся рядом дикторов, и по результатам испытаний оценивается доля искажений. Метод позволяет получить как оценку разборчивости отдельных согласных, так и общую оценку разборчивости речи.

Для оценки качества звучания используется критерий DAM (Diagnostic Acceptability Measure - диагностическая мера приемлемости). Испытания заключаются в чтении несколькими дикторами, мужчинами и женщинами, ряда специально подобранных фраз, которые прослушиваются на выходе тракта связи рядом экспертов-слушателей, выставляющих свои оценки по 5-балльной шкале. Результатом является средняя субъективная оценка, или средняя оценка мнений (Mean Opinion Score - MOS). Хотя этот метод является субъективным по своей сути, его результаты по сопоставлению различных типов кодеков при проведении испытаний одними

и теми же группами дикторов и экспертов-слушателей являются, по-видимому, достаточно объективными, и на них основываются практически все выводы и решения.

В качестве примера в табл. 2.8 приведены результаты оценки четырех типов кодеков. Близкие к шкале MOS результаты дает объективный метод оценки качества с использованием понятия кепстрального расстояния (Cepstrum Distance - CD).

Из сказанного ясно также, что существует множество вариантов кодеков речи, в том числе в классе кодеков линейного предсказания, из числа которых приходится выбирать кодек для системы сотовой связи. В частности, при разработке стандарта GSM были тщательно исследованы шесть типов кодеков-кандидатов, после чего выбор был остановлен на кодеке RPE-LTP. Работа по выбору типа кодека для стандарта GSM была завершена в 1988 г., а в 1989 г. был предложен метод VSELP, принятый затем в стандарте D-AMPS. Интенсивные работы по совершениствованию кодеков речи продолжаются и в настоящее время. Обоими стандартами - и D-AMPS, и GSM - предусмотрено введение полускоростного кодирования, которое сможет увеличить пропускную способность канала связи еще вдвое.

Таблица 2.8. Оценка кодеков речи по шкале MOS [22]

Тип кодека

Темп передачи информации, Кбит/с

Оценка MOS

4,12

ADPCM

3,78

RPE-LTP (стандарт GSM)

3,58

VSELP (стандарт D-AMPS)

3,44

В числе исследуемых вариантов для стандарта D-AMPS рассматривается возможность введения векторного квантователя параметров линейных спектральных пар с расщеплением и межкадровым предсказанием [96], а для стандарта GSM - использование метода кодирования CELP [121].

В стандарте D-AMPS уже начинает применяться усовершенствованный полноскоростной кодек - алгебраический кодек линейного предсказания с кодовым возбуждением (algebraic code-book excited linear prediction/enhanced full rate - ACELP-EFR), a в стандарте GSM - свой вариант усовершенствованного полноскоростного кодека [145, 160].



2.4.4.4. Канальное кодирование

Кодер канала - второй (и последний) элемент собственно цифрового участка передающего тракта (рис. 2.6). Он следует после кодера речи и предшествует модулятору, осуществляющему перенос информационного сигнала на несущую частоту. Основная задача кодера канала - помехоустойчивое кодирование сигнала речи, т.е. такое его кодирование, которое позволяет обнаруживать и в значительной мере исправлять ошибки, возникающие при распространении сигнала по радиоканалу от передатчика к приемнику. Помехоустойчивое кодирование осуществляется, за счет введения в состав передаваемого сигнала довольно большого объема избыточной (контрольной) информации. В английской терминологии такое кодирование носит наименование Forward Error, Correcting coding (FEC coding), т.е. кодирование с упреждающей коррекцией ошибок, или кодирование с коррекцией ошибок на проходе*) . В сотовой связи помехоустойчивое кодирование реализуется в виде трех процедур - блочного кодирования (b/oc/f coding), сверточного кодирования (convolutional coding) и переме-жения {interleaving). Кроме того, если оставаться в рамках блок-схемы рис. 2.6, кодер канала выполняет еще ряд функций: добавляет управляющую информацию, которая, в свою очередь, также подвергается помехоустойчивому кодированию; упаковывает подготовленную к передаче информацию и сжимает ее во времени; осуществляет шифрование передаваемой информации, если таковое предусмотрено режимом работы аппаратуры. Последовательность выполнения этих задач показана на блок-схеме рис. 2.40.

Начало технике помехоустойчивого кодирования было положено оригинальной работой Шеннона (1948 г.), который, в частности, показал, что если пропускная способность канала связи больше требуемой скорости передачи информации, т.е. больше производительности источника информации, то при использовании соответствующего алгоритма помехоустойчивого кодирования для данного канала можно построить систему связи со сколь угодно малой вероятностью ошибки на выходе.

Правда, доказав существование необходимых помехоустойчивых кодов, Шеннон не указал методов их построения, и для решения этой задачи потребовались значительные усилия и значительное время. Первый блочный код был предложен Хэммингом в 1950 г., первый сверточный код - Элиасом в 1955 г. В последующие годы помехоустойчивое кодирование получило развитие, прежде всего в направлениях построения хороших кодов и удобных схем кодирования и декодирования.

*В качестве альтернативы возможно значительно более простое помехоустойчивое кодирование, позволяющее лишь обнаруживать ошибки, но не исправлять их. Если при атом нужна коррекция ошибок, то сообщения, содержащие ошибки, передаются повторно - это коррекция ошибок с перезапросом (Automatic Repeat Request, ARQ -запрос автоматического повторения, или перезапрос). Коррекция ошибок с перезапросом используется, например, в беспроводном телефоне.


S "> S

S о 1

0) л

X р о


э § р

§Й

Q § Ь " о. m о ф

II &§

> g

- S

<Q

CO Ш



0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 [ 16 ] 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40


0.0152