ОЦЕНКИ КАЧЕСТВА ВОСПРОИЗВЕДЕНИЯ РЕЧИ В IP-ТЕЛЕФОНИИ
МИНИCТEPCТВO OБPAЗOВAНИЯ И НAУКИ PECПУБЛИКИ КAЗAXCТAН
МЕЖДУНAPOДНЫЙ УНИВEPCИТEТ ИНФOPМAЦИOННЫX ТEXНOЛOГИЙ
Ералы Умитжан Айтақыұлы
ОЦЕНКИ КАЧЕСТВА ВОСПРОИЗВЕДЕНИЯ РЕЧИ В IP-ТЕЛЕФОНИИ
МAГИCТEPCКAЯ ДИCCEPТAЦИЯ
Специальность:
7M06201 - Телекоммуникационные системы и сети
Aлмaты 2021
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН
МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
ФАКУЛЬТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
КАФЕДРА РЭТ
ДОПУЩЕН К ЗАЩИТЕ
Заведующий кафедрой
к.т.н. ассистент-профессор,
______________ Бахтиярова Е.А.
___ _____________2021
МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ
Оценки качества воспроизведения речи в IP-телефонии
МАГИСТРАНТ:
Ералы Умитжан Айтақыұлы
__ ________2021
_____________
(подпись)
РУКОВОДИТЕЛЬ:
Бахтиярова Елена Ажибековна __ ________2021
_____________
(подпись)
РЕЦЕНЗЕНТ:
Фамилия И.О.
__ ________2021
____________
(подпись)
НОРМОКОНТРОЛЕР:
Фамилия И.О.
__ ________2021
_____________
(подпись)
Алматы 2021
Аңдатпа
Осы магистрлік диссертацияда аналитикалық және имитациялық модельдеуді, сөйлеу сапасын объективті және субъективті бағалауды кешенді қолдана отырып, оларды пакеттік беру кезінде сөйлеу хабарламаларын қалпына келтіру теориясы қарастырылды.
Диссертация көлемі 60 бет, 11 суреттен, 10 кестеден, 30 әдебиет көзінен тұрады.
Түйінді сөздер: IP-телефония, сөйлеу сапасы, ықтималдықтар теориясы.
Аннотация
В данной магистерской диссертационной работе рассмотрены теории восстановления речевых сообщений при их пакетной передаче при комплексном использовании аналитического и имитационного моделирований, объективных и субъективных оценок качества речи.
Объем диссертации 60 страниц, он содержит 11 рисунков, 10 таблиц, 30 источников литературы.
Ключевые слова: IP-телефония, качество речи, теория вероятности.
Abstract
In this master's thesis, the theory of restoration of speech messages during their batch transmission with the complex use of analytical and simulation modeling, objective and subjective assessments of speech quality is considered.
The volume of the thesis is 60 pages, it contains 11 figures, 10 tables, 30 sources of literature.
Key words: IP-telephony, speech quality, probability theory.
ОСНОВНЫЕ СОКРАЩЕНИЯ И ОБОЗНАЧЕНИЯ
АДИКМ - адаптивно дифференциальная импульсно кодовая модуляция;
ИКМ - импульсно кодовая модуляция;
ОСШ - критерий отношения сигналшумна входе воспроизводящего устройства;
ПС - порог слышимости;
РИ - речевая информация;
PC - речевой сигнал;
РР - разборчивость речи;
ТКУРИ -технический канал утечки речевой информации;
ТфОН - телефонные сети общего пользования;
ц е п - цифровые системы передачи;
AI - индекс артикуляции (Articulation Index);
DALT - диагностические аллитерационные испытания (Diagnostic Alliteration Test);
DMCT - испытания по серединному согласному (Diagnostic Medial Consonant Test);
DRT - диагностические рифмованные испытания (DiagnosticRhymeTest);
MRT - модифицированные рифмованные испытания (Modified Rhyme Test); HPAST - испытание no Гарвардским психоакустическим предложениям;
HST - испытание по предложениям Хаскинса (Haskins Sentence Test);
ETSI - Европейского Института стандартов в электросвязи (European Telecommunications Standards Institute);
ITU-T - Международный Союз Электросвязи (International Telecommunication Union);
MOS - усредненный показатель мнений о качестве (Mean Opinion Score); MTI - индекс модуляции (Modulation Transfer Index);
PBWL - испытания с использованием фонематически сбалансированных списков слов (Phonematicaly Balanced Word List);
PSIL - уровень помех восприятию речи с привилегированной частотой (Preferred-frequency Speech Interference Level);
R - показатель качества R (Quality Rating); RASTI - быстрый индекс передачи речи; RT - рифмованные испытания (Rhyme Test);
SUS - испытание по семантически непредсказуемым предложениям (Semantic Unpredictable Sentences);
SII - индекс разборчивости речи; SIL - уровень помех восприятию речи (Speech Interference Level);
STI - индекс передачи речи передачи речи (Speech Transmission Index); STITEL - индекс передачи речи для телекоммуникационных систем;
SUS - испытание по семантически непредсказуемым предложениям (Semantic Unpredictable Sentences);
СОДЕРЖАНИЕ
ВВЕДЕНИЕ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
1 Обзор критериев оценивания качества речи ... ... ... ... ... ... ... ...
1.1 Категории речи. . ... ... ... ... ... ... ... ... ... ... ... ... ... ..
1.2. Оценка качества речи по ГОСТу 50840-95 ... ... ... ... ... ... ... ... .
2 Приложение критериев качества восстановления речи к оцениванию качества ее пакетной передачи ... ... ... ... ... ... ... ... ... ... ... ..
2.1. Особенности пакетной передачи речи ... ... ... ... ... ... ... ... ..
2.2 Оценка качества восстановления речи по критерию отношения сигналшум ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .
2.3 Оценка качества восстановления речи по критериям разборчивости
3 Объективные и субъективные оценки качества речи при аналитическом и имитационном моделировании ее пакетной ... ... ...
3.1 Аналитическое оценивание качества восстановления речи в IP-телефонии ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
3.2 Имитационное моделирование при оценивании качества восстановления речи в IP-телефонии ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
3.3 Сопоставление объективных и субъективных оценок качества речи при аналитическом и имитационном моделировании ее пакетной передачи ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
ЗАКЛЮЧЕНИЕ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .
Список использованных литератур ... ... ... ... ... ... ... ... ... ... ... ... ... ...
3
5
8
11
13
15
16
18
22
26
29
39
55
66
67
ВВЕДЕНИЕ
Актуальность темы. Развитие современных телекоммуникационных технологий и, в частности, IP -телефонии, связано с пакетной передачей речевой информации [1,35-43,58-60,67-75,81,84,85], при этом на приемной стороне возможно возникновение коротких пауз в речи вследствие потери речевых пакетов в IP-сетях из-за невозможности переспрашивания. Плохое качество каналов связи и перегрузки в сетях приводят к частым потерям речевых пакетов, что, в свою очередь, вызывает ухудшение разборчивости, а иногда и полную невозможность речевого общения.
Искажение речевой информации, вызванное потерей речевых пакетов, зависит от типа кодеков, применяемых в шлюзах IP-сети. От потери пакетов качество речи в большей степени зависит при использовании низкоскоростных кодеков по сравнению с высокоскоростными кодеками. Принято считать, что в IP-телефонии хорошего качества допустимый уровень потери пакетов может составлять 1-3%, причем меньшее значение относится к низкоскоростным кодекам, а большее - к высокоскоростным.
Для сравнительной оценки качества передаваемой речевой информации разработаны различные методы.
Одним из них является метод MOS (Mean Opinion Score), характеризующий усредненный показатель мнений о качестве и представленный в Рекомендациях ITU-T Р.800 и Р.830 [8].
Другим методом оценки является использование единиц рейтинга R (Quality Rating) по сто балльной шкале. Международным союзом электросвязи была предложена Е-модель, описанная в рекомендации ITU-T G.I07 [9], для расчета рейтинга R. Между MOS и R существует зависимость, представленная в [9].
Методы исследовання. В работе использованы методы теории вероятностей, математического анализа, статистические методы обработки экспериментальных данных.
Научная новизна. Степень научной новизны диссертации определяется тем, что она развивает теорию восстановления речевых сообщений при их пакетной передаче при комплексном использовании аналитического и имитационного моделирований, объективных и субъективных оценок качества речи.
Практическая ценность разработанных в диссертации математического аппарата и методов имитационного моделирования заключен предоставленной возможности получения объективных результатов оценки качества речи, использованных при анализе и проектировании конкретных цифровых систем пакетной передачи речевой информации.
Традиционным является метод, использующий критерий отношения сигналшум (ОСШ) на выходе воспроизводящего устройства и разборчивости [52-54,76,79].
Как будет показано ниже, существуют замечания, касающиеся как определения показателя R в Рекомендациях ITU-T, так и по поводу существенной несогласованности оценок качества пакетной передачи речи, предоставляемых критериями MOS и Е-модели и критериями ОСШ и разборчивости.
В связи с изложенными проблемами развития телекоммуникационных технологий анализ различных критериев оценки качества пакетной передачи речевой информации методами аналитического и имитационного моделирования представляется важной и актуальной научно-технической задачей.
Цель работы состоит в совершенствовании методики и критериев оценивания качества пакетной передачи речи путем использования аналитического и имитационного моделирований, выяснении физической сути различных подходов, используемых для оценки качества и выработке необходимых рекомендаций для практического применения используемых методов.
Реализуется следующая последовательность решения задач диссертационной работы:
1.Аналитический обзор критериев оценивания качества речи и их приложений к оцениванию качества пакетной передачи речевой информации.
2.Аналитическое оценивание качества восстановления речи в IP-телефонии по критерию отношения сигнал шум и критерию MOS и Е-модели.
3. Оценивание качества восстановления речи в IP-телефонии на основе использования имитационного моделирования процессов потери пакетов речи и процессов ее восстановления.
4.Сопоставление объективных и субъективных оценок качества речи при аналитическом и имитационном моделировании ее пакетной передачи
ГЛАВА 1 ОБЗОР КРИТЕРИЕВ ОЦЕНИВАНИЯ КАЧЕСТВА РЕЧИ
1.1 Категории речи
Речь по зарубежной классификации разделяется на три категории [22]:
Неусиленная речь - обычная речь, используемая при разговоре лицом к лицу (характерная для прямых акустических методов объективной оценки показателей защищенности речевой информации (РИ) от утечки по техническим каналам ТКУРИ),
Усиленная речь - имеет место в системах, где передается форма исходного речевого сигнала (например, системы IP- телефонии при применении кодека рекомендации G.711 стандарта Н,323),
Вокодерная или синтетическая речь - имеет место в системах, где форма исходного речевого сигнала (PC) не передается (например, системы IP-телефонии при применении кодеков семейства рекомендаций стандарта Н,323 за исключением рекомендации G,711),
Вокодерные системы не могут быть проверены с использованием объективно-ориентированных методов, таких как рассмотренные ниже RASTI,AI, или прямые физические измерения. Вместо этого проводятся артикуляционные испытания разборчивости. Причина этого в акустических особенностях неестественной речи, В синтетической речи различия между фонемами могут быть меньше, её спектральное распределение иное, чем у реальной. Обычно списки слов как испытательный материал, используются чаще, чем предложения потому, что предложения обеспечивают грамматические и контекстные ключи, позволяющие угадать слова.
Рассмотрим методы определения разборчивости речи (РР) для каждой категории [22],
1.2Артикуляционные испытания
Испытание разборчивости - прямой, иногда единственный путь
испытания качества речевой связи. При таких испытаниях диктором зачитывается набор сообщений (стимулов), аудитор делает отметки в ответном листе и подсчитывается число ошибок, сделанных аудитором. Испытания обычно применяются в научных исследованиях, они удобны для прослеживания влияния различных факторов на разборчивость речи. Наиболее часто за рубежом применяются сегментальные испытания с использованием фонематически сбалансированных списков слов (PBWL,Phonematicaly Balanced Word List), рифмованные испытания (RT,Rhyme
Test), по методам диагностического рифмованного иcпытaния(DRT,DiagnosticRhymeTest), модифицированного рифмованного иcпытaния(MRT,Modifled Rhyme test), испытание по серединному coглacнoмy(DMCT,Diagnostic Medial Consonant Test), диагностическое аллитерационное HcnbiTaHHe(DALT,Diagnostic ALliteration Test) и др. [22].
Кроме того используются различные варианты испытания разборчивости слов в предложениях.
Рассмотрим содержание этих испытаний.
Сегментальные испытания. Сегментальные методы испытывают разборчивость отдельных фонем или сегментов речи. Используются несущие предложения, включающие испытательные слова (например Напишите [испытательное слово] сейчас). Предложения возбуждают реверберационное поле до того, как испытательное слово будет произнесено. Испытательные слова произносятся без ударения и выражения, несущие предложения одни и те же для любого испытательного слова. Это необходимо для того, чтобы должным образом учесть эффект реверберации.
Фонематически сбалансированные спис ки слов PBWL [22].
Испытательные материалы состоят из двадцати списков по 50 фонематически сбалансированных слов, то есть слова, подобраны так, что встречаемость фонем, их составляющих, та же, что и в нормальной повседневной речи. Иногда, аудитору зачитываются слова из различных списков в случайном порядке, чтобы он не мог угадать, какое слово услышит. Результаты испытания определяются, как процент корректно идентифицированных слов от числа всех воспроизведённых слов.
Метод испытания разборчивости при PBWL требует большего количества обученных аудиторов и дикторов, чем другие статистические испытания, и особенно чувствителен к соотношению сигналшум (SN): небольшое изменение SN вызывает большие изменения результатов.
Рифмованные испытания RT [22]. Методы MRT, DRT, DMCT и DALT, описанные ниже, объединяют в группу рифмованные испытания, наиболее полезные для сравнения систем связи, находящихся в одних и тех же условиях.
Диагностическое рифмованное испытание DRT [23] использует набор отдельных слов для испытания разборчивости согласных в начале слов. Тестовый материал состоит из 96 пар слов, отличающихся только по начальному согласному. Среди этих слов выделены категории по шести отличительным особенностям. Результаты по этим шести категориям усредняют и получают значение общей разборчивости. Несущие предложения не используются. Задача аудитора указать, догадываясь, если он не уверен, какое слово из двух представленных ему слов, воспроизведено в ответном листе.
Результатом DRT, является процент скорее правильно угаданных слов, чем корректно идентифицированных. Таким образом, 50 % правильно идентифицированных слов соответствует уровню DRT= 0; 75 % слов - уровню DRT= 50; 100 % слов - уровню DRT= 100.
DRT - широко используемый метод с большой диагностической информативностью о разборчивости согласных. Испытание может быть осуществлено за малое время. Однако DRT слабо проверяет разборчивость гласных и испытательный материал весьма ограничен, иснытательные стимулы не равновероятны (не тестируются все возможные вариации согласных).
Модифицированное рифмованное исиытание MRT (расширение DRT [23,25]) - испытание на разборчивость согласных, находящихся и в начале и в конце слов.
Испытание по серединному согласному DMCT - модификация DRT
Его испытательные материалы состоят из 96 пар двусложных слов, отобранных по отличию в серединном согласном, с выделением категорий как BDRT.
Диагностическое аллитерациоиное испытание DALT - модификация DRT [25]. Испытательные материалы DALT состоят из 96 пар односложных слов, отобранных так, чтобы отличаться по заключительному согласному с выделением категорий как в DRT.
Достоинства рифмованных испытаний: возможность привлечения небольшого числа (10 - 20) необученных дикторов и аудиторов без ущерба для достоверности результатов; легкость и быстрота проведения испытания.
Другие сегментальные испытания.
Стандартное сегментальное HcnbiTaHne(SST -- Standard Segmental Test) использует списки бессмысленных слов (логатомов-не существующих в языке слов), имеющих структуру типа CV, VC, и VCV [25]. Основные элементы испытательного материала это все согласные и три гласных звука (a,i, и и). Для каждого предъявленного аудитору стимула, в ответном листе должен быть вписан, отсутствующий в нём согласный, таким образом, гласные не тестируются вообще.
Испытание переходов согласный-гласный с использованием логатомов дает возможность тестировать переходы между гласными и согласными [25] (наиболее часто используемых методов оценки синтетической речи, применимый для речи вообще). Испытательные слова обычно симметричные.
Испытание по идептифпкацип группы (CLID, CLuster IDentification Test). Испытательный материал не предопределен, а генерируется для каждого испытания отдельно.
Процедура испытания состоит из трех главных стадий: генерации слов, фонемно-графемной конверсии и автоматического подсчета. На стадии генерации слова создаётся испытательный материал в фонетическом представлении. Пользователь может определять число генерируемых слов, структуру слога и частоту возникновения, отдельно для начальной, срединной и заключительной групп. Структуры слогов могут также быть генерированы в соответствии с их статистическим распределением. Например, структура CCVC встречается чаще, чем CCCVCCC. Используемые слова - обычно логатомы.
Тестироваппе с произпесепием слова по буквам (SpAT,Spelling Alphabet Test) разработано в ВМФ США для статистического испытания словесной разборчивости. Используются слова, стандартизированные ICAO (Международной организацией гражданской авиации) [25].
Испытания разборчивости слов в предложениях.
Предложения обычно подбираются в соответствии со встречаемостью слов в данном языке. В отличие от сегментальных испытаний, некоторые элементы могут быть пропущены аудитором. Но данный им ответ может быть корректным, особенно, если используются осмысленные предложения (контекстные и грамматические ключи дают возможность угадывать пропущенные элементы).
Испытание по Гарвардским психоакустическим предложениям
(HPAST) - закрытому набору из 100 предложений, разработанных, чтобы
проверить словесную разборчивость в контексте предложения [25].
Предложения выбраны так, чтобы различные фонемы языка были представлены в соответствии с частотой их возникновения.
Испытание по предложепиям Хаскинса (HST - Haskins Sentence Test), также разработанным для испытания словесной разборчивости в предложениях [25]. Но, в отличие от Гарвардских предложений, они бессмысленны, а, следовательно, пропущенные в силу своей неразборчивости, элементы нельзя угадать по контексту. Как и в Гарвардском испытании используется определенный набор предложений, но только однажды, что повышает достоверность результатов и нейтрализует эффект узнавания.
Предложения более трудны для восприятия, чем Гарвардские (в реальной речи не встречаются).
Испытанпе по семантически непредсказуемым предло жениям
(SUS -- Semantic Unpredictable Sentences). Используемые в испытаниях слова,
основном односложные, отобраны в случайном порядке из предопределенного списка возможных слов.
Сравнивая испытания можно отметить, что испытание HPAST выполняется легко, не требует обучения, подсчет результатов прост, но при использовании установленного набора предложений, проявляется эффект узнавания. Этого недостатка лишены SUS и nST, в них отсутствуют ключи, так как в SUS испытательные предложения не имеют смысла, а в HST испытательные предложения формируются в ходе самого испытания.
1.6. Оценка качества речи по ГОСТу 50840-95
1994 году Московским государственным университетом и воинской частью 93901 разработан ГОСТ Р 50840-95. Он принят и введен в действие постановлением Госстандарта России от 21.11.95 №579.
Стандарт регламентирует получение комплексной оценки качества передачи речи, основанной на методах измерения показателей разборчивости и качества. Комплексная оценка включает в себя значения слоговой разборчивости, показателя заметности искажения качества речи в тракте (аппаратуре) связи по методу парных сравнений относительно контрольного тракта, показателя заметности искажения шести селективных признаков (картавость, гнусавость и др.), а также ряда других оценок. Стандарт распространяется на телефонную проводную и радиосвязи, в которьгх используется аналоговый речевой сигнал. Включая в себя устройства, содержащие преобразователи речевого сигнала в цифровую форму, синтезаторы речи, данный стандарт устанавливает нормы качества передачи (воспроизведения) речи и методы измерений:
- разборчивости речи методом артикуляционных измерений;
- разборчивости речи методом артикуляционных измерений по таблицам неполных слогов (метод дописывания); качества речи методом парных сравнений испытуемого и контрольного трактов;
качества речи методом оценки величины заметности искажений селективных признаков;
разборчивости, качества речи и узнаваемости голоса диктора метода парных сравнений;
фразовой разборчивости в испытуемом тракте при ускоренном в 1,4 - 1,6 раза по сравнению с нормальным темпом произнесения.
данном стандарте применяются следующие термины с соответствующими определениями.
Под разборчивостью речи понимается относительное количество (в процентах) правильно принятых элементов (слог, слово, фраза) артикуляционных таблиц.
Термином качество речи обозначается величина, характеризующая субъективную оценку звучания речи в испытуемом тракте по сравнению, во-первых, со звучанием в контрольном тракте (принятым за 5 баллов), и, во-вторых, по сравнению со звучанием речи в другом тракте (в процентах предпочтения).
Узнаваемость голоса диктора определяется как величина, характеризующая степень сохранения субъективно воспринимаемых индивидуальных признаков голоса в испытуемом тракте.
Измерение разборчивости речи артикуляционными методами.
Измерения проводит бригада операторов в возрасте от 18 до 30 лет путем прослушивания на головные телефоны слоговых артикуляционных таблиц. Чтение слогов осуществляется диктором ровным голосом, четко, но без подчеркивания отдельных звуков, с постоянным уровнем речи. Слоги следует читать в ритме 1 слог в (3+-0,3) с. Аудитор записывает принятые слоги в бланк установленной формы. Если диктор не понял переданного слога, он подчеркивает соответствующую строку в бланке принятых слогов.
Для каждого измерения вычисляется среднее значение разборчивости.
Классы качества и нормы разборчивости речи приведены в табл. 1.7.
Таблица 1.7
Норма слоговой
Порма слоговой
Характеристика класса
разборчивости
разборчивости
Класс
речи для трактов с
для трактов с
качества
качества
параметрическим
кодированием
компандированием.
волны речевого
%
сигнала, %
Высший
Понимание передаваемой
речи без малейшего
93
80
напряжения внимания
I
Понимание передаваемой
86-93
56-80
речи без затруднений
II
Понимание с напряжения
внимания без переспросов
76-85
41-55
и повторений
Понимания передаваемой речи с некоторым
напряжением внимания.
61-75
25-40
редкими переспросами и
повторениями
IV
Понимание передаваемой
речи с большим
напряжением, частыми
45-60
25
переспросами и
повторениями
Данный метод рекомендуется применять при аттестации тракта (аппаратуры) связи.
Измерение разборчивости речи артикуляционными методами, но таблицам неполных слогов. Этот метод используется при наличии ПЭВМ с устройством ввода-вывода речевой информации. При этом аудиторы прослушивают на головные телефоны тексты таблиц, выводимые на ПЭВМ, и одновременно наблюдают на экране дисплея неполные слоги. В слогах отсутствуют начальные мягкиетвердые или конечные согласные. В соответствии со своим слуховым восприятием аудиторы вводят в ПЭВМ через клавиатуру недостающий (пропущенный) согласный в соответствующий вариант слога. По данным артикуляционных измерений вычисляют среднюю разборчивость. По данным измерений ПЭВМ формирует матрицу ошибок, обрабатывает ее и оформляет протокол измерений. Метод дописывания рекомендуется для оценки трактов в условиях низкой разборчивости.
Измерения качества речи методом парных сравнений с контрольным трактом. Измерения проводят путем прослушивания пар одинаковых фраз длительностью по 2 - 3 с на головные телефоны с выходов испытуемого и контрольного тракта. Аудитор проставляет в бланке заданной формы свои оценки качества речи по пятибалльной шкале с точностью до ОД, руководствуясь заданными в табл. 1.8 характеристиками речевого сигнала. Одинаковые оценки не допускаются.
Таблица 1.8
Класс Характеристика класса качества качества Речи
Высший Естественное звучание речи, отдельные малозаметные искажения, но тину помех. Искажения тина дребезжания, хрип отсутствует. Высокая узнаваемость.
Норма качества, баллы
4,5Некоторое нарушение естественности и узнаваемости,
слабое присутствие одного вида
3,6-4,5
искажения (картавость, хрины и
др.).
II
Заметное нарушение
естественности и ухудшение
узнаваемости, присутствие
2,6-3,5
нескольких видов искажение
(картавость, гнусавость, хрипы и
др.).
Постоянное присутствие искажений типа картавости, гнусавости, хрипов и др. Существенное
искажение естественности и
1,7-2,5
ухудшение узнаваемости.
IV
Сильные искажение типа
картавости, гнусавости, хрипов и
др.; механический голос.
1,7
Наблюдается потеря
естественности и узнаваемости.
Обработку полученных результатов проводят с целью получения средней балльной оценки испытуемого и контрольного тракта. Классы и нормы качества приведены в табл. 1.8. Метод рекомендуется использовать при аттестации аппаратуры по показателю качества речи.
Измерение качества речи методом оценки по селективным признакам.
Измерения проводит бригада аудиторов путем прослушивания фраз, прошедших через контрольный и испытуемый тракты. Фразы передают с интервалом 2 - 3 с, число прослушивания каждой фразы неограниченно. Аудиторы проводят сравнения звучания фразы, прошедший через контрольный тракт, и фразы, прошедший через испытуемый тракт, и определяют наличие следующих селективных признаков искажения в звучание речи относительно контрольного тракта: картавость, плаксивость, гнусавость, механический голос, дребезжание, хрип, помеха в паузах речи. Оценку признаков искажения признаков в балах осуществляют в соответствии с табл. 1.9.
Таблица 1.9
Степень искажения признака
Норма, балл
Отсутствует
0
Присутствует (редко встречается)
1
Выражен сильно (присутствует постоянно)
2
По данным измерений вычисляют среднее значение степени искажения каждого из шести селективных признаков. Метод рекомендуется использовать при углубленном анализе факторов искажения речи, а также для установления класса качества речи.
Измерение разборчивости, качества и узнаваемости голоса диктора методом нарных сравнений. Измерения проводят для двух трактов связи (испытуемого и другого, взятого для сравнения).
При измерении разборчивости речи бригада аудиторов прослушивают по 5 таблиц, переданных поочередно через сравниваемые тракты. По данным измерений определяют среднее значение слоговой разборчивости и абсолютную ошибку измерений для каждого тракта связи. При разнице в величине разборчивости для трактов менее половины абсолютной ошибки измерения тракты признают одинаковыми по этому показателю.
Аудитор отмечает на бланке или вводит в ПЭВМ нажатием на клавиатуре соответствующей клавиши фразу, представленную в паре, которой он отдает предпочтение по качеству звучания по критерию где больше нравится.
Измерения качества речи проводит бригада операторов, путем прослушивания фраз, прошедших через сравниваемые тракты. По окончании измерений определяют величину предпочтения одного тракта перед другим, характеризующую заметность в различии трактов по качеству речи. Пормы заметности приведены в табл. 1.10.
Таблица 1.10
Степень заметности
Характеристика
Нормы заметности (%)
0
Пезаметно
57,5
1
Едва заметно
58-65
2
Заметно
66-75
3
Сильно заметно
75
Измерение узнаваемости голоса диктора проводит бригада операторов путем прослушивания фраз диктора, прошедших через контрольный тракт, и фраз, прошедших через сравниваемые тракты. Аудитору предъявляют на прослушивание каждую фразу на голосе диктора три раза в следующей последовательности: фраза, прошедшая через контрольный тракт, и далее фразы, переданные через каждый из двух сравниваемых трактов в случайном порядке.
Аудитор на основании сравнения фразы, прошедший через контрольный тракт, и фраз, прошедших через сравниваемые тракты, отмечает на бланке или вводит в ПЭВМ путем нажатия на клавиатуре соответствующей клавиши фразу, представленную в паре, наиболее близкую к естественной по сохранению признаков узнаваемости голоса диктора.
По окончанию измерений определяют величину предпочтения одного из сравниваемых трактов по узнаваемости голоса диктора.
Степень заметности различия трактов приведена в табл. 1.8.
Данный метод рекомендуется применять при сравнении испытуемого тракта с каким-либо другим.
Измерения фразовой разборчивости при ускоренном темпе произнесения. Измерения проводят путем передачи по испытуемому тракту таблиц, состоящих из коротких (3 - 4 слова) фраз с фиксацией их правильного приема. В приеме таблиц участвует пара операторов: аудитор и контролер. Аудитор произносит в слух принятую фразу, а контролер фиксирует в отпечатанной таблице правильность ее приема, при этом измерения осуществляют при нормальном и искуренном темпе произнесения фраз. Причем с начала прослушивает таблицу фраз, прочитанную в нормальном темпе, затем другую таблицу, прочитанную тем же диктором в ускоренном темпе. Обработка результатов состоит в вычислении среднего значения разборчивости для ускоренного и нормального темпа произнесения фраз.
Этот метод применяется при углубленном анализе факторов искажения речи в тракты связи.
ГЛАВА 2 ПРИЛОЖЕНИЕ КРИТЕРИЕВ КАЧЕСТВА ВОССТАНОВЛЕНИЯ РЕЧИ К ОЦЕНИВАНИЮ КАЧЕСТВА ЕЕ ПАКЕТНОЙ ПЕРЕДАЧИ
2.1 Особенности пакетной передачи речи (на примере IР-телефонии)
Разнородность трафика в современных IP-сетях ставит вопрос о дифференцированном подходе к обеспечению различных приложений сетевыми ресурсами. Так, при передаче данных, как правило, задержка передачи и ее вариация не являются критичными, чего нельзя сказать о достоверности передачи. В случае передачи речи (голоса), напротив, наиболее важны характеристики задержки (и в первую очередь их вариации) и в меньшей степени достоверность.
Традиционно IР-трафик передается по методу best effort - лучший из возможных. В этом случае не гарантируется ни проверка готовности сети обеспечить поток данных сетевыми ресурсами, ни приоритетность. Другими словами, в независимости от того, к какому типу трафика относятся информационные пакеты (голос, видео, FTP (File Transfer Protocol) и т.д.), они обрабатываются по принципу первый пришел - первый получил обслуживание. Очевидно, что эта модель не подходит для передачи трафика со специфическими требованиями к задержке, производительности или надежности передачи данных. Для перехода к новым приложениям на сетях с коммутацией пакетов нужен свой механизм обеспечения качества передачи.
В такой структуре сети пакеты телефонного приложения должны отличаться от пакетов данных и это отличие должно фиксироваться узлами сети.
Хотя причины обеспечения качества услуг в сетях IP-телефонии взаимосвязаны, можно выделить четыре основные составляющие, значения которых можно определить независимо.
Задержка речевых пакетов. Задержка (delay) является неотъемлемым свойством любой сети передачи данных с пакетной коммутацией. Сети с коммутацией пакетов были созданы для передачи данных, и возможность их использования для передачи голосового или факсимильного трафика в реальном времени, по аналогии с традиционной телефонией, в значительной степени зависит от вносимой задержки. Здесь под задержкой понимается промежуток времени, за который пакет пересекает сеть IP-телефонии от отправителя до получателя. Исследования показали, что человеческое ухо нетерпимо к задержкам свыше 400-500 мс. Экспериментально установлено, что задержка в 150 мс обеспечивает очень хорошее качество, от 150 до 300 мс - почти не воспринимается на слух, но если она превышает величину 500 мс, то речь становится неразборчивой. Общая задержка при IP-телефонии складывается из задержек на оцифровку, сжатие, формирование голосового пакета, а также задержек при передаче по каналам, обработке и коммутации пакета в промежуточных узлах, локальной коммутации в приемном узле, декомпрессии и преобразовании к аналоговому виду. Основные средства для минимизации задержки - использование в сети высокопроизводительных голосовых коммутаторов и обеспечение приоритетов речевого трафика над трафиком данных.
Джиттер задержки пакетов. Джиггер (вариация задержки) - это разность во времени прохождения в сети последовательных пакетов одного соединения. Чем больше джиттер, тем сильнее будет отличаться задержка при передаче одного пакета от задержки при прохождении другого. Джиттер возникает в сети из-за очередей и маршрутизации пакетов одного сегмента речи по разным путям. При сборке пакетов на приемном конце их последовательность может быть нарушена. Джиттер приводит к специфическим нарушениям передачи речи, слышимым как трески и щелчки. Джиттер подавляют путем включения в приемную часть шлюза буфера статической или динамической памяти, который восстанавливает исходную последовательность пакетов. Пакеты, джиттер которых превышает время их "удержания" в буферной памяти, не воспринимаются приемным устройством. Таким образом, буфер подавляет джиттер ценой увеличения как общего времени задержки, так и потери пакетов; регулировка времени удержания (размера буфера) представляет собой компромисс между ними. По разным данным и в зависимости от типа кодека не воспринимается джиттер продолжительностью не более 15-50 мс
Потери речевых пакетов. Поскольку речевые пакеты не повторяются, при их потере (или искажении) в сети на приемной стороне появляется короткая пауза в речи. Частые потери речевых пакетов, вызванные плохим качеством каналов связи и перегрузками в сети, могут привести к ухудшению разборчивости речи, а иногда и к полной невозможности общения. Искажения от потери пакетов также зависят от применяемых в шлюзах типов кодеков. Качество речи при использовании низкоскоростных кодеков типа G.729 и G.723.1 в большей степени зависит от потери пакетов, по сравнению с высокоскоростными кодеками типа G.711. Приближенно можно считать, что в случае IP-телефонии хорошего качества допустимый уровень потерь пакетов не превышает 1-3%. При этом, меньшая величина (1%) относится к низкоскоростным кодекам, а большая (3%) - к высокоскоростным кодекам.
Готовность сети. Под готовностью сети (service availability) понимается надежность соединения пользователя с информационным сервисом. Применительно к сети IP-телефонии это означает надежность установления телефонного соединения между двумя абонентами. Телефонные сети общего пользования (ТфОП) имеют исключительно надежную инфраструктуру. Р1х коэффициент готовности составляет 99,999% ("пять девяток"), или 5 минут отказа за год. Сеть Интернет обладает низкой степенью надежности и не отвечает таким требованиям. Поэтому надежность в сетях IP-телефонии должна обеспечиваться аппаратными, программными и сетевыми средствами. Если в сети IP-телефонии используется технология динамической маршрутизации, трафик может передаваться в обход отказывающих участков сети, причем, в случае необходимости, для обхода могут использоваться каналы ТфОП. Современные шлюзы IP-телефонии имеют достаточно высокие показатели надежности. Коэффициент готовности с учетом резервирования составляет 99,999%, среднее время наработки между повреждениями (MTBF) - не менее 80-100 тысяч часов.
Первые три рассмотренные выше параметра качества работы сети IP-телефонии (задержка, джиттер и потери речевых пакетов) непосредственно влияют на качество передачи речевой информации. Эти параметры не характерны для обычных телефонных сетей, поэтому для оценки качества передачи пакетной речи требуются критерии, которые отличаются от тех, которые используются для нормирования аналоговых и цифровых телефонных каналов.
Ниже будут рассмотрены подробно некоторые критерии оценки качества передачи речи при IP- телефонии. Предваряя это рассмотрение, отметим следующее.
Ввиду различной природы передачи информации по каналам коммутируемой и IP-сети наиболее надежным способом сравнительной оценки качества передаваемой речи является субъективный метод общего мнения (Mean Opinion Score - MOS), изложенный в Рекомендациях ITU-T Р.800 и Р.830. Оценки MOS рассчитываются после прослушивания группой людей тестируемого тракта передачи речи по пятибалльной шкале. Оценки 3,5 баллов и выше соответствуют стандартному и высокому телефонному качеству, 3,0...3,5 - приемлемому, 2,5...3,0 - синтезированному звуку. Для передачи речи с хорошим качеством целесообразно ориентироваться на MOS не ниже 3,5 баллов.
Другим субъективным методом оценки является использование единиц рейтинга R (Quality Rating) по сто балльной шкале. Рекомендация ITU-T предписывает применение единиц R, которые и были использованы в последних материалах ETSI, Для расчета рейтинга R Международным союзом электросвязи была предложена Е-модель, описанная в рекомендации ITU-T G, 107 [9].
2.2. Оценка качества восстановления речи по критерию отношение сигналшум
Коррелированные с речевым сообщением шумы оказывают существенно меньшее отрицательное воздействие на качество воспроизведения речевого сообщения. Это не позволяет непосредственно суммировать мощность стационарных шумов аналоговых каналов с мощностью коррелированных с сообщением шумов в смешанном аналого-цифровом канале [13,16],
В связи с этим используется эквивалентное отношение ОСШэкв мощности сигнала к мощности стационарного шума в незанятом канале. Эквивалентность понимается как соответствие абонентских оценок влияния обеих категорий шума.
Зависимость ОСШэкв от отношения ОСШкорр мощности сигнала к мощности шума, коррелированного с речевым сообшением, и отношения ОСШфон мощности сигнала к мощности добавочного стационарного шума незанятого канала (фонового шума) экспериментально определена в [16], В указанной работе представлены две ее аппроксимации и графики, предложенные компанией AT&T (рис,2,1) и почтовым ведомством Великобритании (рис,2,2), В лабораторных экспериментах принималось, что фоновый шум имеет уровень в диапазоне 41-61 дБ, а уровень речевого сигнала занимает диапазон 67-91 дБ,
Приведем ряд примеров численных значений, составляющих ОСШэкв.
1. В качестве шумов, коррелированных с речевым сигналом, как правило, выступают шумы квантования. Для стандартной процедуры квантования в кодеках G,711 (ИКМ) ОСШкорр - 39,3 дБ [3], Зависимость ОСШ от уровня сигнала для кодека с характеристикой А = 87,6 приведена на рис.3
2. При адаптивной дифференциальной ИКМ (АДИКМ) [80] зависимости отношения сигналшум от относительного значения шага квантования ha (а - усредненное среднеквадратическое значение сигнала) приведены на рис,2.4 [14].
3. При реализации прерывистой передачи речи из-за принципов полосного цифрового вокодера [44,45,55] возникают шумы, коррелированные с речевым сообщением. В табл.2.1 представлены результаты для полосного вокодера, когда частотный диапазон канала по равно артикуляционному признаку делится на 11 полос, не одинаковых по ширине, но с равной долей формант АЛ^. =0,091 в каждой из них [4,15].
Таблица 2.1
Номер
полосы
Пределы
полосы, Гц
Значения отношений сигналшум, дБ
ОСШкорр
ОСШфо,
ОСШэкв
1
315
21,10
24,34
22,13
2
400
24,87
24,74
23,82
3
500
33,57
24,67
24,61
4
630
24,07
24,25
23,19
5
800
21,49
23,54
21,71
6
1000
20,17
22,74
20,49
7
1250
19,27
21,87
19,38
8
1600
18,60
20,97
18,37
9
2000
18,22
20,29
17,69
10
2500
17,93
19,84
17,21
11
3150
17,78
19,71
17,03
-
280-3500
22,71
23,96
22,52
При статистическом уплотнении посредством объединения цифровых потоков двух комплектов аналого-цифрового оборудования первичной ЦСП основной и дополнительный комплекты находятся в неравноценном положении [4,46,49-51,61-66,77,78,82,83]. Если речевой сигнал в основном комплекте подвергается, например, периодической дискретизации, то речевой сигнал дополнительного комплекта оказывается под воздействием стохастической дискретизации с уменьшенной интенсивностью потока отсчетов, В работе [4] произведено сопоставление качества передачи основного и дополнительного полукомплектов.
Для стандартной ЦСП при ОСШкв=39 дБ ОСШэкв составляет 76 дБ. При реализации фиксированного приоритета при ОСШкв=33 дБ (уменьшение ОСШкв связано с использованием одного бита кодового слова для передачи синдрома комплекта) получено значение ОСШэкв=24 дБ для дополнительного комплекта.
При нормировании параметров приемных устройств (например по ГОСТ 12252) используются значения ОСШ, определяюш;ие границы между неудовлетворительным, удовлетворительным, хорошим и отличным качеством воспроизведения речевого сообщения - 6, 12 и 20 дБ соответственно. Р1м по формуле (2.7) из [3] можно сопоставить границы слоговой разборчивости 51,8%, 64,3% и 76,1% соответственно, которые практически точно соответствуют известным градациям субъективной оценки качества (табл.2.2).
Таблица 2.2
S%
70
60-^70
504-60
20-50
класс
1-отличный
2-хороший
3-удовлетв.
4-неудовлетв
Можно продолжить перечисление примеров оценки качества воспроизведения речи, ориентированных на использование критерия ОСШэкв. Их результаты хорошо корреспондируются друг с другом и вписываются в границы, представленные рис.2.1 и рис.2.2.
Выше изложенный анализ не находится в соответствии непосредственно с результатами, предоставляемыми Е-моделью Международного союза электросвязи [9,11]. Ниже иллюстрируем это примером оценки шумов, связанных с процедурой отбраковки речевых пакетов.
2.3. Оценка качества восстановления речи по критериям разборчивости Задача определения аналитической зависимости показателей разборчивости речи от отношения сигналшум (ОСШэкв) на выходе воспроизводящего устройства решена в работах [1-3]. В работе [2] приведена зависимость слоговой разборчивости S,% от ОСШэкв, дБ для русскоязычного речевого сообщения (рис.2.5),
a в работе [3] - ее аппроксимация:
S = 35 + 65. [1 - ехр(- 0.05 :: ОСШ^,,,)]. (2.1)
Аппроксимация такой же зависимости, например, для сообщения на вьетнамском языке [4]:
S = 23 + 81 [1 - ехр (- 0,05 ОСШэкв )]. (2.2)
В работе [5] приведены экспериментальные зависимости разборчивости от отношения сигналшум в условиях достаточно специфических испытательных тестов, в которых получено соотношение между А-взвешенным отношением SN (ОСШ) для специальной лексики (односложные слова, предложения). На рис.2.5а изображены графики зависимости разборчивости слов, слогов от соотношения SN для различных методов испытаний РР [5]. Эти зависимости приблизительны, поскольку на них оказывает влияние целый ряд таких факторов как тип испытательного материала, мастерство дикторов и аудиторов и др. Приведенные зависимости получены при участии хорошо подготовленных дикторов и аудиторов за 8 трёхчасовых сессий. Цифрами на графике рис.2.5а обозначены кривые, полученные по результатам испытаний с использованием: 1.50-ти пар РВ слов; 2.256-ти односложных слов, выбранных случайно из 50-ти вариантов; 3.50-ти наборов по 2 РВ слова; 4.Ключевых слов, воспроизводимые однократно; 5.1000 односложных РВ слов из наборов 100 слов; б.Смеси односложных логатомов из 100 РВ слов, составленных из 1000 возможных слогов.
2.4. Оценка качества восстановления речи по критерию MOS
MOS (Mean Opinion Score) усредненный показатель мнений о качестве, представленный в Рекомендациях ITU-T Р.800 и Р.830 ... продолжение
МЕЖДУНAPOДНЫЙ УНИВEPCИТEТ ИНФOPМAЦИOННЫX ТEXНOЛOГИЙ
Ералы Умитжан Айтақыұлы
ОЦЕНКИ КАЧЕСТВА ВОСПРОИЗВЕДЕНИЯ РЕЧИ В IP-ТЕЛЕФОНИИ
МAГИCТEPCКAЯ ДИCCEPТAЦИЯ
Специальность:
7M06201 - Телекоммуникационные системы и сети
Aлмaты 2021
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН
МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
ФАКУЛЬТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
КАФЕДРА РЭТ
ДОПУЩЕН К ЗАЩИТЕ
Заведующий кафедрой
к.т.н. ассистент-профессор,
______________ Бахтиярова Е.А.
___ _____________2021
МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ
Оценки качества воспроизведения речи в IP-телефонии
МАГИСТРАНТ:
Ералы Умитжан Айтақыұлы
__ ________2021
_____________
(подпись)
РУКОВОДИТЕЛЬ:
Бахтиярова Елена Ажибековна __ ________2021
_____________
(подпись)
РЕЦЕНЗЕНТ:
Фамилия И.О.
__ ________2021
____________
(подпись)
НОРМОКОНТРОЛЕР:
Фамилия И.О.
__ ________2021
_____________
(подпись)
Алматы 2021
Аңдатпа
Осы магистрлік диссертацияда аналитикалық және имитациялық модельдеуді, сөйлеу сапасын объективті және субъективті бағалауды кешенді қолдана отырып, оларды пакеттік беру кезінде сөйлеу хабарламаларын қалпына келтіру теориясы қарастырылды.
Диссертация көлемі 60 бет, 11 суреттен, 10 кестеден, 30 әдебиет көзінен тұрады.
Түйінді сөздер: IP-телефония, сөйлеу сапасы, ықтималдықтар теориясы.
Аннотация
В данной магистерской диссертационной работе рассмотрены теории восстановления речевых сообщений при их пакетной передаче при комплексном использовании аналитического и имитационного моделирований, объективных и субъективных оценок качества речи.
Объем диссертации 60 страниц, он содержит 11 рисунков, 10 таблиц, 30 источников литературы.
Ключевые слова: IP-телефония, качество речи, теория вероятности.
Abstract
In this master's thesis, the theory of restoration of speech messages during their batch transmission with the complex use of analytical and simulation modeling, objective and subjective assessments of speech quality is considered.
The volume of the thesis is 60 pages, it contains 11 figures, 10 tables, 30 sources of literature.
Key words: IP-telephony, speech quality, probability theory.
ОСНОВНЫЕ СОКРАЩЕНИЯ И ОБОЗНАЧЕНИЯ
АДИКМ - адаптивно дифференциальная импульсно кодовая модуляция;
ИКМ - импульсно кодовая модуляция;
ОСШ - критерий отношения сигналшумна входе воспроизводящего устройства;
ПС - порог слышимости;
РИ - речевая информация;
PC - речевой сигнал;
РР - разборчивость речи;
ТКУРИ -технический канал утечки речевой информации;
ТфОН - телефонные сети общего пользования;
ц е п - цифровые системы передачи;
AI - индекс артикуляции (Articulation Index);
DALT - диагностические аллитерационные испытания (Diagnostic Alliteration Test);
DMCT - испытания по серединному согласному (Diagnostic Medial Consonant Test);
DRT - диагностические рифмованные испытания (DiagnosticRhymeTest);
MRT - модифицированные рифмованные испытания (Modified Rhyme Test); HPAST - испытание no Гарвардским психоакустическим предложениям;
HST - испытание по предложениям Хаскинса (Haskins Sentence Test);
ETSI - Европейского Института стандартов в электросвязи (European Telecommunications Standards Institute);
ITU-T - Международный Союз Электросвязи (International Telecommunication Union);
MOS - усредненный показатель мнений о качестве (Mean Opinion Score); MTI - индекс модуляции (Modulation Transfer Index);
PBWL - испытания с использованием фонематически сбалансированных списков слов (Phonematicaly Balanced Word List);
PSIL - уровень помех восприятию речи с привилегированной частотой (Preferred-frequency Speech Interference Level);
R - показатель качества R (Quality Rating); RASTI - быстрый индекс передачи речи; RT - рифмованные испытания (Rhyme Test);
SUS - испытание по семантически непредсказуемым предложениям (Semantic Unpredictable Sentences);
SII - индекс разборчивости речи; SIL - уровень помех восприятию речи (Speech Interference Level);
STI - индекс передачи речи передачи речи (Speech Transmission Index); STITEL - индекс передачи речи для телекоммуникационных систем;
SUS - испытание по семантически непредсказуемым предложениям (Semantic Unpredictable Sentences);
СОДЕРЖАНИЕ
ВВЕДЕНИЕ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
1 Обзор критериев оценивания качества речи ... ... ... ... ... ... ... ...
1.1 Категории речи. . ... ... ... ... ... ... ... ... ... ... ... ... ... ..
1.2. Оценка качества речи по ГОСТу 50840-95 ... ... ... ... ... ... ... ... .
2 Приложение критериев качества восстановления речи к оцениванию качества ее пакетной передачи ... ... ... ... ... ... ... ... ... ... ... ..
2.1. Особенности пакетной передачи речи ... ... ... ... ... ... ... ... ..
2.2 Оценка качества восстановления речи по критерию отношения сигналшум ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .
2.3 Оценка качества восстановления речи по критериям разборчивости
3 Объективные и субъективные оценки качества речи при аналитическом и имитационном моделировании ее пакетной ... ... ...
3.1 Аналитическое оценивание качества восстановления речи в IP-телефонии ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
3.2 Имитационное моделирование при оценивании качества восстановления речи в IP-телефонии ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
3.3 Сопоставление объективных и субъективных оценок качества речи при аналитическом и имитационном моделировании ее пакетной передачи ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
ЗАКЛЮЧЕНИЕ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .
Список использованных литератур ... ... ... ... ... ... ... ... ... ... ... ... ... ...
3
5
8
11
13
15
16
18
22
26
29
39
55
66
67
ВВЕДЕНИЕ
Актуальность темы. Развитие современных телекоммуникационных технологий и, в частности, IP -телефонии, связано с пакетной передачей речевой информации [1,35-43,58-60,67-75,81,84,85], при этом на приемной стороне возможно возникновение коротких пауз в речи вследствие потери речевых пакетов в IP-сетях из-за невозможности переспрашивания. Плохое качество каналов связи и перегрузки в сетях приводят к частым потерям речевых пакетов, что, в свою очередь, вызывает ухудшение разборчивости, а иногда и полную невозможность речевого общения.
Искажение речевой информации, вызванное потерей речевых пакетов, зависит от типа кодеков, применяемых в шлюзах IP-сети. От потери пакетов качество речи в большей степени зависит при использовании низкоскоростных кодеков по сравнению с высокоскоростными кодеками. Принято считать, что в IP-телефонии хорошего качества допустимый уровень потери пакетов может составлять 1-3%, причем меньшее значение относится к низкоскоростным кодекам, а большее - к высокоскоростным.
Для сравнительной оценки качества передаваемой речевой информации разработаны различные методы.
Одним из них является метод MOS (Mean Opinion Score), характеризующий усредненный показатель мнений о качестве и представленный в Рекомендациях ITU-T Р.800 и Р.830 [8].
Другим методом оценки является использование единиц рейтинга R (Quality Rating) по сто балльной шкале. Международным союзом электросвязи была предложена Е-модель, описанная в рекомендации ITU-T G.I07 [9], для расчета рейтинга R. Между MOS и R существует зависимость, представленная в [9].
Методы исследовання. В работе использованы методы теории вероятностей, математического анализа, статистические методы обработки экспериментальных данных.
Научная новизна. Степень научной новизны диссертации определяется тем, что она развивает теорию восстановления речевых сообщений при их пакетной передаче при комплексном использовании аналитического и имитационного моделирований, объективных и субъективных оценок качества речи.
Практическая ценность разработанных в диссертации математического аппарата и методов имитационного моделирования заключен предоставленной возможности получения объективных результатов оценки качества речи, использованных при анализе и проектировании конкретных цифровых систем пакетной передачи речевой информации.
Традиционным является метод, использующий критерий отношения сигналшум (ОСШ) на выходе воспроизводящего устройства и разборчивости [52-54,76,79].
Как будет показано ниже, существуют замечания, касающиеся как определения показателя R в Рекомендациях ITU-T, так и по поводу существенной несогласованности оценок качества пакетной передачи речи, предоставляемых критериями MOS и Е-модели и критериями ОСШ и разборчивости.
В связи с изложенными проблемами развития телекоммуникационных технологий анализ различных критериев оценки качества пакетной передачи речевой информации методами аналитического и имитационного моделирования представляется важной и актуальной научно-технической задачей.
Цель работы состоит в совершенствовании методики и критериев оценивания качества пакетной передачи речи путем использования аналитического и имитационного моделирований, выяснении физической сути различных подходов, используемых для оценки качества и выработке необходимых рекомендаций для практического применения используемых методов.
Реализуется следующая последовательность решения задач диссертационной работы:
1.Аналитический обзор критериев оценивания качества речи и их приложений к оцениванию качества пакетной передачи речевой информации.
2.Аналитическое оценивание качества восстановления речи в IP-телефонии по критерию отношения сигнал шум и критерию MOS и Е-модели.
3. Оценивание качества восстановления речи в IP-телефонии на основе использования имитационного моделирования процессов потери пакетов речи и процессов ее восстановления.
4.Сопоставление объективных и субъективных оценок качества речи при аналитическом и имитационном моделировании ее пакетной передачи
ГЛАВА 1 ОБЗОР КРИТЕРИЕВ ОЦЕНИВАНИЯ КАЧЕСТВА РЕЧИ
1.1 Категории речи
Речь по зарубежной классификации разделяется на три категории [22]:
Неусиленная речь - обычная речь, используемая при разговоре лицом к лицу (характерная для прямых акустических методов объективной оценки показателей защищенности речевой информации (РИ) от утечки по техническим каналам ТКУРИ),
Усиленная речь - имеет место в системах, где передается форма исходного речевого сигнала (например, системы IP- телефонии при применении кодека рекомендации G.711 стандарта Н,323),
Вокодерная или синтетическая речь - имеет место в системах, где форма исходного речевого сигнала (PC) не передается (например, системы IP-телефонии при применении кодеков семейства рекомендаций стандарта Н,323 за исключением рекомендации G,711),
Вокодерные системы не могут быть проверены с использованием объективно-ориентированных методов, таких как рассмотренные ниже RASTI,AI, или прямые физические измерения. Вместо этого проводятся артикуляционные испытания разборчивости. Причина этого в акустических особенностях неестественной речи, В синтетической речи различия между фонемами могут быть меньше, её спектральное распределение иное, чем у реальной. Обычно списки слов как испытательный материал, используются чаще, чем предложения потому, что предложения обеспечивают грамматические и контекстные ключи, позволяющие угадать слова.
Рассмотрим методы определения разборчивости речи (РР) для каждой категории [22],
1.2Артикуляционные испытания
Испытание разборчивости - прямой, иногда единственный путь
испытания качества речевой связи. При таких испытаниях диктором зачитывается набор сообщений (стимулов), аудитор делает отметки в ответном листе и подсчитывается число ошибок, сделанных аудитором. Испытания обычно применяются в научных исследованиях, они удобны для прослеживания влияния различных факторов на разборчивость речи. Наиболее часто за рубежом применяются сегментальные испытания с использованием фонематически сбалансированных списков слов (PBWL,Phonematicaly Balanced Word List), рифмованные испытания (RT,Rhyme
Test), по методам диагностического рифмованного иcпытaния(DRT,DiagnosticRhymeTest), модифицированного рифмованного иcпытaния(MRT,Modifled Rhyme test), испытание по серединному coглacнoмy(DMCT,Diagnostic Medial Consonant Test), диагностическое аллитерационное HcnbiTaHHe(DALT,Diagnostic ALliteration Test) и др. [22].
Кроме того используются различные варианты испытания разборчивости слов в предложениях.
Рассмотрим содержание этих испытаний.
Сегментальные испытания. Сегментальные методы испытывают разборчивость отдельных фонем или сегментов речи. Используются несущие предложения, включающие испытательные слова (например Напишите [испытательное слово] сейчас). Предложения возбуждают реверберационное поле до того, как испытательное слово будет произнесено. Испытательные слова произносятся без ударения и выражения, несущие предложения одни и те же для любого испытательного слова. Это необходимо для того, чтобы должным образом учесть эффект реверберации.
Фонематически сбалансированные спис ки слов PBWL [22].
Испытательные материалы состоят из двадцати списков по 50 фонематически сбалансированных слов, то есть слова, подобраны так, что встречаемость фонем, их составляющих, та же, что и в нормальной повседневной речи. Иногда, аудитору зачитываются слова из различных списков в случайном порядке, чтобы он не мог угадать, какое слово услышит. Результаты испытания определяются, как процент корректно идентифицированных слов от числа всех воспроизведённых слов.
Метод испытания разборчивости при PBWL требует большего количества обученных аудиторов и дикторов, чем другие статистические испытания, и особенно чувствителен к соотношению сигналшум (SN): небольшое изменение SN вызывает большие изменения результатов.
Рифмованные испытания RT [22]. Методы MRT, DRT, DMCT и DALT, описанные ниже, объединяют в группу рифмованные испытания, наиболее полезные для сравнения систем связи, находящихся в одних и тех же условиях.
Диагностическое рифмованное испытание DRT [23] использует набор отдельных слов для испытания разборчивости согласных в начале слов. Тестовый материал состоит из 96 пар слов, отличающихся только по начальному согласному. Среди этих слов выделены категории по шести отличительным особенностям. Результаты по этим шести категориям усредняют и получают значение общей разборчивости. Несущие предложения не используются. Задача аудитора указать, догадываясь, если он не уверен, какое слово из двух представленных ему слов, воспроизведено в ответном листе.
Результатом DRT, является процент скорее правильно угаданных слов, чем корректно идентифицированных. Таким образом, 50 % правильно идентифицированных слов соответствует уровню DRT= 0; 75 % слов - уровню DRT= 50; 100 % слов - уровню DRT= 100.
DRT - широко используемый метод с большой диагностической информативностью о разборчивости согласных. Испытание может быть осуществлено за малое время. Однако DRT слабо проверяет разборчивость гласных и испытательный материал весьма ограничен, иснытательные стимулы не равновероятны (не тестируются все возможные вариации согласных).
Модифицированное рифмованное исиытание MRT (расширение DRT [23,25]) - испытание на разборчивость согласных, находящихся и в начале и в конце слов.
Испытание по серединному согласному DMCT - модификация DRT
Его испытательные материалы состоят из 96 пар двусложных слов, отобранных по отличию в серединном согласном, с выделением категорий как BDRT.
Диагностическое аллитерациоиное испытание DALT - модификация DRT [25]. Испытательные материалы DALT состоят из 96 пар односложных слов, отобранных так, чтобы отличаться по заключительному согласному с выделением категорий как в DRT.
Достоинства рифмованных испытаний: возможность привлечения небольшого числа (10 - 20) необученных дикторов и аудиторов без ущерба для достоверности результатов; легкость и быстрота проведения испытания.
Другие сегментальные испытания.
Стандартное сегментальное HcnbiTaHne(SST -- Standard Segmental Test) использует списки бессмысленных слов (логатомов-не существующих в языке слов), имеющих структуру типа CV, VC, и VCV [25]. Основные элементы испытательного материала это все согласные и три гласных звука (a,i, и и). Для каждого предъявленного аудитору стимула, в ответном листе должен быть вписан, отсутствующий в нём согласный, таким образом, гласные не тестируются вообще.
Испытание переходов согласный-гласный с использованием логатомов дает возможность тестировать переходы между гласными и согласными [25] (наиболее часто используемых методов оценки синтетической речи, применимый для речи вообще). Испытательные слова обычно симметричные.
Испытание по идептифпкацип группы (CLID, CLuster IDentification Test). Испытательный материал не предопределен, а генерируется для каждого испытания отдельно.
Процедура испытания состоит из трех главных стадий: генерации слов, фонемно-графемной конверсии и автоматического подсчета. На стадии генерации слова создаётся испытательный материал в фонетическом представлении. Пользователь может определять число генерируемых слов, структуру слога и частоту возникновения, отдельно для начальной, срединной и заключительной групп. Структуры слогов могут также быть генерированы в соответствии с их статистическим распределением. Например, структура CCVC встречается чаще, чем CCCVCCC. Используемые слова - обычно логатомы.
Тестироваппе с произпесепием слова по буквам (SpAT,Spelling Alphabet Test) разработано в ВМФ США для статистического испытания словесной разборчивости. Используются слова, стандартизированные ICAO (Международной организацией гражданской авиации) [25].
Испытания разборчивости слов в предложениях.
Предложения обычно подбираются в соответствии со встречаемостью слов в данном языке. В отличие от сегментальных испытаний, некоторые элементы могут быть пропущены аудитором. Но данный им ответ может быть корректным, особенно, если используются осмысленные предложения (контекстные и грамматические ключи дают возможность угадывать пропущенные элементы).
Испытание по Гарвардским психоакустическим предложениям
(HPAST) - закрытому набору из 100 предложений, разработанных, чтобы
проверить словесную разборчивость в контексте предложения [25].
Предложения выбраны так, чтобы различные фонемы языка были представлены в соответствии с частотой их возникновения.
Испытание по предложепиям Хаскинса (HST - Haskins Sentence Test), также разработанным для испытания словесной разборчивости в предложениях [25]. Но, в отличие от Гарвардских предложений, они бессмысленны, а, следовательно, пропущенные в силу своей неразборчивости, элементы нельзя угадать по контексту. Как и в Гарвардском испытании используется определенный набор предложений, но только однажды, что повышает достоверность результатов и нейтрализует эффект узнавания.
Предложения более трудны для восприятия, чем Гарвардские (в реальной речи не встречаются).
Испытанпе по семантически непредсказуемым предло жениям
(SUS -- Semantic Unpredictable Sentences). Используемые в испытаниях слова,
основном односложные, отобраны в случайном порядке из предопределенного списка возможных слов.
Сравнивая испытания можно отметить, что испытание HPAST выполняется легко, не требует обучения, подсчет результатов прост, но при использовании установленного набора предложений, проявляется эффект узнавания. Этого недостатка лишены SUS и nST, в них отсутствуют ключи, так как в SUS испытательные предложения не имеют смысла, а в HST испытательные предложения формируются в ходе самого испытания.
1.6. Оценка качества речи по ГОСТу 50840-95
1994 году Московским государственным университетом и воинской частью 93901 разработан ГОСТ Р 50840-95. Он принят и введен в действие постановлением Госстандарта России от 21.11.95 №579.
Стандарт регламентирует получение комплексной оценки качества передачи речи, основанной на методах измерения показателей разборчивости и качества. Комплексная оценка включает в себя значения слоговой разборчивости, показателя заметности искажения качества речи в тракте (аппаратуре) связи по методу парных сравнений относительно контрольного тракта, показателя заметности искажения шести селективных признаков (картавость, гнусавость и др.), а также ряда других оценок. Стандарт распространяется на телефонную проводную и радиосвязи, в которьгх используется аналоговый речевой сигнал. Включая в себя устройства, содержащие преобразователи речевого сигнала в цифровую форму, синтезаторы речи, данный стандарт устанавливает нормы качества передачи (воспроизведения) речи и методы измерений:
- разборчивости речи методом артикуляционных измерений;
- разборчивости речи методом артикуляционных измерений по таблицам неполных слогов (метод дописывания); качества речи методом парных сравнений испытуемого и контрольного трактов;
качества речи методом оценки величины заметности искажений селективных признаков;
разборчивости, качества речи и узнаваемости голоса диктора метода парных сравнений;
фразовой разборчивости в испытуемом тракте при ускоренном в 1,4 - 1,6 раза по сравнению с нормальным темпом произнесения.
данном стандарте применяются следующие термины с соответствующими определениями.
Под разборчивостью речи понимается относительное количество (в процентах) правильно принятых элементов (слог, слово, фраза) артикуляционных таблиц.
Термином качество речи обозначается величина, характеризующая субъективную оценку звучания речи в испытуемом тракте по сравнению, во-первых, со звучанием в контрольном тракте (принятым за 5 баллов), и, во-вторых, по сравнению со звучанием речи в другом тракте (в процентах предпочтения).
Узнаваемость голоса диктора определяется как величина, характеризующая степень сохранения субъективно воспринимаемых индивидуальных признаков голоса в испытуемом тракте.
Измерение разборчивости речи артикуляционными методами.
Измерения проводит бригада операторов в возрасте от 18 до 30 лет путем прослушивания на головные телефоны слоговых артикуляционных таблиц. Чтение слогов осуществляется диктором ровным голосом, четко, но без подчеркивания отдельных звуков, с постоянным уровнем речи. Слоги следует читать в ритме 1 слог в (3+-0,3) с. Аудитор записывает принятые слоги в бланк установленной формы. Если диктор не понял переданного слога, он подчеркивает соответствующую строку в бланке принятых слогов.
Для каждого измерения вычисляется среднее значение разборчивости.
Классы качества и нормы разборчивости речи приведены в табл. 1.7.
Таблица 1.7
Норма слоговой
Порма слоговой
Характеристика класса
разборчивости
разборчивости
Класс
речи для трактов с
для трактов с
качества
качества
параметрическим
кодированием
компандированием.
волны речевого
%
сигнала, %
Высший
Понимание передаваемой
речи без малейшего
93
80
напряжения внимания
I
Понимание передаваемой
86-93
56-80
речи без затруднений
II
Понимание с напряжения
внимания без переспросов
76-85
41-55
и повторений
Понимания передаваемой речи с некоторым
напряжением внимания.
61-75
25-40
редкими переспросами и
повторениями
IV
Понимание передаваемой
речи с большим
напряжением, частыми
45-60
25
переспросами и
повторениями
Данный метод рекомендуется применять при аттестации тракта (аппаратуры) связи.
Измерение разборчивости речи артикуляционными методами, но таблицам неполных слогов. Этот метод используется при наличии ПЭВМ с устройством ввода-вывода речевой информации. При этом аудиторы прослушивают на головные телефоны тексты таблиц, выводимые на ПЭВМ, и одновременно наблюдают на экране дисплея неполные слоги. В слогах отсутствуют начальные мягкиетвердые или конечные согласные. В соответствии со своим слуховым восприятием аудиторы вводят в ПЭВМ через клавиатуру недостающий (пропущенный) согласный в соответствующий вариант слога. По данным артикуляционных измерений вычисляют среднюю разборчивость. По данным измерений ПЭВМ формирует матрицу ошибок, обрабатывает ее и оформляет протокол измерений. Метод дописывания рекомендуется для оценки трактов в условиях низкой разборчивости.
Измерения качества речи методом парных сравнений с контрольным трактом. Измерения проводят путем прослушивания пар одинаковых фраз длительностью по 2 - 3 с на головные телефоны с выходов испытуемого и контрольного тракта. Аудитор проставляет в бланке заданной формы свои оценки качества речи по пятибалльной шкале с точностью до ОД, руководствуясь заданными в табл. 1.8 характеристиками речевого сигнала. Одинаковые оценки не допускаются.
Таблица 1.8
Класс Характеристика класса качества качества Речи
Высший Естественное звучание речи, отдельные малозаметные искажения, но тину помех. Искажения тина дребезжания, хрип отсутствует. Высокая узнаваемость.
Норма качества, баллы
4,5Некоторое нарушение естественности и узнаваемости,
слабое присутствие одного вида
3,6-4,5
искажения (картавость, хрины и
др.).
II
Заметное нарушение
естественности и ухудшение
узнаваемости, присутствие
2,6-3,5
нескольких видов искажение
(картавость, гнусавость, хрипы и
др.).
Постоянное присутствие искажений типа картавости, гнусавости, хрипов и др. Существенное
искажение естественности и
1,7-2,5
ухудшение узнаваемости.
IV
Сильные искажение типа
картавости, гнусавости, хрипов и
др.; механический голос.
1,7
Наблюдается потеря
естественности и узнаваемости.
Обработку полученных результатов проводят с целью получения средней балльной оценки испытуемого и контрольного тракта. Классы и нормы качества приведены в табл. 1.8. Метод рекомендуется использовать при аттестации аппаратуры по показателю качества речи.
Измерение качества речи методом оценки по селективным признакам.
Измерения проводит бригада аудиторов путем прослушивания фраз, прошедших через контрольный и испытуемый тракты. Фразы передают с интервалом 2 - 3 с, число прослушивания каждой фразы неограниченно. Аудиторы проводят сравнения звучания фразы, прошедший через контрольный тракт, и фразы, прошедший через испытуемый тракт, и определяют наличие следующих селективных признаков искажения в звучание речи относительно контрольного тракта: картавость, плаксивость, гнусавость, механический голос, дребезжание, хрип, помеха в паузах речи. Оценку признаков искажения признаков в балах осуществляют в соответствии с табл. 1.9.
Таблица 1.9
Степень искажения признака
Норма, балл
Отсутствует
0
Присутствует (редко встречается)
1
Выражен сильно (присутствует постоянно)
2
По данным измерений вычисляют среднее значение степени искажения каждого из шести селективных признаков. Метод рекомендуется использовать при углубленном анализе факторов искажения речи, а также для установления класса качества речи.
Измерение разборчивости, качества и узнаваемости голоса диктора методом нарных сравнений. Измерения проводят для двух трактов связи (испытуемого и другого, взятого для сравнения).
При измерении разборчивости речи бригада аудиторов прослушивают по 5 таблиц, переданных поочередно через сравниваемые тракты. По данным измерений определяют среднее значение слоговой разборчивости и абсолютную ошибку измерений для каждого тракта связи. При разнице в величине разборчивости для трактов менее половины абсолютной ошибки измерения тракты признают одинаковыми по этому показателю.
Аудитор отмечает на бланке или вводит в ПЭВМ нажатием на клавиатуре соответствующей клавиши фразу, представленную в паре, которой он отдает предпочтение по качеству звучания по критерию где больше нравится.
Измерения качества речи проводит бригада операторов, путем прослушивания фраз, прошедших через сравниваемые тракты. По окончании измерений определяют величину предпочтения одного тракта перед другим, характеризующую заметность в различии трактов по качеству речи. Пормы заметности приведены в табл. 1.10.
Таблица 1.10
Степень заметности
Характеристика
Нормы заметности (%)
0
Пезаметно
57,5
1
Едва заметно
58-65
2
Заметно
66-75
3
Сильно заметно
75
Измерение узнаваемости голоса диктора проводит бригада операторов путем прослушивания фраз диктора, прошедших через контрольный тракт, и фраз, прошедших через сравниваемые тракты. Аудитору предъявляют на прослушивание каждую фразу на голосе диктора три раза в следующей последовательности: фраза, прошедшая через контрольный тракт, и далее фразы, переданные через каждый из двух сравниваемых трактов в случайном порядке.
Аудитор на основании сравнения фразы, прошедший через контрольный тракт, и фраз, прошедших через сравниваемые тракты, отмечает на бланке или вводит в ПЭВМ путем нажатия на клавиатуре соответствующей клавиши фразу, представленную в паре, наиболее близкую к естественной по сохранению признаков узнаваемости голоса диктора.
По окончанию измерений определяют величину предпочтения одного из сравниваемых трактов по узнаваемости голоса диктора.
Степень заметности различия трактов приведена в табл. 1.8.
Данный метод рекомендуется применять при сравнении испытуемого тракта с каким-либо другим.
Измерения фразовой разборчивости при ускоренном темпе произнесения. Измерения проводят путем передачи по испытуемому тракту таблиц, состоящих из коротких (3 - 4 слова) фраз с фиксацией их правильного приема. В приеме таблиц участвует пара операторов: аудитор и контролер. Аудитор произносит в слух принятую фразу, а контролер фиксирует в отпечатанной таблице правильность ее приема, при этом измерения осуществляют при нормальном и искуренном темпе произнесения фраз. Причем с начала прослушивает таблицу фраз, прочитанную в нормальном темпе, затем другую таблицу, прочитанную тем же диктором в ускоренном темпе. Обработка результатов состоит в вычислении среднего значения разборчивости для ускоренного и нормального темпа произнесения фраз.
Этот метод применяется при углубленном анализе факторов искажения речи в тракты связи.
ГЛАВА 2 ПРИЛОЖЕНИЕ КРИТЕРИЕВ КАЧЕСТВА ВОССТАНОВЛЕНИЯ РЕЧИ К ОЦЕНИВАНИЮ КАЧЕСТВА ЕЕ ПАКЕТНОЙ ПЕРЕДАЧИ
2.1 Особенности пакетной передачи речи (на примере IР-телефонии)
Разнородность трафика в современных IP-сетях ставит вопрос о дифференцированном подходе к обеспечению различных приложений сетевыми ресурсами. Так, при передаче данных, как правило, задержка передачи и ее вариация не являются критичными, чего нельзя сказать о достоверности передачи. В случае передачи речи (голоса), напротив, наиболее важны характеристики задержки (и в первую очередь их вариации) и в меньшей степени достоверность.
Традиционно IР-трафик передается по методу best effort - лучший из возможных. В этом случае не гарантируется ни проверка готовности сети обеспечить поток данных сетевыми ресурсами, ни приоритетность. Другими словами, в независимости от того, к какому типу трафика относятся информационные пакеты (голос, видео, FTP (File Transfer Protocol) и т.д.), они обрабатываются по принципу первый пришел - первый получил обслуживание. Очевидно, что эта модель не подходит для передачи трафика со специфическими требованиями к задержке, производительности или надежности передачи данных. Для перехода к новым приложениям на сетях с коммутацией пакетов нужен свой механизм обеспечения качества передачи.
В такой структуре сети пакеты телефонного приложения должны отличаться от пакетов данных и это отличие должно фиксироваться узлами сети.
Хотя причины обеспечения качества услуг в сетях IP-телефонии взаимосвязаны, можно выделить четыре основные составляющие, значения которых можно определить независимо.
Задержка речевых пакетов. Задержка (delay) является неотъемлемым свойством любой сети передачи данных с пакетной коммутацией. Сети с коммутацией пакетов были созданы для передачи данных, и возможность их использования для передачи голосового или факсимильного трафика в реальном времени, по аналогии с традиционной телефонией, в значительной степени зависит от вносимой задержки. Здесь под задержкой понимается промежуток времени, за который пакет пересекает сеть IP-телефонии от отправителя до получателя. Исследования показали, что человеческое ухо нетерпимо к задержкам свыше 400-500 мс. Экспериментально установлено, что задержка в 150 мс обеспечивает очень хорошее качество, от 150 до 300 мс - почти не воспринимается на слух, но если она превышает величину 500 мс, то речь становится неразборчивой. Общая задержка при IP-телефонии складывается из задержек на оцифровку, сжатие, формирование голосового пакета, а также задержек при передаче по каналам, обработке и коммутации пакета в промежуточных узлах, локальной коммутации в приемном узле, декомпрессии и преобразовании к аналоговому виду. Основные средства для минимизации задержки - использование в сети высокопроизводительных голосовых коммутаторов и обеспечение приоритетов речевого трафика над трафиком данных.
Джиттер задержки пакетов. Джиггер (вариация задержки) - это разность во времени прохождения в сети последовательных пакетов одного соединения. Чем больше джиттер, тем сильнее будет отличаться задержка при передаче одного пакета от задержки при прохождении другого. Джиттер возникает в сети из-за очередей и маршрутизации пакетов одного сегмента речи по разным путям. При сборке пакетов на приемном конце их последовательность может быть нарушена. Джиттер приводит к специфическим нарушениям передачи речи, слышимым как трески и щелчки. Джиттер подавляют путем включения в приемную часть шлюза буфера статической или динамической памяти, который восстанавливает исходную последовательность пакетов. Пакеты, джиттер которых превышает время их "удержания" в буферной памяти, не воспринимаются приемным устройством. Таким образом, буфер подавляет джиттер ценой увеличения как общего времени задержки, так и потери пакетов; регулировка времени удержания (размера буфера) представляет собой компромисс между ними. По разным данным и в зависимости от типа кодека не воспринимается джиттер продолжительностью не более 15-50 мс
Потери речевых пакетов. Поскольку речевые пакеты не повторяются, при их потере (или искажении) в сети на приемной стороне появляется короткая пауза в речи. Частые потери речевых пакетов, вызванные плохим качеством каналов связи и перегрузками в сети, могут привести к ухудшению разборчивости речи, а иногда и к полной невозможности общения. Искажения от потери пакетов также зависят от применяемых в шлюзах типов кодеков. Качество речи при использовании низкоскоростных кодеков типа G.729 и G.723.1 в большей степени зависит от потери пакетов, по сравнению с высокоскоростными кодеками типа G.711. Приближенно можно считать, что в случае IP-телефонии хорошего качества допустимый уровень потерь пакетов не превышает 1-3%. При этом, меньшая величина (1%) относится к низкоскоростным кодекам, а большая (3%) - к высокоскоростным кодекам.
Готовность сети. Под готовностью сети (service availability) понимается надежность соединения пользователя с информационным сервисом. Применительно к сети IP-телефонии это означает надежность установления телефонного соединения между двумя абонентами. Телефонные сети общего пользования (ТфОП) имеют исключительно надежную инфраструктуру. Р1х коэффициент готовности составляет 99,999% ("пять девяток"), или 5 минут отказа за год. Сеть Интернет обладает низкой степенью надежности и не отвечает таким требованиям. Поэтому надежность в сетях IP-телефонии должна обеспечиваться аппаратными, программными и сетевыми средствами. Если в сети IP-телефонии используется технология динамической маршрутизации, трафик может передаваться в обход отказывающих участков сети, причем, в случае необходимости, для обхода могут использоваться каналы ТфОП. Современные шлюзы IP-телефонии имеют достаточно высокие показатели надежности. Коэффициент готовности с учетом резервирования составляет 99,999%, среднее время наработки между повреждениями (MTBF) - не менее 80-100 тысяч часов.
Первые три рассмотренные выше параметра качества работы сети IP-телефонии (задержка, джиттер и потери речевых пакетов) непосредственно влияют на качество передачи речевой информации. Эти параметры не характерны для обычных телефонных сетей, поэтому для оценки качества передачи пакетной речи требуются критерии, которые отличаются от тех, которые используются для нормирования аналоговых и цифровых телефонных каналов.
Ниже будут рассмотрены подробно некоторые критерии оценки качества передачи речи при IP- телефонии. Предваряя это рассмотрение, отметим следующее.
Ввиду различной природы передачи информации по каналам коммутируемой и IP-сети наиболее надежным способом сравнительной оценки качества передаваемой речи является субъективный метод общего мнения (Mean Opinion Score - MOS), изложенный в Рекомендациях ITU-T Р.800 и Р.830. Оценки MOS рассчитываются после прослушивания группой людей тестируемого тракта передачи речи по пятибалльной шкале. Оценки 3,5 баллов и выше соответствуют стандартному и высокому телефонному качеству, 3,0...3,5 - приемлемому, 2,5...3,0 - синтезированному звуку. Для передачи речи с хорошим качеством целесообразно ориентироваться на MOS не ниже 3,5 баллов.
Другим субъективным методом оценки является использование единиц рейтинга R (Quality Rating) по сто балльной шкале. Рекомендация ITU-T предписывает применение единиц R, которые и были использованы в последних материалах ETSI, Для расчета рейтинга R Международным союзом электросвязи была предложена Е-модель, описанная в рекомендации ITU-T G, 107 [9].
2.2. Оценка качества восстановления речи по критерию отношение сигналшум
Коррелированные с речевым сообщением шумы оказывают существенно меньшее отрицательное воздействие на качество воспроизведения речевого сообщения. Это не позволяет непосредственно суммировать мощность стационарных шумов аналоговых каналов с мощностью коррелированных с сообщением шумов в смешанном аналого-цифровом канале [13,16],
В связи с этим используется эквивалентное отношение ОСШэкв мощности сигнала к мощности стационарного шума в незанятом канале. Эквивалентность понимается как соответствие абонентских оценок влияния обеих категорий шума.
Зависимость ОСШэкв от отношения ОСШкорр мощности сигнала к мощности шума, коррелированного с речевым сообшением, и отношения ОСШфон мощности сигнала к мощности добавочного стационарного шума незанятого канала (фонового шума) экспериментально определена в [16], В указанной работе представлены две ее аппроксимации и графики, предложенные компанией AT&T (рис,2,1) и почтовым ведомством Великобритании (рис,2,2), В лабораторных экспериментах принималось, что фоновый шум имеет уровень в диапазоне 41-61 дБ, а уровень речевого сигнала занимает диапазон 67-91 дБ,
Приведем ряд примеров численных значений, составляющих ОСШэкв.
1. В качестве шумов, коррелированных с речевым сигналом, как правило, выступают шумы квантования. Для стандартной процедуры квантования в кодеках G,711 (ИКМ) ОСШкорр - 39,3 дБ [3], Зависимость ОСШ от уровня сигнала для кодека с характеристикой А = 87,6 приведена на рис.3
2. При адаптивной дифференциальной ИКМ (АДИКМ) [80] зависимости отношения сигналшум от относительного значения шага квантования ha (а - усредненное среднеквадратическое значение сигнала) приведены на рис,2.4 [14].
3. При реализации прерывистой передачи речи из-за принципов полосного цифрового вокодера [44,45,55] возникают шумы, коррелированные с речевым сообщением. В табл.2.1 представлены результаты для полосного вокодера, когда частотный диапазон канала по равно артикуляционному признаку делится на 11 полос, не одинаковых по ширине, но с равной долей формант АЛ^. =0,091 в каждой из них [4,15].
Таблица 2.1
Номер
полосы
Пределы
полосы, Гц
Значения отношений сигналшум, дБ
ОСШкорр
ОСШфо,
ОСШэкв
1
315
21,10
24,34
22,13
2
400
24,87
24,74
23,82
3
500
33,57
24,67
24,61
4
630
24,07
24,25
23,19
5
800
21,49
23,54
21,71
6
1000
20,17
22,74
20,49
7
1250
19,27
21,87
19,38
8
1600
18,60
20,97
18,37
9
2000
18,22
20,29
17,69
10
2500
17,93
19,84
17,21
11
3150
17,78
19,71
17,03
-
280-3500
22,71
23,96
22,52
При статистическом уплотнении посредством объединения цифровых потоков двух комплектов аналого-цифрового оборудования первичной ЦСП основной и дополнительный комплекты находятся в неравноценном положении [4,46,49-51,61-66,77,78,82,83]. Если речевой сигнал в основном комплекте подвергается, например, периодической дискретизации, то речевой сигнал дополнительного комплекта оказывается под воздействием стохастической дискретизации с уменьшенной интенсивностью потока отсчетов, В работе [4] произведено сопоставление качества передачи основного и дополнительного полукомплектов.
Для стандартной ЦСП при ОСШкв=39 дБ ОСШэкв составляет 76 дБ. При реализации фиксированного приоритета при ОСШкв=33 дБ (уменьшение ОСШкв связано с использованием одного бита кодового слова для передачи синдрома комплекта) получено значение ОСШэкв=24 дБ для дополнительного комплекта.
При нормировании параметров приемных устройств (например по ГОСТ 12252) используются значения ОСШ, определяюш;ие границы между неудовлетворительным, удовлетворительным, хорошим и отличным качеством воспроизведения речевого сообщения - 6, 12 и 20 дБ соответственно. Р1м по формуле (2.7) из [3] можно сопоставить границы слоговой разборчивости 51,8%, 64,3% и 76,1% соответственно, которые практически точно соответствуют известным градациям субъективной оценки качества (табл.2.2).
Таблица 2.2
S%
70
60-^70
504-60
20-50
класс
1-отличный
2-хороший
3-удовлетв.
4-неудовлетв
Можно продолжить перечисление примеров оценки качества воспроизведения речи, ориентированных на использование критерия ОСШэкв. Их результаты хорошо корреспондируются друг с другом и вписываются в границы, представленные рис.2.1 и рис.2.2.
Выше изложенный анализ не находится в соответствии непосредственно с результатами, предоставляемыми Е-моделью Международного союза электросвязи [9,11]. Ниже иллюстрируем это примером оценки шумов, связанных с процедурой отбраковки речевых пакетов.
2.3. Оценка качества восстановления речи по критериям разборчивости Задача определения аналитической зависимости показателей разборчивости речи от отношения сигналшум (ОСШэкв) на выходе воспроизводящего устройства решена в работах [1-3]. В работе [2] приведена зависимость слоговой разборчивости S,% от ОСШэкв, дБ для русскоязычного речевого сообщения (рис.2.5),
a в работе [3] - ее аппроксимация:
S = 35 + 65. [1 - ехр(- 0.05 :: ОСШ^,,,)]. (2.1)
Аппроксимация такой же зависимости, например, для сообщения на вьетнамском языке [4]:
S = 23 + 81 [1 - ехр (- 0,05 ОСШэкв )]. (2.2)
В работе [5] приведены экспериментальные зависимости разборчивости от отношения сигналшум в условиях достаточно специфических испытательных тестов, в которых получено соотношение между А-взвешенным отношением SN (ОСШ) для специальной лексики (односложные слова, предложения). На рис.2.5а изображены графики зависимости разборчивости слов, слогов от соотношения SN для различных методов испытаний РР [5]. Эти зависимости приблизительны, поскольку на них оказывает влияние целый ряд таких факторов как тип испытательного материала, мастерство дикторов и аудиторов и др. Приведенные зависимости получены при участии хорошо подготовленных дикторов и аудиторов за 8 трёхчасовых сессий. Цифрами на графике рис.2.5а обозначены кривые, полученные по результатам испытаний с использованием: 1.50-ти пар РВ слов; 2.256-ти односложных слов, выбранных случайно из 50-ти вариантов; 3.50-ти наборов по 2 РВ слова; 4.Ключевых слов, воспроизводимые однократно; 5.1000 односложных РВ слов из наборов 100 слов; б.Смеси односложных логатомов из 100 РВ слов, составленных из 1000 возможных слогов.
2.4. Оценка качества восстановления речи по критерию MOS
MOS (Mean Opinion Score) усредненный показатель мнений о качестве, представленный в Рекомендациях ITU-T Р.800 и Р.830 ... продолжение
Похожие работы
Дисциплины
- Информатика
- Банковское дело
- Оценка бизнеса
- Бухгалтерское дело
- Валеология
- География
- Геология, Геофизика, Геодезия
- Религия
- Общая история
- Журналистика
- Таможенное дело
- История Казахстана
- Финансы
- Законодательство и Право, Криминалистика
- Маркетинг
- Культурология
- Медицина
- Менеджмент
- Нефть, Газ
- Искуство, музыка
- Педагогика
- Психология
- Страхование
- Налоги
- Политология
- Сертификация, стандартизация
- Социология, Демография
- Статистика
- Туризм
- Физика
- Философия
- Химия
- Делопроизводсто
- Экология, Охрана природы, Природопользование
- Экономика
- Литература
- Биология
- Мясо, молочно, вино-водочные продукты
- Земельный кадастр, Недвижимость
- Математика, Геометрия
- Государственное управление
- Архивное дело
- Полиграфия
- Горное дело
- Языковедение, Филология
- Исторические личности
- Автоматизация, Техника
- Экономическая география
- Международные отношения
- ОБЖ (Основы безопасности жизнедеятельности), Защита труда