Речевой сигнал

👀 794 просмотра
📌 739 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Речевой сигнал», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Речевой сигнал», Word формат

Лекция №4 «Речевой сигнал» «……В старом итальянском руководстве по подготовке певцов было написано, что если певец может развивать уровень от 110 дБ и выше, то он может петь в "Ла Скала", если ниже 100 дБ, то в камерном ансамбле, если ниже 90 дБ, то не надо петь вообще» Структура лекции: Характеристики речевого сигнала. Форманты речевого сигнала. Анализ и моделирование речевого сигнала. Особенности слухового восприятия и разборчивости речи Характеристики речевого сигнала Звуки речи могут быть разделены на три выраженные группы по типу возбуждения: Вокализованные звуки образуются проталкиванием воздуха через голосовую щель, при котором периодически напрягаются и расслабляются голосовые связки и возникает последовательность импульсов потока воздуха, возбуждающая голосовой тракт. К вокализованным звукам относятся все гласные и часть согласных звуков. Невокализованные или фрикативные звуки генерируются при сужении голосового тракта в каком - либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, достаточно высокой для образования турбулентного воздушного потока. Таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт. К невокализованным звукам относят большую часть согласных звуков. Взрывные звуки характеризуются полностью закрытым голосовым трактом (обычно в начале голосового тракта). Затем воздух внезапно высвобождается. Такое явление имеет место при произнесении звука [т]. Звуки речи также делятся на звонкие и глухие. Звонкие звуки образуются с участием голосовых связок, в этом случае находящихся в напряженном состоянии. Под напором воздуха, идущего из легких, они периодически раздвигаются, в результате чего создается прерывистый поток воздуха. Импульсы потока воздуха, создаваемые голосовыми связками, с достаточной точностью могут считаться периодическими. Соответствующая им частота является основной частотой тона F0. Если связки тонкие и сильно напряжены, то период получается коротким и частота основного тона высокой; для толстых, слабо напряженных связок частота основного тона получается низкой. Частота основного тона для всех голосов лежит в пределах 70…450 Гц. Согласные по способу образования делятся на сонорные (л, ль, р, рь. м, мь, и, нь, й), щелевые (ж, з, зь, в, вь, ш, с, сь, ф, фь, х, хь), взрывные (б, бь, д, дь, г, гь, и, иь, т, ть, к, кь) и аффрикаты (ц, ч - комбинация глухих взрывных и щелевых). Звонкие звуки речи, особенно гласные, имеют высокий уровень интенсивности, глухие - самый низкий. Громкость речи непрерывно изменяется, особенно резко при произнесении взрывных звуков. Динамический диапазон уровней речи находится в пределах 35 - 45 дБ. Гласные звуки речи имеют в среднем длительность около 0,15 с, согласные 1 около 0,08с (звук и - около 30 мс). Звуки речи неодинаково информативны. Так, гласные звуки содержат малую информацию о смысле речи, а глухие согласные наиболее информативны (например, в слове «посылка» последовательность «о, ы, а» ничего не говорит, а «п, с, лк» дает почти однозначный ответ о смысле). Поэтому разборчивость речи снижается при действии шумов, в первую очередь из-за маскировки глухих звуков. При произнесении глухих звуков связки находятся в расслабленном состоянии и поток воздуха из легких свободно проходит в полость рта. Встречая на своем пути различные преграды в виде языка, зубов, губ, он образует завихрения, создающие шум со сплошным спектром. Звуковая волна имеет ряд характеристик, показанных в таблице Объективные параметры волны Субъективные характеристики звука 1. Частота Высота тона (чем больше частота, тем выше тон). 2. Интенсивность Громкость звука. 3. Акустический спектр Тембр – специфическая окраска звука. Высота издаваемого звука зависит от числа колебаний голосовых складок. Голосовые складки способны приходить в колебательные движения не только целиком, всей своей массой, но и отдельными участками. Только этим можно объяснить то, что одни и те же голосовые складки могут колебаться с различной частотой: примерно от 80 до 10 000 Гц и даже больше. Тоновый диапазон человеческого голоса представлен последовательностью тонов, которые могут быть произведены голосовым аппаратом в пределах границ между самым низким и самым высоким звуками. В двух формах проявления человеческого голоса - пении и разговоре качества голоса представлены несколько различно. Громкость звука - качество слухового ощущения, которое позволяет располагать все звуки по шкале от тихих до громких. Громкость звука зависит от амплитуды колебаний, чем она больше, тем звук будет громче. Уровень громкости измеряется в белах. 1 Белл – это уровень громкости звука, интенсивность которого возрастает в 10 раз по сравнению с пороговой интенсивностью. Это большая величина и чаще уровень громкости измеряют в децибелах (дБ) - 1/10 часть бела, и равен уровню громкости звука, который выражается в фонах.. Однако ощущение громкости звука также зависит от его частоты. Это учитывают, введя в уравнение для уровня громкости коэффициент пропорциональности к: Условно принято, что к=1 для звука частотой 1000 Гц. Например, громкость звука выше 180 дБ может вызвать разрыв барабанной перепонки. Сила подаваемого звука определяется интенсивностью напряжения голосовых 2 складок и величиной давления воздуха в подсвязочном пространстве. И тот и другой процесс регулируются центральной нервной системой. Контроль осуществляется с помощью слуха. Если же взаимоотношения между этими процессами нарушаются, например, при крике ужаса, то превалирование давления внутри трахеи вызывает звук, который характеризуется отсутствием чистой тональности. Единицей громкости является Фон – такая громкость звука, при которой интенсивность звуковой волны частотой 1000 Гц в 10 раз превышает пороговую интенсивность. Ниже представлен диапазон человеческого голоса, (основной тон, Гц): Название Бас Баритон Тенор Контральто Дипазон частот, Гц 75-300 100-400 120-500 170-780 Название Меццо-сопрано Сопрано Колоратурное сопрано Дипазон частот, Гц 200-900 230-1000 260-1400 Частотный диапазон можно разделить на 4 категории:  инфразвук (ниже 20 Гц);  естественный звук (слышимый человеком) (20 – 20000 Гц);  ультразвук (20 кГц – 1 ГГц);  гиперзвук (выше 1 ГГц). Один и тот же звук речи разные люди произносят по-разному, каждому человеку свойственна своя манера произнесения звуков речи (своего рода устный почерк). Произношение звуков речи зависит от ударения, соседних звуков и т. п. Но при всем многообразии в их произношении они являются физическими реализациями (произнесением) ограниченного числа обобщенных звуков речи, называемых фонемами. Сообщение, передаваемое с помощью речевого сигнала, - дискретно, т.е. может быть представлено в виде последовательности символов из конечного их числа. Фонема – это то, что человек хочет произнести, а звук речи – это то, что человек фактически произносит. Фонема по отношению к звуку речи играет ту же роль, что и образцовая буква (например, курсивная) по отношению к ее рукописной форме в конкретном написании. При произнесении звуков речи язык, губы, зубы, нижняя челюсть, голосовые связки должны находиться для каждой фонемы в строго определенном положении или движении. Эти движения называют артикуляцией органов речи. При этом в речеобразующем тракте создаются резонансные полости, определенные для данной фонемы, а для слитного звучания фонем в речи — и определенные переходы от одной формы тракта к другой. В русском языке насчитывается 42 основные и 3 неопределенные фонемы. Фонема обозначает акустическую характеристику звуков речи (прежде всего гласных), связанную с уровнем частоты голосового тона и образующую тембр звука. Термин введён в практику немецким физиологом Лудимаром Германом в 1894 году. 3 При произнесении речи частота основного тона непрерывно изменяется в соответствии с ударением и подчеркиванием звуков и слов, а также для проявления эмоций (вопрос, восклицание, удивление и т. д.). Изменение частоты основного тона называется интонацией. У каждого человека свой диапазон изменения основного тона и своя интонация. Последняя имеет большое значение для узнаваемости говорящего. (Основной тон, интонация и тембр голоса служат для опознавания человека, и степень достоверности опознавания выше, чем по отпечаткам пальцев). Импульсы основного тона имеют пилообразную форму, и поэтому при их периодическом повторении получается дискретный спектр с большим числом гармоник, частоты которых кратны частоте основного тона. При нормальном темпе речи паузы появляются между отрывками фраз. Как правило, слова произносятся слитно, хотя слушающий воспринимает слова по отдельности. При замедленном темпе речи, например при диктовке, паузы могут делаться между словами и даже их частями. Предлоги, союзы звучат всегда слитно с последующим словом. При произнесении звуков речи через речевой тракт проходит или тональный импульсный сигнал, или шумовой, или тот и другой вместе. Речевой тракт представляет собой сложный акустический фильтр с рядом резонансов, создаваемых полостями рта, носа и носоглотки, т. е. с помощью артикуляционных органов речи. Вследствие этого равномерный тональный или шумовой спектр превращается в спектр с рядом максимумов и минимумов. Максимумы спектра называют формантами, а нулевые провалы — антиформантами. Форманты речевого сигнала Рис. 1. Временная и амплитудно-частотная диаграмма речевого сигнала Таким образом, график изменения давления воздуха вблизи рта при произнесении гласной должен состоять из чередования серий затухающих колебаний, имеющих высоту, определяемую собственным периодом резонатора, и следующих друг за другом с частотой колебаний связок. Всего имеется 3-4 форманты в полосе частот до 3 кГц, и 4-5 формант в полосе до 5 кГц. Первые три форманты позволяют получить разборчивую 4 речь. По сути форманты определяют концентрацию энергии на определенных частотах в речевом сигнале. Когда вы произносите вокализированный (гласный) звук, в нем присутствуют ваши личные формантные частоты. Особое значение имеет так называемая высокая форманта (около 3000 Гц). Форманта характеризуется частотой, шириной и амплитудой. Форманты образуют тембр звука, по которому мы узнаем говорящего. Для измерения интенсивности звука использовать логарифмическую шкалу и единицы, называемые децибелами уровня звукового давления (дБ УЗД). На этой шкале 0 дБ УЗД - это мощность звуковой волны, равная 1016 Вт/см2, что соответствует самой низкой мощности звука, детектируемой ухом человека. Для обычной речи человека характерна мощность порядка 60 дБ УЗД, а порог болевых ощущений лежит на уровне 140 дБ УЗД. Разница между самым громким и самым слабым звуками, которые способен слышать человек, около 120 дБ, что соответствует диапазону изменения амплитуды в миллион раз. Слушатель может ощутить перемену громкости, когда сигнал изменяется на 1 дБ (12%-е изменение амплитуды). Таким образом, существует только около 120 уровней громкости, которые может различить человек, от шёпота до самого громкого раската грома. Таблица 1. Интенсивность звука Интенсивность,I, Вт/см2 10-2 10-5 10-7 10-10 10-12 10-16 дБ =10∙lg(I/10-16) 140 120 90 60 40 Пример звука Болевой порог Отбойный молоток, рок-концерт Нормируемый индустриальный шум Обычный разговор Самый слабый звук на 100 Гц Самый слабый звук на 3 кГц Обычно считается, что ухо человека улавливает звуки в диапазоне частот 20 … 20000 Гц, проявляя наивысшую чувствительность к частотам 1.. .4 кГц. 5 Рис. 2. Распределение интенсивности звуков по частотному диапазону Тембр. Восприятие непрерывного звука, такого как нота, взятая на музыкальном инструменте, в основном определяется тремя факторами: громкостью, высотой и тембром. Громкость - это мера интенсивности звуковой волны. Высота - это частота основного компонента в звуке. Тембр определяется гармоническим составом сигнала. Восприятие тембра является результатом того, как ухо воспринимает гармоники. Так как состав гармоник определяется формой сигнала, то низкая чувствительность уха к фазе сигнала делает соотношение односторонним: сигнал конкретно заданной формы может иметь лишь один-единственный тембр; в то же время для одного заданного тембра можно подобрать бесконечное число возможных форм сигнала. На рис. 3 приведены временные диаграммы двух звуковых сигналов с одинаковым амплитудным спектром, но различным фазовым. Каждый сигнал представляет собой сумму двух синусоид: первая - с частотой 1 кГц и амплитудой, равной единице, и вторая - с частотой 3 кГц и амплитудой 1/2. Разница между этими двумя сигналами в том, что у них различный фазовый спектр. Для уха оба сигнала звучат идентично. Это происходит потому, что на слух воспринимаются амплитуды составляющих сигнала, а к их фазам ухо оказывается малочувствительным. 6 Рис. 3. Амплитудные спектры двух одинаковых частот Анализ и моделирование речевого сигнала Фактически феномен форманты есть проявление работы активного полосового фильтра в составе речевого тракта. Формантный анализ. Принятое обозначение форманты − F. Считается, что для характеристики звуков речи достаточно выделения четырех формант – F1, F2, F3, F4, которые нумеруются в порядке возрастания их частоты: самая низкая форманта, ближе всех расположенная к частоте голосового источника, — F1, за ней — F2 и т. д. Для разных звуков речи характерны определенные частотные диапазоны DF формант. Пример 1. Параметры основного тона и формант F0=50-300 Гц F1=240-700 Гц DF=39-69 Гц F2=625-2254 Гц DF=50-125 Гц F3=2330-3200 Гц DF=77-240 Гц F0 – основной тон Количество формант сопоставимо с количеством резонансных полостей в речевом тракте. Каждая из формант определяется всеми участками речевого тракта, хотя степень влияния в каждом конкретном случае неодинакова. Наиболее часто ограничиваются рассмотрением трех первых формант. Таблица 2 Значения формант для различных фонем Фонема Первая форманта, Гц Вторая форманта, Гц Третья форманта, Гц «и» 270 2300 3000 «е» 400 2000 2550 «а» 660 1700 2400 «у» 640 1200 2400 Проблема определения формант усложняется из-за того, что частоты формант и основной тон зависят от тех фонем, которые анализируются. 7 Пример изменения частот формант, в зависимости от произносимых звуков показан в таблице 2. Форманты различаются также для мужского и женского голоса. Детский голос имеет форманты близкие к женскому голосу. Модель речеобразования включает в себя источник импульсных колебаний для вокализируемых звуков и источник шума для невокализируемых. Схема модели речеобразования у человека представлена на рис.4. Рис.4. Модель схемы речеобразования у человека Особенности слухового восприятия и разборчивости речи Слух человека Ухо человека имеет сложное строение. На рис. 5 показаны основные структуры и проиллюстрированы процессы, лежащие в основе функционирования уха человека. Внешнее ухо содержит ушной канал, представляющего собой трубку диаметром около 0,5 см, расположенную внутри головы и имеющую длину около 3 см. Задача внешнего уха передавать звуки к чувствительным среднему и внутреннему уху. На конце ушного канала находится барабанная перепонка. Колебание барабанной перепонки передается улитке внутреннему уху, где они преобразуются в нервные импульсы. Улитка представляет собой заполненную жидкостью трубку диаметром примерно 2 мм и длиной 3 см. Рис. 5 Схема слухового органа человека 8 Среднее ухо выполняет функцию согласования импедансов, увеличивая давление звуковой волны почти в 15 раз. Основной частью улитки является мембрана, содержащая чувствительные ячейки, формирующих слуховой нерв. Эта мембрана обладает различной жёсткостью, за счет чего она приобретает способность функционировать как анализатор частотного спектра. Таким образом, различные волокна, образующие слуховой нерв, оказываются настроенными на определённые частоты. Этот принцип передачи информации сохраняется на всей звуковой магистрали, ведущей в мозг. Есть и другой принцип передачи информации, также используемый ухом человека. Нервные клетки кодируют звуковую информацию, генерируя короткие электрические импульсы - биоэлектрические потенциалы - в ответ на каждый период вибрации. Например, звуковая волна с частотой 200 Гц представляется нейроном последовательностью биопотенциалов с частотой 200 импульсов в секунду. Однако такой механизм работает только на частотах не выше 500 Гц - максимальной частоты, с которой нейроны могут создавать биопотенциалы. Ухо человека решает эту проблему использованием нескольких нервных клеток для воспроизведения одной частоты. Например, тон 3000 Гц может быть представлен десятью нервными клетками, попеременно «запускающимися» 300 раз в секунду. Проверка разборчивости речи Разборчивость речи - относительное количество (в процентах) правильно принятых элементов (слогов, слов, фраз) артикуляционных таблиц. Качество речи - величина, характеризующая субъективную оценку звучания речи в испытуемом тракте по сравнению либо со звучанием в контрольном тракте (принятым за пять баллов) либо по сравнению со звучанием речи в другом тракте (в процентах предпочтения). Нормальный темп речи - чтение вслух печатного текста со скоростью около 4 слогов (8 звуков) в секунду. Чтение слогов осуществляется диктором ровным голосом, четко, но без подчеркивания отдельных звуков с постоянным уровнем речи, который контролируется шумомером на испытательной фразе "Не видали мы такого невода". Слоги читают в ритме: 1 слог в (3±0,3) с. Измерения проводит бригада операторов (дикторы и аудиторы), не имеющих явных дефектов речи и слуха. Измерения разборчивости речи проводит бригада в возрасте от 18 до 30 лет, в составе которой должно быть не менее трех дикторов (двух мужчин и одной женщины) и трех аудиторов. Бригада предварительно тренируется в течение нескольких дней. Пример слогов, на основе которых производят оценивание приведен в таблице 3. Всего имеется 500 подобных таблиц. Таблица 3 Артикуляционная слоговая таблица для тестирования разборчивости речи 9 Одно измерение представляет собой прослушивание и запись слогов одним аудитором одной таблицы, продиктованной одним диктором. В сеансе проверяется восприятие одним аудитором одного диктора при озвучивании пяти последовательных таблиц. Прослушанные и понятые слоги аудитор записывает в чистый бланк, если слог не понят, в позиции бланка ставится прочерк. Для сеанса вычисляется процент разборчивости как среднее из всех измерений.Цикл измерений состоит из сеансов всех аудиторов всех дикторов бригады. Время работы бригады должно быть не более 4 ч за один день. После приема 5 таблиц делается перерыв 5-10 мин. Общее число таблиц за одно измерение до 40, при этом таблицы не повторяются. При работе в акустических шумах бригада приступает к измерениям спустя 5-10 мин после пребывания в условиях шума. Общее число таблиц - 30 (при уровне шума 80-100 дБ) и 20 (при уровне шума более 100 дБ). Классификация систем передачи речи осуществляется по результатам тестирования в соответствии с таблицей 4. Таблица 4 Качество речевых трактов Для интегральной оценки свойств речевого сигнала может быть рассчитан спектр мощности и построено распределение спектральной 10 плотности мощности, которая для речевого сигнала показана на рис.6, что позволяет установить, что основная энергия речевого сигнала (В) сосредоточена в полосе 250...1000 Гц, спад в сторону высоких частот происходит со скоростью 7 дБ/окт после 500 Гц. 11 Рис. 6. Спектральное распределение средней мощности речевого сигнала Список литературы: 1. ГОСТ Р 50840-95 Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. Режим доступа: http://docs.cntd.ru/document/1200027288 2. И. Алдошина. Акустические характеристики речи/ "Звукорежиссер" 2002, № 4 Режим доступа: http://ozvuke.pro/index.php?act=attach&type=post&id=1580 3. Дерский Ю.Я. Основы электроакустики: учебн. пособ. для студ. высш. учебн. завед. культуры и искусств/ Ю.Я. Дерский; Луган.гос.ин-т культуры и искусств.-Луганск. ЛГИКИИ, 2011. - 148 с. Также можно прочитать дополнительные материалы, представленные в приложении к лекции. 12