где m – индекс модуляции, Amax – максимальное значение амплитуды звука, Amin – минимальный уровень звукового сигнала.
Испытуемых было восемь человек в возрасте от тринадцати до сорока лет (трое женского, пятеро мужского пола), все с нормальным слухом. Исследование порогов AM производилось на следующих частотах (Гц): 0,1; 0,4; 1; 2; 3; 4; 5; 6; 7; 8; 10; 20; 50; 100. На каждой частоте для каждого испытуемого производилось от пяти до пятнадцати измерений порогов, результаты которых усреднялись.
Несмотря на наличие некоторых отклонений, у всех испытуемых имеется четко выраженное обострение чувствительности к AM с частотой от 3 до 8 Гц.
С целью выявления среднестатистических значений порогов результаты всех испытуемых были усреднены и подвергнуты статистической обработке для вычисления доверительных интервалов (формула 2):
где Σ – доверительный интервал, σ – среднеквадратичное отклонение, τα – доверительный критерий (по таблицам), n – число вариантов (в данном случае 8).
Результаты обработки материала представлены на рис. 2 (кривая I). Можно считать, что в целом наши результаты согласуются с имеющимися в литературе данными, хотя минимум порогов к AM, по нашим данным, располагается немного выше, а именно – в области 5–6 Гц.
Рис. 2. Среднестатистические значения порогов слуха (m%) человека к восприятию АМ (Fмод, Гц). I – до тренировки, II – после; вертикали – величины доверительных интервалов
Особый интерес для нас представляет характер изменения порогов слуха к AM в процессе тренировки. На рис. 3 (кривая II) представлены средние пороги слуха трех испытуемых после определенной тренировки по обнаружению AM-звука. Можно видеть, что пороговая кривая теряет свою избирательность, уплощается за счет опускания боковых ветвей, то есть повышения чувствительности слуха к другим частотам, в результате чего зона максимальной чувствительности расширяется. Пороги же слуха к частотам 4–6 Гц практически не изменяются. Этот факт наводит на мысль о том, что слуховая система человека априорно настроена на избирательное восприятие AM с частотой 4–6 Гц и в меньшей степени – на восприятие других частот.
Рис. 3. Вероятность встречаемости АМ разной частоты в речи русских дикторов. 1 – Левитан, 2 – Турчанинова, 3 – Яхонтов, 4 – Плятт, 5 – Ильинский, 6 – Андронников, 7 – Чуковский. p % – вероятность встречаемости АМ в речевом отрывке, Fмод – частота АМ (Гц)
Во второй части работы была поставлена задача измерения амплитудно-модуляционных характеристик речи.
С акустической точки зрения звуковая речь, как известно, представляет собой амплитудно-модулированный звуковой поток. С точки зрения речеобразования речевой поток может быть представлен как чередование открытых и закрытых слогов, в центре которых стоят слогообразующие фонемы с предшествующими и последующими согласными [Зиндер, 1960; Чистович и др., 1965]. С физиологической точки зрения распадение речевого потока на слоги обусловлено работой артикуляционного аппарата, то есть усилением или ослаблением мускульного напряжения при произнесении звуков, динамическими модуляциями речеобразующих органов. Поскольку акустическая мощность гласных значительно больше мощности согласных, акустическим коррелятом артикуляции слогов и является амплитудная модуляция.
По осциллограммам огибающих уровня звукового давления, записанным на шлейфном осциллографе К-115 с выхода микрофонного усилителя через детектор и сглаживающий фильтр с полосой прозрачности 0–80 Гц, было видно, что, хотя АМ речи очень сложна, чередование максимумов и минимумов звукового давления имеет определенную периодичность, а именно – максимумы, как правило, приходятся на гласные, а минимумы – на согласные.
Наша задача состояла в измерении амплитудно-временных характеристик речи, полученных с помощью логарифмического самописца уровня электроакустических колебаний типа Н-110. С этой целью осциллограмма огибающей речевого потока разбивалась на участки, соответствующие максимумам (пикам) амплитудной модуляции. При этом максимумы, имеющие уровень менее чем 2 дБ, в расчет не принимались. Далее межпиковые интервалы АМ измерялись, и составлялись гистограммы распределения межпиковых интервалов на всем отрезке речи каждого диктора.
Всего было исследовано восемнадцать дикторов: восемь русских, десять иностранных (четыре немецких, два шведских, четыре английских). Длительность анализируемых отрезков речи составляла три минуты. В гистограммах временные характеристики максимумов АМ были преобразованы в частотные согласно выражению F = 1/T, где F – частота (Гц), Т – величины межпиковых интервалов (с).
Результаты измерений представлены семейством кривых для русских дикторов на рис. 3, для иностранных – на рис. 4.
Кривые являются вероятностными характеристиками речи, то есть отражают вероятность появления в потоке речи пиков АМ с определенной частотой повторения. Несмотря на индивидуальные различия, в речи (как русской, так и иностранной) преобладает АМ с частотой 4–5 Гц, соответствующая средним временным интервалам 250–200 мс. Это приблизительно совпадает с областью средних длительностей ударных русских гласных – 230 мс между двумя мягкими согласными, 150 мс между двумя твердыми согласными [Бондарко, 1964]. Длительность же согласных примерно на порядок меньше длительности гласных. Таким образом, исследования подтверждают предположение, что АМ речи в общем виде является отражением процесса слогообразования.
Рис. 4. Вероятность встречаемости АМ разной частоты в речи иностранных дикторов. 1 – английский язык, 2 – немецкий, 3 – шведский. Остальные обозначения как на рис. 3
(Следует отметить, что слогоделение является одним из самых сложных вопросов фонетики и решение его существенно затрудняется зависимостью от лингвистических особенностей разных языков, при которых слоговая граница обнаруживается как необходимое условие восприятия речевого процесса. Невозможность механического рассечения речи на слоги без учета законов конкретных языков признается большинством исследователей [Зиндер, 1956; Miller, 1962; Бондарко и др., 1966] и порождает большие трудности при автоматическом распознавании речи. Поэтому мы отдаем себе отчет в том, что исследованные нами АМ характеристики речи следует рассматривать не как слоги или фонемы, выделяемые слухом в качестве минимальных единиц речевого потока, а как некоторый акустический коррелят процесса артикуляции, находящийся в определенной зависимости от слогообразования.)