Для кодирования звука подходит метод кодово-импульсной модуляции. Несмотря на сложное название, концептуально этот метод довольно прост.
Звук — это вибрация. Вибрация наших голосовых связок, музыкальных инструментов, падающего в лесу дерева приводит в движение молекулы воздуха, при этом он начинает периодически (с частотой несколько сотен или тысяч раз в секунду) сжиматься и расширяться. Вибрирующий воздух, в свою очередь, воздействует на наши барабанные перепонки, и мы слышим звук.
В 1877 году Томас Эдисон изобрел фонограф, в котором для записи и воспроизведения звука на поверхности цилиндра, покрытого фольгой, создавались углубления, повторяющие форму звуковых волн. До появления компакт-диска эта техника записи звука практически не менялась, хотя цилиндры были заменены дисками, а оловянная фольга — сначала воском, а затем пластиком. Первые фонографы были полностью механическими, однако со временем для усиления звука в них стали использоваться электрические компоненты. Переменный резистор в микрофоне преобразует звук в электрический сигнал, а электромагнит в динамике превращает этот сигнал обратно в звук.
Электрический ток, с помощью которого кодируется звук, не похож на цифровые сигналы, о которых мы говорили. Звуковое давление непрерывно изменяется, в связи с чем меняется и напряжение. Электрический ток — аналог звуковой волны. Для преобразования аналогового сигнала в цифровой потребуется специальный аналого-цифровой преобразователь (АЦП), обычно реализуемый в виде микросхемы. Выходные цифровые сигналы АЦП, количество которых равно 8, 12 или 16, обозначают относительный уровень напряжения. Например, 12-битный АЦП преобразует входящий сигнал в число от 000h до FFFh, различая при этом 4096 уровней напряжения.
При использовании метода кодово-импульсной модуляции напряжение, соответствующее звуковой волне, преобразуется в цифровые значения с постоянной скоростью. Эти значения сохраняются на компакт-диске в виде маленьких углублений, вырезанных на поверхности, и считываются лазерным лучом, отраженным от его поверхности. Во время воспроизведения эти значения снова конвертируются в электрический сигнал с помощью цифро-аналогового преобразователя (ЦАП). (ЦАП также используется в цветных графических адаптерах для преобразования значений пикселов в аналоговые сигналы, подающиеся на монитор.)
Аналоговый звуковой сигнал переводится в цифровой с постоянной скоростью, называемой частотой дискретизации. В 1928 году Гарри Найквист из Bell Telephone Laboratories показал, что частота дискретизации должна как минимум в два раза превышать максимальную частоту звука, который необходимо записать и воспроизвести. Считается, что человек воспринимает звуки в диапазоне частот от 20 до 20 000 герц. Частота дискретизации, используемая при записи компакт-дисков, более чем вдвое превышает максимальный показатель и составляет 44 100 герц.
Разрядность (количество бит на выборку) определяет динамический диапазон компакт-диска — разницу между самым громким и самым тихим звуком, который можно записать и воспроизвести. Это требует пояснения: будучи аналогом звуковой волны, электрический сигнал отклоняется от нулевого значения; максимальное отклонение — амплитуда волны. Интенсивность звука пропорциональна удвоенной амплитуде. Десятикратному увеличению интенсивности звука соответствует один бел (единица измерения относительной силы звука, названная в честь Александра Белла); один децибел — 0,1 бела, примерно минимальное увеличение интенсивности звука, которое человек в состоянии воспринять.
Динамический диапазон для 16-разрядного звука — 96 децибел, что примерно соответствует разнице между порогом слышимости (за которым мы ничего не слышим) и болевым. Именно такая разрядность используется при записи компакт-дисков.
Таким образом, каждой секунде звуковой записи на компакт-диске соответствует 44 100 выборок по два байта. Если вы предпочитаете стереозвук, необходимо удвоить это число, чтобы в итоге получить 176 400 байт на секунду. Это 10 584 000 байт на минуту звукозаписи. (Теперь вы понимаете, почему цифровая звукозапись распространилась только в 1980-е годы.) Для записи на компакт-диске стереозвука длительностью 74 минуты требуется 783 216 000 байтов.
Цифровой звук по сравнению с аналоговым обладает многими хорошо известными преимуществами. В частности, при копировании аналогового звука (например, при записи на фонограф звука, воспроизводимого с магнитной ленты) его качество ухудшается. Оцифрованный звук закодирован числами, которые всегда можно скопировать без потери точности. В аналоговых телефонных сетях качество звука было тем хуже, чем длиннее расстояние, преодолеваемое телефонным сигналом. Сейчас этой проблемы не существует. Поскольку большая часть телефонной системы перешла на цифровой звук, звонки с другого конца страны по качеству не уступают звонкам с соседней улицы.
На компакт-дисках можно хранить не только звук, но и другие данные. Диск, используемый исключительно для хранения данных, называется CD-ROM (CD Read-Only Memory, «память только для чтения»). Как правило, емкость таких дисков — около 660 мегабайт. В настоящее время большинство компьютеров оснащено специальными дисководами, а диски — распространенные носители для коммерческого программного обеспечения и игр.
Средства для работы со звуком и видео, добавленные в персональный компьютер, получили название «мультимедиа». Теперь они настолько популярны, что не нуждаются в специальном названии. Большинство современных домашних компьютеров оснащены звуковой платой, которая включает устройство АЦП для записи звука через микрофон и устройство ЦАП для воспроизведения записанного звука через динамики. Звуки могут храниться на диске в формате WAV (waveform — «в форме волны»).
Поскольку при записи и воспроизведении звука на домашних компьютерах CD-качество требуется не всегда, программы для Macintosh и Windows предусматривают более низкие значения частоты дискретизации (22 050, 11 025 и 8000 герц) разрядности (восемь бит), а также возможность создания монофонической записи. Таким образом, на одну секунду звучания может приходиться 8000 байт, или 480 тысяч байт на одну минуту.
Все, кто смотрел научно-фантастические фильмы, знают, что компьютеры будущего общаются с пользователями на человеческом языке. Если компьютер оснащен аппаратными средствами для записи и воспроизведения звука, то решение всех остальных задач сводится к написанию программного обеспечения.
Существует несколько способов научить компьютер употреблять узнаваемые слова и предложения при общении с пользователем. Один из них состоит в записи произнесенных человеком фрагментов предложений, фраз, слов и чисел, которые затем можно сохранить в файлах и комбинировать. Этот подход часто применяется в информационных системах, доступ к которым осуществляется по телефону, и он отлично работает при ограниченном количестве комбинаций воспроизводимых слов и чисел.
Более общий способ синтеза человеческой речи предполагает преобразование произвольного текста в кодировке ASCII в звуковой файл. Поскольку написание слов иногда отличается от их произношения, программа может использовать словарь или сложные алгоритмы для определения правильного произношения. Из простых звуков (называемых фонемами) можно составлять целые слова. Часто программе требуются и другие корректировки. Например, если в конце предложения стоит знак вопроса, то последнее слово нужно произнести более высоким голосом.