кодирование звуковой информации кратко
Кодирование звуковой информации
Звук и его дискретность
Звук являет собой волну, имеющую изменяющуюся со временем частоту и амплитуду колебаний. Иными словами, это непрерывный сигнал. Чем тише звук, который слышит человеческое ухо, тем ниже его амплитуда, а чем ниже его тон, тем меньше частота звукового сигнала.
На сегодняшний день для производства звуковых карт используется глубина кодирования звуковой волны величиной 64, 32 и 16 бит. Для удобства использования непрерывность звукового колебания при кодировании заменяют на последовательные отдельные сигналы, являющие собой последовательный ряд электрических импульсов, записанных с помощью нулей и единиц системы двоичного исчисления.
Не нашли что искали?
Просто напиши и мы поможем
Частота дискретизации звуковой волны
Объем звуковой информации
Чем больше по объему аудио файл, тем лучше будет качество его воспроизведения. Объем более качественного файла всегда меньше объема файла с низким качеством, при равной их продолжительности.
Для расчета объема информации, занимаемого аудио файлом с одной звуковой дорожкой, используют нижеприведенную формулу:
Рассмотрим пример, когда время звучания аудио файла 5 минут с высоким качеством воспроизведения с частотой дискретизации 48000 Гц и глубиной кодирования 64 бит, то объем такого файла будет составлять:
\(V = 5 * 60 * 48000 * 64 = 921600000 бит,\)
что составляет 115200000 байт, или 115200 Кбайт, или 115,2 Мбайт.
Для стереозвука расчет объема производится по той же формуле, лишь только с той разницей, что нужно еще умножить на два, так как файл со стереозвуком обычно занимает в два раза больше места из-за того, что процесс дискретизации во время кодирования стереозвука проводится для каждой дорожки отдельно.
Самые распространенные методы аудио кодирования
Аудио информация кодируется обычно с применением методов двоичного кода, из них самыми популярными являются таблично-волновой метод (Wave-Table) и метод модуляции частоты (FM).
Сложно разобраться самому?
Попробуй обратиться за помощью к преподавателям
Таблично-волновой метод (англ. Wave-Table) базируется на использовании предварительно разработанной таблицы, которая состоит из ячеек, содержащих все возможные звуки окружающей среды (птиц, животных, природы, музыкальных инструментов и так далее). Они представлены в виде цифровых кодов, каждый из них имеет свою определенную частоту, высоту, глубину, длительность и другие звуковые параметры. Благодаря тому, что образцы представляют собой реальные существующие звуки, воспроизводимый звук будет достаточно высококачественным, и сильно напоминать звуки живых инструментов.
Распространенные форматы аудио файлов
Аудио файлы бывают различных форматов. Рассмотрим самые распространенные из них:
Кодирование и обработка звуковой информации
Звуковая информация. Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну с непрерывно меняющейся интенсивностью и частотой.
Человек воспринимает звуковые волны (колебания воздуха) с помощью слуха в форме звука различных громкости и тона. Чем больше интенсивность звуковой волны, тем громче звук, чем больше частота волны, тем выше тон звука (рис. 1.1).
Рис. 1.1. Зависимость громкости и высоты тона звука от интенсивности и частоты звуковой волны
Человеческое ухо воспринимает звук с частотой от 20 колебаний в секунду (низкий звук) до 20 000 колебаний в секунду (высокий звук).
Человек может воспринимать звук в огромном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 10 14 раз (в сто тысяч миллиардов раз). Для измерения громкости звука применяется специальная единица «децибел» (дбл) (табл. 5.1). Уменьшение или увеличение громкости звука на 10 дбл соответствует уменьшению или увеличению интенсивности звука в 10 раз.
Таблица 5.1. Громкость звука
Временная дискретизация звука. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.
Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность «ступенек» (рис. 1.2).
Рис. 1.2. Временная дискретизация звука
Частота дискретизации. Для записи аналогового звука и г го преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за I секунду (чем больше частота дискретизации), тем точнее «лесенка» цифрового звукового сигнала повторяет кривую диалогового сигнала.
Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду.
Глубина кодирования звука. Каждой «ступеньке» присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.
N = 2 I = 2 16 = 65 536.
Качество оцифрованного звука. Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим «моно»). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим «стерео»).
Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду й умножить на 2 (стереозвук):
16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.
Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).
Звуковые редакторы позволяют изменять качество цифрового звука и объем звукового файла путем изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV или в формате со сжатием МР3.
При сохранении звука в форматах со сжатием отбрасываются «избыточные» для человеческого восприятия звуковые частоты с малой интенсивностью, совпадающие по времени со звуковыми частотами с большой интенсивностью. Применение такого формата позволяет сжимать звуковые файлы в десятки раз, однако приводит к необратимой потере информации (файлы не могут быть восстановлены в первоначальном виде).
Контрольные вопросы
1. Как частота дискретизации и глубина кодирования влияют на качество цифрового звука?
Задания для самостоятельного выполнения
1. Задание с выборочным ответом. Звуковая плата производит двоичное кодирование аналогового звукового сигнала. Какое количество информации необходимо для кодирования каждого из 65 536 возможных уровней интенсивности сигнала?
1) 16 битов; 2) 256 битов; 3) 1 бит; 4) 8 битов.
2. Задание с развернутым ответом. Оценить информационный объем цифровых звуковых файлов длительностью 10 секунд при глубине кодирования и частоте дискретизации звукового сигнала, обеспечивающих минимальное и максимальное качество звука:
а) моно, 8 битов, 8000 измерений в секунду;
б) стерео, 16 битов, 48 000 измерений в секунду.
3. Задание с развернутым ответом. Определить длительность звукового файла, который уместится на дискете 3,5″ (учтите, что для хранения данных на такой дискете выделяется 2847 секторов объемом 512 байтов каждый):
а) при низком качестве звука: моно, 8 битов, 8000 измерений в секунду;
б) при высоком качестве звука: стерео, 16 битов, 48 000 измерений в секунду.
Кодирование звуковой информации
Вы будете перенаправлены на Автор24
Непрерывные и дискретные звуковые сигналы
Звук представляет собой непрерывный сигнал, а именно звуковую волну с меняющейся амплитудой и частотой. Чем выше амплитуда сигнала, тем он громче воспринимается человеком. Чем больше частота сигнала, тем выше его тон.
Рисунок 1. Амплитуда колебаний звуковых волн
Частота звуковой волны определяется количеством колебаний в одну секунду. Данная величина измеряется в герцах (Гц, Hz).
Частота дискретизации звука
Частота дискретизации звука — это количество измерений громкости звука за одну секунду.
Готовые работы на аналогичную тему
Информационный объем звукового файла
Следует отметить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла.
Оценим информационный объём моноаудиофайла ($V$), это можно сделать, используя формулу:
$V = N \cdot f \cdot k$,
$f$ — частота дискретизации (Гц),
$k$ — глубина кодирования (бит).
$V=60 \cdot 24000 \cdot 16 \ бит=23040000 \ бит=2880000 \ байт = 2812,5 \ Кбайт=2,75 \ Мбайт.$
При кодировании стереозвука процесс дискретизации производится отдельно и независимо для левого и правого каналов, что, соответственно, увеличивает объём звукового файла в два раза по сравнению с монозвуком.
$V=16 \ бит \cdot 24000 \cdot 2 = 768000 \ бит = 96000 \ байт = 93,75 \ Кбайт.$
Основные методы кодирования звуковой информации
Существуют различные методы кодирования звуковой информации двоичным кодом, среди которых выделяют два основных направления: метод FM и метод Wave-Table.
Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых будет представлять собой правильную синусоиду, а это значит, что его можно описать кодом. Процесс разложения звуковых сигналов в гармонические ряды и их представление в виде дискретных цифровых сигналов происходит в специальных устройствах, которые называют «аналогово-цифровые преобразователи» (АЦП).
Рисунок 2. Преобразование звукового сигнала в дискретный сигнал
На рисунке 2а изображен звуковой сигнал на входе АЦП, а на рисунке 2б изображен уже преобразованный дискретный сигнал на выходе АЦП.
Для обратного преобразования при воспроизведении звука, который представлен в виде числового кода, используют цифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука изображен на рис. 3. Данный метод кодирования не даёт хорошего качества звучания, но обеспечивает компактный код.
Рисунок 3. Преобразование дискретного сигнала в звуковой сигнал
На рисунке 3а представлен дискретный сигнал, который мы имеем на входе ЦАП, а на рисунке 3б представлен звуковой сигнал на выходе ЦАП.
Таблично-волновой метод (Wave-Table) основан на том, что в заранее подготовленных таблицах хранятся образцы звуков окружающего мира, музыкальных инструментов и т. д. Числовые коды выражают высоту тона, продолжительность и интенсивность звука и прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.
Примеры форматов звуковых файлов
Звуковые файлы имеют несколько форматов. Наиболее популярные из них MIDI, WAV, МРЗ.
Формат MIDI (Musical Instrument Digital Interface) изначально был предназначен для управления музыкальными инструментами. В настоящее время используется в области электронных музыкальных инструментов и компьютерных модулей синтеза.
Формат аудиофайла WAV (waveform) представляет произвольный звук в виде цифрового представления исходного звукового колебания или звуковой волны. Все стандартные звуки Windows имеют расширение WAV.
Формат МРЗ (MPEG-1 Audio Layer 3) — один из цифровых форматов хранения звуковой информации. Он обеспечивает более высокое качество кодирования.
Обработка звука
Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:
1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.
2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.
3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.
4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.
Аналоговый и дискретный способы представления звука
Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.
При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.
При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.
Примером аналогового хранения звуковой информации является виниловая пластинка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).
Восприятие звука человеком
Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.
Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.
В аналоговой форме звук представляет собой волну, которая характеризуется:
Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с
Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).
Кодирование звуковой информации
Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).
Качество кодирования звуковой информации зависит от :
1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.
2)глубиной кодирования, т.е. количества уровней сигнала.
Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.
Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.
Форматы звуковых файлов
РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.
RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.
MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.
AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.
MID. Файл, хранящий в себе сообщения MIDI-системе, установленной на Вашем компьютере или в устройстве.
МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для «обычных немузыкальных» людей потери не ощутимы явно.
RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.
Информатика. 10 класс
Конспект урока
Информатика, 10 класс. Урок № 17.
Тема — Кодирование графической и звуковой информации
Большую часть информации человек получает с помощью зрения и слуха. Важность этих органов чувств обусловлена развитием человека как биологического вида, поэтому человеческий мозг с большой скоростью способен обрабатывать огромное количество графической и звуковой информации.
С появлением компьютеров возникла огромная потребность научить их обрабатывать такую информацию. Как же такую информацию может обработать компьютер?
Итак, кодирование графической информации осуществляется двумя различными способами: векторным и растровым
Программы, работающие с векторной графикой, хранят информацию об объектах, составляющих изображение в виде графических примитивов: прямых линий, дуг окружностей, прямоугольников, закрасок и т.д.
Достоинства векторной графики:
— Преобразования без искажений.
— Маленький графический файл.
— Рисовать быстро и просто.
— Независимое редактирование частей рисунка.
— Высокая точность прорисовки.
— Редактор быстро выполняет операции.
Недостатки векторной графики:
— Векторные изображения выглядят искусственно.
— Ограниченность в живописных средствах.
Программы растровой графики работают с точками экрана (пикселями). Это называется пространственной дискретизацией.
КОДИРОВАНИЕ РАСТРОВОЙ ГРАФИКИ
Давайте более подробно рассмотрим растровое кодирование информации.
Компьютер запоминает цвет каждой точки, а пользователь из таких точек собирает рисунок.
При этом зная количество пикселей по вертикале и горизонтали, мы сможем найти — разрешающую способность изображения.
Разрешающая способность находится по формуле:
где n, m — количество пикселей в изображении по вертикали и горизонтали.
В процессе дискретизации каждый пиксель может принимать различные цвета из палитры цветов. При этом зная количество цветов, которые можно использовать в палитре и воспользовавшись формулой Хартли, мы сможем найти количество информации, которое используется для кодирования цвета точки, что мы будем называть глубиной цвета.
где N — количество цветов в палитре;
Таким образом, чтобы найти вес изображения достаточно перемножить разрешающую способность изображения на глубину цвета: L=P*i.
Каким именно образом возможно закодировать пиксель? Для этого используются кодировочные палитры.
КОДИРОВОЧНАЯ ПАЛИТРА RGB
Когда художник рисует картину, цвета он выбирает по своему вкусу. Но цвет в компьютере надо стандартизировать, чтобы его можно было распознать. Поэтому надо определить, что такое каждый цвет.
В экспериментах по производству цветных стекол М. В. Ломоносов показал, что получить любой цвет возможно, используя три различных цвета.
Этот факт был обобщен Германом Грассманом в виде законов аддитивного синтеза цвета.
Давайте рассмотрим два из этих законов:
— Закон трехмерности. С помощью трех независимых цветов можно, смешивая их в однозначно определенной пропорции, выразить любой цвет.
— Закон непрерывности. При непрерывном изменении пропорции, в которой взяты компоненты цветовой смеси, получаемый цвет также меняется непрерывно.
Из биологии вы знаете, что рецепторы человеческого глаза делятся на две группы: палочки и колбочки. Палочки более чувствительны к интенсивности поступаемого света, а колбочки — к длине волны.
Если посмотреть, как распределяется количество колбочек по тому, на какую длину волны они «настроены», то количество колбочек «настроенных» на синий, красный и зеленый цвета окажется больше.
Поэтому такие цвета были взяты основными для построения цветовой модели, которая получила название RGB (Red, Green, Blue). То есть задавая количество любого из этих трех цветов, можно получить любой другой. Для кодирования каждого цвета было выделено 8 бит (режим True-Color). Таким образом, количество каждого цвета может изменяться от 0 до 255, часто это количество выражается в шестнадцатеричной системе счисления (от 0 до FF).
Так как описание цвета происходит определением трех величин, то это наводит на мысль считать их координатами точки в пространстве. Получается, что координаты цветов заполняют куб.
При этом яркость цвета определяется тем насколько близка к максимальному значению хотя бы одна координата из трех.
КОДИРОВАНИЕ ЗВУКОВОЙ ИНФОРМАЦИИ
Давайте перейдем к кодированию звуковой информации.
Из курса физики вам всем известно, что звук — это непрерывная волна с изменяющейся амплитудой и частотой.
Для того, чтобы компьютер мог обрабатывать непрерывный звуковой сигнал, он должен быть дискретизирован, т. е. превращен в последовательность электрических импульсов (двоичных нулей и единиц).
Для этого звуковая волна разбивается на отдельные временные участки.
Гладкая кривая заменяется последовательностью «ступенек». Каждой «ступеньке» присваивается значение громкости звука. Чем больше количество уровней громкости, тем больше количество информации будет нести значение каждого уровня и более качественным будет звучание. Причем, чем больше будет количество измерений уровня звукового сигнала в единицу времени, тем качественнее будет звучание. Эта характеристика называется частотой дискретизации Данная характеристика измеряется в Гц.
При этом на каждое измерение выделяется одинаковое количество бит. Такая характеристика называется — глубина кодирования.
Таким образом, чтобы подсчитать вес звуковой волны достаточно перемножить частоту дискретизации, глубины кодирования и времени звучания такого звука. При этом, рассматривая современное звучание, количество звуковых волн может быть различное, например, для стереозвука — это 2, а для квадрозвука — 4.