IIS音频总线学习（一）数字音频技术

yl197837 发表于 2015-11-15 02:28:22

一、声音的基本概念
声音是通过一定介质传播的连续的波。
图1 声波重要指标：
[*]振幅：音量的大小
[*]周期：重复出现的时间间隔
[*]频率：指信号每秒钟变化的次数

声音按频率分类：
图2 声音的频率(语音信号频率范围：300Hz-3kHz)声音的传播携带了信息，它是人类传播信息的一种主要媒体。声音的三种类型：
[*]波形声音：包含了所有声音形式
[*]语音：不仅是波形声音，而且还有丰富的语言内涵(抽象→提取特征→意义理解)
[*]音乐：与语音相比，形式更规范。音乐是符号化的声音。
二、声音的数字化
1.声音信号的类型

[*]模拟信号(自然界、物理)

[*]数字信号(计算机)
2.声音数字化过程
图3 声音数字化过程3.声音数字化过程示意图
图4 声音数字化过程示意图4.声音数字化三要素
　　采样频率
　　量化位数
　　声道数
　　每秒钟抽取声波幅度样本的次数
　　每个采样点用多少二进制位表示数据范围
　　使用声音通道的个数
　　采样频率越高
　　声音质量越好
　　数据量也越大
　　量化位数越多
　　音质越好
　　数据量也越大
　　立体声比单声道的表现力丰富，但数据量翻倍
　　11.025kHz
　　22.05 kHz
　　44.1kHz
　　8位＝256
　　16位＝65536
　　单声道
　　立体声
5.声音数字化的数据量
音频数据量＝采样频率×量化位数×声道数/8(字节/秒)　　采样频率
　　(kHz)
　　量化位数
　　(bit)
　　数据量(KB/s)
　　单声道
　　立体声
　　11.025
　　8
　　10.77
　　21.35
　　16
　　21.53
　　43.07
　　22.05
　　8
　　21.53
　　43.07
　　16
　　43.07
　　86.13
　　44.1
　　8
　　43.07
　　86.13
　　16
　　86.13
　　172.27
三、音频的文件格式
1.WAV文件
WAV是Microsoft/IBM共同开发的PC波形文件。因未经压缩，文件数据量很大。
特点：声音层次丰富，还原音质好
2.MP3文件
MP3(MPEG Audio layer3)是一种按MPEG标准的音频压缩技术制作的音频文件。
特点：高压缩比(11:1)，优美音质
3.WMA文件
WMA(Windows Media Audio)是Windows Media格式中的一个子集(音频格式)。
特点：压缩到MP3一半
4.MIDI文件
MIDI(乐器数字接口)是由一组声音或乐器符号的集合。
特点：数据量很小，缺乏重现自然音
四、数字音频压缩标准
1.音频压缩方法概述
图5 压缩编码技术是指用某种方法使数字化信息的编码率降低的技术
音频信号能压缩的基本依据：
①声音信号中存在大量的冗余度；
②人的听觉具有强音能抑制同时存在的弱音现象。
音频信号压缩编码的分类：
①无损压缩(熵编码)
霍夫曼编码、算术编码、行程编码
②有损压缩
波形编码--PCM、DPCM、ADPCM 、子带编码、矢量量化
参数编码--LPC
混合编码--MPLPC、CELP
2.音频压缩技术标准
　　分类
　　标准
　　说明
　　电话语
　　音质量
　　G.711
　　采样8kHz，量化8bit，码率64kbps
　　G.721
　　采用ADPCM编码，码率32kbps
　　G.723
　　采用ADPCM有损压缩，码率24kbps
　　G.728
　　采用LD-CELP压缩技术，码率16kbps
　　调幅广
　　播质量
　　G.722
　　采样16kHz，量化14bit，码率224(64)kbps
　　高保真
　　立体声
　　MPEG
　　音频
　　采样44.1kHz，量化16bit，码率705kbps (MPEG三个压缩层次，384-64kbps)
五、声卡
1.声卡的主要功能
声卡是负责录音、播音和声音合成的一种多媒体板卡。其功能包括：
①录制、编辑和回放数字音频文件
②控制和混合各声源的音量
③记录和回放时进行压缩和解压缩
④语音合成技术(朗读文本)
⑤具有MIDI接口(乐器数字接口)　　
　　
2.芯片类型

[*]CODEC芯片(依赖CPU，价格便宜)

[*]数字信号处理器DSP(不依赖CPU)

页: [1]

运维网's Archiver

IIS音频总线学习（一）数字音频技术