詳解音頻編解碼的原理、演進和應用選型等

Posted on 2019-01-18 22:02 Jack Jiang 閱讀(205) 評論(0) 編輯收藏

本文來自網易云音樂音視頻實驗室負責人劉華平在LiveVideoStackCon 2017大會上的分享，并由LiveVideoStack根據演講內容整理而成（本次演講PPT文稿，請從文末附件下載）。

1、引言

大家好，我是劉華平，從畢業到現在我一直在從事音視頻領域相關工作，也有一些自己的創業項目，曾為早期Google Android SDK多媒體架構的構建作出貢獻。

就音頻而言，無論是算法多樣性，Codec種類還是音頻編解碼復雜程度都遠遠比視頻要高。視頻的Codec目前還主要是以宏塊為處理單元，預測加變換的混合編碼框架，例如H.264和H.265都是在這一框架下。而音頻則相當復雜，且不同的場景必須要選擇不同的音頻編解碼器。以下就是本次為大家分享的主要內容，希望通過此次分享可以使大家對音頻編解碼有一個整體的認識，并在實際應用中有參考的依據。

本次分享的內容提綱：

1）語音／音頻編碼總表；
2）數字語音基本要素；
3）為什么要壓縮；
4）編碼器考慮的因素；
5）語音經典編碼模型；
6）ISO；
7）編碼模型；
8）USAC；
9）編碼；
10）使用選型考慮的因素。

* 本次演講PPT文稿，請從文末附件下載！

（本文同步發布于：http://www.52im.net/thread-2230-1-1.html）

2、分享者

劉華平：

- 現為網易云音樂音視頻實驗室負責人，上海大學通信學院在職博士；

- 曾任掌門集團（WIFI萬能鑰匙）音視頻技術研發總監，資深研究員；

- 行者悟空聲學技術有限公司首席技術官(聯合創始人)；

- 阿里巴巴前高級技術專家(P8)，阿里音樂音視頻部門總監；

- Visualon音頻部門經理、盛大創新院研究員、Freescale 上海研發中心多媒體部門；

- 早期 Google Android SDK多媒體架構的貢獻者，開源 AMR_WB 編碼器工程開發者。

劉華平擁有5項技術發明專利、二十余篇專業論文和多項軟件著作權，參與過浙江省杭州重大專項項目，浙江省金華科委項目，上海市科委項目(球諧域全景音頻關鍵技術研究)。

3、系列文章

本文是系列文章中的第18篇，本系列文章的大綱如下：

《即時通訊音視頻開發（一）：視頻編解碼之理論概述》
《即時通訊音視頻開發（二）：視頻編解碼之數字視頻介紹》
《即時通訊音視頻開發（三）：視頻編解碼之編碼基礎》
《即時通訊音視頻開發（四）：視頻編解碼之預測技術介紹》
《即時通訊音視頻開發（五）：認識主流視頻編碼技術H.264》
《即時通訊音視頻開發（六）：如何開始音頻編解碼技術的學習》
《即時通訊音視頻開發（七）：音頻基礎及編碼原理入門》
《即時通訊音視頻開發（八）：常見的實時語音通訊編碼標準》
《即時通訊音視頻開發（九）：實時語音通訊的回音及回音消除概述》
《即時通訊音視頻開發（十）：實時語音通訊的回音消除技術詳解》
《即時通訊音視頻開發（十一）：實時語音通訊丟包補償技術詳解》
《即時通訊音視頻開發（十二）：多人實時音視頻聊天架構探討》
《即時通訊音視頻開發（十三）：實時視頻編碼H.264的特點與優勢》
《即時通訊音視頻開發（十四）：實時音視頻數據傳輸協議介紹》
《即時通訊音視頻開發（十五）：聊聊P2P與實時音視頻的應用情況》
《即時通訊音視頻開發（十六）：移動端實時音視頻開發的幾個建議》
《即時通訊音視頻開發（十七）：視頻編碼H.264、V8的前世今生》
《即時通訊音視頻開發（十八）：詳解音頻編解碼的原理、演進和應用選型》（本文）

4、語言/音頻編碼總表

▲ 語言/音頻編碼總表

上圖展示的是語言/音頻編碼總表，可以看到其比視頻編碼要復雜得多，單純的算法也遠遠比視頻要更加復雜。

5、數字語言基本要素

數字聲音具有三個要素：

1）采樣率；
2）通道數；
3）量化位數。

▲ 聲音數字化的過程

如上圖所示，聲音數字化的過程為：

1）采樣：在時間軸上對信號數字化；
2）量化：在幅度軸上對信號數字化；
3）編碼：按一定格式記錄采樣和量化后的數字數據。

6、為什么要壓縮

壓縮音頻，主要是為了在降低帶寬負擔的同時為視頻騰出更多帶寬空間。存儲和帶寬二大因素決定了語音壓縮的必要性。

我們看看下面的例子。

長度為4分鐘，采樣頻率為44100Hz,采樣深度為16bits,雙聲音Wav文件大小：

44100Hz*16bits*4minutes*2=(44100/1second)*16bits*(4minutes*(60seconds/1minutes)*2=705600bits/second*240seconds=169344000bits=169344000/(8bits/1byte)*2=42336000bytes=42336000/(1048576/1M)bytes=40.37MB

MP3，128kbps壓縮后文件大?。?/span>

128kbps*4minutes=(128kbits/1second)*(4minutes*(60seconds/1minutes))=(128kbits/1second)*240seconds=30720kbits=30720kbits/(8bits/1byte)=3840kbytes=3840k/(1024k/1M)bytes=3.75Mbytes=3.75MB

正如上面的例子，聲音壓縮后，存儲大小為原大小的十分之一，壓縮率十分可觀！

7、編碼器考慮因素

7.1 基本概念

編碼器考慮的因素：

1）最佳壓縮比；
2）算法的復雜度；
3）算法延時；
4）針對特殊場景下的特定設計；
5）兼容性。

通過一些特定的壓縮算法，可以壓縮音頻文件至原來的1/10，同時人耳也無法分辨壓縮前后的聲音質量差異，需要滿足多種條件才能實現這種效果；而對于編碼器，無論是設計階段還是使用階段，我們都需要考慮最佳壓縮效果、算法的復雜度與算法的延時，結合特殊場景進行特定的設計；而兼容性也是我們不能不考慮的重點。

7.2 語音經典編碼模型：發音模型

▲ 發音模型（原圖點擊查看）

我們的很多編解碼器都是基于綜合人的發音模型與一些和聽覺相關的理論支持研究提出的特定編解碼算法。初期我們通過研究人的發音原理來設計音頻編解碼的算法，包括端到端的濾波或輕濁音等，只有充分理解人的發聲原理我們才能在編解碼端做出有價值的優化。

【7.2.1】語音編碼模型——LPC：

▲ 經典語音編碼模型：LPC（原圖點擊查看）

▲ LPC 數學表達

LPC作為經典語音編碼模式，其本質是一個線性預測的過程。早期的G.7系列編碼模型便是通過此模型對整個語音進行編碼，上圖展示的過程可與之前的人發聲過程進行匹配，每個環節都有一個相應的模塊用來支撐人發聲的過程。其中使用了AR數學模型進行線性預測，此算法也是現在很多語音編碼的重要組成模塊。

【7.2.2】語音編碼模型——G.729：

▲經典語音編碼模型: G.729(CELP)

G.729同樣是經典的語音編碼模型之一，也是我們學習語音編碼的一個入門級Codec。G.729的文檔十分完善，包括每個模塊的源代碼在內都可直接下載。G.729可以說是在早期發聲模型基礎上的改進，需要關注的性能指標是幀長與算法上的延時，包括語音質量的MOS分。G.729也有很多變種，由于語音需要考慮系統兼容性，不同的系統指定攜帶的Codec也不同，音頻編碼的復雜程度要遠高于視頻編碼。

G.729 建議了共軛結構的算術碼本激勵線性預測(CS-ACELP)編碼方案。G.729算法的幀長為10ms, 編碼器含5ms 前瞻，算法時延15ms，語音質量MOS分可達4.0。

7.3 語音經典編碼模型——聽覺模型

▲ ISO編碼模型：心理聲學模型

除了研究人發聲的原理，我們還需要研究人聽聲的原理，從而更好實現聲音的收集與處理。一個聲音信號是否能被人耳聽見主要取決于聲音信號的頻率、強度與其他音的干擾。心理聲學模型便是用來找出音頻信號中存在的冗余信息從而實現在壓縮聲音信號的同時不影響聽覺的目的。心理聲學理論的成熟為感知編碼系統奠定了理論基礎，這里的感知編碼主要是ISO編碼模型，主要覆蓋的聲學原理有臨界頻帶、絕對聽覺閾值、頻域掩蔽、時域掩蔽等。

▲ 聽覺模型

無論是MP3還是AAC以至于到后面的杜比音效都是基于聽覺模型進行的探索與創新。

【7.3.1】臨界頻帶：

由于聲音頻率與掩蔽曲線不是線性關系，為從感知上來統一度量聲音頻率，引入了“臨界頻帶”的概念。通常認為，在20Hz到16kHz范圍內有24個監界頻帶。臨界頻帶的單位叫Bark(巴克)。

▲ 臨界頻帶

臨界頻帶主要用于心理聲學模型。由于聲音頻率與掩蔽曲線并非線性關系，為從感知上來統一度量聲音頻率，我們引入了“臨界頻帶”的概念。人耳對每段的某個頻率的靈敏度不同，二者關系是非線性的。通常我們會將人可以聽到的整個頻率也就是從20Hz到16KHz分為24個頻帶，可在其中進行時域或頻域類的掩蔽，將一些冗余信息從編碼中去除從而有效提升壓縮率。

【7.3.2】絕對聽覺閾值：

▲ 絕對聽覺閾值

絕對聽覺閾值也可有效提升壓縮率，基于心理聲學模型，可去除編碼中的冗余部分。

7.4 經典音頻編碼：ISO

▲ 經典音頻編碼：ISO

我們可將最早的MP3 Layer1理解為第一代的ISO感知編碼，隨后的一些純量化內容更多的是在壓縮上進行改進而核心一直未改變。從MP3 Layer1到Layer2與Layer3，主要的改變是心理聲學模型的迭代。

▲ MPEG1 LayerI Codec

▲ MPEG1 LayerIII Codec

上圖展示的是Encode與Decode的回路。輸入的PCM首先會經過多子帶分析與頻域中的心理聲學模型冗余處理，而后進行量化編碼；Layer III中的是我們現在常說的MP3的Codec：Encode與Decode之間的整體回路，相比于Layer1多了幾個處理環節以及霍夫曼編碼。

7.5 AAC協議族

▲ AAC家族

AAC與G.719一樣包括很多系列，但AAC的巧妙之處在于向下兼容的特性。開始時我們就強調，所有Codec在設計時都需要考慮兼容性，瑞典的Coding Technology公司曾提出在兼容性上特別優化的方案。AAC Plus V1包括AAC與SBR，AAC Plus V2包括AAC+SBR+PS，現在常見的很多音樂類或直播音頻編碼都是基于AAC Plus協議族進行的。

德國的霍朗浦學院曾在AAC低延時協議擴展方面做出一些探索并得到了AAC LD協議族，其原理仍基于傳統的AAC模塊，但在后端會對處理長度進行調整，例如之前是以1024bit為一個處理單位，那改進后則以960bit為一個處理單位。除此之外AAC LD加入了LD-SBR與LD-MPS等，從而形成一個規模較大的AAC-ELD V2模塊，可以說是十分巧妙。

【7.5.1】AACPlus核心模塊——SBR（Spectral Band Replication）：

▲ SBR(Spectral Band Replication)

我們可以看到，AAC可以說充分利用了頻域擴展，用很小的代價實現諸多功能優化。AAC的核心之一是SBR，這是一種使用極少位數就可描述高頻部分并在解碼時進行特殊優化從而實現頻域擴展的模塊。上圖展示的是不同壓縮率模塊所覆蓋的頻率取值范圍，而使用AAC時需要注意一個被稱為“甜點碼率”的指標。無論是采樣率還是碼率都是變化的，在應用時選擇何種碼率十分關鍵。例如直播時采用64Kbps即可在覆蓋整個頻段的同時保持良好音質。

【7.5.2】AACPlus核心模塊——PS（Parametric Stereo）：

▲ ：PS(Parametric Stereo)

PS 描述參數：IID(Inter-channel Intensity Difference),，ICC(Inter-channel Cross-Correlation)，IPD(Inter-channel Phase Difference)。

▲ AACPlus v2編碼框圖

▲ AACPlus v2解碼框圖

PS模塊也是AAC的核心模塊之一，主要用于分析左右聲道屬性并使用非常少的位數表示左右聲道相關性，而后在解碼端將左右聲道分離。這里比較巧妙的是PS的向下兼容特性，整體數據打包是分開進行的。如果獲取到AAC、SBR、PS三者的基本數據包后，在解碼階段我們就只需AAC—LC。上圖展示的就是AAC的解碼框架，如果大家讀過3GPP的代碼就可發現其每一個模塊都相當清楚。我們可根據文檔讀取代碼并對應到每一個環節。

【7.5.3】甜點碼率：

▲ AAC 甜點碼率

甜點碼率是一項很關鍵的指標。例如在手機直播應用場景中，一般的視頻分辨率為640×360，音頻碼率大約在800K左右。如果音頻碼率過大則會直接影響視頻質量，因而我們需要控制音頻碼率在一個較為合適的范圍內從而實現最佳的音畫效果。在很多應用場景中可能需要系統根據不同的網絡環境下載不同音質的文件，例如在2G環境中下載較小的文件，這樣做主要是為了節省帶寬并提高音頻文件的播放流暢程度。

7.6 AAC-ELD家族

AAC-ELD家族產生背景：aacplus v2 已經在壓縮和音質方面做到了近似于極致，但由于算法實現上的長達100ms左右的延時極大的阻礙aacplus v2在實時通訊領域的應用。Fraunhofer IIS 為了解決這個問題，對AAC進行相關改進，形成了AAC-ELD協議族。

▲ AAC-ELD家族

AAC-ELD家族帶來的主要改進是低延遲。如果Codec的延遲太長便無法在一些特定場景中被使用。例如早期AAC Plus V2的整體延遲可達100ms，如此高的延遲肯定無法被應用于語音通話等對實時性要求極高的應用場景?；衾势諏W院推出的AAC-ELD可在保持音質的前提下將延遲降低至15ms，相對于MP3最高長達200ms的延遲而言提升巨大。

7.7 應用中端到端的延遲

▲ 端到端的延時

編解碼過程也存在延時問題，這也是我們選擇編解碼器時需要考慮的最主要因素之一，編解碼的延時主要由處理延時與算法延時組成，例如G.729的算法延時為15ms，而AAC-LC可達到一百毫秒以上。另外，播放端或采集端的長幀數量太多，播放時緩存太多等也會直接影響延時，我們在選擇編解碼器時需要考慮延時帶來的影響。

編解碼器已經歷了兩個發展方向：

1）一個是以G.7（G.729）為例，根據發聲模型設計的一套主要集中于語音方面的編解碼算法；

2）另一個是以ISO的MP3和AAC為例，根據心理聲學模型設計的一套感知編碼。

最近的趨勢是編碼的統一：原來在語音場景下我們使用8K或16K進行采樣，音樂場景下則需使用覆蓋到全頻帶的44.1K進行采樣，每個Codec都有一個頻域覆蓋的范圍。在之前的開發中，如果應用場景僅針對壓縮語音那么需要選擇語音編碼方案，如果應用場景針對壓縮音樂則需要選擇音樂編碼方案，而現在的發展方向是通過一套編碼從容應對語音與音樂兩個應用場景，這就是接下來將要被提到的USAC。

這里介紹兩個比較典型的Codec：

1）一個是Opus，通過其中集成的模塊可實現根據傳入音頻文件的采樣率等屬性自動選擇語音編碼或音樂編碼；

2）另一個是EVS這也是霍朗普等組織推行的方案，已經嘗試用于4G或5G之中。

EVS (Enhanced Voice Services)：主要是VoiceAge, Dolby, Fraunhofer, 華為聯合開發的USAC編碼器，低速率音樂編碼質量很好。

▲ USAC

由框圖我們可以了解到USAC向下兼容的特性。

編解碼器可總結為經歷了三個時代：

1）發聲模型；
2）聽覺感知；
3）融合方案。

接下來我將展示目前所有的Codec情況并整理為表格以方便大家檢索查閱。

8、解碼器（Codec）總結

8.1 IETF系列

IETF作為標準協議聯盟組織之一推出了以上Codec：Opus包括采樣率為8kHz、甜點碼率為11kbps的窄帶單聲語音（SILK），采樣率為16kHz、甜點碼率為20kbps的寬帶單聲語音與采樣率為48kHz、甜點碼率為32kbps的全帶單聲語音（CELT），采用甜點碼率意味著將壓縮率和音質保持在一個良好的平衡狀態。在一些窄帶單聲語音應用場景例如常見的微信語音聊天，其壓縮率可達到原來的8.5%。Opus沒有技術專利和源代碼的門檻，使得其受到現在很多流媒體廠商的歡迎，Opus支持更廣的碼率范圍，具備豐富采樣率選擇，可實現極低延遲與可變幀大小，也具備以往一些Codec的許多特性如CBR、VBR、動態調整等，支持的通道數量也更多。除此之外，Opus同樣具備許多從SILK移植而來的特性或功能。如在VUIB傳輸上集成了扛丟包模式等。

iLBC早在SILK未出現時就被提出同樣具備抗丟包。的特性，高達15.2kbps的甜點碼率與4.14的Mos使其音質較為良好，超過G.729的相關指標；GSM就是最早手機網絡仍停留在2G時代時流行的編碼形式，主要用于蜂窩電話的編碼任務。

8.2 AMR系列

AMR早在3G時期就被廣泛應用，AMR-NB是最流行的語音編碼器，具有壓縮效果好，支持多種碼率形式的特點；與此同時，這也是GSM與3G時期Android平臺最早支持的窄帶語音編碼方案。AMR-WB作為AMR-NB向寬帶的擴展版，主要用于3G和4G通話標準協議中，其甜點碼率為12.65kbps。在實踐中我們將碼率參數調整為此值即可實現壓縮率與質量的平衡。AMR-WB+則是上述兩者的融合，三者共同構成AMR系列。

8.3 ITU-T G系列

ITU-T G系列包括最早的波形編碼G711到現在大家熟悉的G.729這里我想強調的是G722.1 Siren7、G722.1c Siren14與G719 Siren22，例如G.719可覆蓋整個前頻帶且支持立體聲。即使都屬于老協議，但由于其優秀的兼容性，不應被我們忽略。

將Opus與其他一些Codec進行對比我們可以看到，無論是質量還是延時控制，Opus的優勢十分明顯；加之Opus作為開源的免費方案，不存在專利限制，受到業界追捧也不足為奇。

8.4 ISO系列

ISO里我想強調的是MP3與AAC，二者同樣支持很多碼率。MP3的甜點碼率為128kbps，MP3 Pro的碼率可達到MP3的一半；AAC支持8～96khz的采樣率，AAC-LC的甜點碼率為96kbps，HE-AAC的甜點碼率為32kbps，AAC-LD與ELD做到了AAC的低延時，實現了延時與壓縮比的最佳平衡。

8.5 3GPP系列：EVRC

EVRC 是CDMA 中使用的語音編解碼器，由高通公司1995年提出目標是取代QCELP。

高通公司主推的3GPP是CDMA中使用的語音編解碼器，在未來選擇編解碼器類型時我們需要特別考慮延時與幀長。由于語音編碼種類很多，幀長也是復雜多變的，其背后的算法復雜程度，RAM、ROM占用等都是在實踐當中需要著重考慮的。

8.6 極低碼率

極低碼率主要的應用場景是對講機、衛星通訊、軍工等。

上圖圖表中的MELP最早由美國軍方開發，現在絕大多數的對講機都基于此模型進行擴展開發，壓縮后的碼率可達到2.4kbps而目前最極端的極低碼率可實現300bps，相當于壓縮為原數據的0.2%，此時的音頻文件僅能被用于傳達語音內容而丟失了很多聲色。

8.7 全頻帶

全頻帶中的組合也是多種多樣。

9、編解碼使用注意

9.1 License

▲ 開源項目常用的Lisence

國內大部分企業在開發時容易忽視包括專利安全性在內的與License相關的內容。如果企業計劃得比較長遠，需要長期使用某項技術或企業規模不斷擴大時則不能不考慮專利問題。專利費用包括Open Source與算法專利，二者完全獨立互不干涉，如果我們從某家專利公司購買了AAC的專利算法，并不能獲得此AAC專利的源代碼，僅能獲得與此技術相關的專利使用授權。專利公司會給予需要下載的文件列表，通過這種方式實現技術的授權使用。

▲ 一張圖看懂Lisence（來自：阮一峰的博客）

上面的二叉樹圖比較清晰地展示了代碼授權的具體流程，隨著企業的規?；l展日趨成熟，企業應當規范自身的技術使用行為，盡可能避免專利糾紛帶來的不利影響。

9.2 專利

▲ 2個著名的多媒體技術專利池

主流語音編解碼技術擁有兩個專利池：

1）MPEG-LA；
2）Via Licensing。

很多非常復雜的Codec涉及高達上千個專利，與之相關的企業或組織多達幾十個，為專利授權而與每一個企業或組織進行洽談顯然是不現實的，因而專利池的出現使得技術授權更加規范清晰，方便企業統一處理技術授權問題。

9.3 常見Codec Patent License

希望大家在使用技術的同時尊重知識產權，助力技術創新可持續發展。

10、講稿PPT下載

（因無法上傳附件，請從原文附件下載：http://www.52im.net/thread-2230-1-1.html）

附錄：更多音視頻技術資料

[1] 實時音視頻開發的其它精華資料：
《實時語音聊天中的音頻處理與編碼壓縮技術簡述》
《網易視頻云技術分享：音頻處理與壓縮技術快速入門》
《學習RFC3550：RTP/RTCP實時傳輸協議基礎知識》
《基于RTMP數據傳輸協議的實時流媒體技術研究（論文全文）》
《聲網架構師談實時音視頻云的實現難點(視頻采訪)》
《淺談開發實時視頻直播平臺的技術要點》
《還在靠“喂喂喂”測試實時語音通話質量？本文教你科學的評測方法！》
《實現延遲低于500毫秒的1080P實時音視頻直播的實踐分享》
《移動端實時視頻直播技術實踐：如何做到實時秒開、流暢不卡》
《如何用最簡單的方法測試你的實時音視頻方案》
《技術揭秘：支持百萬級粉絲互動的Facebook實時視頻直播》
《簡述實時音視頻聊天中端到端加密（E2EE）的工作原理》
《移動端實時音視頻直播技術詳解（一）：開篇》
《移動端實時音視頻直播技術詳解（二）：采集》
《移動端實時音視頻直播技術詳解（三）：處理》
《移動端實時音視頻直播技術詳解（四）：編碼和封裝》
《移動端實時音視頻直播技術詳解（五）：推流和傳輸》
《移動端實時音視頻直播技術詳解（六）：延遲優化》
《理論聯系實際：實現一個簡單地基于HTML5的實時視頻直播》
《IM實時音視頻聊天時的回聲消除技術詳解》
《淺談實時音視頻直播中直接影響用戶體驗的幾項關鍵技術指標》
《如何優化傳輸機制來實現實時音視頻的超低延遲？》
《首次披露：快手是如何做到百萬觀眾同場看直播仍能秒開且不卡頓的？》
《Android直播入門實踐：動手搭建一套簡單的直播系統》
《網易云信實時視頻直播在TCP數據傳輸層的一些優化思路》
《實時音視頻聊天技術分享：面向不可靠網絡的抗丟包編解碼器》
《P2P技術如何將實時視頻直播帶寬降低75%？》
《專訪微信視頻技術負責人：微信實時視頻聊天技術的演進》
《騰訊音視頻實驗室：使用AI黑科技實現超低碼率的高清實時視頻聊天》
《微信團隊分享：微信每日億次實時音視頻聊天背后的技術解密》
《近期大熱的實時直播答題系統的實現思路與技術難點分享》
《福利貼：最全實時音視頻開發要用到的開源工程匯總》
《七牛云技術分享：使用QUIC協議實現實時視頻直播0卡頓！》
《實時音視頻聊天中超低延遲架構的思考與技術實踐》
《理解實時音視頻聊天中的延時問題一篇就夠》
《實時視頻直播客戶端技術盤點：Native、HTML5、WebRTC、微信小程序》
《寫給小白的實時音視頻技術入門提綱》
《微信多媒體團隊訪談：音視頻開發的學習、微信的音視頻技術和挑戰等》
《騰訊技術分享：微信小程序音視頻技術背后的故事》
《微信多媒體團隊梁俊斌訪談：聊一聊我所了解的音視頻技術》
《新浪微博技術分享：微博短視頻服務的優化實踐之路》
《實時音頻的混音在視頻直播應用中的技術原理和實踐總結》
《以網游服務端的網絡接入層設計為例，理解實時通信的技術挑戰》
《騰訊技術分享：微信小程序音視頻與WebRTC互通的技術思路和實踐》
《新浪微博技術分享：微博實時直播答題的百萬高并發架構實踐》
《技術干貨：實時視頻直播首屏耗時400ms內的優化實踐》
>> 更多同類文章 ……
[2] 開源實時音視頻技術WebRTC的文章：
《開源實時音視頻技術WebRTC的現狀》
《簡述開源實時音視頻技術WebRTC的優缺點》
《訪談WebRTC標準之父：WebRTC的過去、現在和未來》
《良心分享：WebRTC 零基礎開發者教程（中文）[附件下載]》
《WebRTC實時音視頻技術的整體架構介紹》
《新手入門：到底什么是WebRTC服務器，以及它是如何聯接通話的？》
《WebRTC實時音視頻技術基礎：基本架構和協議棧》
《淺談開發實時視頻直播平臺的技術要點》
《[觀點] WebRTC應該選擇H.264視頻編碼的四大理由》
《基于開源WebRTC開發實時音視頻靠譜嗎？第3方SDK有哪些？》
《開源實時音視頻技術WebRTC中RTP/RTCP數據傳輸協議的應用》
《簡述實時音視頻聊天中端到端加密（E2EE）的工作原理》
《實時通信RTC技術棧之：視頻編解碼》
《開源實時音視頻技術WebRTC在Windows下的簡明編譯教程》
《網頁端實時音視頻技術WebRTC：看起來很美，但離生產應用還有多少坑要填？》
《了不起的WebRTC：生態日趨完善，或將實時音視頻技術白菜化》
《騰訊技術分享：微信小程序音視頻與WebRTC互通的技術思路和實踐》
>> 更多同類文章 ……

（本文同步發布于：http://www.52im.net/thread-2230-1-1.html）

作者：Jack Jiang (點擊作者姓名進入Github)
出處：http://www.52im.net/space-uid-1.html
交流：歡迎加入即時通訊開發交流群 215891622
討論：http://www.52im.net/
Jack Jiang同時是【原創Java Swing外觀工程BeautyEye】和【輕量級移動端即時通訊框架MobileIMSDK】的作者，可前往下載交流。
本博文歡迎轉載，轉載請注明出處（也可前往我的52im.net 找到我）。

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

Jack Jiang

導航

公告

常用鏈接

留言簿(285)

隨筆檔案

文章檔案

搜索

最新評論

閱讀排行榜

評論排行榜

60天內閱讀排行

詳解音頻編解碼的原理、演進和應用選型等

1、引言

2、分享者

3、系列文章

4、語言/音頻編碼總表

5、數字語言基本要素