中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

<tfoot id="8kygy"><td id="8kygy"></td></tfoot>

<menu id="8kygy"><tbody id="8kygy"></tbody></menu>

<center id="8kygy"><dfn id="8kygy"></dfn></center>

<tfoot id="8kygy"><th id="8kygy"></th></tfoot>

<strike id="8kygy"></strike>

<tfoot id="8kygy"><object id="8kygy"></object></tfoot>

<delect id="8kygy"></delect>

<delect id="8kygy"><tr id="8kygy"></tr></delect>

<menu id="8kygy"></menu>

智東西 06-25

你給豆包打的這通視頻背后，藏著 AI 實時交互的體驗密碼

智東西

作者 | 陳駿達(dá)

編輯 | 漠影

今年，字節(jié)跳動旗下 AI 應(yīng)用豆包的交互方式迎來多次升級，從春節(jié)期間的實時語音通話，再到 5 月份新增的視頻通話功能，如今，豆包已經(jīng)能像真人一樣通過多模態(tài)交互實現(xiàn)無縫溝通。

我們先來看幾個例子：

打開視頻通話功能，隨手對準(zhǔn)一個歐洲小國的國旗，豆包便能結(jié)合音視頻信息，瞬間給出正確答案。

通話過程中，用戶可以隨意地停頓、思考、改變話題，豆包能準(zhǔn)確地把握回復(fù)的時機；而在豆包說話時，可以隨時打斷，向它提出新的要求。

在地鐵站、電梯、地下車庫等較為復(fù)雜的網(wǎng)絡(luò)環(huán)境下，豆包的實時交互能力也不會大打折扣。下方案例中，豆包的響應(yīng)速度沒有出現(xiàn)明顯的問題，給出的回答也正確、清晰。

要實現(xiàn)這種近乎直覺性的體驗，并在一款國民級 AI 應(yīng)用中穩(wěn)定提供實時音視頻交互，豆包需要攻克不少挑戰(zhàn)。

除了提升模型能力之外，實時音視頻交互要如何將攝像頭捕捉的畫面高清呈現(xiàn)，如何將 AI 的視覺推理和搜索反饋同步，又如何在瘋狂丟包的弱網(wǎng)環(huán)境中依舊維持高質(zhì)量通信？

豆包最終選擇的方案，是火山引擎的 RTC（Real Time Communication，實時音視頻）技術(shù)。目前，真人用戶間的音視頻通話幾乎都依賴 RTC 技術(shù)，火山引擎智能交互產(chǎn)品負(fù)責(zé)人楊若揚向智東西透露，他認(rèn)為，未來的人機音視頻通話也必將全面進(jìn)入 RTC 時代。

一、實時交互技術(shù)路徑分野，RTC 憑借什么勝出？

RTC 是一項專門為低延遲互動設(shè)計的技術(shù)，能降低通信延遲、確保實時性和質(zhì)量，讓用戶與用戶、用戶與系統(tǒng)間實現(xiàn)近乎 " 面對面 " 般的無縫音視頻交互體驗。

這項技術(shù)涉及多個模塊，比如音視頻的采集與編解碼、網(wǎng)絡(luò)傳輸、網(wǎng)絡(luò)自適應(yīng)等，這些模塊協(xié)同工作，保證了用戶從攝像頭、麥克風(fēng)采集的數(shù)據(jù)能清晰流暢的傳送至接收方，而用戶也能及時收到對方的音視頻反饋。

雖然 RTC 并不是目前業(yè)內(nèi)唯一的實時交互方案，但與基于 TCP 協(xié)議實現(xiàn)的另一大主流方案 WebSocket 相比，RTC 擁有顯著的優(yōu)勢。

協(xié)議方面，RTC 底層采用 UDP 傳輸，避免了傳統(tǒng) TCP 必須完整接收再傳給應(yīng)用層的機制。RTC 允許一定程度丟包但保證速度，因此延遲非常低，特別適合實時音視頻通話和互動。

理想情況下，RTC 和 WebSocket 的語音延遲差異不大。但現(xiàn)實世界的網(wǎng)絡(luò)情況復(fù)雜多變，WebSocket 對丟包比較敏感，網(wǎng)絡(luò)波動時延遲明顯升高，不如 RTC 流暢。

RTC 技術(shù)具有較強的抗弱網(wǎng)能力。線上實測數(shù)據(jù)清晰印證，在 20% 丟包環(huán)境下，WebSocket 方案已出現(xiàn)嚴(yán)重卡頓、斷連，并且線上已有高達(dá) 15% 的用戶不可用；而 RTC 即使在 80% 極端丟包下，不可用率也僅為 1%，體驗稍有滯后（延時 4.6s）。

在視頻場景，RTC 技術(shù)還可以利用其帶寬估計、前向糾錯（FEC）和丟包重傳等抗擁塞能力與端到端傳輸優(yōu)化，有效降低移動網(wǎng)絡(luò)或擁擠 WiFi 下畫面花屏與卡頓的風(fēng)險。

火山引擎的 RTC 技術(shù)于 2021 年隨品牌發(fā)布上線，但其研發(fā)始于 2017 年，用于滿足抖音直播連麥等需求。此后，這一技術(shù)陸續(xù)在字節(jié)內(nèi)部的音視頻通話、社交娛樂、游戲、在線會議等場景落地。

2021 年火山引擎成立后，其 RTC 技術(shù)逐漸產(chǎn)品化，承載能力也不斷提升。而生成式 AI 的爆發(fā)，給 RTC 技術(shù)帶來了新的發(fā)展機遇，2024 年初，火山引擎推出了基于 RTC 的對話式 AI 技術(shù)方案，這便是豆包交互體驗升級背后的重要支撐。

二、豆包交互體驗再升級，揭秘背后核心技術(shù)棧

我們已在文章開頭的案例中，看到了 RTC 支持下豆包語音交互、視頻電話的流暢、即時性體驗。在智東西與火山引擎智能交互產(chǎn)品負(fù)責(zé)人楊若揚的溝通中，我們了解到了這一效果背后的具體實現(xiàn)。

豆包首先充分利用了火山引擎 RTC 方案的既有優(yōu)勢，實現(xiàn)了低延遲、高質(zhì)量和抗弱網(wǎng)的音視頻交互體驗。

在網(wǎng)絡(luò)層面，火山引擎擁有覆蓋全球的邊緣節(jié)點和骨干網(wǎng)絡(luò)，這能有效縮短數(shù)據(jù)傳輸物理路徑，減少中間節(jié)點，降低延遲和丟包風(fēng)險。同時，智能路由技術(shù)可實時感知鏈路狀態(tài)和擁塞情況，動態(tài)選擇最優(yōu)路徑，確保數(shù)據(jù)傳輸高效流暢。

在算法層面，火山引擎 RTC 技術(shù)擁有網(wǎng)絡(luò)、音頻和視頻多類算法。網(wǎng)絡(luò)側(cè)通過動態(tài)帶寬、自適應(yīng)傳輸、前向糾錯、智能重傳等機制提升弱網(wǎng)適應(yīng)能力；音視頻側(cè)結(jié)合神經(jīng)網(wǎng)絡(luò)編解碼、分層和感知內(nèi)容編碼等技術(shù)，動態(tài)優(yōu)化編碼參數(shù)，有效緩解 " 最后一公里 " 網(wǎng)絡(luò)不確定性，保障用戶端音視頻傳輸?shù)那逦扰c穩(wěn)定性。

楊若揚認(rèn)為，在豆包這樣的 " 對話式 AI" 場景，RTC 技術(shù)所服務(wù)的對象已從人和人之間的交流，轉(zhuǎn)變?yōu)槿伺c機器的交流?；鹕揭?RTC 技術(shù)針對新場景的特點，在音視頻處理層面做了針對性的升級和優(yōu)化。

視頻流與大模型在輸入輸出形式上存在明顯差異：視頻由一幀幀圖片組成，而當(dāng)前的多模態(tài)大模型以理解單張圖片為主，這要求模型能分析幀間聯(lián)系與時序，保證語義連續(xù)，因此必須不斷優(yōu)化視頻理解與關(guān)鍵幀提取算法，以提升模型對動態(tài)場景的感知與處理能力。

在人與 AI 的對話中，AI 如何準(zhǔn)確斷句，選擇接話、插話的時機也是一大挑戰(zhàn)。人類能憑語境判斷對方話語結(jié)束時間，并憑音色識別說話者、濾除無關(guān)噪聲，而大部分 AI 系統(tǒng)僅依賴停頓時長判斷，往往不夠準(zhǔn)確，這就需要引入智能語義判停與聲紋降噪算法。

智能語義判停技術(shù)可以根據(jù)語義判斷用戶話語是否完整，讓模型不會過早回復(fù)。下方案例中，用戶可以停頓，思考，而不會被豆包插話。

而聲紋降噪算法能在嘈雜環(huán)境中聚焦目標(biāo)說話者，屏蔽環(huán)境人聲及噪聲干擾，將誤打斷率降低 15%-20%。

這些改進(jìn)讓 AI 在音視頻通話中展現(xiàn)出更接近人類的特征，也讓用戶在與豆包對話時能獲得更加流暢、自然、貼近真實互動的使用感受。

三、智能音視頻交互需求井噴，RTC 有望提供堅實底座

隨著大模型與 AI 應(yīng)用的日漸成熟，音視頻已成為新一代 AI 交互中不可或缺的一部分，這些模態(tài)所提供的沉浸式體驗對用戶天然有吸引力和親近性。

在虛擬陪伴、智能玩具、智能家居、智能教育等廣闊場景中，用戶對于低延時、高質(zhì)量、自然流暢的人機對話需求與日俱增，而火山引擎 RTC 這樣能夠支撐復(fù)雜場景實時音視頻交互的底層傳輸技術(shù)正是保障用戶體驗的關(guān)鍵。

在多 Agent、多人場景中，RTC 技術(shù)還展現(xiàn)出較好的可擴展性，相較傳統(tǒng) WebSocket 實現(xiàn)語音方案，RTC 在網(wǎng)絡(luò)層和算法層都更為成熟，原生支持房間管理、多流控制、音視頻混音與優(yōu)先級策略，可應(yīng)用于多人娛樂、企業(yè)辦公等場景。

火山引擎基于 RTC 的對話式 AI 技術(shù)，不僅僅是 " 豆包專屬 "，而是能為所有 AI 時代的產(chǎn)品提供重要價值。作為火山引擎的核心音視頻技術(shù)之一，RTC 已廣泛應(yīng)用于字節(jié)各大業(yè)務(wù)場景，在真實用戶環(huán)境中反復(fù)打磨與優(yōu)化。

同時，火山引擎提供的 RTC 服務(wù)與其內(nèi)部業(yè)務(wù)完全同源，換句話說，企業(yè)通過火山引擎接入 RTC，使用的就是與抖音、飛書、豆包同款的算法、架構(gòu)與策略。

當(dāng)然，RTC 技術(shù)也存在行業(yè)共性難題：一方面，自建集成方案門檻較高，需要專門的網(wǎng)絡(luò)傳輸與音視頻處理能力，另一方面，云服務(wù)資源消耗也不可小覷，此外深度音頻算法調(diào)優(yōu)也需大量投入。

楊若揚觀察到，上述難題導(dǎo)致許多企業(yè)不得不選擇實現(xiàn)成本相對低廉、門檻較低的 WebSocket，一定程度上犧牲用戶體驗，等待用戶規(guī)模擴展后再考慮換用更成熟方案，這無形中限制了產(chǎn)品的成長與競爭力。

針對這些痛點，火山引擎對話式 AI 一站式方案提供了低門檻、高質(zhì)量的接入途徑。開發(fā)者無需從零開始搭建復(fù)雜架構(gòu)，即可實現(xiàn)用戶與 AI 的實時音視頻互動，構(gòu)建契合業(yè)務(wù)場景的 AI 實時對話能力。

火山引擎對話式 AI 官網(wǎng)：

https://www.volcengine.com/product/veRTC/ConversationalAI

火山引擎還為開發(fā)者提供了每月 10000 分鐘的免費額度，進(jìn)一步降低了開發(fā)者的前期驗證與迭代成本。

結(jié)語：從難點到標(biāo)配，RTC 成對話式 AI 首選項

在對話式 AI 場景中，RTC 正在成為企業(yè)的優(yōu)選方案，這種整合方案讓企業(yè)能更加專注業(yè)務(wù)創(chuàng)新，以更低成本、更快速度落地語音與音視頻能力，從一開始就為用戶帶來高品質(zhì)的交互體驗，為下一代智能應(yīng)用贏得先機與口碑。

火山引擎的對話式 AI 一站式方案，讓實時音視頻從 " 難點 " 變成 " 標(biāo)配 "，為各類 AI 應(yīng)用與智能體生態(tài)拓展廣闊空間，讓未來的人機互動更加順暢、高效、有溫度。

楊若揚稱，在多模態(tài)音視頻技術(shù)上，火山引擎希望讓人和 AI 之間的對話越來越接近人與人之間的真實溝通，這也是他們未來持續(xù)努力的方向。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關(guān)標(biāo)簽

ai 智東西抖音用戶體驗

相關(guān)閱讀

一個月內(nèi)連登兩次央視！眾星點贊海信RGB-Mini LED電視

雷科技 07-28

最新評論

沒有更多評論了

智東西

訂閱

覺得文章不錯，微信掃描分享好友

掃碼分享

熱門推薦

Blockchain News