中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      智東西 06-25

      你給豆包打的這通視頻背后,藏著 AI 實時交互的體驗密碼

      智東西

      作者 | 陳駿達(dá)

      編輯 | 漠影

      今年,字節(jié)跳動旗下 AI 應(yīng)用豆包的交互方式迎來多次升級,從春節(jié)期間的實時語音通話,再到 5 月份新增的視頻通話功能,如今,豆包已經(jīng)能像真人一樣通過多模態(tài)交互實現(xiàn)無縫溝通。

      我們先來看幾個例子:

      打開視頻通話功能,隨手對準(zhǔn)一個歐洲小國的國旗,豆包便能結(jié)合音視頻信息,瞬間給出正確答案。

      通話過程中,用戶可以隨意地停頓、思考、改變話題,豆包能準(zhǔn)確地把握回復(fù)的時機;而在豆包說話時,可以隨時打斷,向它提出新的要求。

      在地鐵站、電梯、地下車庫等較為復(fù)雜的網(wǎng)絡(luò)環(huán)境下,豆包的實時交互能力也不會大打折扣。下方案例中,豆包的響應(yīng)速度沒有出現(xiàn)明顯的問題,給出的回答也正確、清晰。

      要實現(xiàn)這種近乎直覺性的體驗,并在一款國民級 AI 應(yīng)用中穩(wěn)定提供實時音視頻交互,豆包需要攻克不少挑戰(zhàn)。

      除了提升模型能力之外,實時音視頻交互要如何將攝像頭捕捉的畫面高清呈現(xiàn),如何將 AI 的視覺推理和搜索反饋同步,又如何在瘋狂丟包的弱網(wǎng)環(huán)境中依舊維持高質(zhì)量通信?

      豆包最終選擇的方案,是火山引擎的 RTC(Real Time Communication,實時音視頻)技術(shù)。目前,真人用戶間的音視頻通話幾乎都依賴 RTC 技術(shù),火山引擎智能交互產(chǎn)品負(fù)責(zé)人楊若揚向智東西透露,他認(rèn)為,未來的人機音視頻通話也必將全面進(jìn)入 RTC 時代。

      一、實時交互技術(shù)路徑分野,RTC 憑借什么勝出?

      RTC 是一項專門為低延遲互動設(shè)計的技術(shù),能降低通信延遲、確保實時性和質(zhì)量,讓用戶與用戶、用戶與系統(tǒng)間實現(xiàn)近乎 " 面對面 " 般的無縫音視頻交互體驗。

      這項技術(shù)涉及多個模塊,比如音視頻的采集與編解碼、網(wǎng)絡(luò)傳輸、網(wǎng)絡(luò)自適應(yīng)等,這些模塊協(xié)同工作,保證了用戶從攝像頭、麥克風(fēng)采集的數(shù)據(jù)能清晰流暢的傳送至接收方,而用戶也能及時收到對方的音視頻反饋。

      雖然 RTC 并不是目前業(yè)內(nèi)唯一的實時交互方案,但與基于 TCP 協(xié)議實現(xiàn)的另一大主流方案 WebSocket 相比,RTC 擁有顯著的優(yōu)勢。

      協(xié)議方面,RTC 底層采用 UDP 傳輸,避免了傳統(tǒng) TCP 必須完整接收再傳給應(yīng)用層的機制。RTC 允許一定程度丟包但保證速度,因此延遲非常低,特別適合實時音視頻通話和互動。

      理想情況下,RTC 和 WebSocket 的語音延遲差異不大。但現(xiàn)實世界的網(wǎng)絡(luò)情況復(fù)雜多變,WebSocket 對丟包比較敏感,網(wǎng)絡(luò)波動時延遲明顯升高,不如 RTC 流暢。

      RTC 技術(shù)具有較強的抗弱網(wǎng)能力。線上實測數(shù)據(jù)清晰印證,在 20% 丟包環(huán)境下,WebSocket 方案已出現(xiàn)嚴(yán)重卡頓、斷連,并且線上已有高達(dá) 15% 的用戶不可用;而 RTC 即使在 80% 極端丟包下,不可用率也僅為 1%,體驗稍有滯后(延時 4.6s)。

      在視頻場景,RTC 技術(shù)還可以利用其帶寬估計、前向糾錯(FEC)和丟包重傳等抗擁塞能力與端到端傳輸優(yōu)化,有效降低移動網(wǎng)絡(luò)或擁擠 WiFi 下畫面花屏與卡頓的風(fēng)險。

      火山引擎的 RTC 技術(shù)于 2021 年隨品牌發(fā)布上線,但其研發(fā)始于 2017 年,用于滿足抖音直播連麥等需求。此后,這一技術(shù)陸續(xù)在字節(jié)內(nèi)部的音視頻通話、社交娛樂、游戲、在線會議等場景落地。

      2021 年火山引擎成立后,其 RTC 技術(shù)逐漸產(chǎn)品化,承載能力也不斷提升。而生成式 AI 的爆發(fā),給 RTC 技術(shù)帶來了新的發(fā)展機遇,2024 年初,火山引擎推出了基于 RTC 的對話式 AI 技術(shù)方案,這便是豆包交互體驗升級背后的重要支撐。

      二、豆包交互體驗再升級,揭秘背后核心技術(shù)棧

      我們已在文章開頭的案例中,看到了 RTC 支持下豆包語音交互、視頻電話的流暢、即時性體驗。在智東西與火山引擎智能交互產(chǎn)品負(fù)責(zé)人楊若揚的溝通中,我們了解到了這一效果背后的具體實現(xiàn)。

      豆包首先充分利用了火山引擎 RTC 方案的既有優(yōu)勢,實現(xiàn)了低延遲、高質(zhì)量和抗弱網(wǎng)的音視頻交互體驗。

      在網(wǎng)絡(luò)層面,火山引擎擁有覆蓋全球的邊緣節(jié)點和骨干網(wǎng)絡(luò),這能有效縮短數(shù)據(jù)傳輸物理路徑,減少中間節(jié)點,降低延遲和丟包風(fēng)險。同時,智能路由技術(shù)可實時感知鏈路狀態(tài)和擁塞情況,動態(tài)選擇最優(yōu)路徑,確保數(shù)據(jù)傳輸高效流暢。

      在算法層面,火山引擎 RTC 技術(shù)擁有網(wǎng)絡(luò)、音頻和視頻多類算法。網(wǎng)絡(luò)側(cè)通過動態(tài)帶寬、自適應(yīng)傳輸、前向糾錯、智能重傳等機制提升弱網(wǎng)適應(yīng)能力;音視頻側(cè)結(jié)合神經(jīng)網(wǎng)絡(luò)編解碼、分層和感知內(nèi)容編碼等技術(shù),動態(tài)優(yōu)化編碼參數(shù),有效緩解 " 最后一公里 " 網(wǎng)絡(luò)不確定性,保障用戶端音視頻傳輸?shù)那逦扰c穩(wěn)定性。

      楊若揚認(rèn)為,在豆包這樣的 " 對話式 AI" 場景,RTC 技術(shù)所服務(wù)的對象已從人和人之間的交流,轉(zhuǎn)變?yōu)槿伺c機器的交流?;鹕揭?RTC 技術(shù)針對新場景的特點,在音視頻處理層面做了針對性的升級和優(yōu)化。

      視頻流與大模型在輸入輸出形式上存在明顯差異:視頻由一幀幀圖片組成,而當(dāng)前的多模態(tài)大模型以理解單張圖片為主,這要求模型能分析幀間聯(lián)系與時序,保證語義連續(xù),因此必須不斷優(yōu)化視頻理解與關(guān)鍵幀提取算法,以提升模型對動態(tài)場景的感知與處理能力。

      在人與 AI 的對話中,AI 如何準(zhǔn)確斷句,選擇接話、插話的時機也是一大挑戰(zhàn)。人類能憑語境判斷對方話語結(jié)束時間,并憑音色識別說話者、濾除無關(guān)噪聲,而大部分 AI 系統(tǒng)僅依賴停頓時長判斷,往往不夠準(zhǔn)確,這就需要引入智能語義判停與聲紋降噪算法。

      智能語義判停技術(shù)可以根據(jù)語義判斷用戶話語是否完整,讓模型不會過早回復(fù)。下方案例中,用戶可以停頓,思考,而不會被豆包插話。

      而聲紋降噪算法能在嘈雜環(huán)境中聚焦目標(biāo)說話者,屏蔽環(huán)境人聲及噪聲干擾,將誤打斷率降低 15%-20%。

      這些改進(jìn)讓 AI 在音視頻通話中展現(xiàn)出更接近人類的特征,也讓用戶在與豆包對話時能獲得更加流暢、自然、貼近真實互動的使用感受。

      三、智能音視頻交互需求井噴,RTC 有望提供堅實底座

      隨著大模型與 AI 應(yīng)用的日漸成熟,音視頻已成為新一代 AI 交互中不可或缺的一部分,這些模態(tài)所提供的沉浸式體驗對用戶天然有吸引力和親近性。

      在虛擬陪伴、智能玩具、智能家居、智能教育等廣闊場景中,用戶對于低延時、高質(zhì)量、自然流暢的人機對話需求與日俱增,而火山引擎 RTC 這樣能夠支撐復(fù)雜場景實時音視頻交互的底層傳輸技術(shù)正是保障用戶體驗的關(guān)鍵。

      在多 Agent、多人場景中,RTC 技術(shù)還展現(xiàn)出較好的可擴展性,相較傳統(tǒng) WebSocket 實現(xiàn)語音方案,RTC 在網(wǎng)絡(luò)層和算法層都更為成熟,原生支持房間管理、多流控制、音視頻混音與優(yōu)先級策略,可應(yīng)用于多人娛樂、企業(yè)辦公等場景。

      火山引擎基于 RTC 的對話式 AI 技術(shù),不僅僅是 " 豆包專屬 ",而是能為所有 AI 時代的產(chǎn)品提供重要價值。作為火山引擎的核心音視頻技術(shù)之一,RTC 已廣泛應(yīng)用于字節(jié)各大業(yè)務(wù)場景,在真實用戶環(huán)境中反復(fù)打磨與優(yōu)化。

      同時,火山引擎提供的 RTC 服務(wù)與其內(nèi)部業(yè)務(wù)完全同源,換句話說,企業(yè)通過火山引擎接入 RTC,使用的就是與抖音、飛書、豆包同款的算法、架構(gòu)與策略。

      當(dāng)然,RTC 技術(shù)也存在行業(yè)共性難題:一方面,自建集成方案門檻較高,需要專門的網(wǎng)絡(luò)傳輸與音視頻處理能力,另一方面,云服務(wù)資源消耗也不可小覷,此外深度音頻算法調(diào)優(yōu)也需大量投入。

      楊若揚觀察到,上述難題導(dǎo)致許多企業(yè)不得不選擇實現(xiàn)成本相對低廉、門檻較低的 WebSocket,一定程度上犧牲用戶體驗,等待用戶規(guī)模擴展后再考慮換用更成熟方案,這無形中限制了產(chǎn)品的成長與競爭力。

      針對這些痛點,火山引擎對話式 AI 一站式方案提供了低門檻、高質(zhì)量的接入途徑。開發(fā)者無需從零開始搭建復(fù)雜架構(gòu),即可實現(xiàn)用戶與 AI 的實時音視頻互動,構(gòu)建契合業(yè)務(wù)場景的 AI 實時對話能力。

      火山引擎對話式 AI 官網(wǎng):

      https://www.volcengine.com/product/veRTC/ConversationalAI

      火山引擎還為開發(fā)者提供了每月 10000 分鐘的免費額度,進(jìn)一步降低了開發(fā)者的前期驗證與迭代成本。

      結(jié)語:從難點到標(biāo)配,RTC 成對話式 AI 首選項

      在對話式 AI 場景中,RTC 正在成為企業(yè)的優(yōu)選方案,這種整合方案讓企業(yè)能更加專注業(yè)務(wù)創(chuàng)新,以更低成本、更快速度落地語音與音視頻能力,從一開始就為用戶帶來高品質(zhì)的交互體驗,為下一代智能應(yīng)用贏得先機與口碑。

      火山引擎的對話式 AI 一站式方案,讓實時音視頻從 " 難點 " 變成 " 標(biāo)配 ",為各類 AI 應(yīng)用與智能體生態(tài)拓展廣闊空間,讓未來的人機互動更加順暢、高效、有溫度。

      楊若揚稱,在多模態(tài)音視頻技術(shù)上,火山引擎希望讓人和 AI 之間的對話越來越接近人與人之間的真實溝通,這也是他們未來持續(xù)努力的方向。

      相關(guān)標(biāo)簽

      最新評論

      沒有更多評論了