國(guó)內(nèi)AI(人工智能)視頻交互賽道再添重磅玩家。
近日,字節(jié)跳動(dòng)旗下AI智能助手“豆包”的App上線視頻通話功能,支持視頻聊天問(wèn)答 。據(jù)官方介紹 ,本次升級(jí)基于視覺(jué)推理模型,支持聯(lián)網(wǎng)搜索。
《每日經(jīng)濟(jì)新聞》記者實(shí)測(cè)發(fā)現(xiàn),豆包的視頻通話功能用處不少 ,包括識(shí)別水果成熟度這樣的日常用途。此外,在識(shí)別物品時(shí),豆包更展現(xiàn)出持續(xù)記憶和邏輯推理能力 。
5月27日 ,一位大模型算法工程師接受《每日經(jīng)濟(jì)新聞》記者微信采訪時(shí)表示,豆包在視頻通話中展現(xiàn)出的視頻理解與語(yǔ)音交互能力,在中文語(yǔ)境中處于第一梯隊(duì)。
繼文生視頻大模型后 ,字節(jié)在AI多模態(tài)領(lǐng)域又邁出關(guān)鍵一步。
能打視頻電話的豆包,效果如何?
“視覺(jué)是人類了解這個(gè)世界最重要的方式,對(duì)于大模型來(lái)說(shuō)也是如此 。”在去年12月舉行的“2024火山引擎FORCE原動(dòng)力大會(huì)·冬 ”上 ,火山引擎總裁譚待發(fā)布了豆包視覺(jué)理解模型,稱該模型具備更出色的內(nèi)容識(shí)別、理解、推理 、視覺(jué)描述和創(chuàng)作等能力。
5個(gè)月后,這一新模型的能力讓所有豆包用戶“眼見為實(shí)”了。
近日,豆包App上線了實(shí)時(shí)視頻通話功能 ,這一功能的實(shí)現(xiàn)正是基于豆包視覺(jué)理解模型的能力 。
為了更直觀地展示這一新功能的應(yīng)用場(chǎng)景,豆包團(tuán)隊(duì)在其官方微信公眾號(hào)上列舉了公園內(nèi)花草識(shí)別、博物館內(nèi)實(shí)時(shí)講解、圖書館內(nèi)書籍推薦查閱以及買菜時(shí)的食材搭配這四大生活場(chǎng)景。在去年12月的發(fā)布會(huì)上,豆包團(tuán)隊(duì)就曾在演示視頻中呈現(xiàn)了該模型在識(shí)別地標(biāo) 、讀懂代碼、分析體檢報(bào)告、為用戶提供穿搭意見等日常任務(wù)中的完成能力。
和豆包打個(gè)視頻電話 ,是否真的能解決上述這些生活問(wèn)題呢?百聞不如一見,《每日經(jīng)濟(jì)新聞》記者近日以挑選水果 、識(shí)別物品和推薦書籍這三項(xiàng)任務(wù),對(duì)豆包的實(shí)時(shí)視頻通話功能進(jìn)行了實(shí)測(cè) 。
首先 ,是較為基礎(chǔ)的挑選水果任務(wù),這也是用戶在小紅書等社交媒體上分享得最多的應(yīng)用場(chǎng)景。“你來(lái)幫我挑選一個(gè)木瓜吧。”當(dāng)開啟視頻通話后,豆包通過(guò)對(duì)果實(shí)表皮顏色、飽滿程度等指標(biāo)的觀察 ,快速給出了挑選建議。有小紅書用戶在使用豆包挑選蔬菜后表示:“感覺(jué)突然身邊多了個(gè)懂行的買菜老大爺 。 ”
在識(shí)別物品和推薦書籍的環(huán)節(jié),豆包展現(xiàn)出了良好的記憶能力和連貫的實(shí)時(shí)搜索、互動(dòng)性能。例如,面對(duì)雜亂擺放著書籍 、巧克力、耳機(jī)和電子時(shí)鐘等物品的書桌 ,豆包可以輕松識(shí)別所有物品的詳細(xì)信息并記憶它們?cè)谧郎系臄[放位置。
這一記憶功能在記者瀏覽書架時(shí)得到了更為充分的展現(xiàn) 。記者在書店隨機(jī)挑選了一個(gè)書架,就書架一側(cè)第一本書和豆包進(jìn)行溝通,同時(shí)舉起手機(jī)走向了書架的另一頭,再突然提出“剛剛有一本蔡磊寫的書 ,你看到了嗎?”的問(wèn)題,豆包迅速記起這本曾在鏡頭前一閃而過(guò)的書,并對(duì)該書進(jìn)行了簡(jiǎn)單介紹。
“(記憶功能的實(shí)現(xiàn))大概率是每隔幾秒給模型拍攝一張圖片。”一位大模型算法工程師在微信上接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示 ,豆包在該功能中展現(xiàn)的視頻理解和語(yǔ)音交互能力,在中文語(yǔ)境中處于第一梯隊(duì) 。
與豆包進(jìn)行關(guān)于多本書籍的聊天時(shí),豆包能夠結(jié)合記憶能力與實(shí)時(shí)搜索 ,對(duì)書籍內(nèi)容、作者生平 、同類作品推薦等話題進(jìn)行自然延伸,整個(gè)交互過(guò)程流暢且生動(dòng)。
從“聽見 ”到“看見”
在去年,AI的視頻交互功能就已經(jīng)在業(yè)界掀起波瀾。
2024年8月 ,“智譜清言”App率先推出了國(guó)內(nèi)首個(gè)面向C端(消費(fèi)者端)開放的視頻通話功能 。一時(shí)間,網(wǎng)上涌現(xiàn)出大量對(duì)視頻通話功能的測(cè)試。測(cè)試方式從最基礎(chǔ)的物體識(shí)別到生活場(chǎng)景的溝通交流,甚至包括輔導(dǎo)小學(xué)生作業(yè)。
趕在OpenAI和谷歌之前 ,智譜清言先一步將AI視頻交互在國(guó)內(nèi)落地 。在國(guó)際市場(chǎng)上,從“聽見 ”到“看見”同樣成為AI進(jìn)化的下一步。
2024年5月,OpenAI公司的“GPT-4o”發(fā)布。現(xiàn)場(chǎng),OpenAI的研究員演示了GPT-4o的實(shí)時(shí)視覺(jué)功能——它通過(guò)手機(jī)攝像頭實(shí)時(shí)解了一個(gè)方程 ,甚至還能通過(guò)前置攝像頭觀察用戶的面部表情,分析用戶的情緒。同月,谷歌推出的“Project Astra ”同樣具備實(shí)時(shí)語(yǔ)音、視頻交互的能力 。
今年4月 ,火山引擎總裁譚待也曾表示:“模型要有能力做好思考、計(jì)劃和反思,并且一定要支持多模態(tài),就像人類具備視覺(jué)和聽覺(jué)一樣 ,Agent(智能體)才能更好地處理復(fù)雜任務(wù)。”
視頻通話功能的實(shí)現(xiàn),就建立在其多模態(tài)能力之上。從最后呈現(xiàn)的使用形態(tài)來(lái)看,視頻通話功能使得用戶無(wú)需再通過(guò)語(yǔ)言組織傳達(dá)眼前的信息 ,這無(wú)疑是對(duì)AI使用門檻的再一次降低 。
技術(shù)能力的升級(jí)為AI打通了視覺(jué)和聽覺(jué)的“任督二脈”,但也要看到,AI智能助手的快速擴(kuò)張已經(jīng)來(lái)到了瓶頸 ,新的交互范式可能是新階段的關(guān)鍵。
據(jù)量子位智庫(kù)數(shù)據(jù),4月份Web端(網(wǎng)頁(yè)端)AI智能助手的總訪問(wèn)量首次出現(xiàn)下降,說(shuō)明以嘗鮮驅(qū)動(dòng)的擴(kuò)張期或已結(jié)束。
隨著豆包在今年3月接入抖音及其“打電話”功能在社交媒體上受到關(guān)注,豆包也在通過(guò)抖音生態(tài)快速觸達(dá)用戶 。
27日 ,知名經(jīng)濟(jì)學(xué)者、工信部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林在接受《每日經(jīng)濟(jì)新聞》記者微信采訪時(shí)表示,豆包有著龐大的用戶應(yīng)用生態(tài)作為支撐,擴(kuò)散應(yīng)該比對(duì)手要快。
他認(rèn)為 ,豆包在商業(yè)拓展時(shí)主要還是和“剪映 ”集成,可以和抖音的內(nèi)容審核AI結(jié)合。比如可以通過(guò)AI發(fā)現(xiàn)違規(guī)的短視頻內(nèi)容 。盤和林還表示,AI視頻交互的使用前景非常光明 ,比如生成虛擬人進(jìn)行直播,又比如通過(guò)AI識(shí)別來(lái)迅速對(duì)視頻文件進(jìn)行歸納總結(jié)。
另一方面,AI眼鏡這一類符合視頻通話應(yīng)用場(chǎng)景的新硬件逐漸升溫 ,也給AI視頻交互帶來(lái)了更多可能性。
盤和林認(rèn)為:“AI視頻交互可以和AI眼鏡有限結(jié)合,但現(xiàn)階段AI眼鏡的算力和顯示等方面還存在技術(shù)缺陷 。所以,期待未來(lái)有新的融合。”
(文章來(lái)源:每日經(jīng)濟(jì)新聞)
十大杠桿炒股:配資公司配資網(wǎng)站-以軍發(fā)動(dòng)新一輪襲擊 伊朗核計(jì)劃總部遭襲!以色列多地遭伊朗導(dǎo)彈襲擊 特朗普、普京表態(tài)
配資網(wǎng)app官方最新版本介紹:配資專業(yè)股票配資網(wǎng)站-百億私募大動(dòng)作 成立AI公司!
在線配資網(wǎng)站:股票短線最佳操作方法杠桿-馬斯克證實(shí)X Money支付功能即將推出 目前已進(jìn)入Beta測(cè)試階段
十大配資公司:杠桿配資公司-糖酒會(huì)召開在即!龍頭拉動(dòng)食品飲料板塊復(fù)蘇,食品ETF(159862)走強(qiáng)
杠桿配資網(wǎng)站:配資炒股中國(guó)股票配資網(wǎng)-美財(cái)長(zhǎng)稱與中國(guó)的貿(mào)易談判“有點(diǎn)停滯” 外交部回應(yīng)
一只股票怎么看散戶多還是少:十大炒股杠桿平臺(tái)-港交所IPO再掀熱潮:三家公司同日鳴鑼 上半年募資額或超去年全年
財(cái)之網(wǎng)配資提示:文章來(lái)自網(wǎng)絡(luò),不代表本站觀點(diǎn)。
記者王珍中國(guó)國(guó)際經(jīng)濟(jì)交流中心副理事長(zhǎng)、國(guó)務(wù)院發(fā)展研究中心原副主任王一鳴周一在“中國(guó)發(fā)展高層論壇2025...
近日,開源證券大連分公司遭大連證監(jiān)局處罰,暫停其辦理需要合格投資者認(rèn)定相關(guān)業(yè)務(wù)六個(gè)月。該懲處力度在近年來(lái)券商分支機(jī)構(gòu)中并...
記者辛圓3月25日,博鰲亞洲論壇旗艦報(bào)告《亞洲經(jīng)濟(jì)前景及一體化進(jìn)程2025年度報(bào)告》(以下簡(jiǎn)稱《報(bào)告》...
3月24日,易方達(dá)國(guó)證自由現(xiàn)金流ETF公開發(fā)售。該產(chǎn)品跟蹤國(guó)證自由現(xiàn)金流指數(shù),這個(gè)指數(shù)是什么?有哪些優(yōu)勢(shì)?投資價(jià)值如何?...
3月24日,海洋王照明科技股份有限公司(以下簡(jiǎn)稱“海洋王”,002724.SZ)早盤一字跌停,此后股價(jià)拉漲,尾盤封漲停板...
記者|趙陽(yáng)戈年初,證監(jiān)會(huì)就修改《證券發(fā)行與承銷管理辦法》部分條款向社會(huì)公開征求意見,市場(chǎng)也將注意力投向了...