5 月中旬 GPT-4o 的發(fā)布,讓人與 AI 的交互,從對話框的文本交流加速推進(jìn)到了音視頻多模態(tài)的實(shí)時(shí)互動(dòng)。
本期節(jié)目,我們邀請到實(shí)時(shí)互動(dòng) AI 創(chuàng)業(yè)者史業(yè)民。他結(jié)合了自己的一手研發(fā)經(jīng)驗(yàn),深度分析了 GPT-4o 在多模態(tài)、實(shí)時(shí)交互、情感語音的新能力和能力邊界,分享了 GPT-4o 正在催生的潛在場景和新機(jī)會。史業(yè)民還從開發(fā)者視角,提出了面向開發(fā)者的 GPT-4o 和面向用戶的 ChatGPT 能力可能存在區(qū)別的提醒,以及在開發(fā)多模態(tài) AI 產(chǎn)品時(shí)需要注意到的技術(shù)細(xì)節(jié)。
從對話框到音視頻,多模態(tài)的實(shí)時(shí)互動(dòng) AI 已成趨勢。希望本期節(jié)目能對你有所啟發(fā)。