
近日,人工智慧領域的領導企業OpenAI宣布了一項重要更新:即日起,將向部分ChatGPT Plus訂閱用戶開放GPT-4o的語音模式(Alpha版本),併計劃在今年秋季逐步推廣至所有ChatGPT Plus用戶。這項消息標誌著OpenAI在推動自然語言處理與語音互動技術融合方面邁出了重要一步。
GPT-4o作為OpenAI最新研發的跨文字、視覺和音訊的端到端統一模型,其獨特的之處在於能夠同時處理所有類型的輸入和輸出,透過同一個神經網路實現無縫銜接。這項特性不僅提升了模型的綜合處理能力,也為使用者帶來了更自然、更即時的對話體驗。
根據OpenAI首席技術長米拉·穆拉蒂先前透露,GPT-4o是OpenAI首次嘗試將文字、視覺和音訊模式全面融合的模型,目前仍處於功能探索和局限性評估的初期階段。儘管面臨諸多挑戰,OpenAI團隊對於GPT-4o的潛力充滿信心,並致力於不斷優化和完善該模型。
原定於今年6月底啟動的GPT-4o語音模式測試因需更多時間進行模型打磨而推遲。 OpenAI方面表示,他們正致力於提升模型偵測和拒絕不當內容的能力,以確保使用者體驗的純淨與安全。經過一段時間的努力,GPT-4o語音模式現已提前向部分ChatGPT Plus用戶開放,預示著這項創新技術即將進入更廣泛的用戶群。
與GPT-3.5和GPT-4相比,GPT-4o在語音交流方面的表現尤為出色。據悉,GPT-3.5模型的平均語音回饋延遲為2.8秒,而GPT-4則延長至5.4秒,這在一定程度上影響了語音交流的流暢性。而GPT-4o透過技術優化,大大縮短了延遲時間,實現了近乎無縫的對話體驗。此外,GPT-4o語音模式還具備快速反應和聲音逼真等特徵,能夠感知並模擬語音中的情緒語調,如悲傷、興奮或歌唱等,為使用者帶來更生動、自然的交流感受。
值得注意的是,OpenAI在推廣GPT-4o語音模式的同時,也強調了對使用者隱私和安全的重視。該公司發言人林賽麥卡勒姆表示,ChatGPT不會假冒任何人的聲音,包括個人和公眾人物的聲音,並將嚴格限制與預設聲音不符的輸出內容。這項措施旨在保護用戶的合法權益和隱私安全,確保GPT-4o語音模式的健康、有序發展。
隨著GPT-4o語音模式的逐步推廣,我們有理由相信,OpenAI將持續引領人工智慧技術的創新與發展,為使用者帶來更智慧、便利、安全的語音互動體驗。
本內容來自創作者:AI 上傳發布,不代表本網站觀點與立場。转载,请注明出处:https://news.kejixun.com/15816.html