智通財經(jīng)APP獲悉,長江證券發(fā)布研報認為,OpenAI新推出的模型API全部支持結構化輸出,提高AI輸出可靠性,簡化開發(fā)流程,從而使得開發(fā)者可以精確控制AI模型的輸出格式,確保數(shù)據(jù)的準確性和一致性。國內廠商推動多模態(tài)大模型開源,或將加速AI技術的創(chuàng)新和發(fā)展。
事件描述
OpenAI新推出的模型API全部支持結構化輸出,JSON Schema匹配率高達100%,從而使得開發(fā)者可以精確控制AI模型的輸出格式,確保數(shù)據(jù)的準確性和一致性。國內廠商推動多模態(tài)大模型開源,智譜CogVideoX-2B、面壁智能MiniCPM-V2.6、阿里Qwen2-Audio相繼開源,或將加速AI技術的創(chuàng)新和發(fā)展。
事件評論
結構化輸出提高AI輸出可靠性,簡化開發(fā)流程。1)提升輸出準確性,使用性價比凸顯。性能方面,開發(fā)者可通過定義JSON Schema模式,實現(xiàn)對AI輸出的精確控制,解決以往AI輸出格式不穩(wěn)定的問題。帶有結構化輸出的新模型gpt-4o-2024-08-06對復雜的JSON Schema的跟蹤評估中,評分高達100%,顯著優(yōu)于舊版模型。此外結構化輸出功能兼容多種API,并支持視覺輸入,拓寬AI技術的應用范圍。成本方面,最新的gpt-4o-2024-08-06模型與此前的gpt-4o-2024-05-13相比,可在輸入上節(jié)省50%(2.5美元/100萬輸入tokens)、在輸出上節(jié)省33%(10美元/100萬輸出tokens)。2)降低技術門檻,提供個性化智能體驗。結構化輸出功能的應用范圍廣泛,從動態(tài)生成用戶界面、分離最終答案與推理過程,到從非結構化數(shù)據(jù)中提取結構化數(shù)據(jù)等,均能夠提供更加精準、高效的支持。例如在.NET開發(fā)中,開發(fā)者可利用該功能生成動態(tài)用戶界面,根據(jù)用戶意圖創(chuàng)建代碼或UI;或在會議記錄中提取待辦事項、截止日期和負責人等。結構化輸出功能簡化了AI應用的開發(fā)流程,使開發(fā)者能夠更專注于創(chuàng)新和應用邏輯的構建。
開源模式持續(xù)發(fā)展,推進技術普及與應用創(chuàng)新。1)智譜開源其與“清影”同源的視頻生成模型CogVideoX,消費級顯卡即可運行。目前開源的版本CogVideoX-2B能夠生成長度為6秒、每秒8幀、分辨率為720*480的視頻。同時模型在FP-16精度下推理需要僅需18GB顯存,微調僅需40GB顯存。因此單張4090顯卡即可進行推理,而單張A6000顯卡即可完成微調。2)面壁智能上線開源模型MiniCPM-V2.6,引領端側多模態(tài)。模型參數(shù)僅8B,在端側實現(xiàn)實時視頻理解、多圖聯(lián)合理解、多圖ICL視覺類比學習、多圖OCR等功能。模型能力方面,MiniCPM-V2.6在端側實現(xiàn)單圖、多圖、視頻理解等多模態(tài)核心能力全面對標GPT-4V。3)阿里開源最新語音模型Qwen2-Audio,性能大幅優(yōu)化。功能方面,Qwen2-Audio支持語音聊天和音頻分析兩種模式,能夠提供更自然的語音交互體驗和深入的音頻分析能力;模型還引入了監(jiān)督式微調(SFT)和直接偏好優(yōu)化(DPO)兩種方法,能夠通過高質量的微調數(shù)據(jù)與人類意圖對齊,并通過人類標注的響應數(shù)據(jù)來優(yōu)化模型,從而使其輸出更符合人類的期望和偏好。同時Qwen2-Audio支持中文、粵語、法語、英語、日語等主流語言和方言,或將有助于開發(fā)翻譯、情感分析等應用。
AI技術的進步提升了輸出的準確性和開發(fā)效率,開源模式的推廣加速了技術的普及和創(chuàng)新應用的涌現(xiàn)。長江證券認為AI技術及應用領域持續(xù)突破,建議持續(xù)關注AI在廣告、電商、影視、游戲和教育等各領域的商業(yè)化落地。
風險提示
1、AI技術發(fā)展不及預期風險;
2、內容監(jiān)管風險。