六年來首次開源,OpenAI放出兩款o4-mini級的推理模

OpenAI週二宣佈,正式推出兩款開源AI推理模型,其能力與公司現有的o系列相近。OpenAI在聲明中表示,這兩款模型均可通過開發者平臺Hugging Face免費下載,並稱它們在多個開放模型評估基準中表現爲“最先進”。

兩款新模型分別爲更強大的GPT-oss-120b和輕量級的GPT-oss-20b,其中前者可在單張英偉達GPU上運行,後者則可在配備16GB內存的消費級筆記本電腦上運行。

此次發佈標誌著,OpenAI自六年前開源GPT-2以來,首次重返開源語言模型領域。

在媒體簡報中,OpenAI指出,其開源模型可將複雜指令發送至雲端AI模型執行。如果GPT-oss模型無法處理某些任務(如圖像處理),開發者可將其接入公司更強大的閉源模型,實現協同運作。

雖然OpenAI早期曾開源AI模型,但此後轉向封閉源代碼的商業化路徑,以推動通過API向企業和開發者銷售模型訪問權限的業務擴張。

不過,首席執行官山姆·奧爾特曼(Sam Altman)今年1月曾坦言,在開源與否的問題上,OpenAI“站在了歷史的錯誤一邊”。

如今,隨著中國AI實驗室如DeepSeek、阿里巴巴的通義(Qwen)和Moonshot AI等快速崛起,陸續發佈多個全球領先的開源模型,OpenAI正面臨前所未有的競爭壓力。另外,儘管Meta曾在開源領域佔據主導地位,但其Llama系列在過去一年中逐漸落後。

此外,特朗普政府也在今年7月公開呼籲,美國AI公司應更多開源,以加快具“美國價值觀”的AI技術在全球的推廣。

OpenAI此次發佈GPT-oss模型,顯然旨在同時爭取開發者社羣與政策制定者的支持。奧爾特曼在外媒的聲明中表示:

“自2015年成立以來,OpenAI的使命就是確保通用人工智能(AGI)造福全人類。我們很高興看到,世界各地正基於一個源於美國、體現民主價值觀、完全免費並惠及大衆的開源AI技術棧進行開發。”

模型性能表現

OpenAI表示,其目標是讓GPT-oss模型在同類開源模型中脫穎而出,且這一目標已初步實現。

在Codeforces編程競賽測試(包括工具使用)中,GPT-oss-120b和GPT-oss-20b分別得分2622與2516,優於DeepSeek的R1模型,略遜於OpenAI自家的o3和o4-mini模型。

在人類終極考試(HLE),即一項多學科衆包問答挑戰中,兩款模型分別取得19%與17.3%的得分,雖然仍低於o3,但已超越DeepSeek和Qwen等主流開源模型。

但是,特別值得關注的是,兩款GPT-oss模型的“幻覺”率明顯高於OpenAI最新的o3與o4-mini模型。

OpenAI曾指出,o系列模型的幻覺問題正在加劇,但成因尚未完全明瞭。公司在白皮書中解釋稱:

“這是可以預期的結果,因爲體積更小的模型缺乏足夠的世界知識,更容易產生幻覺。”

以PersonQA(OpenAI內部測試模型人物知識準確率的基準)爲例,GPT-oss-120b和GPT-oss-20b的幻覺率分別爲49%與53%;相比之下,o1模型僅爲16%,o4-mini爲36%,顯示出開源模型在事實準確性方面仍存在明顯差距。

模型訓練方式

OpenAI表示,這兩款開源模型採用與閉源模型相近的訓練流程。其架構爲“專家混合”(Mixture-of-Experts, MoE),通過僅激活部分參數實現運行效率最大化。

例如,GPT-oss-120b雖然擁有1170億參數,但每個token僅激活其中的5.1億。

此外,模型還經過高算力強化學習(RL)後訓練,在模擬環境中藉助英偉達GPU集羣學習如何判斷對錯。這一方法也曾用於o系列模型,並幫助其發展出“思維鏈”(chain-of-thought)式推理路徑,即在回答問題前進行多步邏輯推導。

因此,OpenAI認爲GPT-oss特別適用於AI代理應用,能在推理中調用外部工具,如網頁搜索或Python代碼執行。

不過,值得注意的是,當前兩款模型僅支持文本輸入輸出,尚不具備圖像、音頻等多模態處理能力。

GPT-oss-120b與GPT-oss-20b均以Apache 2.0協議發佈,該協議被廣泛認爲是最寬鬆的開源許可之一,允許企業在無需授權或付費的前提下將模型應用於商業場景。

不過,與AI2等研究機構推出的“完全開源”模型不同,OpenAI明確表示不會公開訓練數據來源。考慮到當前已有多起針對AI企業的版權訴訟,這一保守策略並不令人意外。

據悉,OpenAI曾多次推遲GPT-oss的發佈,部分原因正是爲應對安全問題。除常規政策外,白皮書還指出,公司曾專門評估GPT-oss模型是否可能被“惡意微調”,用於網絡攻擊、生物武器研發等高風險用途。

經內部與第三方測試,OpenAI判斷GPT-oss模型雖在某些生物學任務中表現有所提升,但尚未達到“高風險”門檻,即便遭遇有針對性的微調,也不太可能造成實質威脅。

儘管GPT-oss目前在開源領域處於領先地位,但業內關注的焦點正逐步轉向即將發佈的DeepSeek R2模型,以及Meta旗下Superintelligence Lab的全新開源產品。

貼心提醒:
1.本公司所提供之即時報價資訊,不代表勸誘投資人進行期貨交易,且不保證此資料之正確性及完整性。
2.實際可交易商品相關資訊請以主管機關公告為限。