六年來首次開源，OpenAI放出兩款o4-mini級的推理模

金十數據

OpenAI週二宣佈，正式推出兩款開源AI推理模型，其能力與公司現有的o系列相近。OpenAI在聲明中表示，這兩款模型均可通過開發者平臺Hugging Face免費下載，並稱它們在多個開放模型評估基準中表現爲“最先進”。

兩款新模型分別爲更強大的GPT-oss-120b和輕量級的GPT-oss-20b，其中前者可在單張英偉達GPU上運行，後者則可在配備16GB內存的消費級筆記本電腦上運行。

此次發佈標誌著，OpenAI自六年前開源GPT-2以來，首次重返開源語言模型領域。

在媒體簡報中，OpenAI指出，其開源模型可將複雜指令發送至雲端AI模型執行。如果GPT-oss模型無法處理某些任務（如圖像處理），開發者可將其接入公司更強大的閉源模型，實現協同運作。

雖然OpenAI早期曾開源AI模型，但此後轉向封閉源代碼的商業化路徑，以推動通過API向企業和開發者銷售模型訪問權限的業務擴張。

不過，首席執行官山姆·奧爾特曼（Sam Altman）今年1月曾坦言，在開源與否的問題上，OpenAI“站在了歷史的錯誤一邊”。

如今，隨著中國AI實驗室如DeepSeek、阿里巴巴的通義（Qwen）和Moonshot AI等快速崛起，陸續發佈多個全球領先的開源模型，OpenAI正面臨前所未有的競爭壓力。另外，儘管Meta曾在開源領域佔據主導地位，但其Llama系列在過去一年中逐漸落後。

此外，特朗普政府也在今年7月公開呼籲，美國AI公司應更多開源，以加快具“美國價值觀”的AI技術在全球的推廣。

OpenAI此次發佈GPT-oss模型，顯然旨在同時爭取開發者社羣與政策制定者的支持。奧爾特曼在外媒的聲明中表示：

“自2015年成立以來，OpenAI的使命就是確保通用人工智能（AGI）造福全人類。我們很高興看到，世界各地正基於一個源於美國、體現民主價值觀、完全免費並惠及大衆的開源AI技術棧進行開發。”

模型性能表現

OpenAI表示，其目標是讓GPT-oss模型在同類開源模型中脫穎而出，且這一目標已初步實現。

在Codeforces編程競賽測試（包括工具使用）中，GPT-oss-120b和GPT-oss-20b分別得分2622與2516，優於DeepSeek的R1模型，略遜於OpenAI自家的o3和o4-mini模型。

在人類終極考試（HLE），即一項多學科衆包問答挑戰中，兩款模型分別取得19%與17.3%的得分，雖然仍低於o3，但已超越DeepSeek和Qwen等主流開源模型。

但是，特別值得關注的是，兩款GPT-oss模型的“幻覺”率明顯高於OpenAI最新的o3與o4-mini模型。

OpenAI曾指出，o系列模型的幻覺問題正在加劇，但成因尚未完全明瞭。公司在白皮書中解釋稱：

“這是可以預期的結果，因爲體積更小的模型缺乏足夠的世界知識，更容易產生幻覺。”

以PersonQA（OpenAI內部測試模型人物知識準確率的基準）爲例，GPT-oss-120b和GPT-oss-20b的幻覺率分別爲49%與53%；相比之下，o1模型僅爲16%，o4-mini爲36%，顯示出開源模型在事實準確性方面仍存在明顯差距。

OpenAI表示，這兩款開源模型採用與閉源模型相近的訓練流程。其架構爲“專家混合”（Mixture-of-Experts, MoE），通過僅激活部分參數實現運行效率最大化。

例如，GPT-oss-120b雖然擁有1170億參數，但每個token僅激活其中的5.1億。

此外，模型還經過高算力強化學習（RL）後訓練，在模擬環境中藉助英偉達GPU集羣學習如何判斷對錯。這一方法也曾用於o系列模型，並幫助其發展出“思維鏈”（chain-of-thought）式推理路徑，即在回答問題前進行多步邏輯推導。

因此，OpenAI認爲GPT-oss特別適用於AI代理應用，能在推理中調用外部工具，如網頁搜索或Python代碼執行。

不過，值得注意的是，當前兩款模型僅支持文本輸入輸出，尚不具備圖像、音頻等多模態處理能力。

GPT-oss-120b與GPT-oss-20b均以Apache 2.0協議發佈，該協議被廣泛認爲是最寬鬆的開源許可之一，允許企業在無需授權或付費的前提下將模型應用於商業場景。

不過，與AI2等研究機構推出的“完全開源”模型不同，OpenAI明確表示不會公開訓練數據來源。考慮到當前已有多起針對AI企業的版權訴訟，這一保守策略並不令人意外。

據悉，OpenAI曾多次推遲GPT-oss的發佈，部分原因正是爲應對安全問題。除常規政策外，白皮書還指出，公司曾專門評估GPT-oss模型是否可能被“惡意微調”，用於網絡攻擊、生物武器研發等高風險用途。

經內部與第三方測試，OpenAI判斷GPT-oss模型雖在某些生物學任務中表現有所提升，但尚未達到“高風險”門檻，即便遭遇有針對性的微調，也不太可能造成實質威脅。

儘管GPT-oss目前在開源領域處於領先地位，但業內關注的焦點正逐步轉向即將發佈的DeepSeek R2模型，以及Meta旗下Superintelligence Lab的全新開源產品。

貼心提醒:
1.本公司所提供之即時報價資訊，不代表勸誘投資人進行期貨交易，且不保證此資料之正確性及完整性。
2.實際可交易商品相關資訊請以主管機關公告為限。