【首個端到端強化微調平臺發佈 支持無服務器和端到端訓練方法】

【首個端到端強化微調平臺發佈 支持無服務器和端到端訓練方法】今天凌晨,知名大模型訓練、開發平臺Predibase發佈了,首個端到端強化微調平臺(RFT)。與傳統的監督式微調相比,RFT不依賴大量的標註數據,而是通過獎勵和自定義函數來完成持續的強化學習,同時支持無服務器和端到端訓練方法,從數據管理、訓練模型到應用部署可以在同一個平臺全部完成。也就是說,你只需要一個瀏覽器,設定微調目標、上傳數據、就能完成以前非常複雜的大模型微調流程。通過RFT,Predibase在訓練過程結合了冷啓動監督式微調、強化學習和課程學習,並且只使用了十幾個標記數據點。在Kernelbench數據集上進行的基準測試顯示,Qwen2.5-Coder-32B-instruct經過強化後,其正確率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上,而模型的體量卻比這三個小很多。(AIGC開放社區)
貼心提醒:
1.本公司所提供之即時報價資訊,不代表勸誘投資人進行期貨交易,且不保證此資料之正確性及完整性。
2.實際可交易商品相關資訊請以主管機關公告為限。