【首個端到端強化微調平臺發佈 支持無服務器和端到端訓練方法】

金十數據

【首個端到端強化微調平臺發佈支持無服務器和端到端訓練方法】今天凌晨，知名大模型訓練、開發平臺Predibase發佈了，首個端到端強化微調平臺（RFT）。與傳統的監督式微調相比，RFT不依賴大量的標註數據，而是通過獎勵和自定義函數來完成持續的強化學習，同時支持無服務器和端到端訓練方法，從數據管理、訓練模型到應用部署可以在同一個平臺全部完成。也就是說，你只需要一個瀏覽器，設定微調目標、上傳數據、就能完成以前非常複雜的大模型微調流程。通過RFT，Predibase在訓練過程結合了冷啓動監督式微調、強化學習和課程學習，並且只使用了十幾個標記數據點。在Kernelbench數據集上進行的基準測試顯示，Qwen2.5-Coder-32B-instruct經過強化後，其正確率比DeepSeek-R1和OpenAI的o1高出3倍，比Claude 3.7 Sonnet高出4倍以上，而模型的體量卻比這三個小很多。（AIGC開放社區）

貼心提醒:
1.本公司所提供之即時報價資訊，不代表勸誘投資人進行期貨交易，且不保證此資料之正確性及完整性。
2.實際可交易商品相關資訊請以主管機關公告為限。

【整理：昨日今晨重要新聞彙總（3月20日）】國內新聞：1.

【美聯儲5月維持利率不變的概率爲79.5%】3月20日訊，據

留言請登入帳號

【首個端到端強化微調平臺發佈 支持無服務器和端到端訓練方法】

【首個端到端強化微調平臺發佈支持無服務器和端到端訓練方法】