【中國大模型語料數據聯盟開源發佈高質量多模態語料“書生·萬卷

金十數據

【中國大模型語料數據聯盟開源發佈高質量多模態語料“書生·萬卷”】8月14日訊，繼今年7月在2023世界人工智能大會發起成立“中國大模型語料數據聯盟”，上海人工智能實驗室（上海AI實驗室）於8月14日宣佈，聯合語料數據聯盟成員單位，共同開源發佈“書生·萬卷”1.0多模態預訓練語料。“書生·萬卷”1.0目前包含文本數據集、圖文數據集、視頻數據集三部分，本次開源的數據總量超過2TB。該語料數據包含超過5億個文本，2200萬個圖文交錯文檔，1000個節目影像視頻，具備多元融合、精細處理、價值對齊、易用高效等四大特徵。

貼心提醒:
1.本公司所提供之即時報價資訊，不代表勸誘投資人進行期貨交易，且不保證此資料之正確性及完整性。
2.實際可交易商品相關資訊請以主管機關公告為限。

【嘉澤新能：投資4.2億元建設嘉澤同心縣150MW/300M

巴西總統盧拉：我希望美國願意在巴西投資，這樣我們就能推動能源

留言請登入帳號