阿里達摩院的研究人員提出了 Video-LLaMA,一個具有

阿里達摩院的研究人員提出了 Video-LLaMA,一個具有綜合視聽能力大模型。Video-LLaMA 能夠感知和理解視頻中的視頻和音頻信號, 並能理解用戶輸入的指令,完成一系列基於音視頻的複雜任務,例如音 / 視頻描述,寫作,問答等。目前論文,代碼,交互 demo 都已開放。另外,在 Video-LLaMA 的項目主頁中,該研究團隊還提供了中文版本的模型,讓中文用戶的體驗更絲滑。
貼心提醒:
1.本公司所提供之即時報價資訊,不代表勸誘投資人進行期貨交易,且不保證此資料之正確性及完整性。
2.實際可交易商品相關資訊請以主管機關公告為限。