首页 热点 要闻 国内 产业 财经 滚动 理财 股票

Video-LLaMA: 一种用于视频的指令调谐视听语言模型

2023-06-07 01:04:04 来源 : 品玩


(资料图)

品玩 6 月 6 日讯,研究人员提出一种多模态框架:Video-LLaMA,,使语言模型能够理解视频中的视听内容。通过跨模态训练,解决了视频难以理解的挑战,包括捕捉时间变化和整合音视频信号。研究表明 Video-LLaMA 能够感知和理解视频内容,并生成基于视听信息的有意义回答。该研究为开发音视频 AI 助手提供了潜在的原型。已提供代码、预训练模型和演示。

论文链接:https://huggingface.co/papers/2306.00958
关键词:
相关文章

最近更新
das软件_das auto 2023-06-06 23:31:15
精彩推送
das软件_das auto 2023-06-06 23:31:15
绫濑南 2023-06-06 21:03:50