首页 >我的大学 >正文

“大海捞针”！视频理解大模型InternVideo2.5发布

来源：南京大学2025年04月01日

近日，上海人工智能实验室、南京大学、深圳先进技术研究院联合发布了通用视频理解大模型InternVideo2.5，南京大学计算机学院王利民教授为该大模型技术负责人。

王利民教授长期专注视频分析与理解，已经带领研发团队在视频大模型方向深耕多年。 2022年带领团队发布首个通用视频理解基础模型InternVideo1.0 ，构建了可泛化的视频基础表征能力，全面覆盖视频识别、开放感知、时空解析三大核心领域。 2024年带领研究团队发布多模态视频理解大模型InternVideo2.0，在InternVideo1.0基础上新增了多模态视频理解与对话能力，在识别检索、开放问答、高阶推理等复杂视频理解任务取得了国际领先性能。 2025年发布的全新升级版本InternVideo2.5 ，在复杂视频理解的时间跨度与细粒度取得了双维提升，“记忆力”较前代模型扩容6倍， 具备万帧长视频中精准“大海捞针”能力， AI视频理解既能“短平快”，亦可“长深细”。

InternVideo系列大模型是国产书生大模型谱系的重要组成部分，InternVideo系列大模型已成功应用于中央广播电视总台巴黎奥运会直播，能够精准定位运动员的得分瞬间及相关慢动作，极大提升了电视节目编创效率。InternVideo系列大模型也跟华为技术公司开展合作，在终端视频内容分析、自动驾驶、AIGC内容生成等场景进行了落地应用。InternVideo系列大模型同时还被Google、Meta、NVIDIA等国际知名企业关注和使用，产生了较大国际影响力。未来InternVideo2.5凭借其更强大的长视频处理能力，将为互联网内容安全、监控安防、智慧体育，影视创作、虚拟现实等应用提供更高效的 AI 技术支持，助力各行业实现智能化升级。

开源链接：

https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5

论文链接：

https://arxiv.org/abs/2501.12386

Huggingface 链接：

https://huggingface.co/OpenGVLab/InternVideo2_5_Chat_8B

【责任编辑：曹竞编辑：毕若旭】

“大海捞针”！视频理解大模型InternVideo2.5发布

从小说到影视，为何要讲好大运河的故事

AI“入局”回忆录

解锁祭日典仪，品味舌尖上的春天｜我的节节·春分篇

《浅读巴金<随想录>》：“文本细读”是青年理解巴金作品的一把钥匙

首次聚焦火灾调查员，《燃罪》讲述真相的重量

京津冀图书馆联盟十周年，发布阅读新品牌

第30届上海电视节将于6月23日开幕，国际影视市场新增露天市集向市民开放

写作、搜书、翻译……AI赋能网文行业

走进京剧的黄金时代｜第三十四回临大限交接身后事，叶春善辞世史留名

走进京剧的黄金时代｜第三十三回叶龙章危急接戏班，尚小云倾囊授才艺