商汤科技的 InternLM 团队推出了 InternLM-XComposer2.5,这是一种支持长文本输入和输出的多功能视觉语言模型(VLM)。该模型基于 InternLM 7B 开发,采用了 “Partial LoRA” 方法,专门应用于图像标记,保留了预训练语言知识的完整性。InternLM-XComposer2.5 能够生成网页和高质量的图文文章,支持视频理解、多轮多图像聊天和语音交互,并能处理高分辨率(4K)图像理解任务。该模型在多个基准测试中表现优异,击败了 GPT-4V 和 Gemini Pro。
To view this video please enable JavaScript,and consider upgrading to a web browser that supports HTML5 video
This is a modal window.
Beginning of dialog window.Escape will cancel and close the window.
End of dialog window.