栏目分类

热点资讯

你的位置:益通网-配资之家_网络配资_配资服务 > 配资服务 >

颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

发布日期:2024-04-30 18:30    点击次数:158

近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。 

这是一款重磅的通用视觉多模态大模型,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,解决了困扰大语言模型产业已久的图像/视频模型割裂问题,提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。 

Vitron作为一个统一的像素级视觉多模态大语言模型,实现了从低层次到高层次的视觉任务的全面支持,能够处理复杂的视觉任务,并理解和生成图像和视频内容,提供了强大的视觉理解和任务执行能力。同时,Vitron支持与用户的连续操作,实现了灵活的人机互动,展示了通向更统一的视觉多模态通用模型的巨大潜力。 

Vitron相关的论文、代码和Demo已全部公开,其在综合性、技术创新、人机交互和应用潜力等方面展现出的独特优势和潜力,不仅推动了多模态大模型的发展,还为未来的视觉大模型研究提供了一个新的方向。 

一直以来,昆仑万维2050全球研究院都致力于打造一家面向未来世界的卓越科学研究机构,与科学社区共同跨越“奇点”,探索未知世界,创造美好未来。此前,昆仑万维2050全球研究院已经发布并开源了数字智能体研发工具包AgentStudio,未来,研究院还将不断推动人工智能技术突破,为中国人工智能生态建设贡献力量。 

当前视觉大语言模型(LLMs)的发展取得了喜人进展。社区越来越相信,构建更通用、更强大的多模态大模型(MLLMs)将会是通向通用人工智能(AGI)的必经之路。但在向多模态通用大模型(Generalist)的迈进过程中,目前仍存在一些关键挑战。比如很大一部分工作都没有实现细粒度像素级别的视觉理解,或者缺乏对图像和视频的统一支持。抑或对于各种视觉任务的支持不充分,离通用大模型相差甚远。 

为了填补这个空白,近日,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布开源了Vitron通用像素级视觉多模态大语言模型。Vitron支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,包括静态图像和动态视频内容进行全面的理解、生成、分割和编辑等任务。



我的网站