PLU:达摩院猫头鹰 mPLUG-Owl 亮相:模块化多模态大模型,追赶 GPT-4 多模态能力_MPL

来源:机器之心

纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的GPT-4具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4和LLaVA问世不久,阿里达摩院便推出mPLUG-Owl,一个基于模块化实现的多模态大模型。

今天要介绍的是mPLUG-Owl,该工作不仅通过大量cases展示出优秀的多模态能力,还第一次针对视觉相关的指令理解提出一个全?的测试集OwlEval,通过人工评测对比了已有模型,包括LLaVA、MiniGPT-4、BLIP-2以及系统类MM-REACT等工作,实验结果表明mPLUG-Owl展示出更优的多模态能力,尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方?表现突出

香飘飘奶茶官宣发布“理想星球开拓者”NFT 数字藏品:1 月 11 日,香飘飘推出“香飘飘理想星球开拓者” 数字藏品,香飘飘以No.85奶茶星空探索队为主角,设置了真香密码、快乐起飞、反EMO、茶享自由等8个不同的理想星球场景。每个星球对应SSR、SR、R三个不同等级的数字藏品。

同时,香飘飘还结合时下备受追捧的盲盒玩法,一定程度上激发了年轻消费者的收藏欲:每款生椰菠菠椰乳茶“85度暖冬礼盒”中,都有一张“香飘飘理想星球开拓者”邀请卡,根据卡片提示,可随机获取一款数字藏品,开拓属于自己的“理想星球”。[2022/1/11 8:41:06]

论文链接:https://arxiv.org/abs/2304.14178

代码链接:https://github.com/X-PLUG/mPLUG-Owl

网易星球区块链发布多个区块链和元宇宙相关职位招聘信息:1月4日消息,网易星球区块链发布多个区块链和元宇宙相关招聘信息,包括区块链系统/应用开发、区块链系统测试、区块链产品运营和市场商务(元宇宙/NFT方向)等。据了解,网易星球区块链是网易雷火事业部旗下战略级业务部门,于2017年成立,致力于重塑数字经济信任体系,全部深度布局元宇宙,业务覆盖元宇宙多个关键技术方向,包括数字藏品平台(NFT)、区块链+游戏、数字版权与司法存证服务、分布式数字身份(DID)等。[2022/1/4 8:24:46]

ModelScope体验地址:

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace体验地址:

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

超级星球代币GDP价格“归零”,被质疑跑路:近日数字货币项目超级星球GDP价格“归零”,行情软件显示其价格为0.009元/枚,一年内跌近90%。超级星球官方微博“超级星球Hyperland”不乏有质疑是否已跑路的声音,该项目维权群也已经建立,成员数百人。

此外,在超级星球APP里,唯一还在售的理财项目为MOF星球,购买该理财项目需勾选阅读并接受《可转换债券协议》,协议显示,债券本金总额限于7000QC,年利率高达100%-250%。一位区块链行业资深律师对对此表示,这种数字货币理财模式有法律风险,发行可转换债券,实际上就是一种变相ICO(首次代币发行)。(每日经济新闻)[2020/3/31]

多模态能力展示

我们把mPLUG-Owl与现有工作进行对比来感受一下mPLUG-Owl的多模态效果,值得一提的是,该工作中评比的测试样例基本上都来自已有工作,避免了cherrypick问题。

动态 | 网易星球顾费勇透露区块链场景蓝图:据网易科技消息,网易星球顾费勇在接受专访时透露,网易星球2.0生态系统中的数据护照是连接五大数据系统和个人数据价值的枢纽,数据护照要解决两个问题,第一是数据从哪里来,第二是数据价值怎么体现。数据越多维度越细,对数据使用方价值越大。从数据使用方的角度,网易星球目前也有一些数据的应用场景正在接入,包括金融、保险方面等,未来会把这两端打通。

数据护照的核心建立在区块链上,因为只有在区块链上,才确保个人数据护照是真正属于你的。他说:“我相信在这个新的个人数据模式上会产生新的商业模式,目前基于区块链并没产生新的商业模式,只是在现有商业模式上重新做分配。虽然现在我也不清楚具体会是怎样的新的商业模式,但我看好这个方向,请大家期待我们做成的那一天。”[2018/9/17]

下图6展示了mPLUG-Owl很强的多轮对话能力。

辟谣:朱嘉伟否认网易星球要登陆火币:今日有媒体传言称网易星球要登陆火币,据证实火币COO朱嘉伟只是在会场上调侃,“你们玩网易星球,是不是指望着要上火币”,此消息被误传为网易星球要上火币。随后,有媒体向网易星球方面求证,相关负责人回复称:“假的,完全没接触过火币的人”。[2018/5/12]

从图7中可以发现,?mPLUG-Owl具有很强的推理能力。

如图9展示了一些笑话解释例?。

在该工作中,除了评测对比外,该研究团队还观察到mPLUG-Owl初显一些意想不到的能力,比如多图关联、多语?、文字识别和文档理解等能力。

如图10所示,虽然在训练阶段并没有进行多图关联数据的训练,mPLUG-Owl展现出了一定的多图关联能力。

如图11所示,尽管mPLUG-Owl在训练阶段仅使用了英文数据,但其展现出了有趣的多语?能力。这可能是因为mPLUG-Owl中的语?模型使用了LLaMA,从而出现了这一现象。

尽管mPLUG-Owl没有在带有标注的文档数据上进行训练,但其仍然展现出了一定的文字识别和文档理解能力,测试结果如图12所示。

方法介绍

该工作提出的mPLUG-Owl,其整体架构如图2所示。

模型结构:它由视觉基础模块(开源的ViT-L)、视觉抽象模块以及预训练语?模型(LLaMA-7B)组成。视觉抽象模块将较?的、细粒度的图像特征概括为少量可学习的Token,从而实现对视觉信息的?效建模。?成的视觉Token与文本查询一起输?到语?模型中,以?成相应的回复。

模型训练:采用两阶段的训练方式

第一阶段:主要目的也是先学习视觉和语?模态间的对?。不同于先前的工作,?mPLUG-Owl提出冻住视觉基础模块会限制模型关联视觉知识和文本知识的能力。?因此mPLUG-Owl在第一阶段只冻住LLM的参数,采用LAION-400M,?COYO-700M,?CC以及MSCOCO训练视觉基础模块和视觉摘要模块。

第?阶段:延续mPLUG和mPLUG-2中不同模态混合训练对彼此有收益的发现,Owl在第?阶段的指令微调训练中也同时采用了纯文本的指令数据(52kfromAlpaca+90kfromVicuna+50kfromBaize)和多模态的指令数据(150kfromLLaVA)。作者通过详细的消融实验验证了引?纯文本指令微调在指令理解等方?带来的收益。第?阶段中视觉基础模块、视觉摘要模块和原始LLM的参数都被冻住,参考LoRA,只在LLM引?少量参数的adapter结构用于指令微调。

实验结果

SOTA对比

为了比较不同模型的多模态能力,该工作构建一个多模态指令评测集OwlEval。由于?前并没有合适的自动化指标,参考Self-Intruct对模型的回复进行人工评测,打分规则为:A="正确且令人满意";B="有一些不完美,但可以接受";C="理解了指令但是回复存在明显错误";D="完全不相关或不正确的回复"。

对比结果如下图3所示,实验证明Owl在视觉相关的指令回复任务上优于已有的OpenFlamingo、BLIP-2、LLaVA、MiniGPT-4。

多维度能力对比

多模态指令回复任务中牵扯到多种能力,例如指令理解、视觉理解、图?上文字理解以及推理等。为了细粒度地探究模型在不同能力上的?平,本文进一步定义了多模态场景中的6种主要的能力,并对OwlEval每个测试指令人工标注了相关的能力要求以及模型的回复中体现了哪些能力。

结果如下表格6所示,在该部分实验,作者既进行了Owl的消融实验,验证了训练策略和多模态指令微调数据的有效性,也和上一个实验中表现最佳的baseline—MiniGPT4进行了对比,结果显示Owl在各个能力方?都优于MiniGPT4。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

大币网

[0:15ms0-5:830ms