来源:量子位
作者:萧箫
大模型们胡说八道太严重,英伟达看不下去了。
他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。
这个新工具名叫“护栏技术”,相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。
一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。
另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。
早间数字货币行情梳理:根据Bitfinex交易平台数据显示,
BTC最新成交价格41704.13元,最高价达44178.09元,最低价格41213.88元,成交量81552.81万,跌幅3.56%;
ETH最新成交价格3153.49元,最高价达3485.13元,最低价格3103.28元,成交量840123.98万,跌幅6.09%;
BCH最新成交价格5542.14元,最高价达6198.64元,最低价格5443.65元,成交量78554.34万,跌幅5.33%。[2018/6/13]
现在,这个大模型护栏工具已经开源,一起来看看它的效果和生成方法。
防止大模型胡言乱语的三类“护栏”
根据英伟达介绍,目前NeMoGuardrails一共提供三种形式的护栏技术:
24小时创新币行情梳理:根据Bitfinex交易平台数据显示,
EOS最新成交价格77.26元,最高价达83.11元,最低价格73.86元,成交量1032.13万,跌幅2.56%;
IOTA最新成交价格8.97元,最高价达9.46元,最低价格8.83元,成交量675.33万,跌幅3.58%;
DASH最新成交价格1921.14元,最高价达2069.34元,最低价格1919.73元,成交量0.5万,跌幅5.95%;
NEO最新成交价格314.68元,最高价达339.79元,最低价格310.84 元,成交量8.38万,跌幅5.37%。[2018/5/29]
话题限定护栏、对话安全护栏和攻击防御护栏。
早间主要数字货币行情梳理:根据火币Pro交易平台数据显示,BTC最新成交价格53653.12元,最高价54585.13元,最低价格51052.78元,涨幅1.77%; ETH最新成交价格4368.92元,最高价达4401.58元,最低价格4205.06元,涨幅1.62% ;BCH最新成交价格9261.77元,最高价达9447.25元,最低价格8239.26元,涨幅2.03%。[2018/5/13]
话题限定护栏,简单来说就是“防止大模型跑题”。
大模型具备更丰富的想象力,相比其他AI更容易完成创造性的代码和文字编写工作。
但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。
早间数字货币行情梳理:根据Bitfinex交易平台数据显示,
BTC最新成交价格51752.25元,最高价达52074.87元,最低价格50414.10元,成交量3.16万,涨幅0.2%;
ETH最新成交价格3498.08元,最高价达3539.95元,最低价格3241.75元,成交量20.63万,涨幅1.9%;
BCH最新成交价格6044.14元,最高价达6177.14元,最低价格5464.95元,成交量5.08万,涨幅2.01%。[2018/4/20]
这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。
对话安全护栏,指避免大模型输出时“胡言乱语”。
胡言乱语包括两方面的情况。
一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;
另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。
攻击防御护栏,即防止AI平台受到来自外界的恶意攻击。
这里不仅包括诱导大模型调用外部病APP从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。
所以,这样的护栏要如何打造?
如何打造一个大模型“护栏”?
这里我们先看看一个标准的“护栏”包含哪些要素。
具体来说,一个护栏应当包括三方面的内容,即格式规范、消息和交互流。
首先是格式规范,即面对不同问题的问法时,规定大模型要输出的内容。
例如被问到“XX文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。
然后是消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:
最后是交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:
一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。
具体工作流程如下:首先,将用户输入转换成某种格式规范,据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。
类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。
这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:
目前,英伟达正在将护栏技术整合进他们的AI框架NeMo中,这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。
对“护栏”技术感兴趣的小伙伴们,可以试一试了~
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。