本文作者为哈工大SCIR实验室丁效,李忠阳,刘挺,雷锋网获权转载。
2016年7月,哈工大社会计算与信息检索研究中心开始启动事理图谱的研究工作。2017年10月,研究中心主任刘挺教授在中国计算机大会上正式提出事理图谱的概念。2018年9月,在研究中心丁效老师的主持下,研制出中文金融事理图谱1.0版本,2019年7月更新为2.0版。本文是对2016年7月以来工作的最新总结,敬请各位同行指正。
引言
事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间、空间上相继发生的演化规律和模式是一种十分有价值的知识。然而,现有的典型知识图谱均以实体及其属性和关系为研究核心,缺乏对事理逻辑这一重要人类知识的刻画。为了弥补这一不足,事理图谱应运而生,它能够揭示事件的演化规律和发展逻辑,刻画和记录人类行为活动。在图结构上,事理图谱是一个有向有环图,其中节点表示事件,有向边表示事件之间的演化关系。现实世界中事件演化规律的复杂性决定了我们必须采用这种复杂的图结构。本质上,事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式。
1.研究背景及意义
随着深度学习的兴起,人工智能迎来了新的发展高潮。人工智能的一个发展瓶颈在于,如何让机器掌握人类知识。例如,人类能轻易理解“吃过饭”后,就“不饿”了这样的常识知识,而让机器理解并掌握大量这样的知识是一件极其困难的事情,而这也是通往强人工智能的必由之路。在众多类型的人类知识中,事理逻辑是一种非常重要且普遍存在的知识。
孙宇晨:币安日本上市TRX将促进波场TRON在日业务:8月2日消息,据日本加密媒体报道,币安日本将于本月正式上线,并计划在其交易所上市34种代币。波场TRON主网代币TRX位列其中。8月1日,波场TRON创始人、火币Huobi全球顾问委员会成员孙宇晨在其个人官方推特转发相关报道时表示,很高兴看到币安日本将率先上市TRX等多种代币,这一渐进式举措促进了波场TRON在日本加密市场的可访问性和采用率。
据悉,TRX是由TRON DAO发行的基于波场协议的主网代币的简称,TRX具有丰富的使用场景。TRX于2022年10月7日被多米尼克国政府正式确立为国家法定数字货币。目前TRX在CoinMarketCap上排名第10。[2023/8/2 16:13:25]
许多人工智能应用依赖于对事理逻辑知识的深刻理解。以隐式消费意图识别以及隐式情感分析为例,只有让机器知道“结婚”事件伴随着后续一系列消费事件,例如“买房子”、“买汽车”和“去旅行”,我们才能在观察到“结婚”事件的时候,准确地识别出用户潜在的隐式消费意图,进而向目标用户做出精准的产品推荐。只有让机器掌握“考试不及格”会引起“情绪低落”这样的常识事理,才能从显式事件当中挖掘出用户背后的隐式情感。现有的对话生成系统大多从大规模对话语料中以最大似然估计进行训练。然而人类对话的语义和语境是复杂多变的,这样得到的对话系统很难深入理解对话上下文的前因后果,而只是对训练语料中特定问答模式的记忆。只有让机器理解了“吃过饭”之后“人不饿了”,“看电影”之前要“先买票”这样的常识事理,对话系统才能根据不同的问答语境,做出更加智能的回复。股市一般伴随着短期内随机的小波动,以及长期内重大事件驱动的大波动。例如,近来随着人工智能迎来发展高潮,以及“国家将人工智能列为国家发展战略”,科大讯飞等人工智能企业股价迎来了一波大涨。事件驱动的股市预测悄然兴起。从金融文本中挖掘“粮食减产”导致“农产品价格上涨”,再导致“通胀”,进而导致“股市下跌”这样的远距离事件依赖,对于事件驱动的股市涨跌预测非常有价值。事理逻辑知识的挖掘与知识库构建迫在眉睫,这将极大地推动多项人工智能应用的发展。
孙宇晨钱包地址在Lido质押超15万枚ETH,价值约2.4亿美元:金色财经报道。Lookonchain数据显示,标记为“Justin Sun”孙宇晨的钱包地址刚刚在@LidoFinance质押 150,100枚ETH (价值约2.4 亿美元)兑换成stETH。[2023/2/25 12:29:30]
事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间上相继发生的演化规律和模式是一种十分有价值的知识,挖掘这种事理逻辑知识对我们认识人类行为和社会发展变化规律非常有意义。然而,当前无论是知识图谱还是语义网络等知识库的核心研究对象都不是事件。尽管传统知识图谱在现代搜索引擎中得到了广泛应用,但是其聚焦于实体和实体之间的关系,缺乏对事理逻辑知识的挖掘。我们认为事理逻辑知识,包括事件之间的顺承、因果、条件和上下位等关系,对于人工智能领域的多种任务具有非常巨大的价值。为了揭示事件的演化规律和发展模式,我们提出了事理图谱的概念,旨在将事件的演化规律和模式构建成一个有向图形式的事理知识库,用于刻画和记录人类行为活动和事件客观演化规律。
2.事理图谱的定义
事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式。结构上,事理图谱是一个有向有环图,其中节点代表事件,有向边代表事件之间的顺承、因果、条件和上下位等事理逻辑关系。
理论上,事理图谱中的事件是具有一定抽象程度的泛化事件。表示为抽象、语义完备的谓词短语或句子,也可以表示为可变长度的、结构化的(主体、事件词、客体)多元组,其中必然包含一个事件词,标志事件的发生,例如:“跑步”,而事件的主体和客体都可以在不同的应用场景下被省略,例如:“”可以省略事件的客体,“”可以省略事件的主体。一般情况下,事件以及事件的抽象程度与该事件发生的场景紧密关联在一起,脱离了具体的场景,一个单独的事件可能变得过度抽象而难以理解。
孙宇晨:升级后的SUNSwap类似于将Uniswap与Curve进行合体:据官方消息,波场TRON创始人兼BitTorrent CEO孙宇晨在直播中表示:升级后的SUNSwap类似于将Uniswap与Curve进行合体,将充分融合JustSwap在资本效率上的优势,以及SUN平台在稳定币交易领域的优势,为交易用户和流动性做市商做市提供前所未有的便利。加之未来融合BTTC去中心化跨链桥,立足波场公链全方位优势的SUNSwap将持续为DeFi更健康、更大规模的发展赋能。[2021/10/27 6:16:05]
例如,虽然脱离了具体的场景,但“吃火锅”,“看电影”,“去机场”,“地震”仍是合理的事件表达;但“做事情”,“吃”等事件由于过度抽象,属于不合理或不完整的事件表达。事件词可以是动词或名词,但是绝大多数事件都是动词触发的。其中,按动词的内容意义进行划分,可将事件分为动作类事件、状态类事件、关系类事件与能愿类事件四个大类。
2.1事理图谱中的事件关系类型
我们认为,现实世界中有四种事理逻辑关系特别重要,也是我们提出的事理图谱中主要关注的事理逻辑关系,包括事件之间的顺承关系、因果关系、条件关系和上下位关系。
顺承关系是指两个事件在时间上相继发生的偏序关系。我们借鉴TimeML时序关系类别中的before和after偏序关系,在事理图谱中的顺承关系包括两种情况:一种情况是顺承的前序事件a结束后,后序事件b紧接着发生;另一种情况是前序事件a结束后,隔一段时间后序事件b才会发生,具体如图1所示。两个前后顺承的事件之间存在一个介于0到1之间的转移概率,表示从一个事件按时序顺承关系演化到下一事件的置信度。
孙宇晨:SUN太阳币第一轮减产将于9月30日23:10进行:孙宇晨今日在推特表示,太阳币SUN正式挖矿后首次减产,首次减产将达到20%。第一轮减产将于9月30日23:10正式进行,将与Justswap.org合作持续新的一期为期14天的质押挖矿。[2020/9/27]
事理图谱与传统知识图谱有本质上的不同。如表1所示,事理图谱以事件为核心研究对象,有向边表示事理逻辑关系,即顺承、因果、条件和上下位;边上标注有概率信息说明事理图谱是一种事件间相继发生可能性的刻画,不是确定性关系。而知识图谱以实体为核心研究对象,实体属性以及实体间关系种类往往成千上万。知识图谱以客观真实性为目标,某一条属性或关系要么成立,要么不成立。
4.事理图谱的构建
4.1基本技术原理
事理图谱课题主要研究从大规模无结构化文本数据中自动获取事理逻辑知识,并将这些知识组织成有向有环图结构,用以描述事件之间的演化规律和模式。这样的知识库我们称之为“事理图谱”。
事理图谱项目包含“构建”、“推理”和“应用”三个关键技术点:
(1)事理图谱的构建
事理图谱的构建主要用到以下具体的自然语言处理技术:事件定义、开放域或限定域事件抽取,事理关系抽取,事理关系置信强度计算,事件相似度计算,事件抽象与泛化等。
声音 | 孙宇晨谈Jack Dorsey账号被黑:请立刻将身份验证更改为不基于SNS的双因素认证:孙宇晨就Twitter首席执行官Jack Dorsey的推特账号被黑客攻击一事发推表示:“请立即将你的推特和加密帐户身份验证更改为不基于社交网络服务(SMS)的双因素认证(2FA),如谷歌身份验证器[2019/8/31]
(2)事理图谱的推理
事理图谱的推理可以用于事件及关系的补全,主要涉及到的技术有:结构化事件表示学习,短语级、句子级事件表示学习,事理图谱图结构上的图神经网络技术等。
(3)事理图谱的应用
事理图谱的应用是指将构建好的事理图谱用于下游任务,例如消费意图识别和商品推荐、对话系统回复生成、股市涨跌预测、未来事件预测等,帮助提升具体任务的效果。此阶段用到的技术主要有:事理图谱的存储与查询,事件表示学习,事理图谱表示学习等。
4.2主要技术领域及当前发展热点
与事理图谱项目密切相关的技术领域主要包含以下几个方面:
(1)常识知识库资源构建
传统的常识知识库资源构建主要围绕实体及其关系展开。2012年谷歌成功将大规模知识图谱商业化,显著改善了搜索结果的呈现方式,并提升了搜索引擎的用户体验。之后以实体为中心的知识图谱获得了长足的发展以及广泛的应用。时至今日,知识图谱仍然是学术界的一个发展热点。知识图谱上的知识表示学习、实体链接、实体消歧、知识图谱补全等等研究方向仍然是当下研究的热点问题。
然而,已有研究者注意到事件常识的重要性,部分最新的研究工作开始研究以事件为中心的常识知识库构建。
(2)统计脚本学习
给出多个事件组成的上文,统计脚本学习研究下一个可能发生的事件是什么,可以认为是建模事件预测的能力。
传统方法多在无监督抽取的结构化事件链条上进行模型的搭建,这条技术路线仍然在发展当中,不断有新的模型涌现;最近,学者们提出故事结尾预测的评估方式,是对传统评估方法的进一步完善。
(3)事件顺承关系抽取
由于语料标注的限制,事件时序关系抽取研究进展相当缓慢。虽然曾经连续举办多个技术评测,推动了该技术的发展,但是进步仍然十分有限。最近,时序关系抽取重新引起了学者的研究兴趣,有许多相关研究发表。从预料的构建,识别方法的改进等多个方面继续推动该研究走向使用阶段。目前,已有开放域的时序关系抽取系统发布。
(4)事件因果关系抽取
文本中的因果关系抽取一直是一个难点。虽然学者们提出了许多方法,但是仍以因果模板匹配的方法抽取精确度最好。模板匹配的缺点在于召回率难以保证,许多有价值的因果关系无法召回。目前,高效准确的因果关系抽取方法仍然是一个难点及研究热点。
(5)知识表示学习与网络表示学习
知识表示学习是指将知识图谱中的实体及关系映射到低维稠密向量,进而可以更加方便地用于后续任务当中。网络表示学习的研究对象不仅仅包含知识图谱这种网络,而是更广义上的网络。这两个研究方向都是当下研究的热点问题,属于事理图谱应用阶段的实用技术。
5.金融事理图谱V2.0版本发布
2018年9月10日,HIT-SCIR正式对外发布金融事理图谱V1.0版本,经过近10个月的潜心研发,HIT-SCIR推出金融事理图谱V2.0版本,相对于V1.0版本,V2.0版本进行了如下的改进。
金融事理图谱V2.0版本扩充了数据源,扩大了数据规模,增加了事件节点数量以及因果关系数量,同时增加了事件上下位关系以及抽象事件和抽象因果关系,采用基于BERT+CRF的方法将因果关系抽取的F值由原来的59.54%提升到了85.12%。
结束语
知识图谱在各个领域精耕细作,逐渐显露价值。知识表示形式有待突破,推理能力有待提高。统计脚本学习和事件关系识别等事理图谱相关研究越来越吸引研究者关注。以“谓词性短语”为节点,以事件演化为边的事理图谱方兴未艾。事理图谱必将在预测、对话等领域发挥重要作用,有力地提升人工智能系统的可解释性。
详细论文请参考:https://arxiv.org/pdf/1907.08015.pdf
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。