我们不必知道现象背后的因果,我们只想让数据自己发声。那么,在区块链时代,如何让端对端加密的数据发声?
原创|阿常
在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。
维克托·迈尔-舍恩伯格《大数据时代》移动互联网、大数据技术的发展让我们享受着数据带来的红利,购物、打车、理财等等应用或者服务采集用户的信息,提供精准化、个性化的服务,给人们的生活带来了极大便利。
而这些便利背后,却是数据分析方放弃追求数据“结果”,选择追求一种“联系”,寻找数据之间的关联性,洞察我们的需求进而提供出更具针对性的服务。
而在区块链的网络中,数据呈现出端对端加密的特质,远比互联网数据更加严密,寻找这些数据背后的“结果”更是难上加难;但是对于从业者而言,找到这些数据之间的关联,提供“定制化服务”并研判发展趋势同样重要。
市场刚需,加密数据如何利用
大数据分析精髓在于挖掘数据与真实信息的关系。通过海量数据分析甚至某一特殊事件的数据解读,不再热衷于追求数据分析的精确度。单纯令数据发声,提供行动指南。
而区块链数据由于其本身的匿名性特征,很多时候并不能轻易找到关联关系,但是通过过去某种现象背后数据的全面分析,就能为之后类似事件提供前瞻性建议或者预警。
区块链大数据技术已经广泛应用在交易所、钱包、安全机构的业务场景中,通过对交易信息特征的分析,可以得到交易与潜在风险的关联关系,规避掉黑客盗币、等等违法犯罪行为,并能够帮助用户挽回受损资产。
Chaindigg创始人叶茂举例称,一些黑客在盗取数字货币后,有时会设定远高于市价标准的手续费,令矿工率先确认其交易,以便快速实现资金转移的目的。那么在面对一些不合常理的手续费时,交易所可以对这类地址进行区分处理,降低风险。
区块链大数据,可以说是目前市场的刚需,可诞生于互联网的大数据技术仍需要做出一些改变,适应区块链数据的特征。
相比较互联网中的数据构成,区块链数据更具备规律性。所有信息都是按照区块组织排列,每个区块中包含着的交易数据都按照该公链所设定的逻辑排列,且大部分区块在时间中存在先后次序,那么在挖掘数据、查找数据的过程中能够精确规定到某一个时间节点;而互联网大数据则往往由于没有一致的标准和时序,产生诸多异构性数据,通过统一加工后方才能够分析。
区块链数据维度比互联网数据相对简单。区块链大数据能够划分的维度相对较少,一般分为交易发起方、交易接收方、交易时间、交易金额、交易频次等维度,简单的特征将有助于更好地对数据进行归类分析。
处理区块链大数据,了解数据特征只是基础,更重要的是需要保证两个关键因素:准确率、召回率。
如何保证数据分析精度?
区块链大数据不光要考虑数据的特征,同时也要考虑数据的准确性,以及在相关维度中信息的关联——其核心难度在于准确性、召回率的提升。
准确性又可以理解为真实性,即数据真伪。以比特币网络为例,在可抓取到的几亿条地址当中,存在一些地址、地址等,那么如果能够在分析数据时发现这些数据,无疑能够提高安全性,降低风险,只有准确率足够高时才能够发挥数据的真正作用。
但仅仅保证高准确性并不足够,召回率同样重要。在巨量的准确数据中仍只有一部分数据能够被分析出来,而某些特征不清晰的数据则无法被解读。以比特币网络为例,某些地址交易记录频繁,有时间、数量、交易费等特征可以分析,这部分数据无疑更方便解读;但同时也有一些地址,可以分析的特征维度较少,甚至只有一笔或者没有交易记录,这部分“难啃的骨头”啃不掉,数据召回率同样无法提高,也就难以利用区块链大数据。
Chaindigg创始人叶茂在接受链得得采访时就指出,准确性、召回率虽然划分维度不同,但是同样重要,只有两者齐备才能够真正进行区块链大数据分析,单一一项很难起到决定作用。
理论上而言,提高了准确性、召回率,就能够提高区块链大数据的使用能力,但是区块链大数据仍面临诸多困难。
相比较互联网数据,同一公链中内容更加规范,但是目前主流数字货币基数较多,存在一些公链产生的数字货币具有较强的特殊性;此外,联盟链中数据则具备更强的商业价值,甚至涉及商业机密,起着指导企业后续规划等作用,这也给数据分析的普适性提出更高要求。
换而言之,想要进行区块链数据分析,就必须研制出能处理这些差异的普适性技术。以比特币与以太坊网络为例,后者较前者增加了智能合约的功能,那么在进行数据采集分析过程中就要考虑到智能合约地址的特征,提高数据分析的准确率和召回率。
互联网语境中大数据分析常用的多项技术和策略,例如机器学习、数据标注、模型分析、交叉验证等等,将其嫁接到区块链语境中同样事半功倍。
区块链大数据,或许可以理解为大数据技术在区块链领域的延伸,尽管区块链数据经过了层层加密,但是仍需要从中寻找到向前发展的指引。
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。