明略数据SCOPA产品经理任鑫琦:关联挖掘让数据更具智慧

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会 (Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。

在11日下午的媒体专访间,明略数据技术合伙人任鑫琦接受了CSDN记者的独家专访,他就SCOPA的产品打造历程、技术架构和产品背后的故事做了详细的介绍。

明略数据SCOPA产品经理任鑫琦:关联挖掘让数据更具智慧

明略数据SCOPA产品经理 任鑫琦

自2013年底从秒针大数据剥离出来以来,明略数据已独立运作已经近2年,目前公司的产品团队超过80人,大部分来自于北大、清华、CMU、北航、北邮等高校;并且曾经就职于著名互联网公司或大型IT外企。

明略数据是一家专注于关系挖掘的大数据行业应用解决方案提供商。以自主研发的大数据平台MDP为基础,围绕关系挖掘DataInsight、商业智能Discovery、数据关联分析SCOPA等核心产品,提供一系列数据深度分析平台和软件,帮助政府、税务、公安、金融等客户,在安全可靠的环境下,整理、分析、利用不同来源的结构化和非结构化数据,挖掘数据间的关联价值。

对于为什么明略数据一直强调关系挖掘,任鑫琦给出了解答,他表示传统的大数据公司过去总是一味的强调可以处理多大数据,达到什么样的性能,很少去关注这些数据真正能给客户提供多大的价值,单纯的数据量处理的增加不是真正的革命,明略数据关注的是能不能让这些数据自动为用户提供智慧,为用户解决真正的问题。要让数据提供最核心的价值,就是找到所有数据之间的联系,就像我们学知识一样,你可以读很多书,但是如何真正将这些知识串联起来,才是关键。因此,在目前存在大量数据孤岛的情况下,如何有效的让数据联系起来,融会贯通才是数据处理领域最需要解决的问题。

那么,怎么去做到数据之间的关联呢,任鑫琦介绍了背后的算法。他们主要基于传统数据挖掘里边的分类和聚类,抽出数据特有的模式,将数据先进行归类,之后再进行模式的匹配,再进行相应的关联。同时,依托明略数据众多的行业专家,集成了很多的行业规则和应用,把行业特点结合起来。比如:坐火车这件事情,可能你买了火车票,我也买了火车票,恰好是同车同车次的,如何建立联系呢,如果只是单纯的两张火车票肯定是没有联系的,但如果我们发现咱们的取票时间和订票时间很相似,座位号又在相连,这个就是时空模型。还有一种是概率模型,比如我们坐火车,虽然没有同时取票,但是咱们多次同时往返某地,这就是一个概率和频次的结合。真正应用过程中,明略数据是将众多的模型结合起来做综合的分析。

作为明略数据SCOPA的产品经理,任鑫琦坦言,既然做大数据,那么针对数据的多元化,多样性,怎么样做到数据的处理以及数据质量的控制,其实,明略也是用到了数据挖掘或智能分析的技术,他们会提取数据的共性,然后将数据转换成多归弹性模型,按照真实世界存在的方式重新组织数据。比如,在公安领域我们是按照人事地物组织方式重新进行组织和规划,在此基础之上,做刚才数据真正的关联,把数据对象之间的联系挖掘出来,供企业或者组织的业务人员和其他的垂直应用上来应用。当然,SCOPA平台集成了大量的结构化数据和非结构化数据的分析,比如传统BI的分析、空间和地理信息的数据分析,数据多维展示的分析。

对于产品打造的难点,任鑫琦表示主要有两点,一是技术方面,还有一个就是行业应用方面。技术方面还是突破了很多难点。比如说,数据多样性的问题,公安系统或者金融行业有很多的层级结构的,比如有刑侦、网监、情报,每个系统都有自己的数据,如何把不同部门不同的数据结合到一起进行分析,传统上人工的方法效率非常低,并且复制性很差,所以明略在数据的治理方面引入了很多的数据挖掘的技术来做类似的事情,但是把这些数据和关系挖掘出来以后发现第二个难点就是数据量非常大,像Facebook这种全球最大的社交网络,它做的图谱的是基于8亿人做的关系,但是在国内做,一个省可能真正的对象就达到了10亿的量级,这个对一般的技术公司挑战是非常大的,明略在这块投入也是非常大。最后一个难点是怎么能够更方便的提供给客户提供更好的交互,让客户觉得他不是在用一个软件,而是想怎么用数据就可以怎么挖掘和分析,这方面明略也走访了很多客户,也一直在改进。

最后,针对目前大数据行业落地的真正挑战,任鑫琦认为大数据其实最大的问题还是怎么能够让数据更好帮助客户,或者说跟领域的结合,这个是大数据最最欠缺的,这里边就有很多的点。比如底层的数据,每个领域有自己数据的特点,以前做的很多通用的工具,是不是能够快速的涉足每个领域,这是很困难的。其次,对这些数据的处理和分析,每个领域对于数据的要求和依赖是不一样的,通用的处理分析工具能不能适合于全部领域,这其实也是一个大问题。最后,给客户呈现的东西是什么,每个领域内的客户可能要求都不一样,怎么给客户提供他那个领域最好的效果,怎么提供最好的数据可视化,这也是一个结合的点,包括一些细分的行业或者细分的部门,要求也是不一样的,所以未来大数据最大的突破还是真正和应用的结合以及领域的结合。