今天是:
当前位置: 首页 -> 行业刊物
行业刊物

探索数据资源化关键技术 提高社会服务能力

随着信息技术特别是信息通讯技术的发展,互联网、社交网络、物联网、移动互联网、云计算等相继进入人们的日常工作和生活中,全球数据信息量呈指数式爆炸增长之势。根据国际数据公司 IDC发布的研究报告,2011年全球创建和复制的数据总量为 1.8 ZB(约 1.8 万亿 GB),预计全球数据量大约每 2 年翻一番,到2020年,全球将达到35ZB的数据信息量。
在国内,2012 年中国计算机学会大数据专家委员会发布的《大数据热点问题和 2013年发展趋势分析》提出了数据资源化的概念,指出数据将在企业、社会和国家层面成为重要的战略资源,信息技术的重心将由“T”(技术)切换到“I”(信息);应该通过建立数据共享联盟,开放数据,形成数据共享网络,以打破行业内数据事权限制,让数据可以重复使用,自由架构,支持利用数据进行创新。但是,作为关系国计民生的社保行业,数据采用多点采集、分散处理和分布存储的方式,且使用往往与具体的社保应用相关联,因而具备类型杂、多事权等特性,形成“信息孤岛”,限制了数据的深层共享和可持续利用,制约了数据资源化的进程。
社保大数据的资源化之路
“数据为王”的大数据时代已经到来,面对社保行业日益形成的大数据和社会对社保大数据的迫切共享需求,作为关乎国计民生的社保行业,迫切需要探索社保数据资源化关键技术,以提高社保行业社会服务能力。社保大数据的资源化,首先需要建立非常强的“数据意识”,甩掉“数据意识薄弱”的帽子,将社保大数据放在重要战略位置,不以“数据”而数据,不以特殊应用而数据。其次是进行“数据化”,建立完善的数据采集、汇集机制和存储能力,让文字变成数据,让沟通变成数据,让世间万物变成数据,形成数据的持续更新能力。最后是进行“数据开放”,顺应大数据共享联盟的趋势,以开放的态度,构建数据基础服务平台,打破行业内数据事权限制,向社会大众提供数据服务,让数据可以重复使用,自由架构,支持利用数据进行创新。
资源化的技术路线
社保大数据资源化的本质是实现数据的共享与服务,因此,通过构建社保数据基础服务平台,实现分布异构数据的互联互通与高效利用,是进行资源化技术探索的有效途径。从技术实现的角度,提出一套社保大数据的资源化蓝图,分为资源层、逻辑层、服务层和应用层 4 个层次,资源化蓝图如图 1所示。其中资源层提供安全可靠的数据存储,构成社保数据持续更新与存储能力,形成对“数据化”的支持;逻辑层进行异构数据的封装、整合、共享和交换等工作,形成对“数据开放”的支持;服务层也是数据开放的支持,以服务形式进行开放,并以服务组合满足社保大数据应用的动态性和伸缩性;应用层则是社保大数据价值的体现,在这一层中,各类用户按照平台提供的统一交互界面和应用接口标准,使用社保大数据资源进行分析与展现。
社保大数据资源化的关键技术
目前社保行业的资源化研究主要关注数据共享,离支持各种复杂查询与预测分析及人人皆可使用受益的愿景还有很大差距,行业与市级社保单位相互交错,数据的混杂性和多事权特性将给社保数据资源化带来更多新的挑战。为此,结合我国近年来社保数据共享的实践经验,从数据的存储、共享、服务和交换等方面进行探讨。通过研究数据的高效存储方法实现对“数据化”的支持,通过解决异构数据的共享和发现等关键技术问题,实现逻辑层对“数据开发”的支持;研究数据服务实现服务层“数据开发”的支持;通过研究具有高伸缩性和可生长能力的大数据多模式交换方法,实现对业务应用的良好支持;进而形成一套完整的社保数据资源化关键技术体系。
1、社保大数据的高效存储技术
社保数据规模较大,保证系统具备较高的读写吞吐率和数据安全是大数据的典型问题与资源化的关注重点。此外,社保大数据的存储机制还需要考虑数据的多副本与容灾机制等。随着大数据与云计算的结合成为大数据发展的趋势,Hadoop 已经成为大数据存储与处理广泛采用的云计算平台;笔者对采用 Hadoop 构建分布式的大数据存储方法进行了探索,提出了基于 Hadoop 的空间数据索引方法,提高了具备非欧时空特征的社保空间数据的访问效率;特别针对影像数据采用 Hadoop 分布式支付系统(HDFS)存储时全副本容错技术与存储空间的矛盾,提出了基于纠删码的容错技术,有效实现了数据的安全冗余存储。
2、 面向异构社保大数据的共享技术
数据共享是数据资源化的基础,面对社保行业来源于不同事权单位的人口、单位、诊疗、缴费、待遇计发和全民参保调查数据库,电子地图、电子档案数据等多类型异构数据资源,需要研究利用可配置的元数据映射机制,将多类型异构数据资源映射到规范的逻辑空间,以构建数据共享服务体系,完成数据与业务应用的耦合,在不改变原始数据的前提下,实现各事权单位数据的共享与整合,并保证模型的完备性和精准性。笔者提出了一种面向多数据类型的信息共享方法,依据信息资源数据类型的不同,分别对信息资源的元数据进行注册、抽取、更新、审核、发布,并利用可配置机制实现异构海量信息资源的多途径发现,使之能够支持地图数据、电子影像和关系数据,并且具备良好的可扩展性。目前这一方法已经应用于社保数据中心,实现了社保普查成果、社保专题数据、电子地图、电子档案等数据的共享。
3、基于语义的社保大数据发现技术
大数据之间存在着丰富的关联关系,发掘大数据价值的一个重要基础就是能够分析出数据集里隐藏的相互关系网。在数据量激增的同时,面对海量数据,在进行信息的浏览和检索时,更希望了解数据之间的关系,而不是一个个孤立的信息点。因此,如何将这些数据背后包含着的大量隐性知识挖掘出来,直观展示在人们面前成为迫切的需求。通过利用核心平台构建社保领域本体,并综合知网语义,形式化描述社保数据间的关联关系,定义语义推理规则,构建基于模糊语义的推理机制,对于社保大数据的语义关系发现进行技术探索,积累了相关经验。
4、面向多事权的社保大数据交换技术
社保数据采用多点采集、分散处理及分布存储的方式,促使社保数据资源化过程中必须建立高效的数据交换机制,实现数据的互联互通、信息共享、业务协同,以成为整合信息资源、深度利用分散数据的有效途径。笔者提出一种基于云计算的社保数据交换方法,以服务的方式封装交换功能,并在此基础上通过流程建模和服务组合来保证多事权条件下交换系统的动态性和伸缩性。该方法具有对现有交换系统的良好兼容性,当需要构建新的业务交换系统时,只需要提供相应的个性交换服务,避免了重复建设,从而达到快速形成新数据交换系统解决方案的目的。
5、面向动态业务需求的数据服务技术
社保是关系国计民生的基础行业,经济和社会发展的各行各业都需要社保数据做支撑,对人社信息服务的应用需求也不断变化。这就要求相应的数据支撑条件具备良好的可用性和互操作性,能够根据组织形态和业务需求的动态变化进行按需使用。因此,需要研究面向动态业务需求的数据服务技术,利用服务封装与组合技术将数据访问功能发布成为数据服务,构建起社保数据资源服务体系,为用户提供服务聚合、发布订阅和门户访问等多模式的数据共享服务。社保大数据资源化是一项系统工程,除了社保大数据的高效存储技术等 5 个方面的关键技术之外,还涉及到支持高效数据交换的大数据分发技术,为避免用户“信息迷失”的数据服务推荐技术,以及提供高通量信息内容的新型可视化人机交互技术,实现隐私保护的数据发布匿名技术等,这些技术相辅相成,共同构成社保大数据资源化的关键技术体系。
数据资源化是一个很重要的新概念和发展趋势,但是,数据资源化还处于开始阶段,成功案例也局限于大型互联网公司,可借鉴的经验较少。目前社保大数据的研究,应当进行以数据管理为驱动的开放性、包容性和探索性工作,通过解决有什么大数据、大数据在哪里、大数据如何获取等基础性问题,为后续的社保大数据深度利用形成支撑。
 
 
来源:《中国信息界》杂志

【上一篇】:
【下一篇】: 旅游住宿三项标准助推全域旅游发展

【加入收藏】 【打印此文】 【关闭窗口】