徐云峰:大数据的魅力在于一切皆可量化

2017-02-19 21:10      光明网 徐云峰


   徐云峰

  由现代信息技术引发的全球信息化浪潮冲击着社会生活的方方面面,尤以“内容、数据、用户和流量为王”的互联网思维和技术不断推陈出新,带来了“工具是武器、技术是灵魂、数据是王道、人才是根本”的新一轮大变革,催生了知识型经济、网络化社会、数字化生存和数据化时代。

  “云物移大智”是当前信息时代最热的五驾马车,即云计算、物联网、移动互联网、大数据和智慧城市, 这五个要素共同筑造着我国“IT新型态”的开端和雏形。鉴于“廉价、迅速、优化”的最优综合成本,大数据作为云计算、物联网之后又一大颠覆性的技术革命,其令人着迷的地方在于用“科学”的方法挑战了“预测学”,帮助人们发现未知,辅助人们进行决策,实现了一切皆可“量化”。哈佛大学教授说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程。”其核心价值是用数据还原过去、描述现实和规划未来,具体是对海量数据进行采样、存储、共享和分析,几乎涉及所有领域的结构类型,包括文、图、音、像、表等多源、多元数据,可以说“处处是沙子、到处是黄金”。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,在于数据自身潜在的价值。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据里的“淘金” 和“增值”。

  实践表明,大数据运用的国际经验主要体现在资源充分共享、快速判断宏观趋势、深度学习、分析预测、改进效率等方面,而这恰是我们的薄弱环节。当前,亟待全面推广基于数据进行决策、利用信息创造价值的观念,推动大数据向生产力转化,将数据深度运用到业务管理过程,利用数据来指导工作,设计和制定政策、制度和措施,做到精准预测和精细管理 。因此务须明晰“四大”问题,即清醒把握大数据的“两大”技术特征,正确处理大数据的“两大”片面认识。

  一是大数据“很大”。大数据是巨量资料,所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。通俗地说,大数据的数据量和计算量非常大,大到现有主流软件无法胜任,需要一个全新的体系架构来支撑。而云计算是当前新兴的战略性技术,已连续多年成为十大战略新技术之一,是随着存储技术、虚拟化技术以及分布式处理演进而来的,拥有六大核心技术、五种基本特征、四种部署模型和三种模式。现在部署的移动互联网、物联网、大数据和智慧城市等应用实践主要归功于云计算的发展,云计算是这些应用场景的核心技术支撑。因为没有云计算,这些应用也就无从谈起,其终极目标就是“IT成为水电一样的生活基础设施,一切皆为云服务(XaaS)”。

  因此,云计算是大数据的最好核心基础,大数据是云计算的最佳应用实践。专家认为,没有采用虚拟化和分布式技术的,都不能算是真正的云计算,没有云架构的支撑,就难以实现真正意义上的大数据应用,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。所以大数据必须采用分布式架构,它的特色在于对海量数据进行分布式数据挖掘(SaaS),必须依托云计算的分布式处理、分布式数据库(PaaS)和云存储、虚拟化技术(IaaS)。

  二是大数据“不大”。通过多年的信息化建设和应用,现有的数据量虽然已经很大,但是还不够多,常见数据的冗杂、维度和多样化不够,不能涵盖真实世界可能出现的各种边界情况,且长期处于休眠状态。这需要在标签索引、数据融合、挖掘分析时,必须建立协同参与的数据库、模型库和知识库,必须结合现实数据和历史知识,为用户提供全方位、精确化和实时的情报信息和决策支持,从而实现从“已知”推理“未知”、从“现实”预测“未来”。

  大数据的实质是“深度学习”,需要建立大规模训练数据集,建成服务决策的仿真环境和专家系统。事实证明,没有基于知识管理和专家参与的信息系统,难以实现精准的实时预测预警分析。这就需要人工智能技术,需要机器学习和训练,最终形成专家群体参与决策分析。同时从平台分析结果到实践间的验证、评估问题时,需要通过系统的模拟推演和现场重现,为进一步决策指挥提供可靠性测试指标,这需要建立模拟仿真平台,真正实现“人在干、数在转、云在算”。

  当前我国高科技领域设计体系架构时,大多采用钱老的系统工程理论和方法,把系统建设当成一个复杂巨系统,需要建立综合集成研讨厅体系,就是在满足数据整合和挖掘的基础上,要集成模拟仿真和专家系统这两个核心子系统,才能实现效益最大化和效率最优化。大数据深度神经网络的人工智能模型,其数据量和计算量都非常大,经常需要长久的训练时间,需要算法专家、系统专家共同协同和不同数据的同步,更需要可持续的自主支撑技术,长期离不开新技术的研究和应用,尤其在自然语言处理、复杂网络、社会计算和群智算法等新技术上必须拥有独立自主的科研成果。

  三是大数据的“自大”。大数据需要自上而下的顶层设计和自下而上的规范应用,两者双轮驱动、缺一不可。由于我国区域发展不平衡,各地信息化应用意识和水平不均,导致各地部署建设信息化工程项目时投入不一、各自为战,在资源共享上唯我独尊,甚至“泳道”条割、“烟囱”林立,“信息孤岛”现象频仍。一些地方高度重视科技引领作用,大手笔发展智慧城市,大投入建设大数据中心,为实施科技兴国战略肯花真金白银、肯投重兵强将,全力打造了高大全的独立平台,资源独享,权限独占,只求数据向里导,不准外人实时查,强调权限自己用,明确不给他人授。正是缺乏全局的思考和系统的把握,往往将自我置身在“一家独大”的信息墙、资源池和自留地里,无形中与墙外池外在物理、逻辑上形成信息壁垒,“只扫门前雪、不管他人霜”的思想犹存。

  殊不知,在物流、人流、信息流、资金流多流并进的当下,玩大数据,不能自娱自乐,搞信息化,唯有团结协作。任何部门、任何区域、任何平台都不能靠自身包打一切,务须深化“唯共享、方共赢”的认识,树立“既要人人为我、更要我为人人”的理念,务须打破理念藩篱和数据通道,建设一个开放的、共享的、智能的云平台,成为广大用户业务交互的阵地、数据交换的枢纽和用户交流的载体,实现信息的协作、业务的协调和任务的协同。

  四是大数据的“他大”。虽然“自大”难以走天下,但一些地方囿于人财物的投入不足,反之产生了“他大”思想。面对风起云涌的大数据应用,总是袖手旁观、无动于衷,存在掌握新技术时往往一知半解,认识新业态中常常一叶障目,“只等别人建高楼,我直拎包入住用”的“蹭网一族”大有人在。

  大数据时代的浪潮已经袭来,这对于我们每一个人来说,既是大数据的缔造者,又是大数据的使用者,更是大数据的直接受益者,如何在海量的信息中坐收大数据的“渔利”,我们每一个人都不能置身事外。只有积极参与到人机、人网、人物、人事结合的同时,后台记录着你的每一次点击和浏览、每一个行为和喜好,大数据的分析结果才能精准的推送到你的桌面和掌上,才能符合你所请求和查询的预期。事实证明,只有在信息平台上刷存在感,你才拥有赛博空间的获得感。一切人性化的设计、个性化的体验都是以每一个用户的积极参与为前提,那种“躲进小楼成一统”的后果,往往会是人家收获了黄金,你可能全是沙子,你需要的是汽油,得到的却是石油。

  作为基础性战略资源,大数据已上升为国家战略,事关国家安全和民族未来。2015年国务院发布的《促进大数据发展行动纲要》是我国发布的首个大数据国家行动计划,旨在全面推进我大数据发展和应用,提升创业创新活力和社会治理水平,加快建设数据强国。尽管大数据蕴含着大机遇,但在整合共享、工程技术、管理政策、资金保障和人才培养层面仍存在诸多挑战。需要我们在技术上全面厘清大数据“很大”和“不大”的通用本质特性,切实消除在建管用上“自大”与“他大”的片面需求分析,就一定能开创“用大数据量化一切”的新局面,真正释放数据、制度和创新的红利,实现我网信强国之梦。

  (本文作者:徐云峰 中国指挥与控制学会认知与行为专委会副主任委员,中国计算机学会高级会员、中国计算机学会安全专委会常务委员;十一届、十二届全国青联委员)

  ※此文发表在光明日报系《中华读书报》2017年2月8日 17版

相关阅读