大数据的寒冬已至 谁将倒下谁成巨人?

2017-01-15 15:34      刘自强 科技杂谈


   一、大数据寒冬已至

  凛冽的寒风吹散了北京的跨年雾霾,带来了数九寒天的冰冻感受。中关村大数据日活动刚结束一个月,各地大数据的相关展会依然如火如荼。但是纸面上的红火无法掩盖内在的虚弱,出来混总是要还的,大数据的寒冬正如这三九天一样,扑面而来,让人措手不及。

  早在半年前,百分点开始大幅裁员,据说将超过600人的团队压缩到300以内。2017新年刚过,亚信数据同样步入调整步伐,负责新领域探索的部门全部砍掉,甚至调整还可能会有第二轮。新年前后与多家业界有名的大数据公司沟通,有一个普遍的问题就是共同亏损,不管是做数据生意的,还是做平台项目的,无一例外,而且公司普遍对团队在2017年的盈利提出要求。让我们再想象一下,如果这些团队未能在2017年实现盈利结果会如何?

  对运营商而言,即便联通、电信宣称通过数据变现实现了数亿的销售收入,但如果核算下从数据采集到变现应用全过程的成本投入(包含人员),一定是一个不太乐观的数字。对BAT来说,如果把数据运营部门独立核算,情况同样如此。只是像运营商、BAT这样的家业庞大的公司,不在意当前的损益,有能力持续开展战略投入。

  那么是什么原因导致大数据行业集体进入寒冬?是实体经济下行影响吗?还是大数据停留在概念炒作,未进入到实际应用?

  大环境确实对大数据行业产生负面影响,不只是的大数据,2016年实质上还是资本的寒冬,移动互联网的寒冬。但从根本上看,过度竞争才是大数据寒冬的主要因素,也是一切寒冬的罪魁祸首。

  二、更多的玩家更低的门槛必然导致自我淘汰

  必须承认,从整个市场来看,2016年大数据行业整体取得了巨大进步。

  首先,来自数据的价值被充分挖掘。大数据的热度让"数据是资产""数据产生价值"深入人心,且在实际生产中催生了丰富的数据应用。客群分析、精准定向推送、金融信贷中的身份核验、基于数据的信用评级等,其核心并非"大数据"技术的应用,更多的应该是"数据"的价值发掘。如果可以统计的话,2016年各公司之间的数据交易与2015年相比一定是一个指数级的增长。

  数据分析应用经历四个阶段,分别是简单数据的简单分析(传统的数据库统计)、简单数据的复杂分析(传统数据量的数据挖掘)、复杂数据的简单分析、复杂数据的复杂分析。基于数据价值发掘的各项应用绝大部分集中在第一、第二阶段。能够下象棋的"深蓝"和能够下围棋的 "阿尔法狗"其实都应该属于简单数据的复杂分析(单一领域的机器学习)。

  其次,大数据应用的典型案例层出不穷,目前集中于复杂数据的简单分析。

  比如上海踩踏事件后,对于特殊时段/事件的实时人群流量监测成为大中城市的共同需求。通常通过运营商大规模信令数据的准实时处理,来实现区域人群准实时洞察分析。2016年已经在各大旅游区、航展、火车站等进行了广泛的应用。

  比如某市政府因人口疏解压力,要求分析各区县(各乡镇)之间的常住人口、工作人口数量,以及各类人口变动来源与去向。通常通过运营商信令数据的离线分析,可以较好的模拟真实居住/工作人群的结构与变化特征。2016年该领域实际上开展了较深入的应用。

  比如公安部门、信用评级部门需要分析个人或企业的关系链。对个人来说,有那些人跟你是家庭关系、亲戚关系、同学关系、同事关系包括曾经同学、同事等,以及关系的关系。通过大数据图计算方式,能快遍历每个节与周边多个节点之间的直接或间接关联关系,形成个人关系图谱。对企业来说,股权投资、高管兼任、资金担保等均可通过图计算方式,分析出企业关系图谱或各类复杂的资金链/担保链关系图谱等。

  但是,上述整体市场的进步并不意味着参与的企业个体能够持续的活下去。十家公司出现十个典型案例,大家都可能玩完,而一个公司一个典型案例覆盖十个客户,才有可能活得下去。

  就如"谷贱伤农"的道理一样,过度投入带来的过度竞争才是大数据寒冬的真正原因。不是大数据技术不好,也不是应用缺乏,而是当前的应用市场无法容纳过度参与玩家的生产能力。

  首先,过度投入来自对新技术新领域的追捧。从Gartner公司每年一度的新兴技术成熟度曲线(Hype Cycle for Emerging Technologies)可看出,大数据在2013年正处在成熟度曲线的顶峰,2014年已经开始下坡路,2015年已经脱离曲线,从概念炒作走向实际应用,现在已经有不少公司开展收缩,在可见的将来还会有更多的公司倒下。那么2016年热度顶峰的新技术是什么,是区块链。我有认识的朋友,一年半前从大数据平台项目离职搞区块链,那时候我还根本理解不了什么是区块链。大概半年前又回到大数据公司,重新搞起了大数据平台。

  其次,软件行业的整体迷茫,纷纷把大数据当成救命稻草。现在还有软件公司(包含广告公司)不称呼自己是大数据公司的吗?还有软件公司不搞些大数据平台或应用产品吗?不用提传统电信运营支撑公司东方国信、亚信数据,就说飞信支撑方神州太岳,在2015年也高调转型大数据应用领域。

  云计算与SaaS化应用的兴起导致的软件革命,让行业竞争加剧,很多软件厂商无所适从。就如一季度曾曝出的用友软件的大幅度亏损一样,不管做ERP还是小应用,传统的软件公司的日子越来越难过了。这些软件公司把进军大数据当成解决软件行业性问题的良方,结果是从一个火坑跳入另一个火坑。

  再次,大数据开源技术的低门槛,玩家进出无障碍。以最经典的Apache Hadoop社区为例,Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统,囊括HDFS、MapReduce、Yarn、Hive、Hbase、Sqoop、Zookeeper、Flume、Kafka、Spark等近30个模块。虽然能够对社区提供持续原创性贡献的企业不多,但并不妨碍众多公司,一两个熟手+若干个生手就可以承诺搭建并运营一个实时交易风控平台(以实时流计算为主要模式的平台)。问题的关键在于,同样面对新技术,新加入的玩家与传统的BI厂商基本处于同一起跑线上。

  最后,建设容易运营难,大数据价值还未真正体现。数据价值已经体现,但大数据价值还未真正体现。很明显,之前大数据的虚火来自于建设的热潮。当建设的热潮退去,需要通过真实的应用价值来回报的时候,发现虽然有不少案例,但是总体的价值根本无法hold住之前的投入。因此反向的减少建设投入,导致市场空间相对于之前的高速扩张有较大的萎缩。

  一切正如2000年的互联网寒冬一样,当前的大数据寒冬正是市场机制自动产生的"优胜劣汰"过程,这是历史规律。

  对于任何一个企业或组织来说,最终结局都逃不过失败,但对于优秀的企业来说,可以失败得晚一点,生存得更久一些。就如华为任正非在《华为的冬天》里说到的一样,"十年来我天天思考的都是失败,对成功视而不见,也没有什么荣誉感、自豪感,而是危机感。也许是这样才存活了十年。我们大家要一起来想,怎样才能活下去,也许才能存活得久一些。失败这一天是一定会到来,大家要准备迎接,这是我从不动摇的看法,这是历史规律。"

  三、产品聚焦是前提

  在大数据的寒冬里,要比别人活得久一点,首先得明确自身的产品是什么,市场在什么地方,与竞争对手相比,产品是否有差异。

  大数据的产品很多,大的方面可以分为6类。

  第一,大数据基础平台。解决分布式数据存储、离线计算与资源管理问题,包含目前比较流行的Paas平台。

  第二,实时计算引擎。通过Storm\Spark streaming等架构解决大批量实时计算问题。

  第三,数据库。各类DB,Sql,Mysql,Hbase等。

  第四,大数据资产管理。数据从采集到应用开放全过程的数据结构管理。比如元数据管理,过程管理,隐私安全管理,开放管理与审计等。

  第五,通用大数据应用。适用与所有行业的工具与模型。比如可视化工具,统一分析门户,互联网内容分析,智能营销管理,数据挖掘工具/模型, SaaS化DMP等。

  第六,垂直领域大数据应用。与特定行业的紧密结合的产品,如金融征信,位置运营,精准扶贫,智慧医疗等。

  如果你的产品线包含从第一到第六,那么你离倒下已经不远了。如果你能够在某一个领域做得足够的精深,精深到让其它所有的玩家都很难生存,那么恭喜你,你就是在战场上确立了自己地位的人,一定活得更久。

  从中国大数据技术大会连续几年的趋势预测,也可以帮助我们判断出市场的需求前景所在。

2013

2014

1、数据的资源化

1、大数据从概念走向价值

2、大数据的隐私问题突出

2、大数据架构的多样化模式并存

3、大数据与云计算等深度融合

3、大数据安全与隐私

4、基于大数据的智能的出现

4、大数据分析与可视化

5、大数据分析的革命性方法

5、大数据产业成为战略性产业

6、大数据安全

6、数据商品化与数据共享联盟化

7、数据科学兴起

7、基于大数据的推荐与预测流行

8、数据共享联盟

8、深度学习与大数据智能成为支撑

9、大数据新职业

9、数据科学的兴起

10、更大的数据

10、大数据生态环境逐步完善

   

2015

2016

1、大数据分析成为数据价值化的热点

1、可视化推动大数据平民化

2、数据科学带动学科融合,但自身尚未成体系

2、多学科融合与数据科学的兴起

3、与各行业结合,跨领域应用

3、大数据安全与隐私令人忧虑

4、“物云移社”融合,产生综合价值

4、新热点融入大数据多样化处理模式

5、平台架构与基础设施

5、大数据提升社会治理和民生领域应用

6、大数据的安全与隐私保护

6、《促进大数据发展行动纲要》驱动产业生态

7、计算模式:深度学习、众包计算

7、深度分析推动大数据智能应用

8、可视化分析与可视化呈现

8、数据权属与数据主权备受关注

9、大数据人才与教育

9、互联网、金融、健康保持热度,智慧城市、企业数据化、工业大数据是新增长点

10、开源系统将成为主流

10、开源、测评、大赛催生良性人才与技术生态

   

2017年

 

1、机器学习继续成智能分析核心技术

2、人工智能和脑科学相结合,成大数据分析领域的热点

3、大数据的安全和隐私持续令人担忧

4、多学科融合与数据科学兴起

5、大数据处理多样化模式并存融合,流计算成主流模式之一

6、数据的语义化和知识化是数据价值的基础问题

7、开源成大数据技术生态主流

8、政府大数据发展迅速

9、推动数据立法,重视个人数据隐私

10、可视化技术和工具提升大数据分析工具的易用性

  2013首提的数据资源化(价值化)在后续两年基本实现,在2016年越来越成熟。如果你拥有较好的数据资源,毫无疑问,活下去的概率会大增。

  在2016年以前,大数据分析与可视化被持续提及。在实际中,市面上可视化工具数不胜数,其中国外有一款叫Tableau,已经部分实现了2016年所预测的"可视化推动平民化"。如果还想依靠类似可视化工具来提供原来的BI服务,基本上没有市场空间了。

  大数据的安全与隐私问题是持续令人担心的热点,这里其实隐藏另一个问题,如何将复杂数据结果算准的问题。这意味着要详细了解数据资源的构成(元数据),世系关系(从哪儿来用在哪个应用上),这导致大数据治理或者大数据资产管理产品是一个适用于所有行业的刚性需求。

  数据科学的兴起是自2013年来持续提及的预测。实质上目前的很多大数据应用并未涉及到模型,这也是导致门槛低、竞争激烈的重要原因。因为真正大数据的应用应该是"复杂数据的复杂分析",该领域缺少对应的产品。

  与需求相结合的数据科学能力(能解决最终应用问题的模型能力)是大数据公司的核心能力,举一个例子,目前国内的图像识别、人脸识别等,其核心算法(通常以卷积神经网络为代表)绝大部分来自国外。再举一个现实中的例子,市政公安部门很需要对各地区进行犯罪趋势预测,以便对警务/行政资源进行合理分配,现实中基本缺少对应的解决方案。

  受个人的局限,无法就每一个大数据产品前景做出判断,但从各大数据公司的交流进行总结,往往产品聚焦的公司,差异化会更明显,在特定领域更能做到对手所无法达到的高度,具有更强的生命力。

  四、成本控制是唯一出路

  2000年4月3日开始,美国Nasdaq股票狂跌,到了年底,中国的网站开始纷纷倒闭。至此,持续三年的互联网第一波浪潮突然从峰顶跌入峰谷,互联网的冬天来临了。

  2001年1月,阿里的账面上只剩能维持半年多的700万美元,更可怕的是,当时的阿里并没有找到赚钱的办法。陷入自创业以来最困难最危机的境地。

  正如后来大家所知道的,阿里裁掉了美国、欧洲、香港、韩国的网站团队,将所有的业务回到杭州这个中心,这是阿里巴巴第一次裁员,也是唯一一次大裁员。效果立竿见影,每月的成本立刻从100万降到了50万美元,阿里巴巴赢得了宝贵的一年喘息时间!

  去掉所有的浮夸,控制成本,做最谨慎的预测,确保能够活下去作为第一要义,是度过寒冬的唯一出路。

  华为软件人数不少,从营业收入上看过百亿,应该是中国最大的软件公司,但是大并不意味着能够盈利。

  我有个朋友独自负责一个50人的小公司,主要提供大软件公司所照顾不到的部分省市运营商的分析营销服务,年营业收入千万元,却能做到利润率20%以上。就其原因,她一个人既是CEO,又是唯一一个营销经理兼客户经理,给自己开比较低的工资,其他所有人工资都低于她,核心人员用股份来弥补,每年都在为下一个年度的项目生存提前较劲。

  这是一个最典型的为了活下去而努力的公司,没有绚丽的远景规划,没有层级复杂的管理,全都投入生产,成本控制到极致。所以,她能活下去,或许还能不断壮大。

  对于这些善于成本控制、产品及市场目标明确的公司而言,寒冬或许是一个新的机遇。就如一个优秀的猎手,在凛冽寒风中耐心的等待,等待着对手倒下,然后从容收割独属于自己的猎物。

相关阅读