创业团队如何培养数据科学家

2017-03-31 21:48      techopedia


   外带:为了培养数据科学家,企业需要更多地关注文化和组织结构。

如何培养数据科学家

  资料来源:Flickr / Elif Ayiter / Alpha Auer /..../在技术创业中,数据科学家是越来越常用的术语,用于指代能够跨越传统上独立的数据智能功能领域的数据怪人。数据科学家是能够轻松执行数据智能项目的几个(如果不是全部)方面的人物:

  数据采集:这可能需要编写针对非传统数据源的特定Web服务或API的自定义解析器和Web爬虫或脚本。

  数据管理:ETL,操纵,查询和维护数据的数据库,键值存储,或者Hadoop的。

  信息可视化:通过使用基于Flash,JavaScript或Processing 的静态可视化工具包和/或交互式平台来显现模式。

  分析:从多变量统计,机器学习和NLP中的简单到复杂的技术可以有所不同。

  洞察力:向广泛的受众提取,总结和呈现主要发现。

  有许多工具,技能和技术细节,可以花几年掌握上述每个项目。虽然数据科学家可能在任何领域都不具备真正的专业知识,但是他或她很乐意来回跳过,并在所有领域执行基本任务。结果是一个数据极客,足以快速调查数据项目,并从管理层提出(高级别)问题的答案。(阅读更多关于数据科学家的数据科学家:科技世界的新摇滚明星。)

  为了培育数据科学家,企业需要更多地关注文化和组织结构。许多数据工作者具有足够的技能和培训,可以在数据智能的多个领域迅速提高生产力。问题是大多数人不鼓励他们成为数据科学家的环境中工作。他们被困在筒仓里,限于数据智能的一两个领域。通常他们只能使用他们的经理“批准”的工具。

  在大小企业工作之后,我明白,严格分工是数据科学家面临的主要障碍。最常见的表现是数据分析与数据管理之间的分离。在许多大公司中,大多数分析师/统计人员都必须等待指定数据仓库的数据,并且在很多情况下,他们会等待来自不同数据仓库的多个所有者的数据。

  如何鼓励组织中的数据科学

  目前,数据科学家在较小的初创公司,互联网公司和其他不太重视定义的角色和任务的组织中蓬勃发展。但是,大型和成熟的组织真的没有理由不能加入这个乐趣。(没有理由为什么统计学家不能学习如何编写简单的网页刮刀,以及为什么数据库人员无法学习简单的统计信息和可视化。)以下是一些有关如何实现的建议:

  拥抱非传统数据源

  使人们超越传统角色思考的一种方法是使用现有数据仓库组控制的数据源。许多公司将数据智能限于来自ERP系统或数据供应商(或各种“日志”文件)的数据。网络充斥着数据,其中大部分可能对您的业务分析有用,如果您有一个数据科学家团队。

  从小团队开始

  一旦您承诺组建一个数据科学家团队,您可以先确定可能适合该配置文件的当前员工。他们必须以开放的态度,以团队为导向,并在上述领域之一拥有一些编程技能。理想情况下,您将有来自计算机科学,统计/定量或数据导向背景的人群。团队成员需要愿意相互分享简单的工具,技巧和技巧。如果团队成员对彼此学习感到兴奋,自然会发生交配。不愿意分享技术,工具和想法的员工将阻碍进步。

  允许使用新的工具和技术

  许多IT部门对于员工的安装和使用情况相当严格。数据科学家使用的许多最喜爱的工具是免费和/或开放源码,可能对IT部门来说是不熟悉的。(许多来自学术界最近的工作。)新的数据源可能还需要使用网页抓取工具和服务,这些搜索器和服务可能不符合那些维护现有防火墙和过滤器的人。供应商将开始提供覆盖多个数据智能领域的工具,从而减少上下文切换和启用流量。但是目前,数据科学家使用各种工具,在上述任何一个领域,都可以使用简单的高级工具。简单的工具是介绍可以形成更高级学习基础的基本技能的好方法。(要了解更多有关开源的信息,请参阅开源:是否真的很好?)

  从简单的项目和实验开始

  开始时,快速的迭代和实验很重要。提出简单而具体的假设。开始缓慢,也许利用简单的工具,网络服务和免费的数据源。而不是爬行大型网站或进行复杂的文本解析和NLP任务,而是通过Web服务和API可利用半结构化数据,同时缓慢扩展您的非传统数据源集。而不是跳入Hadoop或NoSQL数据库,与更熟悉的SQL数据库相比,可能是明智之举; Greenplum有一个免费的单节点版本的MPP SQL数据库。诸如R之类的静态可视化工具包以及Google文档(或Google Viz API)中的免费交互式可视化工具提供了各种infoviz选项。

  从(中级)经理屏蔽您的数据科学家

  一旦管理者发现有一个团队使用新的数据源,他们可能会尝试把障碍放在最上面(“数据完整性如何?他们没有使用适当的机器学习/统计技术!实验设计是错误的!它们可以与我们的数据相结合吗?“)。没有政治支持,你的数据科学家团队将会遇到(非)友好的火灾。新事物往往被视为威胁,所以最好尽快向管理人员保证,数据科学家补充了他们所做的工作。您的小数据科学家发现的洞察可用于通知更多的正式数据/分析项目。数据科学家不会消除对统计人员的需求,但他们可能会将其指向不同的数据集和问题。

  使用数据科学家的初始团队作为传福音

  如果您正确地选择了初步的数据科学小组,那么他们应该很乐意向公司的其他人介绍他们的发现。更好的是,他们会很热情!使用它们来影响公司其他公司如何查看数据智能,并慢慢敲下这些孤岛。

  我不是说在组建内部数据科学家团队时,最终不需要新的培训和企业工具。但我认为,通过解决文化和组织结构,许多公司可以使用自己的员工和免费工具,种下一小群数据科学家。我从经验讲话,为大公司工作 - 人才在那里,技术不是很难学习,但组织孤岛很难克服。他们的队伍已经包括了一大堆人才,如果不是那些限制他们能做的事情的僵化的公司结构,那么他们的阵容就会发光。

相关阅读