1.3 大数据的影响
大数据对科学研究、思维方式、社会发展、就业市场和人才培养都具有重要而深远的影响。在科学研究方面,大数据使人类科学研究在经历了实验科学、理论科学、计算科学3种范式之后,迎来了第4种范式—数据密集型科学;在思维方式方面,大数据具有“全样而非抽样、效率而非精确、相关而非因果”三大显著特征,完全颠覆了传统的思维方式;在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用不断涌现;在就业方面,大数据的兴起使得数据科学家成为热门人才;在人才培养方面,大数据的兴起将在很大程度上改变我国高校信息技术相关专业的现有教学和科研体制。
1.3.1 大数据对科学研究的影响
图灵奖获得者、著名数据库专家吉姆·格雷(Jim Gray)博士观察并总结,人类自古以来在科学研究上先后历经了实验科学、理论科学、计算科学和数据密集型科学4种范式(见图1-6),具体如下。
1.第1种范式:实验科学
在最初的科学研究阶段,人类采用实验来解决一些科学问题,著名的比萨斜塔实验就是一个典型实例。1590年,伽利略在比萨斜塔上做了“两个铁球同时落地”的实验,得出了重量不同的两个铁球同时下落的结论,从此推翻了亚里士多德“物体下落速度和重量成比例”的学说,纠正了这个持续了1900年之久的错误结论。
图1-6 科学研究的4种范式
2.第2种范式:理论科学
实验科学的研究会受到当时实验条件的限制,难以完成对自然现象更精确的理解。随着科学的进步,人类开始采用数学、几何、物理等理论,构建问题模型和寻找解决方案。比如牛顿第一定律、牛顿第二定律、牛顿第三定律构成了牛顿经典力学的完整体系,奠定了经典力学的概念基础,它的广泛传播和运用对人们的生活和思想产生了重大影响,在很大程度上推动了人类社会的发展。
3.第3种范式:计算科学
1946年,随着人类历史上第一台通用电子计算机ENIAC的诞生,人类社会开始步入计算机时代,科学研究也进入了一个以“计算”为中心的全新时期。在实际应用中,计算科学主要用于对各个科学问题进行计算机模拟和其他形式的计算。通过设计算法并编写相应程序输入计算机运行,人类可以借助于计算机的高速运算能力去解决各种问题。计算机具有存储容量大、运算速度快、精度高、可重复执行等特点,是科学研究的利器,推动了人类社会的飞速发展。
4.第4种范式:数据密集型科学
随着数据的不断累积,其宝贵价值日益得到体现,物联网和云计算的出现,更是促成了事物发展从量到质的转变,使人类社会开启了全新的大数据时代。如今,计算机不仅能做模拟仿真,还能进行分析总结,得到理论。在大数据环境下,一切都以数据为中心,从数据中发现问题、解决问题,真正体现数据的价值。大数据成为科学工作者的宝藏,从数据中可以挖掘未知模式和有价值的信息,服务于生产和生活,推动科技创新和社会进步。虽然第3种范式和第4种范式都是利用计算机来进行计算,但是二者还是有本质的区别的。在第3种范式中,一般是先提出可能的理论,再搜集数据,然后通过计算来验证。而对于第4种范式,是先有了大量已知的数据,然后通过计算得出之前未知的理论。
1.3.2 大数据对思维方式的影响
维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中明确指出,大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果。
1.全样而非抽样
过去,由于数据存储和处理能力的限制,在科学分析中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析来推断全集数据的总体特征。通常,样本数据规模要比全集数据小很多,因此,我们可以在可控的代价内实现数据分析的目的。现在,我们已经迎来大数据时代,大数据技术的核心就是海量数据的存储和处理,分布式文件系统和分布式数据库技术提供了理论上近乎无限的数据存储能力,分布式并行编程框架MapReduce 提供了强大的海量数据并行处理能力。因此,有了大数据技术的支持,科学分析完全可以直接针对全集数据而不是抽样数据,并且可以在短时间内得到分析结果,速度之快,超乎我们的想象。
2.效率而非精确
过去,我们在科学分析中采用抽样分析方法,就必须追求分析方法的精确性,因为抽样分析只是针对部分样本的分析,其分析结果被应用到全集数据以后,误差会被放大。这就意味着,抽样分析的微小误差被放大到全集数据以后,可能会变成一个很大的误差。因此,为了保证误差被放大到全集数据时仍然处于可以接受的范围,就必须确保抽样分析结果的精确性。正是由于这个原因,传统的数据分析方法往往更加注重提高算法的精确性,其次才是提高算法效率。现在,大数据时代采用全样分析而不是抽样分析,全样分析结果就不存在误差被放大的问题。因此,追求高精确性已经不是其首要目标。相反,大数据时代数据分析具有“秒级响应”的特征,要求在几秒内就给出针对海量数据的实时分析结果,否则就会丧失数据的价值,因此,数据分析的效率成为关注的核心。
3.相关而非因果
过去,数据分析的目的有两方面,一方面是解释事物背后的发展机理,比如,一个大型超市在某个地区的连锁店在某个时期内净利润下降很多,这就需要IT部门对相关销售数据进行详细分析找出产生该问题的原因;另一方面是预测未来可能发生的事件,比如,通过实时分析微博数据,当发现人们对雾霾的讨论明显增加时,就可以建议销售部门增加口罩的进货量,因为人们关注雾霾的一个直接结果是,大家会想要购买一个口罩来保护自己的身体。不管是哪个目的,其实都反映了一种“因果关系”。但是,在大数据时代,因果关系不再那么重要,人们转而追求“相关性”而非“因果性”。比如,我们去淘宝购物时,当我们购买了一个汽车防盗锁以后,淘宝还会自动提示,与你购买相同物品的其他客户还购买了汽车坐垫。也就是说,淘宝只会告诉我们“购买汽车防盗锁”和“购买汽车坐垫”之间存在相关性,但是并不会告诉我们为什么其他客户购买了汽车防盗锁以后还会购买汽车坐垫。
1.3.3 大数据对社会发展的影响
大数据正在对社会发展产生深远的影响,具体表现在以下几个方面:大数据决策成为一种新的决策方式,大数据应用促进信息技术与各行业的深度融合,大数据开发推动新技术和新应用的不断涌现。
1.大数据决策成为一种新的决策方式
根据数据制定决策,并非大数据时代所特有。从20世纪90年代开始,数据仓库和商务智能工具就开始大量用于企业决策。发展到今天,数据仓库已经是一个集成的信息存储仓库,既具备批量和周期性的数据加载能力,也具备数据变化的实时探测、传播和加载能力,并能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策(如宏观决策和长远规划等)和战术决策(如实时营销和个性化服务等)的双重支持。但是,数据仓库以关系数据库为基础,无论是在数据类型还是数据量方面都存在较大的限制。现在,大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析,已经成为受到追捧的全新决策方式。比如,政府部门可以把大数据技术融入“舆情分析”,通过对论坛、微博、微信、社区等多种来源数据进行综合分析,弄清或测验信息中事实和趋势的本质,揭示信息中含有的隐性情报内容,对事物发展做出情报预测,协助实现政府决策,有效应对各种突发事件。
2.大数据应用促进信息技术与各行业的深度融合
有专家指出,大数据将会在未来10年改变几乎每一个行业的业务功能。互联网、银行、保险、交通、材料、能源、服务等行业,不断累积的大数据将加速推进这些行业与信息技术的深度融合,开拓行业发展的新方向。比如,大数据可以帮助快递公司选择运费成本最低的最佳行车路径,协助投资者选择收益最大化的股票投资组合,辅助零售商有效定位目标客户群体,帮助互联网公司实现广告精准投放,还可以让电力公司做好配送电计划确保电网安全等。总之,大数据所触及的每个角落,都会使我们的社会生产和生活发生巨大且深刻的变化。
3.大数据开发推动新技术和新应用的不断涌现
大数据的应用需求是大数据新技术开发的源泉。在各种应用需求的强烈驱动下,各种突破性的大数据技术将被不断提出并得到广泛应用,数据的能量也将不断得到释放。在不远的将来,原来那些依靠人类自身判断力的应用,将逐渐被各种基于大数据的应用所取代。比如,今天的汽车保险公司,只能凭借少量的车主信息,对客户进行简单类别划分,并根据客户的汽车出险次数给予相应的保费优惠方案,客户选择哪家保险公司都没有太大差别。随着车联网的出现,“汽车大数据”将会深刻改变汽车保险业的商业模式,如果某家商业保险公司能够获取客户车辆的相关细节信息,并利用事先构建的数学模型对客户等级进行更加细致的判定,给予更加个性化的“一对一”优惠方案,那么毫无疑问,这家保险公司将具备明显的市场竞争优势,获得更多客户的青睐。
1.3.4 大数据对就业市场的影响
大数据的兴起使得数据科学家成为热门人才。2010年的时候,在高科技劳动力市场上还很难见到数据科学家的头衔,但此后,数据科学家逐渐发展为市场上最热门的职位之一,具有广阔的发展前景,并代表着未来的发展方向。
互联网企业和零售、金融类企业都在积极争夺大数据人才,数据科学家成为大数据时代最紧缺的人才。2019年与2015年相比,人工智能和大数据整体的人才需求量增加了11倍。国内有大数据专家估算过,5年内国内的大数据人才缺口会达到130万,以大数据应用较多的互联网金融为例,这一行业大数据人才需求量每年增速达到4倍,届时,仅互联网金融需要的大数据人才就是现在需求的4倍以上。与此同时,大数据人才的薪资水平也在“水涨船高”,根据《2019年中国 AI&大数据人才就业趋势报告》,北京、上海、深圳、杭州、广州等城市的大数据从业者月薪均超2万元。
在过去的很长一段时期内,国内的数据分析主要局限在结构化数据分析方面,较少通过对半结构化和非结构化数据进行分析来捕捉新的市场空间。但是,大数据中包含了大量的非结构化数据,未来将会产生大量针对非结构化数据进行分析的市场需求,因此,未来中国市场对掌握大数据分析专业技能的数据科学家的需求会逐年递增。
尽管有少数人认为未来有更多的数据会采用自动化处理,会逐步降低对数据科学家的需求,但是仍然有更多的人认为,随着数据科学家给企业所带来的商业价值的日益体现,市场对数据科学家的需求会日益增加。
1.3.5 大数据对人才培养的影响
大数据的兴起将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制。一方面,数据科学家是一个需要掌握统计学、数学、机器学习、可视化、编程等多方面知识的复合型人才,在中国高校现有的学科和专业设置中,上述专业知识分布在数学、统计学和计算机等多个学科中,任何一个学科都只能培养某个方向的专业人才,无法培养全面掌握数据科学相关知识的复合型人才。另一方面,数据科学家需要大数据应用实战环境,在真正的大数据环境中不断学习、实践并融会贯通,将自身专业背景与所在行业业务需求进行深度融合,从数据中发现有价值的信息,但是目前大多数高校还不具备这种培养环境,不仅缺乏大规模基础数据,也缺乏对领域业务需求的理解。鉴于上述两个原因,目前国内的数据科学家人才并不是由高校培养的,而主要是在企业实际应用环境中通过边工作边学习的方式不断成长起来的,其中,互联网领域集中了大多数的数据科学家人才。
在未来5~10年,市场对数据科学家的需求会日益增加,不仅互联网行业需要数据科学家,类似金融、电信这样的传统行业在大数据项目中也需要数据科学家。由于高校目前尚未具备大量培养数据科学家的基础和能力,传统行业的企业很可能会从互联网行业的企业“挖墙脚”,来满足该行业的企业发展对数据分析人才的需求,继而造成用人成本高企,制约企业的成长壮大。因此,高校应该秉承“培养人才、服务社会”的理念,充分发挥科研和教学综合优势,培养一大批具备数据分析基础能力的数据科学家,有效缓解数据科学家的市场缺口,为促进经济社会发展做出更大贡献。目前,国内很多高校开始设立大数据专业或者开设大数据课程,加快推进大数据人才培养体系的建立。2014年,中国科学院大学开设首个“大数据技术与应用”专业方向,面向科研发展及产业实践,培养信息技术与行业需求结合的复合型大数据人才;2014年清华大学成立数据科学研究院,推出多学科交叉培养的大数据硕士项目;2015年10月,复旦大学大数据学院成立,在数学、统计学、计算机、生命科学、医学、经济学、社会学、传播学等多学科交叉融合的基础上,聚焦大数据学科建设、研究应用和复合型人才培养;2016年9月,华东师范大学数据科学与工程学院成立,新设置的本科专业“数据科学与工程”,是华东师范大学除“计算机科学与技术”和“软件工程”以外,第三个与计算机相关的本科专业;厦门大学于2013年开始在研究生层面开设大数据课程,并建设了国内首个高校大数据课程公共服务平台;2016年,北京大学、中南大学、对外经济贸易大学等三所高校成为国内首批获得教育部批准设立“数据科学与大数据技术专业”的本科院校;此后,教育部又于2017年、2018年和2019年分别批准32所、248所和203所本科院校设立数据科学与大数据技术专业。
高校培养数据科学家需要采取“两条腿”走路的策略,即“引进来”和“走出去”。所谓“引进来”,是指高校要加强与企业的紧密合作,从企业引进相关数据,为学生搭建起接近企业实际应用的、仿真的大数据实战环境,让学生有机会理解企业业务需求和数据形式,为开展数据分析奠定基础,同时从企业引进具有丰富实战经验的高级人才,承担起数据科学家相关课程的教学任务,切实提高教学质量、水平和实用性。所谓“走出去”,是指积极鼓励和引导学生走出校园,进入互联网、金融、电信等行业中具备大数据应用环境的企业开展实践活动,同时努力加强产、学、研合作,创造条件让高校教师参与到企业大数据项目中,实现理论知识与实际应用的深层次融合,锻炼高校教师的大数据实战能力,为更好培养数据科学家奠定基础。
在课程体系的设计上,高校应该打破学科界限,设置跨院系、跨学科的“组合课程”,由来自计算机、数学、统计学等不同院系的教师构建联合教学师资力量,多方合作,共同培养具备大数据分析基础能力的数据科学家,使其全面掌握包括数学、统计学、数据分析、商业分析和自然语言处理等在内的系统知识,具有独立获取知识的能力,并具有较强的实践能力和创新意识。