中国需要数据科学硕士吗?
在当下中国,统计学和数学专业被分为数学与应用数学和统计学两个一级学科。数据科学与大数据技术专业被分为计算机科学技术和统计两个一级学科。2015年9月,我国启动了一轮新增硕士专业学位授权点申报工作,有17个省份和20所高校申报的“大数据科学与技术硕士专业学位”获得教育部批准。其中,有11个省份和14所高校申报的数据科学硕士专业学位获准设立,这标志着数据科学硕士专业学位在全国高校正式设立。在当下中国,此领域的研究生培养模式已然开始形成。那么,到底什么是数据科学,为什么我国需要数据科学硕士这样一个专业?
美国斯坦福大学认为,数据科学是融汇计算机科学、统计科学、人工智能、物联网、计算机视觉、机器学习、优化算法等多元领域的一门科学,它是研究生物学、环境科学、金融分析、商业领域的统计学问题的数学学科。数据科学是一门将统计学、计算机科学和科学与实际应用紧密相连的学科,它把数学原理和方法用到了科学和工程问题中。它不仅需要掌握统计计算和科学方法,还需要具备软件和算法工程;同时它还需要对理论给出说明、验证和应用。
当下,我国正在从科技大国向科技强国转变。而数据科学正好与这一战略相适应。我国的大数据产业处在蓬勃发展的时期,全国有几十个大大小小的数据交易中心。贵州省还成立了全国第一家大数据交易所。但是,我国当下的大数据产业还存在着很多隐患。
其一,我国没有一部全国性的数据保护法。国家仅仅发布了《关于促进云计算产业发展政策的指导意见》等文件。当前,欧盟已经制定了《一般数据保护条例》,美国颁布了《公平信息实践办法》和《促进支付信息系统安全计划》。而我国在这方面还很缺乏。如若我国没有全国性的数据保护法,各大数据公司有可能把数据用户的信息向国外移交。
其二,我国还没有一个全国性的数据建设部门。政府各大数据中心建设各自为政,使得国家数据不能共享,企业数据也不能互联。而欧盟已经制定了“欧盟开放数据战略”。美国制定了“大数据研发计划”,发布《联邦大数据研究和发展战略规划》,启动建立全国大数据研发设施——“泛在网络实验平台”等两个国家级大数据研究平台。美国斯坦福大学正在研发一个名为“国家数据矩阵”的数据库。而我国却还没有跟进。
其三,我国没有建立大数据专业学科。当下,除了统计和计算机专业向高校学生灌输一定的大数据知识,其他专业的数据科学内容还是空白。然而,数据分析已经融入到了金融、医学、工业、农业、信息安全等领域。
其四,我国缺乏大数据应用开发环境和框架。而基于云架构的大数据服务框架和美国正在研发的数据虚拟化平台一样,能够提供海量数据存储及高性能分析计算环境。其五,我国尚无大数据领域国家工程实验室,而美国斯坦福大学、加州大学、劳伦斯伯克利国家实验室和芝加哥大学联合成立了大数据研究中心等数据科学研究平台。除了此领域我国还不够发达之外,数据科学硕士还存在着一些争议。
北京大学李迪教授认为其培养目标不合理:“在培养目标上,数据科学硕士应该是计算机科学、应用数学和统计学三个学科交叉的产物,是一个交叉学科。但是在我国教育部的规定下,培养目标被限定为计算机科学领域。”中国地学信息中心主任许志琴院士也认为:“作为新兴学科,数据科学是一个涵盖多方面知识、技术和方法的综合学科,应该拓宽范围,从地理学信息学、地质学、地球物理等学科吸收营养。”
北京大学信息管理系刘博涵认为其培养方向不合理:“一些高校的‘数据科学硕士’专业培养方向主要为互联网大数据分析,个别学校还包括商务大数据分析。然而,‘数据科学’的名称应当适用性更广,如适用于各个行业领域的数据科学。并且,该专业如果培养人才以解决某一具体行业、领域的问题为主,可能会局限学生的思维方式和研究视角,培养的人才应用面广度和深度不够,不利于学生未来继续学习和长远发展。故‘专注于互联网大数据分析’或‘主要培养商务数据分析人才’等培养方向有违‘数据科学’广泛适用性之本质。”
北京大学化学与分子工程学院杨瑞成认为其教学体系存在不足:“现行的一些培养方案中,与数据科学及其应用相关的课程大多集中于信息化管理、商务数据分析之类的方向。而统计学相关内容则更为匮乏。事实上,数据科学不但需要计算机科学、统计学和数学、应用数学理论与算法,还需要数学、物理、化学、生物、医学等多个学科的知识。这些学科的知识都应该在研究生的学习过程中得到体现。”
北京大学政府管理学院刘振宝认为其知识结构不合理:“由于本科阶段已学习过数学分析和高等数学等内容,进入研究生阶段再开设类似课程属于‘重复教育’,不如将相关的经济学、金融学和心理学相关知识纳入该专业设置范畴,培养具有跨学科视野和数据科学专业技能的创新型、应用型专门人才。”