大数据的认识——前沿科技讲座
2014年11月18日下午15:50,《电气工程与控制工程前沿科技》系列报告之七——《大数据的认识》在九里校区逸夫馆举行。本次讲座由电信学院金炜东教授报告,电气学院陈维荣书记主持。
“大数据是一次历史性的机遇,它以丰富的资源服务世界,是先进生产力的基础。”——金炜东教授这样概括了大数据的重要性。学习和了解作为前沿技术和动态的大数据,不仅可以拓展我们的知识面,也可以对我们正在研究的项目起到帮助。
金炜东教授首先对大数据的发展背景做了简单介绍:人类产生的数据量正在呈指数级增长,而且大量新数据源的出现导致了非结构化、半结构化数据爆发式的增长,这些数据早已经远远超越了目前人力所能处理的范畴。并介绍了大数据的4V特性,分别是量大(Volume,存储大、计算量大),繁杂(Variety,来源多,格式多),高速(Velocity,增长速度快,处理速度要求快),价值(Value,海里捞针,全新方法),而大数据技术要解决的问题就是发现数据价值,即通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value)。
紧接着,金炜东教授和同学们分享了他对大数据的认识和理解。他认为大数据的特征可以概括为从局部到全局、从单纯到繁杂、从因果到关联和从简单到深入这四条,其中最重要的一点是从因果到关联,这开启了所谓的第四范式研究,数据构建的不再是单一的模型,而是很多的源模型。对于如何研究大数据,他认为大数据带来的东西太多,我们要努力找特点,并针对自己的数据特点,找到一个介入点去研究,虽然我们的研究发生了巨大的转变——从以计算为中心转变为以数据为中心,但是革命是由方法的积累形成的,我们不太可能马上找到新的变革性的方法,所以我们应在立足于现有研究方法的基础上去探索研究大数据的新方法。
最后,金炜东教授介绍了大数据的研究现状。目前,管理信息系统、物理信息系统、Web信息系统和科学实验系统构成了大数据采集源,采集与预处理技术主要有融合处理、众包、ETL和数据集成等。大数据存储与管理现使用分布式文件系统(如GFS、HDFS等)、分布式数据库(如事务型数据库、分析型数据库等)。大数据计算模式(即根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型)主要有Hadoop的MapReduce、Bekerley的Spark等。大数据分析与挖掘使用R语言、Mahout等。
“伴随大数据的发展,必将形成庞大的产业。”——金炜东教授借对大数据发展趋势的预判结束了这场科技前沿的报告!
电气工程学院研究生新闻中心通讯员唐进报道魏光耀摄影刘焱滨编辑