第 5 期2013 年 3 月 10 日
计算机教育
Computer Education
103
前瞻技术
文章编号:1672-5913(2013)05-0103-03
中图分类号:G642
大数据问题
陈 明
(中国石油大学 计算机科学与技术系,北京 102249)
摘 要:由于科学实验与互联网的飞速发展,出现了大数据。对大数据进行合理的分析和管理必将会推动科学进步和企业发展,也会为社会创造出更多、更新的成果。文章介绍大数据的概念与特征、产生源泉以及相关的技术问题。关键词: 大数据;复杂性;非结构化
1 背 景
近年,来自人们日常生活,
据集合。大数据的定义至少涉及容量、种类和传输速度三个要素。
如何快速访问庞大的数据,如何有效处理包含数千万个文档、数百万张照片或者工程设计图的数据集等,是大数据研究者面临的挑战。
特别是互联网服务的数据量飙升。仅过去两年间,新产生的数据就占到了全球数量总量的
90%;预计到2020年,全世界需要管理的数据将达到35个ZB [1],其中主要包括网络日志、音频、视频、图片、地理信息等各种类型,存储在不同地域的各类服务器中。数据是重要的战略资源,隐含着巨大的经济价值。通过对大量数据的交换、整合、分析与利用,我们可以发现新的知识、创造新的价值,形成大知识和大科技,带来大利润和大发展。因此,多国政府已将数据提升为与水、石油、煤炭一样的高度,并将拥有数据的规模和数据分析能力视为国家的核心竞争力[2]。
2.2 大数据产生的源泉
大数据主要来自互联网世界与物理世界。1)互联网世界。
大数据来自人类社会,尤其是互联网的发展为数据的存储、传输与应用创造了基础与环境。依据基于唯象假设的六度理论而建立的社交
网络服务(SNS ,Social Network Service),使用者以认识朋友的朋友为基础,扩展自己的人脉。在基于W2.0网站建立的社交网络中,用户既是网站信息的使用者,也是网站信息的制作者。
2)物理世界。
科学实验是科技人员设计的,其中的数据采集、数据处理需要事先设计,无论是检索还是模式识别都有科学规律可循。例如,希格斯粒
2 大数据科学与技术
2.1 定 义
大数据是指规模大、类型多、高变化率的数
基金项目:北京市教育委员会共建项目“计算机软件基础课程教学团队”(京教函[2008]411号);北京市高教学会“十二五”高等教育研究规划课题(京高学会[2011]28号)。
作者简介:陈明,男,教授,博士生导师,特聘教授,研究方向为分布并行计算、计算智能、软件工程、大数据技术等,chenming@cap. edu. cn。
计算机教育
104
Computer Education
5)价值密度低。
2013
子(又称为上帝粒子)的寻找,采用了大型强子对撞机实验,至少要在1万亿个事例中才可能找出一个希格斯粒子。这是一个典型的基于大数据的科学实验。从这一实验可以看出,科学实验的大数据处理是整个实验的一个预定步骤,这是一个有规律的设计,可以预见性地发现有价值的信息[3]。
以视频为例,在连续不间断监控过程中,可能有用的数据仅仅为1~2秒内的数据。
2.4 大数据的研究领域
大数据可分成大数据科学、大数据技术、大数据工程、大数据应用等领域。大数据科学关注大数据网络发展和运营的过程,注重发现和验证大数据的规律及其与自然和社会活动之间的关系;大数据技术包括对大数据的估算、表示、处理等技术;大数据工程是指大数据的规划、建设、运营和管理;大数据的应用领域主要包括科学决策、应急管理(如疾病防治、灾害预测与控制、食品安全与群体事件等)、环境管理、社会计算、知识经济等。
大数据科学是关于数据的科学,是在某个领域中有条件地寻找数据相互关系和普适性规律。因为各领域的数据分析方法和结果存在一定程度的普适性,所以抽取领域的共性科学问题很有意义,但这往往需要较长的时间,需要一段时间的实践积累,通过分层次、不断抽象,共性科学问题才会逐步清晰明朗。科学研究的轨迹是先做白盒模型研究,通过积累就可以抽象出通用性强大的黑盒模型。
大数据研究是一种方法研究,数据本身不作为研究目标,而是作为方法研究和发现新知识的工具。大数据研究是一种交叉学科研究,它与数据挖掘、统计分析、搜索等人工智能方法密切相关。在传统数据挖掘研究中,当数据维度和规模增大时,所需资源呈指数级增加,但对PB 级以上(EB 、ZB 和YB )的大数据需要研究新的方法。统计学的目标是从各种类型的数据中提取有价值的信息,进而实现预见性,但一般不强调因果逻辑。人工智能则需要将统计方法和其他方法结合,采用多元化的方法来建立综合模型。
目前业界探讨最多的是大数据技术和大数据应用。
2.3 大数据的特点
大数据有以下5个特点,分析这些特点对有效传输、存储、处理、应用和管理大数据至关重要。
1)容量巨大。
一般说来,超大规模数据是指GB (1GB (千兆)=1 024MB)级的数据,海量数据是指TB (1TB (万亿字节,太字节)=1 024GB)级的数据,而大数据则是指PB ( 1PB (千万亿字节,拍字节)=1 024TB)级及其以上(EB 、ZB 和YB )的数据。可以想象,容量的指标是动态变化的。相对于当前的CPU 和存储技术水平而言,系统管理这些规模过大的数据需要特别对待。
2)类型繁多。
大数据包含大量不同的数据和文件类型,如各种声音和电影文件、图像、文档、地理定位数据、网络日志、文本字符串文件、元数据、网页、电子邮件、社交媒体供稿、表格数据等。
3)速度快。
大数据速度快是指数据的变化率高,传统技术并不适于大数据的高速储存、管理和使用。
4)非结构化。
非结构化数据是指在获得数据之前无法预知其结构的数据。目前所获的数据85%以上是非结构化数据,而不再是纯粹的关系数据,传统的系统无法胜任这些数据的处理。从应用角度,非结构化数据的计算是计算机科学的前沿。大数据的高度异构也导致难以抽取出合适数量的语义信息。
第 5 期
前瞻技术
105
3 大数据技术
如何获取并动态高效处理大数据将成为处理大数据的关键技术。由于大数据的异质异构、非结构及不可信等特征,大数据的管理和分析研究需要解决表示、处理和可靠性等一系列重要问题。
样性和不确定性的前提下研究数据规律和统计特征,具体研究内容包括以下几个方面。
1)数据的非结构性。
大量出现的各种数据本身是非结构化的或弱结构化的,如留言、博客、图像、视频数据等,如何将这些数据转化成一个结构化的格式是研究者面临的一项重大挑战[3]。
2)数据的不完备性。
数据的不完备性是指在大数据条件下所获取的数据常常包含一些不完整的信息,甚至是错误的数据。数据的不完备性必须在数据分析阶段得到有效处理。
3)数据的时效性。
处理大数据的速度非常重要。数据规模越大,分析处理时间就会越长。如果设计一个专门处理固定大小数据量的数据系统,其处理速度可能会非常快,但并不能适应大数据的要求。在许多情况下,用户要求立即得到数据的分析结果,这需要在处理速度与规模上折中考虑,并寻求新的方法。
4)数据的安全性与可靠性。
大数据高度依赖数据存储与共享,必须考虑寻求更好的方法消除各种隐患与漏洞,才能有效地管控安全风险。数据的隐私保护是大数据分析和处理面临的重要问题,既是技术问题也是社会学问题。如果对私人数据使用不当,尤其是泄漏有一定关联的多组数据,将导致用户的隐私泄漏[4]。
基于上述特性,目前,对大数据的处理多采用数据清洗、去冗等技术,提取有价值数据,实现对数据质量的高效管理。其中,对数据的安全访问和隐私保护已成为大数据可靠性的关键需求,因此,如何满足对互联网大规模真实运行数据的高效处理和持续服务的需求,数据的可靠性处理将成为重要环节。
(下转第110页)
3.1 数据量复杂性估算
时间复杂性和空间复杂性是计算机科学的基本问题。大数据处理除了要考虑时间和空间复杂性外,还需要考虑数据量复杂性。数据量复杂性是指解决一个问题需要多大的数据量,即需要建立求解一个问题达到某种满意程度需要多大规模的数据量理论。显然,这类问题为预言型数据分析问题。目前社会科学的研究已开始涉及大数据,如舆情分析、情感分析等,这些都迫切需要计算机学者与社会科学领域的学者密切合作,共同开拓新的理论。
3.2 大数据的表示
利用统一的模型对非结构化数据进行分析处理困难巨大,传统的数据表示方法不能直观地展现数据本身含义。为了有效利用数据并挖掘其中的知识,必须寻找最合适而有效的数据表示方法。目前使用的方法是数据标识,标识方法可减轻数据识别和分类的困难,但却给用户增添了预处理工作量。研究既有效又简易的数据表示方法是进行大数据处理首先面临的技术难题之一。
3.3 大数据的处理
全球数据量每18个月翻一番(遵循摩尔定律),数据规模急剧扩大,已超越现有计算机存储与处理能力。不仅数据处理规模巨大,而且处理需求多样化,数据处理能力已成为企业核心竞争力的关键。而数据处理需要结合多学科,探索一种处理新型数据的方法,以便在数据多
计算机教育
110
Computer Education2013
组织和管理团队能力,承担更多的责任。每个工程专业的学生必须认识到领导力是一种技能也是一种艺术,这种能力能通过教育、思考、演练而增长,会贯穿整个职业生涯。 学生只有具备了思考和应用的软实力,才能在职业发展中
不断地突破自我,达到新的境界。工程领导力的培养是一个长期的过程,这个过程需要依据社会和技术发展变化进行持续的改进。教育者必须从市场的近期和远期需求审视教育方针和模式,以培养行业期望的具有领导力的工程师。
参考文献:
[1] N. A. O. Engineering. The engineer of 2020: visions of engineering in the new century[M]. Washington DC: the National
Academies Press, 2004.
[2] Capabilities of effective engineering leaders[EB/OL]. [2012-11-10]. http://web.mit.edu/gordonelp /leadershipcapabilities.pdf.
[3] Schuhmann R J. Engineering leadership education: the search for defination and a curricular approach[J]. Journal of Stem
Education, 2010(11): 61-69.
[4] 崔军, 汪霞. 培养工程领军人才: 麻省理工学院的工程领导力教育[J]. 高等理科教育, 2010(6): 30-35.[5] 叶伟巍, 叶民. 工程领导力要素研究[J]. 高等工程教育研究, 2011(5): 92-95.
(编辑:彭远红)
(上接第105页)
4 大数据处理的工具
Hadoop 是一个开源软件框架,被称为处理大数据的利器,一些大零售商常常通过Hadoop 平台用大数据锁定客户。Hadoop 平台包括多种专门设计的组件,主要用于解决大规模分布式数据存储、分析和检索任务。但并不是所有的Hadoop 组件都是必要,对于一个大数据解决方案,其中的一些组件可取代某些技术,更好地配合用户的需求。如MapR 的Hadoop ,它用NFS 替代HDFS ,并提供了一个完整的随机存取与读/写文件系统。
参考文献:
5 结 语
数据为王的时代已经到来,研究热点从计算速度转向大数据处理能力,从以编程为主转变为以数据为中心。云计算、社交计算和移动计算三大技术趋势正在重塑着IT 世界,并推动数据以更大容量、更多种类及更快速度迅猛增长。中国IT 的发展比世界任何地方都要快,数据产生量也是最多的。未来十年,将是一个由大数据引领的智慧科技时代,其广阔的研究领域和应用前景将会越来越受到人们的重视。
[1] 邬贺铨. 大数据时代光网络的机遇[EB/OL].[2013-01-10]. http://www.sgit.sgcc.com.cn/newzxzx/xyzx/08/278546.shtml.[2] Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and productivity[R]. 2011.[3] 李国杰. 大数据研究的科学价值[J]. 中国计算机学会通讯, 2012, 8(9): 8-15.[4] Srivastava D, Velegrakis Y. Intentional associations between data and metadata[EB/OL].[2013-01-10]. http://wenku.baidu.com/
view/e3244f651ed9ad51f01df213.html.
[5] Medforth N, Wang K. Privacy risk in graph stream publishing for social network applications[R]. ICDM 2011 Vancouver, Canada. Dec. 11th to 14th, 2011.
(编辑:彭远红)
第 5 期2013 年 3 月 10 日
计算机教育
Computer Education
103
前瞻技术
文章编号:1672-5913(2013)05-0103-03
中图分类号:G642
大数据问题
陈 明
(中国石油大学 计算机科学与技术系,北京 102249)
摘 要:由于科学实验与互联网的飞速发展,出现了大数据。对大数据进行合理的分析和管理必将会推动科学进步和企业发展,也会为社会创造出更多、更新的成果。文章介绍大数据的概念与特征、产生源泉以及相关的技术问题。关键词: 大数据;复杂性;非结构化
1 背 景
近年,来自人们日常生活,
据集合。大数据的定义至少涉及容量、种类和传输速度三个要素。
如何快速访问庞大的数据,如何有效处理包含数千万个文档、数百万张照片或者工程设计图的数据集等,是大数据研究者面临的挑战。
特别是互联网服务的数据量飙升。仅过去两年间,新产生的数据就占到了全球数量总量的
90%;预计到2020年,全世界需要管理的数据将达到35个ZB [1],其中主要包括网络日志、音频、视频、图片、地理信息等各种类型,存储在不同地域的各类服务器中。数据是重要的战略资源,隐含着巨大的经济价值。通过对大量数据的交换、整合、分析与利用,我们可以发现新的知识、创造新的价值,形成大知识和大科技,带来大利润和大发展。因此,多国政府已将数据提升为与水、石油、煤炭一样的高度,并将拥有数据的规模和数据分析能力视为国家的核心竞争力[2]。
2.2 大数据产生的源泉
大数据主要来自互联网世界与物理世界。1)互联网世界。
大数据来自人类社会,尤其是互联网的发展为数据的存储、传输与应用创造了基础与环境。依据基于唯象假设的六度理论而建立的社交
网络服务(SNS ,Social Network Service),使用者以认识朋友的朋友为基础,扩展自己的人脉。在基于W2.0网站建立的社交网络中,用户既是网站信息的使用者,也是网站信息的制作者。
2)物理世界。
科学实验是科技人员设计的,其中的数据采集、数据处理需要事先设计,无论是检索还是模式识别都有科学规律可循。例如,希格斯粒
2 大数据科学与技术
2.1 定 义
大数据是指规模大、类型多、高变化率的数
基金项目:北京市教育委员会共建项目“计算机软件基础课程教学团队”(京教函[2008]411号);北京市高教学会“十二五”高等教育研究规划课题(京高学会[2011]28号)。
作者简介:陈明,男,教授,博士生导师,特聘教授,研究方向为分布并行计算、计算智能、软件工程、大数据技术等,chenming@cap. edu. cn。
计算机教育
104
Computer Education
5)价值密度低。
2013
子(又称为上帝粒子)的寻找,采用了大型强子对撞机实验,至少要在1万亿个事例中才可能找出一个希格斯粒子。这是一个典型的基于大数据的科学实验。从这一实验可以看出,科学实验的大数据处理是整个实验的一个预定步骤,这是一个有规律的设计,可以预见性地发现有价值的信息[3]。
以视频为例,在连续不间断监控过程中,可能有用的数据仅仅为1~2秒内的数据。
2.4 大数据的研究领域
大数据可分成大数据科学、大数据技术、大数据工程、大数据应用等领域。大数据科学关注大数据网络发展和运营的过程,注重发现和验证大数据的规律及其与自然和社会活动之间的关系;大数据技术包括对大数据的估算、表示、处理等技术;大数据工程是指大数据的规划、建设、运营和管理;大数据的应用领域主要包括科学决策、应急管理(如疾病防治、灾害预测与控制、食品安全与群体事件等)、环境管理、社会计算、知识经济等。
大数据科学是关于数据的科学,是在某个领域中有条件地寻找数据相互关系和普适性规律。因为各领域的数据分析方法和结果存在一定程度的普适性,所以抽取领域的共性科学问题很有意义,但这往往需要较长的时间,需要一段时间的实践积累,通过分层次、不断抽象,共性科学问题才会逐步清晰明朗。科学研究的轨迹是先做白盒模型研究,通过积累就可以抽象出通用性强大的黑盒模型。
大数据研究是一种方法研究,数据本身不作为研究目标,而是作为方法研究和发现新知识的工具。大数据研究是一种交叉学科研究,它与数据挖掘、统计分析、搜索等人工智能方法密切相关。在传统数据挖掘研究中,当数据维度和规模增大时,所需资源呈指数级增加,但对PB 级以上(EB 、ZB 和YB )的大数据需要研究新的方法。统计学的目标是从各种类型的数据中提取有价值的信息,进而实现预见性,但一般不强调因果逻辑。人工智能则需要将统计方法和其他方法结合,采用多元化的方法来建立综合模型。
目前业界探讨最多的是大数据技术和大数据应用。
2.3 大数据的特点
大数据有以下5个特点,分析这些特点对有效传输、存储、处理、应用和管理大数据至关重要。
1)容量巨大。
一般说来,超大规模数据是指GB (1GB (千兆)=1 024MB)级的数据,海量数据是指TB (1TB (万亿字节,太字节)=1 024GB)级的数据,而大数据则是指PB ( 1PB (千万亿字节,拍字节)=1 024TB)级及其以上(EB 、ZB 和YB )的数据。可以想象,容量的指标是动态变化的。相对于当前的CPU 和存储技术水平而言,系统管理这些规模过大的数据需要特别对待。
2)类型繁多。
大数据包含大量不同的数据和文件类型,如各种声音和电影文件、图像、文档、地理定位数据、网络日志、文本字符串文件、元数据、网页、电子邮件、社交媒体供稿、表格数据等。
3)速度快。
大数据速度快是指数据的变化率高,传统技术并不适于大数据的高速储存、管理和使用。
4)非结构化。
非结构化数据是指在获得数据之前无法预知其结构的数据。目前所获的数据85%以上是非结构化数据,而不再是纯粹的关系数据,传统的系统无法胜任这些数据的处理。从应用角度,非结构化数据的计算是计算机科学的前沿。大数据的高度异构也导致难以抽取出合适数量的语义信息。
第 5 期
前瞻技术
105
3 大数据技术
如何获取并动态高效处理大数据将成为处理大数据的关键技术。由于大数据的异质异构、非结构及不可信等特征,大数据的管理和分析研究需要解决表示、处理和可靠性等一系列重要问题。
样性和不确定性的前提下研究数据规律和统计特征,具体研究内容包括以下几个方面。
1)数据的非结构性。
大量出现的各种数据本身是非结构化的或弱结构化的,如留言、博客、图像、视频数据等,如何将这些数据转化成一个结构化的格式是研究者面临的一项重大挑战[3]。
2)数据的不完备性。
数据的不完备性是指在大数据条件下所获取的数据常常包含一些不完整的信息,甚至是错误的数据。数据的不完备性必须在数据分析阶段得到有效处理。
3)数据的时效性。
处理大数据的速度非常重要。数据规模越大,分析处理时间就会越长。如果设计一个专门处理固定大小数据量的数据系统,其处理速度可能会非常快,但并不能适应大数据的要求。在许多情况下,用户要求立即得到数据的分析结果,这需要在处理速度与规模上折中考虑,并寻求新的方法。
4)数据的安全性与可靠性。
大数据高度依赖数据存储与共享,必须考虑寻求更好的方法消除各种隐患与漏洞,才能有效地管控安全风险。数据的隐私保护是大数据分析和处理面临的重要问题,既是技术问题也是社会学问题。如果对私人数据使用不当,尤其是泄漏有一定关联的多组数据,将导致用户的隐私泄漏[4]。
基于上述特性,目前,对大数据的处理多采用数据清洗、去冗等技术,提取有价值数据,实现对数据质量的高效管理。其中,对数据的安全访问和隐私保护已成为大数据可靠性的关键需求,因此,如何满足对互联网大规模真实运行数据的高效处理和持续服务的需求,数据的可靠性处理将成为重要环节。
(下转第110页)
3.1 数据量复杂性估算
时间复杂性和空间复杂性是计算机科学的基本问题。大数据处理除了要考虑时间和空间复杂性外,还需要考虑数据量复杂性。数据量复杂性是指解决一个问题需要多大的数据量,即需要建立求解一个问题达到某种满意程度需要多大规模的数据量理论。显然,这类问题为预言型数据分析问题。目前社会科学的研究已开始涉及大数据,如舆情分析、情感分析等,这些都迫切需要计算机学者与社会科学领域的学者密切合作,共同开拓新的理论。
3.2 大数据的表示
利用统一的模型对非结构化数据进行分析处理困难巨大,传统的数据表示方法不能直观地展现数据本身含义。为了有效利用数据并挖掘其中的知识,必须寻找最合适而有效的数据表示方法。目前使用的方法是数据标识,标识方法可减轻数据识别和分类的困难,但却给用户增添了预处理工作量。研究既有效又简易的数据表示方法是进行大数据处理首先面临的技术难题之一。
3.3 大数据的处理
全球数据量每18个月翻一番(遵循摩尔定律),数据规模急剧扩大,已超越现有计算机存储与处理能力。不仅数据处理规模巨大,而且处理需求多样化,数据处理能力已成为企业核心竞争力的关键。而数据处理需要结合多学科,探索一种处理新型数据的方法,以便在数据多
计算机教育
110
Computer Education2013
组织和管理团队能力,承担更多的责任。每个工程专业的学生必须认识到领导力是一种技能也是一种艺术,这种能力能通过教育、思考、演练而增长,会贯穿整个职业生涯。 学生只有具备了思考和应用的软实力,才能在职业发展中
不断地突破自我,达到新的境界。工程领导力的培养是一个长期的过程,这个过程需要依据社会和技术发展变化进行持续的改进。教育者必须从市场的近期和远期需求审视教育方针和模式,以培养行业期望的具有领导力的工程师。
参考文献:
[1] N. A. O. Engineering. The engineer of 2020: visions of engineering in the new century[M]. Washington DC: the National
Academies Press, 2004.
[2] Capabilities of effective engineering leaders[EB/OL]. [2012-11-10]. http://web.mit.edu/gordonelp /leadershipcapabilities.pdf.
[3] Schuhmann R J. Engineering leadership education: the search for defination and a curricular approach[J]. Journal of Stem
Education, 2010(11): 61-69.
[4] 崔军, 汪霞. 培养工程领军人才: 麻省理工学院的工程领导力教育[J]. 高等理科教育, 2010(6): 30-35.[5] 叶伟巍, 叶民. 工程领导力要素研究[J]. 高等工程教育研究, 2011(5): 92-95.
(编辑:彭远红)
(上接第105页)
4 大数据处理的工具
Hadoop 是一个开源软件框架,被称为处理大数据的利器,一些大零售商常常通过Hadoop 平台用大数据锁定客户。Hadoop 平台包括多种专门设计的组件,主要用于解决大规模分布式数据存储、分析和检索任务。但并不是所有的Hadoop 组件都是必要,对于一个大数据解决方案,其中的一些组件可取代某些技术,更好地配合用户的需求。如MapR 的Hadoop ,它用NFS 替代HDFS ,并提供了一个完整的随机存取与读/写文件系统。
参考文献:
5 结 语
数据为王的时代已经到来,研究热点从计算速度转向大数据处理能力,从以编程为主转变为以数据为中心。云计算、社交计算和移动计算三大技术趋势正在重塑着IT 世界,并推动数据以更大容量、更多种类及更快速度迅猛增长。中国IT 的发展比世界任何地方都要快,数据产生量也是最多的。未来十年,将是一个由大数据引领的智慧科技时代,其广阔的研究领域和应用前景将会越来越受到人们的重视。
[1] 邬贺铨. 大数据时代光网络的机遇[EB/OL].[2013-01-10]. http://www.sgit.sgcc.com.cn/newzxzx/xyzx/08/278546.shtml.[2] Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and productivity[R]. 2011.[3] 李国杰. 大数据研究的科学价值[J]. 中国计算机学会通讯, 2012, 8(9): 8-15.[4] Srivastava D, Velegrakis Y. Intentional associations between data and metadata[EB/OL].[2013-01-10]. http://wenku.baidu.com/
view/e3244f651ed9ad51f01df213.html.
[5] Medforth N, Wang K. Privacy risk in graph stream publishing for social network applications[R]. ICDM 2011 Vancouver, Canada. Dec. 11th to 14th, 2011.
(编辑:彭远红)