大数据论文

大数据

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术，是指从各种各样类型的数据中，快速获得有价值信息的能力。适用于大数据的技术，包括大规模并行处理（MPP ）数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台，互联网，和可扩展的存储系统。

大数据有四个基本特征：一、数据体量巨大(Vomule) ，二、数据类型多样(Variety)，三、处理速度快(Velocity)，四、价值密度低(Value)。在大数据的领域现在已经出现了非常多的新技术，这些新技术将会是大数据收集、存储、处理和呈现最强有力的工具。大数据处理一般有以下几种关键性技术:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等) 。

大数据处理之一：采集。大数据的采集是指利用多个数据库来接收发自客户端（Web 、App 或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL 和Oracle 等来存储每一笔事务数据，除此之外，Redis 和MongoDB 这样的NoSQL 数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

大数据处理之二：导入和预处理。虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter 的Storm 来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

大数据处理之三：统计和分析。统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC 的GreenPlum 、Oracle 的Exadata ，以及基于MySQL 的列式存储Infobright 等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop 。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

大数据处理之四：挖掘。与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict ）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans 、用于统计学习的SVM 和用于分类的NaiveBayes ，主要使用的工具有Hadoop 的Mahout 等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

大数据的处理方式大致分为数据流处理方式和批量数据处理方式两种。数据流处理的方式适合用于对实时性要求比较高的场合中。并不需要等待所有的数据都有了之后再进行处

理，而是有一点数据就处理一点，更多地要求机器的处理器有较快速的性能以及拥有比较大的主存储器容量，对辅助存储器的要求反而不高。批量数据处理方式是对整个要处理的数据进行切割划分成小的数据块，之后对其进行处理。重点在于把大化小——把划分的小块数据形成小任务，分别单独进行处理，并且形成小任务的过程中不是进行数据传输之后计算，而是将计算方法（通常是计算函数——映射并简化）作用到这些数据块最终得到结果。

当前，对大数据的处理分析正成为新一代信息技术融合应用的节点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态，这些应用不断产生大数据。通过对不同来源数据的管理、处理、分析与优化，将结果反馈到上述应用中，将创造出巨大的经济和社会价值。大数据也是信息产业持续高速增长的新引擎。面对大数据市场的新技术、新产品、新业态会不断涌现。在硬件与集成设备领域，大数据将对芯片、存储产业产生重要影响，还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域，大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变为“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对；可以为商家制定更加精准有效的营销策略提供决策支持；可以帮助企业为消费者提供更加及时和个性化的服务；在医疗领域，可提高诊断准确性和药物有效性；在公共事业领域，大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。大数据时代科学研究的方法手段将发生重大改变。例如，抽样调查是社会科学的基本研究方法。在大数据时代，可通过实时监测，跟踪研究对象在互联网上产生的海量行为数据，进行挖掘分析，揭示出规律性的东西，提出研究结论和对策。

目前大数据在医疗卫生领域有广为所知的应用，公共卫生部门可以通过覆盖全国的患者电子病历数据库进行全面疫情监测。5千万条美国人最频繁检索的词条被用来对冬季流感进行更及时准确的预测。学术界整合出2003年H5N1禽流感感染风险地图，研究发行此次H7N9人类病例区域。社交网络为许多慢性病患者提供了临床症状交流和诊治经验分享平台，医生借此可获得院外临床效果统计数据。基于对人体基因的大数据分析，可以实现对症下药的个性化治疗。

在医药研发方面，大数据的战略意义在于对各方面医疗卫生数据进行专业化处理，对患者甚至大众的行为和情绪的细节化测量成为可能，挖掘其症状特点、行为习惯和喜好等，找到更符合其特点或症状的药品和服务，并针对性的调整和优化。在医药研究开发部门或公司的新药研发阶段，能够通过大数据技术分析来自互联网上的公众疾病药品需求趋势，确定更为有效率的投入产品比，合理配置有限研发资源。除研发成本外，医药公司能够优化物流信息平台及管理，更快地获取回报，一般新药从研发到推向市场的时间大约为13年，使用数据分析预测则能帮助医药研发部门或企业提早将新药推向市场。

在疾病诊治方面，可通过健康云平台对每个居民进行智能采集健康数据，居民可以随时查阅，了解自身健康程度。同时，提供专业的在线专家咨询系统，由专家对居民健康程度做出诊断，提醒可能发生的健康问题，避免高危病人转为慢性病患者，避免慢性病患者病情恶化，减轻个人和医保负担，实现疾病科学管理。对于医疗卫生机构，通过对远程监控系统产生数据的分析，医院可以减少病人住院时间，减少急诊量，实现提高家庭护理比例和门诊医生预约量的目标。武汉协和医院目前也已经与市区八家社区卫生服务中心建立远程遥控联系，并将在未来提供“从医院到家”的服务。在医疗卫生机构，通过实时处理管理系统产生的数据，连同历史数据，利用大数据技术分析就诊资源的使用情况，实现机构科学管理，提高医疗卫生服务水平和效率，引导医疗卫生资源科学规划和配置。大数据还能提升医疗价值，形成个性化医疗，比如基于基因科学的医疗模式。

在公共卫生管理方面，大数据可以连续整合和分析公共卫生数据，提高疾病预报和预警能力，防止疫情爆发。公共卫生部门则可以通过覆盖区域的卫生综合管理信息平台和居民信

息数据库，快速监测传染病，进行全面疫情监测，并通过集成疾病监测和响应程序，进行快速响应，这些都将减少医疗索赔支出、降低传染病感染率。通过提供准确和及时的公众健康咨询，将会大幅提高公众健康风险意识，同时也将降低传染病感染风险。

在居民健康管理方面，居民电子健康档案是大数据在居民健康管理方面的重要数据基础，大数据技术可以促进个体化健康事务管理服务，改变现代营养学和信息化管理技术的模式，更全面深入地从社会、心理、环境、营养、运动的角度来对每个人进行全面的健康保障服务，帮助、指导人们成功有效地维护自身健康。另外，大数据可以对患者健康信息集成整合，在线远程为诊断和治疗提供更好的数据证据，通过挖掘数据对居民健康进行智能化监测，通过移动设备定位数据对居民健康影响因素进行分析等等，进一步提升居民健康管理水平。

在健康危险因素分析方面，互联网、物联网、医疗卫生信息系统及相关信息系统等普遍使用，可以系统全面地收集健康危险因素数据，包括环境因素（利用GIS 系统采集大气、土壤、水文等数据），生物因素（包括致病性微生物、细菌、病毒、真菌等的监测数据），经济社会因素（分析经济收入、营养条件、人口迁徙、城镇化、教育就业等因素数据），个人行为和心理因素，医疗卫生服务因素，以及人类生物遗传因素等，利用大数据技术对健康危险因素进行比对关联分析，针对不同区域、人群进行评估和遴选健康相关危险因素及制作健康监测评估图谱和知识库也成为可能，提出居民健康干预的有限领域和有针对性的干预计划，促进居民健康水平的提高。

大数据

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

相关内容

热门内容

标签