新闻中心
什么是大数据?
Hadoop的特性:首先,它是可靠的,因为它 假设计算元素和存储会失败,因此它维护多 个工作数据副本,确保能够针对失败的节点 重新分布处理。其次,Hadoop 是高效的, 因为它以并行的方式工作,通过并行处理加 快处理速度。Hadoop 还是可伸缩的,能够 处理 PB 级数据。此外,Hadoop 依赖于社 区服务器,因此它的成本比较低,任何人都 可以使用。
奥巴马政府将数据定义为 “未来的新石油”, 一个国家拥有数据的规模、活性及解释运用的 能力将成为综合国力的重要组成部分,未来, 对数据的占有和控制甚至将成为陆权、海权、 空权之外的另一种国家核心资产。
分布式处理系统就是:将不同地点的或具 有不同功能的或拥有不同数据的多台计 算机用通信网络连接起来,在控制系统 的统一管理控制下,协调地完成信息处 理任务—这就是分布式处理系统的定义
Hadoop是一个实现了MapReduce模式的能够 对大量不同类型数据进行分布式处理的软件 框架,是以一种可靠、高效、可伸缩的方式 进行处理的。
大数据的挖掘和处理。大数据必然无法用 人脑来推算、估测,或者用以往一台、 几台计算机和数据库的方法进行处理, 必须采用分布式计算架构,依托云计算 的分布式处理、分布式数据库、云存储 和虚拟化技术,因此,大数据的挖掘和 处理必须用到云技术。
大数据可应用于各行各业,将人们收集到的庞 大数据进行分析整理,实现资讯的有效利用。 举个例子,比如在奶牛基因层面寻找与产奶 量相关的主效基因,我们可以首先对奶牛全 基因组进行扫描,尽管我们获得了所有表型 信息和基因信息,但是由于数据量庞大,这 就需要采用大数据技术,进行分析比对,挖 掘主效基因。
信企业实现售后服务质量提升,帮助保险企 业识别欺诈骗保行为,帮助快递公司监测分 析运输车辆的故障险情以提前预警维修,帮 助电力公司有效识别预警即将发生故障的设 备 大数据帮助电商公司向用户推荐商品和服务, 帮助旅游网站为旅游者提供心仪的旅游路线, 帮助二手市场的买卖双方找到最合适的交易 目标,帮助用户找到最合适的商品购买时期、 商家和最优惠价格
随着智能手机的普及,感知技术可谓迎来了发 展的高峰期,除了地理位置信息被广泛的应 用外,一些新的感知手段也开始登上舞台, 比如:内嵌指纹传感器, 通过呼气直接检测燃烧脂肪量, 手机的嗅觉传感器可以监测从空气污 染到危险的化学药品, 可感知用户当前心情智能, 通过衣服的人物识别。
牙齿传感器实时监控口腔活动及饮食状况, 婴儿穿戴设备可用大数据去养育宝宝, Intel正研发3D笔记本摄像头可追踪眼球读 懂情绪, 日本公司开发新型可监控用户心率的纺织材 料, 尝试将生物测定技术引入支付领域等。
流和库存的成本,减少投资的风险,以及帮 助企业提升广告投放精准度; 大数据帮助娱乐行业预测歌手,歌曲,电影, 电视剧的受欢迎程度,并为投资者分析评估 拍一部电影需要投入多少钱才最合适,否则 就有可能收不回成本; 大数据帮助社交网站提供更准确的好友推荐, 为用户提供更精准的企业招聘信息,向用户 推荐可能喜欢的游戏以及适合购买的商品。
MapReduce模式的主要思想是:自动分割要 执行的问题(例如程序),将其拆解成map (映射)和reduce(化简)的方式, 在数据 被分割后通过Map 函数的程序将数据映射成 不同的区块,分配给计算机机群处理达到分 布式运算的效果,在通过Reduce 函数的程 序将结果汇整,从而输出开发者需要的结果。
大数据并不在“大”(但是又 必须大),而在于“有用”。 关注价值含量、挖掘成本比数 量更为重要。
大数据是资产,如果把大数据比作一 种产业,那么这种产业实现盈利的 关键,在于提高对数据的“加工能 力”,通过“加工”实现数据的 “增值”
关联很重要。通过关联可以预测未来,比 如我们通过采集驾驶员手机的GPS数据, 就可以分析出当前哪些道路正在堵车, 并可以及时发布道路交通提醒;通过采 集汽车的GPS位置数据,就可以分析城 市的哪些区域停车较多,这也代表该区 域有着较为活跃的人群,这些分析数据 适合卖给广告投放商。
手握大数据,但是没有利用好;比较典型 的是金融机构,电信行业,政府机构等。 2- 没有数据,但是知道如何帮助有数据的人 利用它;比较典型的是IT咨询和服务企业, 比如,IBM,Oracle等。 3- 既有数据,又有大数据思维;比较典型的 是Google,Amazon,Mastercard等。
大数据,指的是所涉及的数据资料量, 规模巨大到无法通过人脑甚至主流 软件工具,在合理时间内完成采集、 管理、处理并提供有效的、有价值 的结果信息以及决策支持信息。。
数据量大、数据种类多、 要求实时性 强、数据所蕴藏的价值大。在各行 各业均存在大数据,但是众多的信 息和咨询是纷繁复杂的,我们需要 搜索、处理、分析、归纳、总结其 深层次的规律。
大数据的采集和感知技术的发展是紧密联 系的。以传感器技术,指纹识别技术, RFID技术,坐标定位技术等为基础的感 知能力提升,同样是物联网发展的基石。 全世界的工业设备、汽车、电表上有着 无数的数码传感器,随时测量和传递有 关位置、运动、震动、温度、湿度乃至 空气中化学物质的变化,都会产生海量 的数据信息。
大数据的未来 当物联网发展到达一定规模时,借助条形码、 二维码、RFID等能够唯一标识产品,传感器、 可穿戴设备、智能感知、视频采集、虚拟现 实等技术可实现实时的信息采集和分析,这 些数据能够支撑智慧城市,智慧交通,智慧 能源,智慧医疗,智慧环保的理念需要,这 些所谓的智慧将是大数据的采集数据来源和 服务范围。
有人说:感知被逐渐捕获的过程就是世界 被数据化的过程,一旦世界被完全数据 化了,那么世界的本质也就是信息了。
1-用户行为数据(精准广告投放、内容推荐、 行为习惯和喜好分析、产品优化等) 2-用户消费数据(精准营销、信用记录分析、 活动促销、理财等) 3-用户地理位置数据(O2O推广,商家推荐, 交友推荐等) 4-互联网金融数据(P2P,,支付,乐鱼体育入口 信用,供应链金融等) 5-用户社交数据(趋势分析、流行元素分析、 受欢迎程度分析、舆论监控分析、社会问题 分析等)
将大数据的潜在价值转化为实际利 益 2-还没有被大数据触及过的业务领域。
大数据的现实表现: 大数据帮助政府实现市场经济调控、公共卫 生安全防范、灾难预警、社会舆论监督; 大数据帮助城市预防犯罪,实现智慧交通, 提升紧急应急能力; 大数据帮助医疗机构建立患者的疾病风险跟 踪机制,帮助医药企业提升药品的临床使用 效果,帮助艾滋病研究机构为患者提供定制 的药物;
大数据与云计算的关系: 没有大数据的信息积淀,云计算的计算能 力再强大,也难以找到用武之地;没有 云计算的处理能力,大数据的信息积淀 再丰富,也终究只是镜花水月。
云计算涉及技术: 虚拟化技术,分布式处理技术,海量数据 的存储和管理技术,NoSQL、实时流数 据处理、智能分析技术(类似模式识别 以及自然语言理解)等
而大数据则改变了业务。然而大数据必须有 云作为基础架构,才能工作。 第二,目标受众不同,云计算是CIO等关心 的技术层,是一个的IT解决方案。大数据是 CEO关注的、是业务层的产品,大数据的决 策者是业务层的人。
存储层。在这一层,淘宝采用了两个东西,一 个使MyFox,一个是Prom。MyFox是基于 MySQL的分布式关系型数据库的集群, Prom是基于Hadoop Hbase技术的一个 NoSQL的存储集群。
查询层。在这一层中,Glider是以HTTP协议对 外提供restful方式的接口。数据产品通过一 个唯一的URL来获取到它想要的数据。同时, 数据查询即是通过MyFox来查询的。
淘宝的海量数据产品技术架构分为五个层次, 从上至下来看它们分别是:数据源,计算层, 存储层,查询层和产品层。 数据来源层。存放着淘宝各店的交易数据。在 数据源层产生的数据,通过DataX,DbSync 和Timetunel准实时的传输到下面第2点所述 的“云梯”。 计算层。在这个计算层内,淘宝采用的是 Hadoop集群,这个集群,我们暂且称之为 云梯,是计算层的主要组成部分。在云梯上, 系统每天会对数据产品进行不同的 MapReduce计算。
大数据的采集。科学技术及互联网的发展,推 动着大数据时代的发展,各行各业每天都在 产生数量巨大的数据碎片,数据计量单位已 从从Byte、KB、MB、GB、TB发展到PB、 EB、ZB、YB甚至BB、NB、DB来衡量。大 数据时代数据的采集也不再是技术问题,只 是面对如此众多的数据,我们怎样才能找到 其内在规律。
未来的大数据除了将更好的解决社会问题,商 业营销问题,科学技术问题,还有一个可预 见的趋势是以人为本的大数据方针。人才是 地球的主宰,大部分的数据都与人类有关, 要通过大数据解决人的问题。
用户隐私问题一直是大数据应用难以绕开的一 个问题 因为可怕的是:你的信息随时随地在被泄漏而 且永远无法删除,它们永远存在于互联网的 某些你不知道的角落。 因此在大数据的背景下,很多人都在积极的抵 制无底线的数字化,这种大数据和个体之间 的博弈还会一直继续下去……
总的来说,大数据是对大量、动态、能持续的 数据,通过运用新系统、新工具、新模型的 挖掘,从而获得具有洞察力和新价值的东西。 以前,面对庞大的数据,我们可能会一叶障 目、只见一斑,因此不能了解到事物的真正 本质,从而在科学工作中得到错误的推断, 而大数据时代的来临,一切真相将会展现在 我么面前
大数据可以抽象的分为大数据存储和大数 据分析,这两者的关系是:大数据存储 的目的是支撑大数据分析。到目前为止, 还是两种截然不同的计算机技术领域: 大数据存储致力于研发可以扩展至PB甚 至EB级别的数据存储平台(web服务); 大数据分析关注在最短时间内处理大量 不同类型的数据集。