新闻中心
大数据是什么意思?特征有哪些?与传统数据的区别分析
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,该公司在《大数据:创新、竞争和生产力的下一个前沿领域》报告中给出的定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。同时强调,并不是说一定要超过特定TB级的数据集才能算是大数据(Manyika et al.,2014)。
IDC(Benjamin Woo World wide BigData Technology and Services,2012)对大数据的定义是:大数据一般涉及2种或2种以上的数据形式。大数据通常要收集超过100TB的数据信息,并且是实时、高速数据流,或者从容量较小的数据开始,每年会增长超过60%的数据量。
第一,数量(Volume),指的是数据的量大。随着可穿戴移动设备、物联网和云计算等技术的发展,不仅是人,包括物的轨迹也可以被记录,数据得以大量产生。在公元前 3 世纪,希腊著名的图书馆——亚历山大图书馆搜集了当时所能搜集到的所有书写品,可以说是当时世界上能搜集到的知识都汇聚在那里。但如今,世界上每一个人可获得的数据信息量都相当于当时亚历山大图书馆数据总存储量的 320 倍。
第二,多样性(Variety),即数据类型繁多。传感器、智能设备、社交平台等协作,使得网络中的数据变得复杂,在传统的关系型数据基础上,出现了半结构化和非结构化数据,这些复杂数据多来自于网页、网络日志、搜索引擎、论坛、E-mail、点击流数据、图片文档,以及被动型传感器原始数据。
第三,速度(Velocity),即处理速度快。“数据必须在秒级时间内分析得出结果,否则会失去价值”,这是著名的“1 秒定律”。如今,越来越多的数据挖掘趋于前端化,即提前感知、预测服务对象所需的个性化服务,并直接提供服务。比如电子商务网站基于用户点击、浏览等历史搜索行为,实时地预测客户的兴趣和购买意图,并据此向客户推送商品,引导客户购买。亚马逊、淘宝等个性推荐系统就是这个原理。
第四,真实性(Veracity),即追求高质量的数据。数据本身并不重要,重要的是数据为决策提供参考和支持。数据的规模和数量并不能为决策提供帮助,数据的价值在于其真实性和高质量,这是从数据中提取价值的前提,是获得知识和信息的基础,数据的真实性才是决策成功的坚实保障。
(1)“大数据”打破了传统数据对模型和算法的依赖。以往计算机在分析问题时如果想要得到精准的结论,需要在理顺逻辑、理解因果的前提下,先建立合理的模型来描述问题,再设计精妙的算法来分析处理。所以,建模和算法是决定成败的关键。而大数据出现后,人们发现,当数据足够大时,数据本身(而不是研究数据的模型和算法)就能保证数据分析结构的准确性。
(2)“大数据”打破了因果逻辑关系对传统数据分析的束缚。以往在建立模型前,需要先理顺其中的因果逻辑关系,而大数据拥有足够多的数据,不需要了解具体的因果关系也能够得出结论。比如 Google 翻译系统并未设置语法规则,但它根据数据库中所有用户的写作习惯,将最常用、出现频率最高的翻译方式推荐给用户,结果往往颇为可靠。
(3)“大数据”能收集的数据远超传统数据。由于能够处理多种数据结构,大数据能够在最大程度上利用互联网上的一切数据进行分析。以往计算机只能处理前期经过结构化处理的、存储在相应数据库中的数据,但大数据技术对数据的结构要求大大降低,互联网上人们留下的所有类型的信息都可以实时处理。
以上梳理了大数据的定义、特征及其与传统数据的区别,希望对你有所帮助,如果你想了解更多相关内容,敬请关注三个皮匠报告行业知识栏目。
本文由作者2200发布,乐鱼体育入口版权归原作者所有,禁止转载。本文仅代表作者个人观点,与本网无关。本文文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
布朗兄弟哈里曼银行(BBH):2024大中华区ETF投资者调查报告(27页).pdf
世邦魏理仕:2024年新加坡房地产市场展望报告-应对逆风与机遇(29页).pdf
睿纳:2024年绿色前景:探索非洲可再生能源潜力为中国投资者服务简报:赞比亚(14页).pdf
睿纳:2024年绿色前景:探索非洲可再生能源潜力为中国投资者服务简报:莫桑比克(13页).pdf
启信数据:2024年新质生产力引领下十大重点产业趋势解读报告-氢能篇(39页).pdf
懂车帝&中国汽车工业协会:2024年促进汽车消费与用户洞察白皮书(55页).pdf
千瓜数据:2024年小红书平台「轻生活」趋势洞察数据报告(四大热门行业)(25页).pdf
腾讯&尼尔森IQ:AI PC行业趋势与潜力消费者洞察白皮书(2024版)(64页).pdf