数据是可以获取和存储的信息,直观而言,表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。但实际上,人类的一切语言文字、图形图画、音像记录,所有感官可以察觉的事物,只要能被记下来,能够查询到,就都是数据(data)。
随有互联网快速发展、智能手机以及’可佩告“计十算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。这些新技术推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从 Byte、KB、 MB、 GB、TB 发展到 PB、 EB、 ZB、YB 甚至 BB 来衡量。
1Byte = 8bit 1K(千)= 1024Byte 1MB (兆)=1024K 1G(吉)= 1024M 1T ( 太 ) 1T(太)=1024G 1P(拍)=1024T 1E(艾)=1024P 1Z(泽)=1024E 1Y (尧)=1024Z 1B(布)=1024Y 1N(诺)=1024B 1D(刀)=1024N
1 、大数据 大数据 (big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的诀策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。传统的数据存储模式存储容量是有大小限制 或者空间局限限制的,怎么去设计出一个可以支撑大量数据的存储方案是开展数据分析的首要前提。
当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。
2 、大数据的特点 (5v) 大数据的特点可以使用 5 个字来概括:大、多、值、快、信 1、大数据的采集,计算,存備量都非常的庞大。是数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是 200PB (1PB=1024TB),而历史上全人类说过的所有的话的数据量大约是 5EB (1EB=1024PB)。当前,典型个人计算机硬盘的容量为 TB 量级,而一些大企业的数据量己经接近 EB 量级。
3、大数据价值 大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对末米趋势与模式作可 预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代吸待解次的难题。4、快数据增长速度快,处理速度也快,获取数据的速度也要快。这是大数据区分于传统数据挖掘的最显著特征。根据 IDC 的"数字宇宙”的报告,到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,処理数据的效率就是企北的生命。