我们并不能很好地处理所有我们现在能够收集到的数据
栏目:公司新闻 发布时间:2024-04-01

这是一个变化的世界,我们谁都没想到我们今天可以聚在这里,可以继续畅想未来,我跟大家都认为电脑够快,互联网还要快,很多人还没搞清楚什么是PC互联网,移动互联来了,我们还没搞清楚移动互联的时候,大数据时代又来了

--马云辞职演讲

大数据这个词想必大家都耳熟能详,可是大数据是什么?大数据有哪些特点?大数据的应用?

我们先来看下一些搜索引擎对大数据的定义:

大数据(英语:Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。

数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。

--维基百科

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)

--百度百科

大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。

  在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力洞察力与最优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。

  大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。数据挖掘(data mining)则是在探讨用以解析大数据的方法。

--MBA智库百科

大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。


Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

--研究机构Gartner



大数据到底是什么,如果简单来理解大数据就是 4V 的特征:

Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),即 数据体量巨大、数据类型繁多、价值密度低、处理速度快。

但是这样理解会显得太浅显,要想更加全面了解大数据概念可以查看 资料《大数据时代》。

了解一个东西,我们要了解它是因何而生,

早在1980年,著名未来学家阿尔文・托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。2012年,大数据概念炙手可热,2013年,大数据走向实践,有的专家称之为“大数据元年”。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年将翻一番,而目前世界上90%以上的数据是最近几年才产生的。

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据挖掘运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事金融通讯等行业存在已有时日,却因为近年来互联网信息行业的发展而引起人们关注。

大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……

仅根据2013年的统计,互联网搜索巨头百度已拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。

大数据的4V的特征:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值);

第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

第二个特征是数据类型繁多。包括网络日志音频视频图片地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求,例如在传统的关系型数据库中,所存储的数据都是结构化的,例如:




但是在现实生活中,信息往往并没有严格的结构限制。比如一个电商网站需要记录如下用户行为:

用户小申, 于某某时间在商品搜索栏搜索了“PS4”一词,然后进入 XXX 商铺进行浏览,经过与店家沟通,讨价还价,最终以2000元的价格购买了PS4 “炫酷黑”PS4一部。

诸如此类的用户行为数据属于非结构化数据,很难用关系型数据库存储。因此诸多No-SQL数据库(例如 MongoDB)成为了存储大数据的更好选择。

第三个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。

第四个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

当数据的处理技术发生翻天覆地的变化时,大数据时代,我们的思维也要变革。

第一个思维变革:利用所有的数据,而不再仅仅依靠部分数据,即不是随机样本,而是全体数据。

第二个思维变革:我们唯有接受不精确性,才有机会打开一扇新的世界之窗,即不是精确性,而是混杂性。

第三个思维变革:不是所有的事情都必须知道现象背后的原因,而是要让数据自己“发声”,即不是因果关系,而是相关关系。

洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。

google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。

统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。

麻省理工学院利用手机定位数据和交通数据建立城市规划。

梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。 [9]

医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。

讲个经典小故事

20世纪90年代,美国沃尔玛超市管理人员分析销售数据时,发现了一个令人难以理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品,会经常出现在同一个购物篮中,且大多出现在年轻的父亲身上。

分析背后原因是,在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲去超市买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。

由此,沃尔玛就在卖场尝试将啤酒与尿布摆放在相同区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物,从而极大提升商品销售收入。


再举个例子, 关于姿势 你们现在坐着的姿势 你坐着的姿势 你坐着的姿势 你坐着的姿势 这些都不一样 这是一个关于腿长 你的背部和背部轮廓的函数 如果我现在放一些传感器 或许100个 在你的椅子里 我可以算出你的独一无二的参数 就像你的指纹 但不是针对你的手指

那我们能用它来干什么呢? 东京的研究者把它 运用在一个汽车防盗设施的雏形上,它的设想是盗贼坐在驾驶座上 企图把车开走 但是汽车识别出 驾驶座上的是个未授权驾驶人 那汽车可能就会熄火 除非你在仪表盘上输入密码 来表明“我已获得授权” 。

如果欧洲的每辆汽车 都装备了这项技术会是怎样的情形? 我们还能做些什么呢? 或许如果我们整合数据 我们可以识别示警信号 对于在下一个五秒钟内 可能发生的意外做出最佳预判 我们也可以进行数据化的是 司机的疲劳度 当汽车侦测到司机的坐姿 倒成某一特定姿势时 这个设备感知到并发出车内警告 可能是震动方向盘或语音提示 “嗨,醒醒 集中精神在路况上” 这就是生活的更多方面数据化后 我们能做的事情。


大数据在机器学习的应用,深蓝战胜何洁。


机器学习是许多 网上在线应用的基础 搜索引擎 亚马逊的个性化算法 电脑智能翻译 语音识别系统 研究者最近在研究 关于活组织检查的问题 关于肿瘤活组织检查 他们让电脑 通过 (历史) 数据和存活率 来判断这些细胞 是否是癌症细胞 果不其然 当你把数据交给电脑 电脑通过自主学习 可以寻找出 12个最佳的鉴别特征用来预测 乳腺癌细胞的活检切片 确实是癌症细胞 问题是医学文献 只知道其中的九个鉴别特征 其他三个 人们不会去寻找 但是电脑把它们找了出来 。

我们会给机器一堆数据,让它们去发现规律而不是我们去告诉它怎么做。

好像说的有点不太平易近人,支付宝的年底的集五福,大家想必都玩过,我们为什么扫一扫手机就能知道是个福字?原因显而易见。


在科技的快速发展推动下,在 IT 领域,企业会面临两个方面的问题。

一是如何实现网站的高可用、易伸缩、可扩展、高安全等目标。为了解决这样一系列问题,迫使网站的架构在不断发展。从单一架构迈向高可用架构,这过程中不得不提的就是分布式。

二是用户规模越来越大,由此产生的数据也在以指数倍增长,俗称数据大爆炸。海量数据处理的场景也越来越多。

大数据也有黑暗的一面 ,它可以改善我们的生活但也会带来一些我们需要注意的问题。首先就是, 我们可能因为预测的结果而受到惩罚 。警察可能会用大数据来实现目标 ,有点像“少数派报告” 现在有个词叫做预见性监管或者叫算法犯罪学 这个想法是如果我们掌握了大量数据。比如以往犯罪发生的地点,我们可以就知道把警力派到哪里,这很合理 但问题是 数据分析不会仅限于地点数据 。它会进一步深入到个人层面 ,为什么我们不去分析 ,某人的中学成绩单 或者我们可以了解他们的就职情况、信用记录 、他们的上网行为 、他们是否熬夜、 当可以通过健康腕带读取生化数据时。 就可以知道他们是否有激进的想法,我们可以用算法来预测我们将要做什么, 可能有些事情还没做, 我们就要承担责任 ,个人隐私在小数据时代是主要挑战 。在大数据时代 这个挑战将会成为保卫自由意愿 道德选择 、人类意志 人类的能动性 。

还有另一个问题 :大数据会偷走我们的工作, 在21世纪大数据和算法会威胁到白领和需要专业知识的工作 。就像在20世纪工厂自动化和装配生产线的应用,威胁到了蓝领们的工作岗位 。想象一下一个研究室技术员 ,他的工作就是通过一个显微镜,观察一个癌症活检组织 ,来判定它是不是癌症的 。这个人上大学、 买房子、 他/她投票选举 ,他/她是这个社会的一份子。 然后这个人的工作还有其他像他一样的专业人员, 将会发现他们的工作被彻底改变了或者彻底废除了。 我们一直以为在短时或者暂时的就业调整期后, 一段时间内科技会创造就业机会, 这对于我们所处的参考工业革命来说就是这样。因为在工业革命时期事情就是这样的,但是我们忘记了一件事情,有些类型的职业已经彻底消失了并且再也不会回来 。如果你是一匹马,工业革命不是一件好事,所以我们必须非常小心,根据我们的需求和整个人类的需求来利用和适应大数据。我们必须是技术的主人而不是技术的仆人。我们正在步入大数据时代,老实说, 我们并不能很好地处理所有我们现在能够收集到的数据,这不仅仅是国家安全局的问题,许多企业也搜集并不恰当地使用数据,我们需要时间来纠正这个问题。这有点像原始人类面对火时所面临的挑战, 火是一种工具 但是如果使用不当就会引火烧身。

大数据即将改变我们的生活方式,我们的工作方式和思考方式它可以帮助我们管理事业。帮助我们过想要的满足、充满希望、幸福和健康的生活 但是在过去, 对于信息技术(IT) 我们经常只看到了T 就是技术、硬件。因为这是切实可见的东西 现在我们需要把目光放在 I 上 信息。它不是那么切实可见但某种程度上却更加重要。在人类永无止境的探索过程中,我们可以从我们能收集的信息中来了解这个世界 以及人类在这个世界中所处的地位。

互联网的世界,逐步从IT阶段步入DT阶段,如何处理个人隐私是个很严重的问题,李彦宏在中国高层发展论坛上针对用户数据隐私的问题表示,“我想中国人可以更加开放,对隐私问题没有那么敏感,如果他们愿意用隐私交换便捷性,很多情况下他们是愿意的。”虽然对这个看法嗤之以鼻,但是我们的隐私数据确实是在四处泄露。

数据时代已经来临,既然抗拒不了它,那便勇敢去接受它,去拥抱它。


《大数据时代》

链接:pan.baidu.com/s/1NpWKTC 提取码:i74d



本文由渝创鼎信息科技提供