博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
秒懂数据统计、数据挖掘、大数据、OLAP的区别
阅读量:6372 次
发布时间:2019-06-23

本文共 1161 字,大约阅读时间需要 3 分钟。

在大数据领域里,经常会看到例如数据挖掘、OLAP、数据统计等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和区别。今天,我们就来通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、OLAP、数据统计的区别。

一、数据分析

数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。

二、数据统计

数据统计是最基本、最传统的数据分析,自古有之。是指通过统计学方法对数据进行排序、筛选、运算、统计等处理,从而得出一些有意义的结论。

举例,对全年级学生按照平均成绩从高到低排序,前10%的学生可以获得申请研究生免试资格。

传统的查询和报表工具是告诉你数据库中有什么(What happened)

三、OLAP

联机分析处理(On-Line Analytical Processing,OLAP)是指基于数据仓库的在线多维统计分析。它允许用户在线地从多个维度观察某个度量值,从而为决策提供支持。

举例,学校招生时要决定今年在江苏的招生指标,不能简单地参照去年的计划,而是要参考多个维度的数据积累。学校要在这些数据的支持下做出合理的决策。

OLAP更进一步告诉你下一步会怎么样(What next),如果我采取这样的措施又会怎么样(What if)

四、数据挖掘

数据挖掘是指从海量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。

举例,学校发现高等数学等主干课的不及格率有逐年上升的趋势,一般认为是学习不认真所致,但做了很多工作效果并不明县,这时通过数据挖掘……

针对此可以采取有针对性的管理措施。

五、大数据

大数据是指用现有的计算机软硬件设施难以采集、存储、管理、分析和使用的超大规模的数据集。大数据具有规模大、种类杂、快速化、价值密度低等特点(4V特性)。大数据的“大”是一个相对概念,没有具体标准,如果一定要给一个标准,那么10-100TB通常称为大数据的门槛。

总结

从数据分析的角度来看,目前绝大多数学校的数据应用产品都还处在数据统计和报表分析的阶段,能够实现有效的OLAP分析与数据挖掘的还很少,而能够达到大数据应用阶段的非常少,至少还没有用过有效的大数据集。

点评:

我们不需要纠结所谓的“专业名词”,作为一个数据分析师,我们的目标是帮助业务更好的发展、减少决策的风险、提取重要的信息,所以业务的套路和理解才是我们的立足之本,数据分析毕竟是我们达成某种目标的工具,疗效才是对我们更深层次的验证。

本文作者:佚名

来源:51CTO

转载地址:http://tffqa.baihongyu.com/

你可能感兴趣的文章
css知多少(11)——position
查看>>
【Spring】定时任务详解实例-@Scheduled
查看>>
先有的资源,能看的速度看,不能看的,抽时间看。说不定那天就真的打不开了(转)...
查看>>
哪些领域适合开发微信小程序
查看>>
谁说数据库防火墙风险大?可能你还不知道应用关联防护
查看>>
ASP.NET Core应用针对静态文件请求的处理[2]: 条件请求与区间请求
查看>>
怎样做一个企业?尤其是在这个互联网时代
查看>>
DVNA:Node.js打造的开源攻防平台
查看>>
17个案例带你3分钟搞定Linux正则表达式
查看>>
Java 8 比较器:如何对 List 排序
查看>>
苹果是否步思科后尘折戟中国
查看>>
漏洞预警!微软曝光震网三代漏洞,隔离网面临重大危机
查看>>
协鑫集成第二批1000台E-KwBe光伏储能设备即将启运澳洲
查看>>
爱立信物联网广州路演
查看>>
云计算企业业绩分化明显 9家上市公司中期预喜
查看>>
《VMware Virtual SAN权威指南(原书第2版)》一3.5 可能发生的网络配置问题
查看>>
SK电讯发布Q2财报 净利润同比下降26.9%
查看>>
零售品牌如何驾驭大数据主导商业决策?
查看>>
经济模式UPS在数据中心的应用(上)
查看>>
Intel首款32核Xeon E5 v5跑分曝光:史上最强
查看>>