大数据

大数据分析方式简介

随着数据量的增长,越来越多的公司面临着数据量暴增的问题,传统的关系数据库往往已经无法满足数据量增加的需求,因而向一些开源的大数据平台迁移在IT领域越来越成为常态。从数据的存储来说,主要还是两种形态,一种仍旧以传统的阵列式存储普通文件类数据,如图片、普通文档等,再一种就是以列式数据库+关系数据库的方式来替代传统单一关系数据库的方式。

存储数据的目的也有两个,满足业务的需求是基本的目的与目标,此外,为了发现现有数据中暗含的模式与有价值信息,大多数公司都采用一定的技术手段来对这些数据进行分析,目前对大数据进行分析的方式主要包括:

  • 批处理式:主要包括常见的MapReduce与Spark RDD,特点这种主要应用于决策支持领域,一般来说,以批处理的方式对数据进行离线分析,并将结果进行汇总或者可视化,交由管理层作为决策支持,也就是BI的变种。
  • 准在线方式:对于有些应用来说,比如电商网站的个性化推荐系统,需要用户登录后就能快速读取到其兴趣喜好,单纯使用批处理的方式就不合适了,此时一般采用批处理+缓存库的方式进行,也就是按照固定的时间周期(比如两个小时)对数据进行离线分析,并将分析结果缓存到一个数据库中,此数据库可以是传统的关系数据库如MySQL或者是Redis等内存库,在需要数据时,应用系统直接从缓存库中读取数据。此类方式的特点是,虽然可以实时读取到对用户的分析结果,但实际上是有一定的延迟的,必须等到下一次分析结果入库后方可更新对用户的分析结果。在对实时性要求不是很高的情况下,这种方式是较为合理的。
  • 再就是真正的实时分析,比如典型公司统计用户的流量数据、实时话费等,一般来说是使用实时框架如Storm或者Spark Streaming(虽然并不是真正的实时,但能满足绝大多数需求),但是这种方式一般需要实时消息系统的支持,如Kafka等。

目前还有一些新的形式,将实时数据源与实时分析库如Druid等相结合,也是一种实时分析的待选项,我们会在今后对每种方式展开来进行介绍。

大数据培训找格物课堂

大数据、机器学习、人工智能培训

脱产、周末、就业、业余班并行

识别二维码,获取最新培训信息

2022-2023 Copyright © 深圳市意行科技开发有限公司 - All Rights Reserved.
深圳市南山区学苑大道1227号 
粤ICP备17013574号