avatar

目录
大数据概述

参考:https://coding.imooc.com/class/301.html

[TOC]

大数据概念及特征

什么是大数据

海量计算、大数据管理、数据分析、大量用户群体


大数据4V特性

  • 数据量大:大到什么程度

  • 多样性、复杂性:数据库、文本、视频音频….

  • 基于高度分析的新价值:在大量数据下提取微小信息(价值提纯)

  • 速度:(hadoop mapreduce适用于离线批处理,延时性较高;还有其他实时性更高的框架:Spark)

![屏幕快照 2019-08-28 下午11.01.10](20190828224836754/屏幕快照 2019-08-28 下午11.01.10.png)

大数据带来的技术变革

大数据所带来的技术变革

技术驱动:数据量大(TB..)

  • 存储:文件存储 ==> 分布式存储(HDFS)
  • 计算:单机 ==> 分布式计算
  • 网络:万兆
  • DB:RDBMS ==> NoSQL(HBase/Redis…)

商业驱动:价值


大数据现存的模式

  • 手握大数据、没有大数据思维
  • 没有大数据、有大数据思维
  • 既有大数据、又有大数据思维(goole\阿里)

大数据技术的概念

  • X 升级硬件:单机升级(加大CPU、内存…)

  • V 分布式并行计算/处理

  • 数据采集:Flume Sqoop

  • 数据存储:Hadoop

  • 数据处理/分析/挖掘:Hadoop、Spark、Flink

  • 可视化:

大数据技术的挑战

大数据在技术架构上带来的挑战

  • 对现有数据库管理技术的挑战(大数据一般不用关系型DB)
  • 经典数据库技术没有考虑数据的多类别
  • 实时性的技术挑战
  • 网络架构、数据中心、运维的挑战
  • 其他:数据隐私、数据源复杂多样

如何对大数据进行存储和分析

![屏幕快照 2019-08-28 下午11.23.58](20190828224836754/屏幕快照 2019-08-28 下午11.23.58.png)

  • google发表了论文,社区进行了相应的技术实现–hadoop

大数据典型应用

  • count/sum/avg ==> group by/join ==> 窗口分析函数 ==> 异常/欺诈检测 ==> 人工智能
  • 报表 ==> 用户细分 ==> 指标监控 ==> 指标预警
文章作者: Machine
文章链接: https://machine4869.gitee.io/2019/08/28/20190828224836754/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 哑舍
打赏
  • 微信
    微信
  • 支付宝
    支付宝

评论