[TOC]
大数据概念及特征
什么是大数据
海量计算、大数据管理、数据分析、大量用户群体
大数据4V特性
数据量大:大到什么程度
多样性、复杂性:数据库、文本、视频音频….
基于高度分析的新价值:在大量数据下提取微小信息(价值提纯)
速度:(hadoop mapreduce适用于离线批处理,延时性较高;还有其他实时性更高的框架:Spark)

大数据带来的技术变革
大数据所带来的技术变革
技术驱动:数据量大(TB..)
- 存储:文件存储 ==> 分布式存储(HDFS)
- 计算:单机 ==> 分布式计算
- 网络:万兆
- DB:RDBMS ==> NoSQL(HBase/Redis…)
商业驱动:价值
大数据现存的模式
- 手握大数据、没有大数据思维
- 没有大数据、有大数据思维
- 既有大数据、又有大数据思维(goole\阿里)
大数据技术的概念
X 升级硬件:单机升级(加大CPU、内存…)
V 分布式并行计算/处理
数据采集:Flume Sqoop
数据存储:Hadoop
数据处理/分析/挖掘:Hadoop、Spark、Flink
可视化:
大数据技术的挑战
大数据在技术架构上带来的挑战
- 对现有数据库管理技术的挑战(大数据一般不用关系型DB)
- 经典数据库技术没有考虑数据的多类别
- 实时性的技术挑战
- 网络架构、数据中心、运维的挑战
- 其他:数据隐私、数据源复杂多样
如何对大数据进行存储和分析

- google发表了论文,社区进行了相应的技术实现–hadoop
大数据典型应用
- count/sum/avg ==> group by/join ==> 窗口分析函数 ==> 异常/欺诈检测 ==> 人工智能
- 报表 ==> 用户细分 ==> 指标监控 ==> 指标预警






