Ambari-Hadoop Web UI
Ambari简述apache\CM\Ambari
Ambari和CM地位差不多,重点在集群管理,一键安装集群和启动。
hue的重点在使用界面操作大数据框架。
什么是Ambari
Apache Ambari项目旨在通过开发用于配置,管理和监控Apache Hadoop集群的软件来简化Hadoop管 ...
Kettle-ETL工具&数据抽取
kettle概述Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle工程存储方式
1) 以XML形式存储
2) 以资源库方式存储(数据库资源库和文件资源库)
Kettle的两种设计
Kettle的组 ...
ClickHouse-列式数据库管理系统
ClickHouse概述什么是ClickHouse
ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。
什么是列式存储
以下面的表为例:
Id
Name
Age
1
...
Hue-Hadoop UI系统
HUE简介HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Dja ...
Kylin-分布式分析引擎
ref
http://kylin.apache.org/cn/
[toc]
概述Kylin定义Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询 ...
Impala-高性能SQL查询
Impala的基本概念什么是Impala
Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。
是CDH平台首选的PB级大数据实时查询分析引擎。
Impala的优缺点优点
...
Centos7下的基本环境安装记录
CentOS-7-x86_64-Minimal-1810.iso
修改HostNameshell1234567891011# 临时hostname hadoop104# 永久hostnamectl set-hostname hadoop104# vi /etc/hosts127.0.0.1 ha ...
CM的安装
linux基础环境搭建虚拟机带不动,租了个云服务器。配置:Centos7.6,2核4G
参考我的blog 【Centos7下的基本环境安装记录】
Code123456修改HostName设置ssh本机免密安装JDK关闭防火墙关闭SELINUX 安装MySQL
修改host
shell1217 ...
Azkaban-任务调度
[TOC]
参考:
https://www.bilibili.com/video/av65539983
官方文档:https://azkaban.github.io/azkaban/docs/2.5/
概述什么是azkaban批量工作流任务调度器,
Azkaban特点1) 兼 ...
Oozie-任务调度
Oozie简介 一个基于工作流引擎的开源框架,由 Cloudera 公司贡献给 Apache,提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。 ...







