Hadoop-基础篇
参考:
imooc 认识Hadoop–基础篇
笔记 Hadoop大数据平台架构与实践–基础篇
我的代码:
简介大数据时代已经到来,越来越多的行业面临着大量数据需要存储以及分析的挑战。Hadoop,作为一个开源的分布式并行处理平台,以其高扩展、高效率、高可靠等优点,得到越来越广泛的应用。本课旨 ...
java设计模式-UML简述&软件设计七大原则
[TOC]
UML简述
参考:第2章 UML急速入门
概述Code123456789101112UML的定义UML的特点UML2.2的分类 结构式图形 行为式图形 交互式图形UML类图 记忆技巧UML时序图 1、黑色的实线和实心箭头表示同步调用 2、黑色的实线和空心箭头表示异步调用 3、黑色的虚线 ...
python爬虫(3)-Scrapy框架
本文档由脑图导出,地址:Spider脑图
参考:heima
SpiderScrapy 框架数据抓取基础概述&架构图&运作流程&安装概述Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架多线程、异步
架构图&运作流程略
配置安装
Code1pip3 ...
MongoDB(by python)
参考:heima
[TOC]
介绍&安装关系型缺点
扩展性差、大数据下IO压力大、表结构更改困难
MongoDB优点
易扩展、大数据量,高性能、灵活的数据模型
安装:centos+yum安装mongodb
sh12345678910111213141516171819202122 ...
python-杂项
将py程序加入环境变量sh12345678910111213141516171819# 增加Shebang符号直接运行Python程序# 查看py3位置$ which python3# 在文件头加#! /usr/local/bin/python3# 修改权限$ chmod +x cards_main ...
python爬虫(2)-动态HTMl处理
本文档由脑图导出,地址:Spider脑图
参考:heima
[TOC]
Spider动态HTML处理爬取动态HTML数据
后续爬虫代码建议
减少请求次数
关注所有类型的页面
多伪装
多线程分布式
动态HTML技术:略
Selenium和PhantomJS
Selenium
Web的 ...
python-多任务(线程&进程&协程)
[TOC]
线程
python的thread模块是比较底层的模块,python的threading模块是对thread做了一些包装的,可以更加方便的被使用
使用threading模块python123456789101112131415161718192021222324252627282930 ...
python-正则表达式re模块
匹配单个字符
字符
功能
.
匹配任意1个字符(除了\n)
[ ]
匹配[ ]中列举的字符
\d
匹配数字,即0-9
\D
匹配非数字,即不是数字
\s
匹配空白,即 空格,tab键
\S
匹配非空白
\w
匹配单词字符,即a-z、A-Z、0-9、_
\W
匹配 ...
python爬虫(1)-爬虫基础&数据提取
本文档由脑图导出,地址:Spider脑图
参考:heima
[TOC]
Spider爬虫原理与数据抓取基本概念通用爬虫和聚焦爬虫HTTP和HTTPSstr和bytes的区别Requests库python12345678910111213141516171819202122232425262728 ...
python 基础语法&面向对象
本文档由脑图导出,地址:http://naotu.baidu.com/file/caceda5851ebccee143af9deeba8de86
参考:heima
[TOC]
python基础python-基础语法认识 PythonPython 的起源解释器(科普)Python 的设计目标Pyt ...






