大数据零基础就业班学习路线-白红宇

大数据零基础就业班学习路线

阅读量：3923 次

发布时间：2019-05-23

本文共 3330 字，大约阅读时间需要 11 分钟。

通过真实企业项目，JAVA高并发、Hadoop、Hive、Scala、Spark、Python、机器学习等大数据技能，实现年薪翻番。

课题	内容	知识重点	备注
Linux理论(4晚)	Linux基础	操作系统安装	自学视频
		基础命令使用
		软件安装
	Linux-shell编程	shell:bash基础
		脚本实战
	高并发:lvs负载均衡	网络理论
		四层LVS模型理论
		LVS实验
	高可用&反向代理	keepalived
		nginx
Hadoop理论(5晚)	hadoop-hdfs理论	hadoop介绍	直播讲座
		hdfs存储模型
		hdfs架构模型
		hdfs角色
		hdfs持久化
	hadoop-hdfs集群搭建	hdfs读写流程
		集群搭建配置解析
		完全分布式&CLI命令实操
	hadoop-hdfs 2.x & api	hdfs:ha介绍
		hdfs:ha集群搭建
		hdfs-api开发
	hadoop-MR理论	MR架构理论
		YARN理论
		搭建YARN集群
		WordCount运行
	hadoop-MR开发&源码分析	手写wordcount
		MR源码分析:客户端
	hadoop-MR源码分析	MapTask输入分析
		MapTask输出分析
		ReduceTask输入分析
	hadoop-MR开发案例	MR:天气案例
		MR:好友推荐案例
	hadoop-MR开发案例	pagerank案例
		tfidf案例
		itemcf案例
Hive理论(2晚)	Hive介绍以及安装	Hive的产生背景	直播讲座
		Hive架构
		Hive 安装
		内部表/外部表/分区表
	Hive实战	案例
		Hive参数配置
		动态分区/分桶
		运行方式/调优
HBase理论(2晚)	HBase介绍以及安装	Hbase数据模型	直播讲座
		Hbase架构
		Hbase搭建：伪分布式/全分布式
	HBase调优	Hbase shell
		Hbase API
		Hbase 调优
		Mapreduce hbase 整合
Hadoop项目(5晚)	项目需求分析	JS - SDK 设计	直播讲座
		Java - sdk 设计
		项目流程/架构
	项目准备	JS - SDK 实现
		Java - SDK 实现
		Nginx 搭建
	数据采集以及清洗	Flume的用法
		日志收集的实现(业务系统日志数据实时写入HDFS)
		ETL - 数据清洗
	项目代码实现以及优化	新增用户指标 - mapreduce实现
		Outputformat 类实现
		活跃用户指标 - mapreduce实现
		项目优化
	项目架构扩展以及组件整合	Sqoop的用法
		Hive和hbase 的整合
		浏览深度指标的hive分析
		项目架构扩展
redis理论(2晚)	redis类型	安装redis	直播讲座
		数据类型：String、list、hash、set、sortedset
	redis高级	持久化
		主从复制
		哨兵
Zookeeper理论(2晚)	Zookeeper介绍	架构模型	直播讲座
		可用模式
		选主模式
	Zookeeper使用	api开发
		使用场景介绍
		zk案例:rmi多server的分布式协调
Scala语法(2晚)	Scala语法介绍	scala语言特点	直播讲座
		scala开发环境的安装
		scala语法
	scala语法实战	语法使用
Spark理论(10晚)	Spark介绍	Spark与MR的对比	直播讲座
		Spark运行模式以及区别
		RDD的五大特性
	Spark代码开发流程	transformation类算子
		action类算子
		统计每一个单词出现的次数 WordCount
		持久化类算子的原理以及使用方式
	Spark集群搭建	Spark集群的架构,Master Wokrer的作用	自学视频
		集群搭建
		client cluster两种提交任务的方式的区别以及应用场景
		提交命令各个选项的作用
	Spark资源调度原理	什么是资源调度	直播讲座
		资源调度的流程
		资源调度的源码分析
	Spark任务调度	RDD的宽窄依赖
		DAGScheduler切割job的原理
		TaskScheduler的调度以及重试原理
		什么是推测执行,推测执行的必要条件
	Spark案例	计算topN
		分组取TopN
		统计页面的PV UV 最热门的板块,以及最热门的板块下最活跃的top10用户...
	Spark中两种最重要shuffle	什么shuffle
		shuffle的原理
		sortShuffle hashShuffle的执行原理以及区别
		shuffle调优
	Spark高可用集群的搭建	高可用集群的原理
		搭建步骤
		Spark WEBUI详解
	SparkSQL介绍	什么是SparkSQL SparkSQL的优势
		SparkSQL中的DataFrame与RDD的区别
		SparkSQL支持的数据源
	SparkSQL实战	Spark读取parquet格式的文件
		SQL语句处理RDD数据
		数据保存的方式
		自定义UDF UDAF函数
		开窗函数的使用
	SparkStreaming介绍	SparkStreaming介绍
		SparkStreaming的应用场景
		SparkStreaming运行原理
	SparkStreaming实战	算子讲解
		有状态的算子(updateStateByKey reduceByKeyAndWindow)
		SparkStreaming与kafka整合步骤
Spark车流量分析项目(5晚)	车流量项目的架构	lambda架构	直播讲座
		模块介绍
		技术方案选型
		数据采集
	车流量项目的需求分析以及代码实现	需求分析
		代码实现
	车流量项目的需求分析以及代码实现	需求分析
		代码实现
	车流量项目调优	代码调优
		资源调优
		数据本地化调优
		6种数据倾斜解决方案
	车流量项目总结	项目知识点总结
		调优点总结
机器学习(6晚)	机器学习介绍	什么是机器学习	直播讲座
		机器学习与人类思考的对比
		简单的线性回归
	线性回归详解	简单的线性回归多元现行回归
		什么梯度下降
		保险保费预测案例
	逻辑回归分类算法	什么是分类分类与回归的区别
		逻辑回归分类原理
		音乐分类案例
	Kmeans聚类算法	什么是聚类
		Kmeans算法原理
		微博营销案例
	KNN分类算法	KNN原理
		手写实现KNN算法
		约会案例
	决策树随机森林算法	算法原理
		手写实现算法
机器学习项目(3晚)	推荐系统介绍以及架构分析	什么是推荐系统,以及推荐系统的前景	直播讲座
		什么是lambda架构
		本项目架构详解
	推荐系统的特征工程	数据清洗
		特征工程关联特征与基本特征的构建
	推荐系统代码实现以及部署	什么是dubbo为服务
		代码实现
		项目部署
Elasticsearch理论(2晚)	Elasticsearch搜索原理	倒排索引与lucene框架原理	直播讲座
		单lucene搜索引擎的原理
		Elasticsearch集群分布式搜索原理
	Elasticsearch实战	Elasticsearch集群搭建
		可视化UI 服务讲解与任务布置
		CURL 命令创建es数据
Storm理论(3晚)	Storm介绍以及代码实战	Storm实时分析框架原理与比较	直播讲座
		本地集群运行Storm框架
		IDE环境应用Storm及功能案例1
	Storm伪分布式搭建以及任务部署	IDE 本地集群运行与案例2
		Storm 伪分布式集群搭建
		Storm 任务部署
	Storm架构详解以及DRCP原理	Storm 架构解释
		Storm 全分布式集群搭建及任务部署
		drpc 同步实施分析与异步分析的异同及部署
虚拟化理论	kvm虚拟化	虚拟化原理	自学视频
		kvm虚拟化命令行操作
	docker	docker理论
		docker实操