Skip to content

Latest commit

 

History

History
1010 lines (788 loc) · 127 KB

README.md

File metadata and controls

1010 lines (788 loc) · 127 KB


🚜 大数据成神之路目录

⛳ 上车前必读


⛳ 大数据开发基础篇

🎿Java基础 📝NIO 📖并发 🎸JVM 💵分布式 💾Zookeeper 👊RPC 🎨Netty 💻Linux
Java基础 NIO 并发容器 JVM 分布式 zookeeper RPC Netty Linux

⛳ 大数据框架学习篇

Hadoop Hive Spark Flink HBase Kafka Zookeeper


⛳ 大数据开发实战进阶篇

这里的文章主要是我平时发表在公众号,博客等的文章,精心挑选,以飨读者。

Flink实战进阶 Spark实战进阶 Kafka实战进阶 OLAP实战进阶


⛳ 大数据开发面试篇

面试系列合集 大数据算法


⛳ 个人公众号:octocat: 大数据精品文章合集

2020精品文章合集 2021精品文章合集 硬刚系列文章合集


⛳ 高屋建瓴总结篇


第一部分: 大数据开发基础篇

一、Java基础

📚 1.1 Java系统性学习
分类导航

二、NIO基础

📚 2.1 Netty系统系学习
📚 2.2 分类导航

三、Java并发容器

📚 3.1 系统性学习
3.2 分类导航

四、JVM深度解析和面试点

📚 4.1 系统性学习
4.2 分类导航
4.3 JVM 详解

五、分布式理论基础和原理

六、大数据框架开发基础-Zookeeper

七、大数据框架开发基础-RPC

八、大数据框架基石之网路通信-Netty

第二部分:大数据框架学习篇

一、Hadoop

📚 1.1 Hadoop系统性总结
📚 1.2 系统性学习

Hadoop学习专栏

1.3 分类导航
  1. 分布式文件存储系统 —— HDFS
  2. 分布式计算框架 —— MapReduce
  3. 集群资源管理器 —— YARN
  4. Hadoop 单机伪集群环境搭建
  5. Hadoop 集群环境搭建
  6. HDFS 常用 Shell 命令
  7. HDFS Java API 的使用
  8. 基于 Zookeeper 搭建 Hadoop 高可用集群
  9. Hadoop级简入门
  10. MapReduce编程模型和计算框架架构原理

二、Hive

📚 2.1 Hive系统性总结

Hive系统性总结(知识星球读者专享)

📚 2.2 系统性学习

Hive学习专栏

📚 2.3 分类导航
  1. Hive 简介及核心概念
  2. Linux 环境下 Hive 的安装部署
  3. Hive CLI 和 Beeline 命令行的基本使用
  4. Hive 常用 DDL 操作
  5. Hive 分区表和分桶表
  6. Hive 视图和索引
  7. Hive常用 DML 操作
  8. Hive 数据查询详解

三、Spark

📚 3.1 Spark系统性总结

📚 3.2 系统性学习

Spark Core :

  1. Spark 简介
  2. Spark 开发环境搭建
  3. 弹性式数据集 RDD
  4. RDD 常用算子详解
  5. Spark 运行模式与作业提交
  6. Spark 累加器与广播变量
  7. 基于 Zookeeper 搭建 Spark 高可用集群

Spark SQL :

  1. DateFrame 和 DataSet
  2. Structured API 的基本使用
  3. Spark SQL 外部数据源
  4. Spark SQL 常用聚合函数
  5. Spark SQL JOIN 操作

Spark Streaming :

  1. Spark Streaming 简介
  2. Spark Streaming 基本操作
  3. Spark Streaming 整合 Flume
  4. Spark Streaming 整合 Kafka

四、Flink

📚 4.1 Flink系统性总结

📚 4.2 系统性学习

📚 2.3 分类导航

  1. Flink 核心概念综述
  2. Flink 开发环境搭建
  3. Flink Data Source
  4. Flink Data Transformation
  5. Flink Data Sink
  6. Flink 窗口模型
  7. Flink 状态管理与检查点机制
  8. Flink Standalone 集群部署

Flink当前最火的实时计算引擎-入门篇

Flink当前最火的实时计算引擎-放弃篇

五、HBase

📚 5.1 Hbase系统性总结
📚 5.2 系统性学习
📚 5.3 分类导航
  1. Hbase 简介
  2. HBase 系统架构及数据结构
  3. HBase 基本环境搭建 (Standalone /pseudo-distributed mode)
  4. HBase 集群环境搭建
  5. HBase 常用 Shell 命令
  6. HBase Java API
  7. Hbase 过滤器详解
  8. HBase 协处理器详解
  9. HBase 容灾与备份
  10. HBase的 SQL 中间层 —— Phoenix
  11. Spring/Spring Boot 整合 Mybatis + Phoenix

六、Kafka

📚 6.1 Kafka系统性总结

Kafka系统性总结

📚 6.2 Kafka系统性学习

Kafka基本原理 :

  1. Kafka 简介
  2. 基于 Zookeeper 搭建 Kafka 高可用集群
  3. Kafka 生产者详解
  4. Kafka 消费者详解
  5. 深入理解 Kafka 副本机制

分布式消息队列Kafka原理及与流式计算的集成 :

  1. Apache-Kafka简介
  2. Apache-Kafka核心概念
  3. Apache-Kafka安装和使用
  4. Apache-Kafka编程实战
  5. Apache-Kafka核心组件和流程(副本管理器)
  6. Apache-Kafka核心组件和流程-协调器
  7. Apache-Kafka核心组件和流程-控制器
  8. Apache-Kafka核心组件和流程-日志管理器

七、Zookeeper

  1. Zookeeper 简介及核心概念
  2. Zookeeper 单机环境和集群环境搭建
  3. Zookeeper 常用 Shell 命令
  4. Zookeeper Java 客户端 —— Apache Curator
  5. Zookeeper ACL 权限控制

八、大数据算法

大数据算法

大数据算法

第三部分:大数据开发实战进阶篇

一、Flink实战进阶文章合集

Flink实战合集

点我查看Flink实战合集

系统性学习

  1. 菜鸟供应链实时技术架构演进
  2. 趣头条实战-基于Flink+ClickHouse构建实时数据平台
  3. ApacheFlink新场景-OLAP引擎
  4. 说说Flink DataStream的八种物理分区逻辑
  5. State Processor API:如何读取,写入和修改 Flink 应用程序的状态
  6. Flink滑动窗口原理与细粒度滑动窗口的性能问题
  7. 基于Flink快速开发实时TopN
  8. 使用 Apache Flink 开发实时 ETL
  9. Flink Source/Sink探究与实践:RocketMQ数据写入HBase
  10. Spark/Flink广播实现作业配置动态更新
  11. Flink全链路延迟的测量方式
  12. Flink原理-Flink中的数据抽象及数据交换过程
  13. Flink SQL Window源码全解析
  14. Flink DataStream维度表Join的简单方案
  15. Apache Flink的内存管理
  16. Flink1.9整合Kafka实战
  17. Apache Flink在小米的发展和应用
  18. 基于Kafka+Flink+Redis的电商大屏实时计算案例
  19. Flink实战-壳找房基于Flink的实时平台建设
  20. 用Flink取代Spark Streaming!知乎实时数仓架构演进
  21. Flink实时数仓-美团点评实战
  22. 来将可留姓名?Flink最强学习资源合集!
  23. 数据不撒谎,Flink-Kafka性能压测全记录!
  24. 菜鸟在物流场景中基于Flink的流计算实践
  25. 基于Flink构建实时数据仓库
  26. Flink/Spark 如何实现动态更新作业配置

二、Spark实战进阶文章合集

Spark实战合集

点我查看Spark实战合集

  1. 如果你在准备面试,好好看看这130道题
  2. ORC文件存储格式的深入探究
  3. 基于SparkStreaming+Kafka+HBase实时点击流案例
  4. HyperLogLog函数在Spark中的高级应用
  5. 我们常说的海量小文件的根源是什么?
  6. Structured Streaming | Apache Spark中处理实时数据的声明式API
  7. Spark面对OOM问题的解决方法及优化总结
  8. Spark 动态资源分配(Dynamic Resource Allocation) 解析
  9. Apache Spark在海致大数据平台中的优化实践
  10. Spark/Flink广播实现作业配置动态更新
  11. Spark SQL读数据库时不支持某些数据类型的问题
  12. 这个面试问题很难么 | 如何处理大数据中的数据倾斜
  13. Spark难点 | Join的实现原理
  14. 面试注意点 | Spark&Flink的区别拾遗
  15. Spark Checkpoint的运行原理和源码实现
  16. 阿里云Spark Shuffle的优化
  17. 使用Kafka+Spark+Cassandra构建实时处理引擎
  18. 基于HBase和Spark构建企业级数据处理平台
  19. SparkSQL在字节跳动的应用实践和优化实战
  20. SparkRDD转DataSet/DataFrame的一个深坑
  21. Spark和Flink的状态管理State的区别和应用
  22. Kafka+Spark Streaming管理offset的几种方法
  23. 从 PageRank Example谈Spark应用程序调优
  24. Spark调优|SparkSQL参数调优
  25. Flink/Spark 如何实现动态更新作业配置
  26. Stream SQL的执行原理与Flink的实现
  27. Spark将Dataframe数据写入Hive分区表的方案
  28. Spark中几种ShuffleWriter的区别你都知道吗?
  29. SparkSQL的3种Join实现
  30. 周期性清除Spark Streaming流状态的方法
  31. Structured Streaming之状态存储解析
  32. Spark SQL重点知识总结
  33. SparkSQL极简入门
  34. Spark Shuffle在网易的优化
  35. 广告点击数实时统计:Spark StructuredStreaming + Redis Streams
  36. Spark内存调优
  37. Structured Streaming 实现思路与实现概述
  38. Spark之数据倾斜调优
  39. 你不得不知道的知识-零拷贝
  40. Spark Streaming消费Kafka数据的两种方案

三、Kafka实战进阶文章合集

Kafka实战合集

点我查看Kafka实战合集

四、数据仓库实战系列

数据仓库实战合集

点我查看数据仓库实战合集

五、OLAP实战文章系列OLAP

六、硬刚系列文章合集

硬刚系列文章合集

七、2020精品文章合集

2020精品文章合集

实时计算篇

离线计算篇

数据仓库篇

面试题篇

其他

八、2021精品文章合集

2021精品文章合集

汇总部分

专题部分

Hadoop系列

Hive系列

HBase

ES等

Kafka/消息队列

Spark

Flink

数据仓库/数据湖

后端相关

不便分类的其他

面试综合系列

简历系列

面试系列合集


一、Hadoop

  1. Hadoop面试题总结(一)
  2. Hadoop面试题总结(二)——HDFS
  3. Hadoop面试题总结(三)——MapReduce
  4. Hadoop面试题总结(四)——YARN
  5. Hadoop面试题总结(五)——优化问题

二、Zookeeper

  1. Zookeeper面试题总结(一)

三、Hive

  1. Hive面试题总结(一)
  2. Hive面试题总结(二)

四、HBase

  1. HBase面试题总结(一)

五、Flume

  1. Flume面试题总结(一)

六、Kafka

  1. Kafka面试题总结(一)
  2. Kafka面试题总结(二)

七、Spark

  1. Spark面试题总结(一)
  2. Spark面试题总结(二)
  3. Spark面试题总结(三)
  4. Spark面试题总结(四)

Spark性能优化:

  1. Spark面试题总结(五)——几种常见的数据倾斜情况及调优方式
  2. Spark面试题总结(六)——Shuffle配置调优
  3. Spark面试题总结(七)——程序开发调优
  4. Spark面试题总结(八)——运行资源调优

本系列的大纲会根据实际情况进行调整,欢迎大家关注~


声明

文档中参考引用了网络上的博客和文章,大部分给出了出处,有些没写,如果造成了侵权行为,请您联系我,立即删除~

转载分享

建立本开源项目的初衷是基于个人学习与工作中对Java和大数据相关技术栈的总结记录,在这里也希望能帮助一些在学习Java和大数据过程中遇到问题的小伙伴,如果您需要转载本仓库的一些文章到自己的博客,请按照以下格式注明出处,谢谢合作。

作者:王知无
链接:https://mp.weixin.qq.com/s/0N4XSMFPuD7U_paGsBsblw
来源:《大数据技术与架构》

参与贡献

  1. 如果您对本项目有任何建议或发现文中内容有误的,欢迎提交 issues 进行指正。
  2. 对于文中我没有涉及到知识点,欢迎提交 PR。

扫我关注公众号

关注公众号:每天定时推送Hadoop/Spark/Flink等最新的大数据领域最新动态和精品技术文章!

扫我加我好友,打造高质量、高知识密度朋友圈!

扫我加群

备注来自GitHub加群,小助手会拉你进大数据讨论组,一起学习交流,期待你的到来~

如果对你有用,欢迎请我喝杯咖啡

备注Github,感谢您~

言而总之

大数据成神之路 该系列文章将为希望从事大数据开发或者由后端转型为大数据开发的工程师们指出需要学习的知识点和路径,本系列文章同时致敬我曾经在网络上看到无数个Java和大数据系列文章,深受启发同时也收货很多。