自己设计的所有MapReduce案例,包括有单词统计、主播数据的清洗、疫情数据分析统计、互联网岗位数据分析、Java岗位分析统计、手机数据品牌的统计、2020考研各大学分数线分析统计、中国大学排名数据分析统计等等,后续慢慢加上其他的设计案例。
Data processing results文件夹是处理数据的结果集
文件夹 | 案例 | 描述 |
Word Count | WordCount | 单词的统计和排序 |
JD mobile data statistics | Brand sales related data statistics | 京东手机数据的分析统计,对同一品牌的销售量、销售额、评分进行汇总和平均,进行排序。 |
Anchor data statistics | Part I -- Extract data | 篇一,对主播数据的清洗和提取(如播放量、粉丝量等等) |
Part II -- Summation sort | 篇二,对篇一的处理结果进行进一步处理,汇总同一个主播的数据(如总播放量、总粉丝量等等),同时对一个数据的进行排序,排行榜 | |
Java job analysis statistics(Java岗位数据分析) | companytype-count | 公司规模的统计(民营、私企、国企等等) |
education-count | 学历要求分布统计 | |
workarea-salary-count | 工作地区的平均工资排行榜 | |
skill-label-count | 技能标签分布占比(如Spring、SSM、分布式等等) | |
workyear-count | 工作经验的要求分布占比 | |
Score line statistics of 2020 postgraduate entrance examination Universities | Statistics of College average score | 2020年高校考研平均分数线统计 |
Statistics of professional average score | 2020年考研各专业平均分数线统计 | |
University Professional Statistics Ranking | 2020年考研各高校开放专业数量统计 | |
Query of scores of each major in the University | 搜索某所大学的所有专业以及分数线,进行排名 | |
Ranking statistics of Chinese Universities(中国大学排名数据分析) | Star statistics | 星级排名的统计排序结果 |
Statistics of school running levels | 办学层次统计排序结果 | |
Average score ranking of school running level | 各办学层次的平均得分排名结果 | |
Statistics of distribution proportion of each score(电影数据集分析) | 电影各评分分布占比统计 | |
National Film quantity distribution statistics | 各国家电影数量分布统计 | |
Ranking of total film reviews | 各电影总评论数量排名 | |
Statistics of distribution proportion of film types | 电影类型分布占比统计 |