Skip to content

yokiyokiyoki/crawlDouYin

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

抖音爬取

因为腾讯微视这边想知道做抖音的分析是大概一个怎么样的情况,我们可以做个 demo(抓的量极少,9000 个用户包括他们的粉丝和关注),通过数学建模尝试给他们方案(他们也不知道自己想要什么)

主要方法

  • 一开始爬虫组给了两个接口,通过 uid 分别拿到粉丝和关注的(上限最多 5000 个),但是这里拿不到用户的粉丝数和关注数(重要信息),只能根据粉丝数组来算,但是最多 5000 个不准确,后来换了新的能抓精确数的接口
  • 通过一个 uid 递归抓取粉丝接口,直到拿满 9000 个用户

结论

  • 用 9599 个用户拓展出了 15122878 个用户(1 千 5 百万的用户),其中 1303439 个不重复 id(130 多万)
  • KOL 在 9599 个用户中的占比为 0.115%,即为 9599 个用户中有 11 个 KOL(粉丝大于 1 万即 kol 用户)
  • 把 9599 个用户分成 3 组,用户 A 组 3200 个,用户 B 组 3200 个,用户 C 组 3199 个
    • 用户 A 组:平均粉丝数 89.71,平均关注数 1139.41
    • 用户 B 组:平均粉丝数 109.59,平均关注数 1481.78
    • 用户 C 组:平均粉丝数 69.75,平均关注数 1324.39

About

🐇抖音数据爬取

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published