GitHub

微信公众号爬虫

爬取公众号所有文章数据
支持自动识别验证码
离线数据库，包含文章原始信息，文章图片
微信文章预览
命令行方式调用

效果预览

控制台输出：

文章数据：

HTML预览：

实现原理

目前支持两种方式爬取文章。

1.搜狗微信

通过搜狗微信的搜索结果来抓取文章。

优点：这种方式不需要登录认证，操作简单。

缺点：只能抓取最近10条数据。

使用场景：适合配置定时抓取任务，来获取大量数据。

2.Ajax请求

截获微信公众号文章列表的Ajax请求参数，模拟微信客户端读取文章列表和文章信息。

优点：能获取公众号所有文章数据。

缺点：需要登录微信，并且通过工具手动设置Cookie等参数，才能使用。

使用场景：一次性大量抓取公众号数据，抓取完后配合搜狗法更新数据。

如何使用

必要环境

NodeJS & NPM, Chrome浏览器, 微信桌面客户端(Mac 或者 Windows都可)

初始化环境和编译

git clone [email protected]:f111fei/article_spider.git
cd article_spider
npm install typescript -g
npm install
tsc

配置Config

设置项目根目录下的config.json文件。字段定义如下：

interface Config {
    // 必填，要抓取的微信公众号名称。
    name: string;
    // 可选，若快打码平台的账号密码。用于搜狗抓取模式下自动识别验证码。
    ruokuai: {
        username: string;
        password: string;
    };
    wechat: {
        // 可选，要抓取文章的起始页，默认0
        start?: number;
        // 可选，要抓取的文章数，默认不限制
        maxNum?: number;
        // 可选，抓取模式(sougou, all)。默认all
        mode?: string;
        // 抓取模式为all时有效，公众号的biz字段，获取方法参见下面
        biz?: string;
        // 抓取模式为all时有效，当前cookie字段，获取方法参见下面
        cookie?: string;
        // 抓取模式为all时有效，当前appmsg_token字段，获取方法参见下面
        appmsg_token?: string;
    };
}

获取Ajax请求参数

如果抓取模式为sougou，请跳过此节。

要获取文章列表的Ajax请求数据，需要对获取文章列表数据的请求进行抓包，找到biz，cookie，appmsg_token等关键参数。下面介绍如何抓取请求参数。

以抓取NASA爱好者这个公众号为例。

1.打开公众号 --- 右上角 --- 点击查看历史消息

注意：配置里面的name字段，应该填写这里的微信号nasawatch，而不是NASA爱好者。

2.在打开的窗口中，点击菜单栏上的用默认浏览器(Chrome)打开，使用Chrome打开文章列表页。

3.如果在浏览器中打开出现 请在微信客户端打开链接。 的提示，说明这个URL经过加密了，请按照下面操作获取正确的URL。否则跳过此步。

关闭微信客户端，找到微信桌面客户端可执行程序的位置。使用命令行启动程序：

Windows下通常是:

"C:\Program Files (x86)\Tencent\WeChat\WeChat.exe" --remote-debugging-port=9222

Mac下通常是:

"/Applications/WeChat.app/Contents/MacOS/WeChat" --remote-debugging-port=9222

按照步骤1打开历史消息页。

使用Chrome浏览器打开URL http://127.0.0.1:9222/json。

复制url字段，在新标签页中打开，就可以看到正确的历史消息页了。

4.在历史消息页中，点击右键 ---- 检查，打开Chrome开发者工具 ---- 切换到Network页签 ---- 刷新浏览器。在右侧找到cookie, biz, appmsg_token等字段填入config.json中。

需要向下滚动列表页加载下一页找到 https://mp.weixin.qq.com/mp/profile_ext?action=getmsg 开头的请求，查看其参数。

这些字段可能几个小时之后就会失效，可以重新按照以上步骤重新获取。

启动爬虫

npm start

爬到的文章信息，图片，文章原始数据会存入项目根目录的db文件夹下。

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.vscode		.vscode
images		images
media		media
src		src
typings		typings
.gitignore		.gitignore
README.md		README.md
config.json		config.json
package.json		package.json
tsconfig.json		tsconfig.json
tslint.json		tslint.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

微信公众号爬虫

效果预览

实现原理

1.搜狗微信

2.Ajax请求

如何使用

必要环境

初始化环境和编译

配置Config

获取Ajax请求参数

启动爬虫

About

Releases

Packages

Languages

VanellopeAsher/article_spider

Folders and files

Latest commit

History

Repository files navigation

微信公众号爬虫

效果预览

实现原理

1.搜狗微信

2.Ajax请求

如何使用

必要环境

初始化环境和编译

配置Config

获取Ajax请求参数

启动爬虫

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages