一:微博
因为GitHub页面中已有非常详细的描述,这里只贴出地址和运行结果。
地址: https://github.com/dataabc/weiboSpider
运行结果:(获取点赞数,转发数,评论数)
二:微信公众号
github地址: https://github.com/wnma3mz/wechat_articles_spider
先看结果图:(获取url和阅读数和点赞数)
2.1 原理介绍
2.1.1 抓取文章url
- 拥有一个微信个人订阅号,附上登陆和注册链接。微信公众平台
- 登陆之后,点击左侧菜单栏“管理”-“素材管理”。再点击右边的“新建图文素材”
弹出一个新的标签页,在上面的工具栏找到“超链接”并点击
弹出了一个小窗口,选择“查找文章”,输入需要查找的公众号,这里用“科技美学”公众号作为例子
点击之后,可以弹出该公众号的所有历史文章
2.1.2 抓取文章的阅读量和点赞量
1.首先安装Fiddler抓包工具软件
下载链接:https://www.telerik.com/download/fiddler/fiddler4
安装完成,只需点击同意,下一步安装即可。
2.Fiddler相关配置
安装完毕后,按下图图进行配置勾选,然后重启Fiddler。
按图进行配置操作,然后重启Fiddler。
登陆微信客户端,浏览该公众号的任意一篇推文
可以观察到这里的内容显示会有阅读量、点赞量、评论等
观察fiddler的监控数据,如下图显示
其中
/mp/getappmgsext?...
是我们推文内容的url,双击之后,fiddler界面右边出现如下图数据
2.2 用法
2.2.1 克隆项目并安装依赖
1 | git clone https://github.com/wnma3mz/wechat_articles_spider.git |
2.2.2 获取微信公众号token和cookie
登录微信公众号, 打开浏览器的开发者选项(F12), 推荐Chrome或者Firefox
2.2.2 获取个人微信号的token和cookie(要打开想要爬的公众号所属文章)
打开fiddler开始监控
登陆微信PC端,浏览该公众号的任意一篇推文
其中
/mp/getappmgsext?...
是我们推文内容的url,双击之后,fiddler界面右边出现如下图数据获取token
获取cookie
2.2.3 测试cookie和token(填入相关信息)
方法一(一次性检测):
1 | # coding=utf-8 |
方法二(分部检测):
在项目文件夹中有个test文件夹进入后
2.3 遇到的Bug
- 由于打开的文章获取的token和要去爬的公众号不属于同一公众号,于是会报这个错误。所以要重新打开相同的公众号文章获取token和cookie。