1. Home
  2. 星主好文

不要写代码,你也可以抓取公众号标题

刷朋友圈,看到一篇文章,很有料,哈!这个公众号不错,关注一下。

翻一下历史文章吧,看看作者还写了什么其他好玩的东西。

从公众号打开历史文章页,往下滑动了几秒,哎,这样看的话,很费时间啊。

而且我又不想全部文章都看,有没有什么方法,可以看到全部文章标题,我根据标题,选择感兴趣的再看文章内容。

 

搜索一下,找到了下面几个解决方案。

1、「P大叔」(http://pdfuncle.com/):可以将公众号文章导出为PDF,很方便。

P 大叔 72 小时内才能导出,如果现在就想看,就需要等一段时间,放弃。

 

2、传送门(http://chuansong.me/):可以直观的看到文章标题列表。

我感兴趣的公众号,却是没有被收录,提交的话,估计要等一段时间了。放弃。

 

3、新榜(https://www.newrank.cn/):新榜的「公众号回采」功能,可以抓取文章的阅读数、点赞数、题图、等等等,多维度的数据

对于我来说,这么多数据,我用不到,而且价格有点贵。

没钱,放弃。

 

4、搜狗微信搜索(http://weixin.sogou.com/):可以通过关键字查找相关文章。

如果目标是某个确定的公众号,那搜狗就没有用武之地了,它只能显示最近的10条文章。

放弃。

 

5、编程:自己抓取公众号的标题。

额。。。这个,有点难度,放弃。

 

6、不用写代码的爬虫技能:用谷歌插件 webscraper,自己抓取感兴趣的公众号,需要的时候,随时抓,随时出结果。

而且入手简单,还是免费的。

我自己试了下,没问题,几分钟时间,很轻松的就将 1300多个标题全部抓下来了,而且真的一行代码都没有写。

如图:
不要写代码,你也可以抓取公众号标题webscraper知识星球图示1

下面是抓取公众号的操作详细步骤——

一、 下载安装软件

webscraper 是运行在谷歌浏览器之中,所以我们需要实际需要安装两个软件

这两个软件如果大家之前用过,就可以直接跳到第二步。

如果没有,可以看下面这个视频,里面详细介绍了安装步骤。

电脑观看体验更好


二、 抓取数据

我因为手头只有 mac 系统,所有我介绍一下 mac 的抓取方式。

1、从浏览器打开公众号历史列表

打开 mac 版微信,进入某个公众号,点开历史文章页面,如下图——

webscraper知识星球图示2不要写代码,你也可以抓取公众号标题

点击历史文章页面图标(上图标注2)后,会弹出一个窗口,可以看到下面的图片——

webscraper知识星球图示3

不要写代码,你也可以抓取公众号标题

这块如果你看到的是其他浏览器图标,则需要将系统默认浏览器设置为谷歌浏览器。这块自己百度一下

点击上图标注的浏览器logo,即可在浏览器查看公众号历史文章列表,这个页面,记为 A,不要关闭。

这个网页URL,也就是浏览器地址栏的信息,复制到某个地方保存下来,记为 B,这个很重要
如下图

不要写代码,你也可以抓取公众号标题webscraper知识星球图示4

如果你点开出现下面的情况——

webscraper知识星球图示5不要写代码,你也可以抓取公众号标题

说明你的微信版本太高,最新版的微信内置浏览器,所以无法通过浏览器查看。需要退回到上一个版本的微信,后台回复“微信”,即可下载重新安装

2、开始抓取数据

(1)在前面的 A 网页上,点击鼠标 右键 ——> 审查元素(检查)

可以看到下方界面,如果和图片不一致,说明你的webscraper安装可能出现点问题,可以回看上面的视频演示。

不要写代码,你也可以抓取公众号标题webscraper知识星球图示6

图片下方的一大列信息请忽略,能看到红框标注的 web scraper即可。

(2)点击 Create new sitemap ——> Import Sitemap,如下图。

不要写代码,你也可以抓取公众号标题webscraper知识星球图示7

点击 Import Sitemap 后,可以看到下面界面——

不要写代码,你也可以抓取公众号标题webscraper知识星球图示8

在 Sitemap JSON 右侧输入下面信息(一个字母都不能丢):

{“_id”:”testwechat”,”startUrl”:[“AAAAA“],”selectors”:[{“id”:”total”,”type”:”SelectorElementScroll”,”parentSelectors”:[“_root”],”selector”:”div.weui_media_box”,”multiple”:true,”delay”:”3000″},{“id”:”title”,”type”:”SelectorText”,”parentSelectors”:[“total”],”selector”:”h4.weui_media_title”,”multiple”:false,”regex”:””,”delay”:0},{“id”:”date”,”type”:”SelectorText”,”parentSelectors”:[“total”],”selector”:”p.weui_media_extra_info”,”multiple”:false,”regex”:””,”delay”:0}]}


注意!!上方加红加粗的AAAAA,大家需要替换成自己想要抓取的公众号历史文章界面的网址,这个网址,前面让大家复制保存记为 B了。(忘了的可以上拉看下)

如果这块出现“验证”的提示不要写代码,你也可以抓取公众号标题

说明你复制信息的时候,没复制全,可以返回检查一下。

Rename Sitemap,就是重新起个名字,你抓的哪个公众号,就取什么最好,做到顾名思义。(也可以不写,默认为 testwechat)

填完点击最下面的 Import Sitemap即可。

(3)开始抓取,点击中间栏 “Sitemap 你起的名字” ——> Scrape。

如下图——

不要写代码,你也可以抓取公众号标题webscraper知识星球图示9

出现下方界面,需要填两个信息,默认即可。

不要写代码,你也可以抓取公众号标题webscraper知识星球图示10

点击“Start scraping”,就是见证奇迹的时刻,

浏览器会弹出一个新窗口,可以看到,这个窗口会自动下拉,直到将公众号的文章全部抓取完毕才会停止,这个过程,你可以去做其他任何事情,但是不要关闭这个弹出窗口。

如果你出现下面这个界面,提示“验证”,卡住不动,说明你没有做上面的修改链接步骤,请回到上面第(2)步

webscraper知识星球图示11不要写代码,你也可以抓取公众号标题

等到数据抓取完毕,可以看到下面这个界面,点击 “refresh”
一定等抓完再点 refresh

webscraper知识星球图示12不要写代码,你也可以抓取公众号标题

(4)导出excel到电脑上:点击中间栏 “Sitemap 你起的名字” ——> Export data as CSV

如下图——

不要写代码,你也可以抓取公众号标题webscraper知识星球图示13

点击 Download now! ,如下图

webscraper知识星球图示14不要写代码,你也可以抓取公众号标题


至此,我们已经将一个公众号的所有标题,以及发文日期抓取完毕。下载的 CSV 文件可以用excel软件打开。

mac下用 Numbers 打开即可。

如果出现乱码,百度即可解决。

excel里面的内容,大家关注自己需要的即可,无关的列,可以删掉。

这里抓到的只是标题和时间,如果大家通过标题,对某篇文章感兴趣,可以复制标题,到搜狗微信搜索(http://weixin.sogou.com/)即可看到原版内容。

我问了几个windows系统的朋友,发现windows版的微信无法从浏览器打开公众号文章列表,也就是前面的 A 网页,如果能做到这点,那就可以按照上面的方法操作。

可能还有其他方法可以做到这点,windows的朋友可以试下,如果成功了,可以告诉我下。

如果实在不行的话,就找个有mac的朋友帮你抓下,很简单的,要不找明白也行的。


这几天有时间,将这个步骤,录了个视频,点击观看

 
本站的文章和资源来自互联网或者站长的原创,按照 CC BY -NC -SA 3.0 CN协议发布和共享,转载或引用本站文章应遵循相同协议。如果有侵犯版权的资源请尽快联系站长,我们会在24h内删除有争议的资源。

Leave a Reply

Your email address will not be published. Required fields are marked *

Contact Us

如需帮助,可以联系站长

QR code