怎么抓取公众号标题信息?不写代码也能抓公众号标题

2022-09-07 16:32 · 小编
A+ A-

刷朋友圈,看到一篇文章,很有料,哈!这个公众号不错,关注一下。

翻一下历史文章吧,看看作者还写了什么其他好玩的东西。

从公众号打开历史文章页,往下滑动了几秒,哎,这样看的话,很费时间啊。

而且我又不想全部文章都看,有没有什么方法,可以看到全部文章标题,我根据标题,选择感兴趣的再看文章内容。

 

搜索一下,找到了下面几个解决方案。

1、「P大叔」(http://pdfuncle.com/):可以将公众号文章导出为PDF,很方便。

P 大叔 72 小时内才能导出,如果现在就想看,就需要等一段时间,放弃。

 

2、传送门(http://chuansong.me/):可以直观的看到文章标题列表。

我感兴趣的公众号,却是没有被收录,提交的话,估计要等一段时间了。放弃。

 

3、新榜(https://www.newrank.cn/):新榜的「公众号回采」功能,可以抓取文章的阅读数、点赞数、题图、等等等,多维度的数据

对于我来说,这么多数据,我用不到,而且价格有点贵。

没钱,放弃。

 

4、搜狗微信搜索(http://weixin.sogou.com/):可以通过关键字查找相关文章。

如果目标是某个确定的公众号,那搜狗就没有用武之地了,它只能显示最近的10条文章。

放弃。

 

5、编程:自己抓取公众号的标题。

额。。。这个,有点难度,放弃。

 

6、不用写代码的爬虫技能:用谷歌插件 webscraper,自己抓取感兴趣的公众号,需要的时候,随时抓,随时出结果。

而且入手简单,还是免费的。

我自己试了下,没问题,几分钟时间,很轻松的就将 1300多个标题全部抓下来了,而且真的一行代码都没有写。

如图:



下面是抓取公众号的操作详细步骤——

一、 下载安装软件

webscraper 是运行在谷歌浏览器之中,所以我们需要实际需要安装两个软件

  • 谷歌浏览器
  • webscraper

这两个软件如果大家之前用过,就可以直接跳到第二步。

如果没有,可以看下面这个视频,里面详细介绍了安装步骤。

电脑观看体验更好


二、 抓取数据

我因为手头只有 mac 系统,所有我介绍一下 mac 的抓取方式。

1、从浏览器打开公众号历史列表

打开 mac 版微信,进入某个公众号,点开历史文章页面,如下图——


点击历史文章页面图标(上图标注2)后,会弹出一个窗口,可以看到下面的图片——




这块如果你看到的是其他浏览器图标,则需要将系统默认浏览器设置为谷歌浏览器。这块自己百度一下

点击上图标注的浏览器logo,即可在浏览器查看公众号历史文章列表,这个页面,记为 A,不要关闭。

这个网页URL,也就是浏览器地址栏的信息,复制到某个地方保存下来,记为 B,这个很重要
如下图



如果你点开出现下面的情况——



说明你的微信版本太高,最新版的微信内置浏览器,所以无法通过浏览器查看。需要退回到上一个版本的微信,后台回复“微信”,即可下载重新安装

2、开始抓取数据

(1)在前面的 A 网页上,点击鼠标 右键 ——> 审查元素(检查)

可以看到下方界面,如果和图片不一致,说明你的webscraper安装可能出现点问题,可以回看上面的视频演示。

图片下方的一大列信息请忽略,能看到红框标注的 web scraper即可。

(2)点击 Create new sitemap ——> Import Sitemap,如下图。



点击 Import Sitemap 后,可以看到下面界面——


在 Sitemap JSON 右侧输入下面信息(一个字母都不能丢):

{“_id”:”testwechat”,”startUrl”:[“AAAAA“],”selectors”:[{“id”:”total”,”type”:”SelectorElementScroll”,”parentSelectors”:[“_root”],”selector”:”div.weui_media_box”,”multiple”:true,”delay”:”3000″},{“id”:”title”,”type”:”SelectorText”,”parentSelectors”:[“total”],”selector”:”h4.weui_media_title”,”multiple”:false,”regex”:””,”delay”:0},{“id”:”date”,”type”:”SelectorText”,”parentSelectors”:[“total”],”selector”:”p.weui_media_extra_info”,”multiple”:false,”regex”:””,”delay”:0}]}


注意!!上方加红加粗的AAAAA,大家需要替换成自己想要抓取的公众号历史文章界面的网址,这个网址,前面让大家复制保存记为 B了。(忘了的可以上拉看下)

如果这块出现“验证”的提示


说明你复制信息的时候,没复制全,可以返回检查一下。

Rename Sitemap,就是重新起个名字,你抓的哪个公众号,就取什么最好,做到顾名思义。(也可以不写,默认为 testwechat)

填完点击最下面的 Import Sitemap即可。

(3)开始抓取,点击中间栏 “Sitemap 你起的名字” ——> Scrape。

如下图——



出现下方界面,需要填两个信息,默认即可。



点击“Start scraping”,就是见证奇迹的时刻,

浏览器会弹出一个新窗口,可以看到,这个窗口会自动下拉,直到将公众号的文章全部抓取完毕才会停止,这个过程,你可以去做其他任何事情,但是不要关闭这个弹出窗口。

如果你出现下面这个界面,提示“验证”,卡住不动,说明你没有做上面的修改链接步骤,请回到上面第(2)步



等到数据抓取完毕,可以看到下面这个界面,点击 “refresh”
一定等抓完再点 refresh



(4)导出excel到电脑上:点击中间栏 “Sitemap 你起的名字” ——> Export data as CSV

如下图——

点击 Download now! ,如下图





至此,我们已经将一个公众号的所有标题,以及发文日期抓取完毕。下载的 CSV 文件可以用excel软件打开。

mac下用 Numbers 打开即可。

如果出现乱码,百度即可解决。

excel里面的内容,大家关注自己需要的即可,无关的列,可以删掉。

这里抓到的只是标题和时间,如果大家通过标题,对某篇文章感兴趣,可以复制标题,到搜狗微信搜索(http://weixin.sogou.com/)即可看到原版内容。

我问了几个windows系统的朋友,发现windows版的微信无法从浏览器打开公众号文章列表,也就是前面的 A 网页,如果能做到这点,那就可以按照上面的方法操作。

可能还有其他方法可以做到这点,windows的朋友可以试下,如果成功了,可以告诉我下。

如果实在不行的话,就找个有mac的朋友帮你抓下,很简单的,要不找明白也行的。



点赞(0)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1545685@qq.com举报,一经查实,本站将立刻删除。
猜您喜欢

苹果开发者账号怎么申请,超详细版开发者账号注册流程2022

注册AppID首先你要有一个AppID账号,登录开发者官网https://developer.apple.com,在账号登录窗口中找到注册入口,进行账号注册。点击左侧按钮进入注册页注册时填写的主要信息有姓氏、名字、国家、出生日期、邮箱、密码、密码保护问题、图片验证码,邮箱验证码。注意填写的内容必须为全英文,不得出现中文...

0 955 10-07 17:15

注意力缺陷有哪些表现怎么治疗?注意力缺陷人群独特的优势

专注,通常被认为是一种好的特质,但是与此同时,也有看法认为这种特质,在一定程度上又会阻碍一个人的想象力亦或是创造力。比如梵高,就是最典型的例子,患有精神疾病的天才艺术家。而 ADHD 患者,也就是我们熟知的注意力缺陷多动障碍,通常被认为拥有一个混乱无序的大脑,因为他们总是表现出难以集中自己的注意力,总会分神,自控力差等...

0 818 09-08 17:03

梵高的向日葵值多少钱,梵高名画向日葵被泼番茄汁

当地时间10月14日中午11时(北京时间14日18时),英国国家美术馆内馆藏的梵高名作《向日葵》,被两名环保组织成员泼了两罐番茄汤罐头。据悉,《向日葵》外有一块玻璃屏保护。图片来源:网传视频截图随后,他们脱下外套,露出“Just Stop Oil(停止采石油)”字样的t恤,站在这件珍贵的艺术品下。有的观众倒吸一口凉气,...

0 521 10-15 22:59

职场禁忌有哪些?80%人都会遇到的情况

职场人多数都很害羞,在蛮多人的心理中,跟上司,尤其是跟老板接触的机会简直就是越少越好,然后不管是公司出台了对自己不利的制度,还是升职的名单里没有自己,还是同事抢了自己的客户,第一件想的事情都绝对不会是敲开领导的大门然后问一句为什么,而是跑到朋友圈发一句「老板实在是太可恶了」,仿佛这么做一切的事实就可以改变似的。事实上,...

0 932 09-07 14:17

自媒体怎么接广告赚钱,小白必读的自媒体接广告操作指南

抄袭者压根不用接广告就能赚翻,原创者不接广告举步维艰,困顿潦倒!虽然当下的自媒体市场还没有走到如此乱象丛生的局面,但是对于原创者来说,除了获取平台的阅读流量补贴之外,能够通过接广告获得额外的收益也是自媒体达人们的另一条不可复制的生存渠道。昨天的周二社群分享中,我们邀请来了甲方业内人士黎岩,她不仅是一位自媒体作者同时也是...

0 817 10-17 20:29

小说分销平台有哪些哪个好,最赚钱的2个正规小说分销平台推荐

一、什么是小说分销CPS项目其实小说分销项目就是建立一个微信公众号,然后链接付费小说平台,比如掌中云、微小宝等。作为他们的代理商,然后推广。用户可以在微信公众号通过你的小说商城付费阅读,然后获得一部分收益。至于小说市场,这里就不多说了。市场很大,用户的付费行为也已经普及,这是一个非常成熟的市场。我之前的文章也有介绍。二...

0 622 10-04 23:21
关注我们
在线咨询
返回顶部