写了一个公众号转 RSS 的网站

2015-06-20 13:52:36 +08:00
 berry10086

http://weirss.me
刚开始做,可以直接在首页搜索添加,也可以通过openid添加
数据来自搜狗微信搜索

11665 次点击
所在节点    分享创造
67 条回复
berry10086
2015-06-21 07:38:59 +08:00
@bornichildren 目前跑了一个月,还没事,希望能坚持很久
ulic95
2015-06-21 12:14:06 +08:00
@berry10086 很多抓不了,是搜狗的问题?
berry10086
2015-06-21 13:02:59 +08:00
@ulic95 是的,有的公众号搜狗搜不到,搜狗有的,我基本都能抓到
zangbob
2015-06-21 15:58:41 +08:00
已感谢+收藏。。。希望能用的久一些。。。不要像其他几位同学的作品,或者不能用了,或者打不开了。。
djyde
2015-06-21 18:12:20 +08:00
关于能坚持多久的问题 我觉得楼主可以尝试做成 open source,让每个人都可以搭建自己的爬虫
berry10086
2015-06-21 18:35:30 +08:00
@djyde 目前还在改进中,过段时间会开源
sinosure
2015-06-21 19:20:14 +08:00
@berry10086 不错啊,改版了。在线看的界面还有很多潜力,加上多用户支持,然后自动根据公账号汇聚timeline更新,这样rss都不需要用了,直接在线看,顺带再支持收藏到pocket、印象笔记,齐活
berry10086
2015-06-21 19:57:21 +08:00
@sinosure 在线看的那个界面还没有做,目前还只是导航,未来会先改进这个界面。然后优化抓取算法,现在是简单粗暴的4小时全部更新一次,想加入根据公众号更新频率动态调整抓取频率的功能,可以节省很多资源。抓取这块稳定后,就可以按你说的做在线阅读啦。前端不太懂,还有好多东西要学。
wogong
2015-06-21 21:31:15 +08:00
感谢。

另外对比了一下搜狗的微信搜索和微信公众帐号之间的差异,发现二者并不同步。搜狗上槽边往事的最新文章是0512,而公众帐号实际是0524,少了三篇文章。

继续对公众帐号内容的封闭性失望。
berry10086
2015-06-21 21:38:01 +08:00
@wogong 是的,搜狗的数据滞后,二十多很多公众号的内容在搜狗搜不到
sinosure
2015-06-21 23:49:28 +08:00
@berry10086 在线读每篇公众号内容的阅读界面基本没必要动,就目前公众号原汁原味即可,条目导航页面目前我在eink下看很舒服,比sougou的来说对eink很友好,导航界面有第三方收藏功能就ok了。
抓取策略的确是可以的,扫描公众号列表里面的更新时间,然后只增量更新就好了。但愿搜狗手下留情少制造障碍
berry10086
2015-06-22 00:18:03 +08:00
@sinosure 谢谢你的建议,我先试着改进抓取策略。担心收录帐号多了以后,频繁访问搜狗会被封,目前确实是增量更新,每个公众号最多缓存20篇文章在本地,旧文章只保留链接和标题归档
ulic95
2015-06-22 07:00:29 +08:00
@berry10086 这个网站倒是能抓取大部分: http://chuansong.me/ 不知道是不是纯手动录入的。
berry10086
2015-06-22 23:56:58 +08:00
@ulic95 在搜狗微信搜索上线前,传送门就有了,应该是自动采集的,但是不知道作者如何实现的
sinosure
2015-06-23 13:11:51 +08:00
@berry10086 会不会是模仿微信操作实现的呢,不通过搜狗,直接从微信内抓?
berry10086
2015-06-23 13:30:03 +08:00
@sinosure 有可能,搜狗没有的账号,传送门也有,而且还能获取点赞和阅读数,应该是在微信里抓的。
http://werank.cn/
sinosure
2015-06-25 14:37:37 +08:00
@berry10086 可否将parse_list输出结果里面再增加一项,每个条目的更新日期,这样有利于增量更新内容
berry10086
2015-06-25 14:44:43 +08:00
@sinosure js生成的页面没有时间戳,所以得不到精确到分钟的更新时间,只能得到日期。想要获取更新时间,需要通过分析js调用的接口才能实现,但是接口经常变化,维护成本高
sinosure
2015-06-25 15:46:25 +08:00
@berry10086 到日期足够了,我看到日期了,但不知道怎么取到那个p标签的值。。。
berry10086
2015-06-25 16:33:18 +08:00
@sinosure 日期我抓取了呀

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/200024

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX