写了一个公众号转 RSS 的网站

2015-06-20 13:52:36 +08:00
 berry10086

http://weirss.me
刚开始做,可以直接在首页搜索添加,也可以通过openid添加
数据来自搜狗微信搜索

11684 次点击
所在节点    分享创造
67 条回复
berry10086
2015-06-25 16:34:33 +08:00
@berry10086 不对,list这里没有抓日期,我是在文章那个页面抓的,增量更新我是根据标题判断的,没有根据日期判断
berry10086
2015-06-25 16:39:17 +08:00
@sinosure
ls = soup.select('#wxbox .txt-box')
link_list = []
for item in ls:
item_dict = {}
item_dict['date'] = ls.select('p .s-p')

这样应该可以,我没有测试
sinosure
2015-06-25 16:47:24 +08:00
@berry10086 可能误解了我的意思,parse_essay方法有获取日期,但parse_list方法好像只取了标题和链接,如果也有日期输出就好了,不用去抓内容就能获得列表每个篇目的更新日期。
然后生成一个没有正文的rss,看的时候直接跳去微信原始页面看,省的直接看rss时图片被干掉
sinosure
2015-06-25 16:50:13 +08:00
@berry10086 我现在看公众号的思路是这样的,在ttrss下订阅多个公众号,然后ttrss可以自动汇聚近期更新的篇目到最新更新文章下,这些最新更新文章形成一个新的feed,这样只要订阅这一个feed就行了,混搭各种更新。
berry10086
2015-06-25 16:52:47 +08:00
@sinosure 也就是说,你想要一个不是全文输出的rss?
berry10086
2015-06-25 16:54:49 +08:00
@sinosure 我之前是在kindle4rss里把来自微信的rss添加到一个文件夹里,但是这样在kindle上看文章列表时看不到文章出处,后来就改成都放在根目录了,可以看到出处。
sinosure
2015-06-25 16:59:27 +08:00
@berry10086 有全文当然好啊,全文的文字部分留在ttrss里面,可以作为存档,还支持全文检索。
这不是担心抓全文超时么,有些再利用公众号内容的时候只需要搭建类似你http://weirss.me/account/sagacity-mac/的效果就好了,在线直接看
我这想法跟你的区别是,你是基于一个公众号生成文章列表,我是利用ttrss抽取多个公众号内容合并最新更新,做了个多个公众号的最新文章列表
berry10086
2015-06-25 18:07:53 +08:00
@sinosure 抓全文不会超时,非常快,瓶颈在于搜狗,有反爬虫
welly
2015-06-25 19:02:39 +08:00
好像挺不错的啊,就是me网址咋打不开
berry10086
2015-06-25 19:48:23 +08:00
@welly 你用的什么网络?是dns解析不了吗?
welly
2015-06-25 20:27:27 +08:00
@berry10086
Service Unavailable

The server is temporarily unable to service your request. Please try again later.
Reference #60.27b3d208.6baad6e8.1435235216

江西·移动
kevin1452
2015-06-26 15:03:17 +08:00
请问 屏蔽的情况怎么样?我之前强行抓会屏蔽,后来生成cookie相对稳定了,但还是容易被屏蔽
berry10086
2015-06-26 16:59:36 +08:00
@kevin1452 因为解析文章列表是用phantomjs实现的,所以很少被屏蔽。另外,10分钟更换一次cookies
kevin1452
2015-06-27 19:55:36 +08:00
@berry10086 我开始只是访问了最后那个固定连接,之前的js并没有执行,所以屏蔽的比较快,后来执行了js之后相对好很多,,, 每次访问间距也拉大了很多.. 但是跑的时间长了 还是会屏蔽一些时间之后 再解封
berry10086
2015-06-27 23:28:15 +08:00
@kevin1452 经常换cookies就好了,我现在是10分钟更新一次cookies,效果不错
berry10086
2015-06-27 23:29:16 +08:00
@berry10086 我测试过,不间断抓取大概30次就会触发反爬虫。
14
2015-06-28 16:47:10 +08:00
感谢 这东西主要是维护麻烦
hao312
2015-07-16 15:17:00 +08:00
出问题了? RSS这2天没不更新
berry10086
2015-07-16 17:32:47 +08:00
@hao312 ip被搜狗封了
riccar
2015-07-19 18:17:43 +08:00
如果能看被屏蔽的就更好了,比如侠客岛的文章,经常有被举报屏蔽的,回头想看看不了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/200024

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX