写了一个公众号转 RSS 的网站

http://weirss.me
刚开始做，可以直接在首页搜索添加，也可以通过openid添加
数据来自搜狗微信搜索

berry10086

2015-06-25 16:34:33 +08:00

@berry10086 不对，list这里没有抓日期，我是在文章那个页面抓的，增量更新我是根据标题判断的，没有根据日期判断

berry10086

2015-06-25 16:39:17 +08:00

@sinosure
ls = soup.select('#wxbox .txt-box')
link_list = []
for item in ls:
item_dict = {}
item_dict['date'] = ls.select('p .s-p')

这样应该可以，我没有测试

sinosure

2015-06-25 16:47:24 +08:00

@berry10086 可能误解了我的意思，parse_essay方法有获取日期，但parse_list方法好像只取了标题和链接，如果也有日期输出就好了，不用去抓内容就能获得列表每个篇目的更新日期。
然后生成一个没有正文的rss，看的时候直接跳去微信原始页面看，省的直接看rss时图片被干掉

sinosure

2015-06-25 16:50:13 +08:00

@berry10086 我现在看公众号的思路是这样的，在ttrss下订阅多个公众号，然后ttrss可以自动汇聚近期更新的篇目到最新更新文章下，这些最新更新文章形成一个新的feed，这样只要订阅这一个feed就行了，混搭各种更新。

berry10086

2015-06-25 16:52:47 +08:00

@sinosure 也就是说，你想要一个不是全文输出的rss?

berry10086

2015-06-25 16:54:49 +08:00

@sinosure 我之前是在kindle4rss里把来自微信的rss添加到一个文件夹里，但是这样在kindle上看文章列表时看不到文章出处，后来就改成都放在根目录了，可以看到出处。

sinosure

2015-06-25 16:59:27 +08:00

@berry10086 有全文当然好啊，全文的文字部分留在ttrss里面，可以作为存档，还支持全文检索。
这不是担心抓全文超时么，有些再利用公众号内容的时候只需要搭建类似你http://weirss.me/account/sagacity-mac/的效果就好了，在线直接看
我这想法跟你的区别是，你是基于一个公众号生成文章列表，我是利用ttrss抽取多个公众号内容合并最新更新，做了个多个公众号的最新文章列表

berry10086

2015-06-25 18:07:53 +08:00

@sinosure 抓全文不会超时，非常快，瓶颈在于搜狗，有反爬虫

welly

2015-06-25 19:02:39 +08:00

好像挺不错的啊，就是me网址咋打不开

berry10086

2015-06-25 19:48:23 +08:00

@welly 你用的什么网络？是dns解析不了吗？

welly

2015-06-25 20:27:27 +08:00

@berry10086
Service Unavailable

The server is temporarily unable to service your request. Please try again later.
Reference #60.27b3d208.6baad6e8.1435235216

江西·移动

kevin1452

2015-06-26 15:03:17 +08:00

请问屏蔽的情况怎么样?我之前强行抓会屏蔽,后来生成cookie相对稳定了,但还是容易被屏蔽

berry10086

2015-06-26 16:59:36 +08:00

@kevin1452 因为解析文章列表是用phantomjs实现的，所以很少被屏蔽。另外，10分钟更换一次cookies

kevin1452

2015-06-27 19:55:36 +08:00

@berry10086 我开始只是访问了最后那个固定连接,之前的js并没有执行,所以屏蔽的比较快,后来执行了js之后相对好很多,,, 每次访问间距也拉大了很多.. 但是跑的时间长了还是会屏蔽一些时间之后再解封

berry10086

2015-06-27 23:28:15 +08:00

@kevin1452 经常换cookies就好了，我现在是10分钟更新一次cookies，效果不错

berry10086

2015-06-27 23:29:16 +08:00

@berry10086 我测试过，不间断抓取大概30次就会触发反爬虫。

2015-06-28 16:47:10 +08:00

感谢这东西主要是维护麻烦

hao312

2015-07-16 15:17:00 +08:00

出问题了？ RSS这2天没不更新

berry10086

2015-07-16 17:32:47 +08:00

@hao312 ip被搜狗封了

riccar

2015-07-19 18:17:43 +08:00

如果能看被屏蔽的就更好了，比如侠客岛的文章，经常有被举报屏蔽的，回头想看看不了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/200024

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.