V2EX › berry10086 的所有回复 › 第 7 页 / 共 16 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 16

❮

❯

2015-06-29 23:08:34 +08:00

回复了 zhangjieren 创建的主题 › 程序员 › 程序员入行 2 年深感自己不足想多学点东西望各位前辈指教一些方法（ php python 方面）

python 看learning python
django 看django book 和官方文档

2015-06-28 00:30:29 +08:00

回复了 wudaown 创建的主题 › Python › python 爬虫求助

我只想说，为什么不用requests

2015-06-27 23:29:16 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@berry10086 我测试过，不间断抓取大概30次就会触发反爬虫。

2015-06-27 23:28:15 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@kevin1452 经常换cookies就好了，我现在是10分钟更新一次cookies，效果不错

2015-06-27 12:25:29 +08:00

回复了 blackflag 创建的主题 › PHP › 有方法可以知道你是从什么网站点击我到我网站里的吗？

可以看nginx日志，用goaccess 生成html

2015-06-26 16:59:36 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@kevin1452 因为解析文章列表是用phantomjs实现的，所以很少被屏蔽。另外，10分钟更换一次cookies

2015-06-25 19:48:23 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@welly 你用的什么网络？是dns解析不了吗？

2015-06-25 18:07:53 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@sinosure 抓全文不会超时，非常快，瓶颈在于搜狗，有反爬虫

2015-06-25 16:54:49 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@sinosure 我之前是在kindle4rss里把来自微信的rss添加到一个文件夹里，但是这样在kindle上看文章列表时看不到文章出处，后来就改成都放在根目录了，可以看到出处。

2015-06-25 16:52:47 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@sinosure 也就是说，你想要一个不是全文输出的rss?

2015-06-25 16:39:17 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@sinosure
ls = soup.select('#wxbox .txt-box')
link_list = []
for item in ls:
item_dict = {}
item_dict['date'] = ls.select('p .s-p')

这样应该可以，我没有测试

2015-06-25 16:34:33 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@berry10086 不对，list这里没有抓日期，我是在文章那个页面抓的，增量更新我是根据标题判断的，没有根据日期判断

2015-06-25 16:33:18 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@sinosure 日期我抓取了呀

2015-06-25 14:44:43 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@sinosure js生成的页面没有时间戳，所以得不到精确到分钟的更新时间，只能得到日期。想要获取更新时间，需要通过分析js调用的接口才能实现，但是接口经常变化，维护成本高

2015-06-23 13:30:03 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@sinosure 有可能，搜狗没有的账号，传送门也有，而且还能获取点赞和阅读数，应该是在微信里抓的。
http://werank.cn/

2015-06-22 23:56:58 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@ulic95 在搜狗微信搜索上线前，传送门就有了，应该是自动采集的，但是不知道作者如何实现的

2015-06-22 17:34:47 +08:00

回复了 berry10086 创建的主题 › NGINX › 求一段 Nginx 配置

@yanyuechuixue 抓公众号，生成rss，目前是直接从数据库生成xml，我想直接生成xml，然后用nginx直接把url映射到xml，可以减轻数据库压力

2015-06-22 11:03:38 +08:00

回复了 berry10086 创建的主题 › NGINX › 求一段 Nginx 配置

@Livid 找到方法了，谢谢

2015-06-22 00:18:03 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@sinosure 谢谢你的建议，我先试着改进抓取策略。担心收录帐号多了以后，频繁访问搜狗会被封，目前确实是增量更新，每个公众号最多缓存20篇文章在本地，旧文章只保留链接和标题归档

2015-06-21 21:38:01 +08:00

回复了 berry10086 创建的主题 › 分享创造 › 写了一个公众号转 RSS 的网站

@wogong 是的，搜狗的数据滞后，二十多很多公众号的内容在搜狗搜不到

1 2 3 4 5 6 7 8 9 10 ... 16

❮

❯