V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  berry10086  ›  全部回复第 7 页 / 共 16 页
回复总数  317
1  2  3  4  5  6  7  8  9  10 ... 16  
python 看learning python
django 看django book 和官方文档
2015-06-28 00:30:29 +08:00
回复了 wudaown 创建的主题 Python python 爬虫求助
我只想说,为什么不用requests
2015-06-27 23:29:16 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@berry10086 我测试过,不间断抓取大概30次就会触发反爬虫。
2015-06-27 23:28:15 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@kevin1452 经常换cookies就好了,我现在是10分钟更新一次cookies,效果不错
2015-06-27 12:25:29 +08:00
回复了 blackflag 创建的主题 PHP 有方法可以知道你是从什么网站点击我到我网站里的吗?
可以看nginx日志,用goaccess 生成html
2015-06-26 16:59:36 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@kevin1452 因为解析文章列表是用phantomjs实现的,所以很少被屏蔽。另外,10分钟更换一次cookies
2015-06-25 19:48:23 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@welly 你用的什么网络?是dns解析不了吗?
2015-06-25 18:07:53 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 抓全文不会超时,非常快,瓶颈在于搜狗,有反爬虫
2015-06-25 16:54:49 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 我之前是在kindle4rss里把来自微信的rss添加到一个文件夹里,但是这样在kindle上看文章列表时看不到文章出处,后来就改成都放在根目录了,可以看到出处。
2015-06-25 16:52:47 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 也就是说,你想要一个不是全文输出的rss?
2015-06-25 16:39:17 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure
ls = soup.select('#wxbox .txt-box')
link_list = []
for item in ls:
item_dict = {}
item_dict['date'] = ls.select('p .s-p')

这样应该可以,我没有测试
2015-06-25 16:34:33 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@berry10086 不对,list这里没有抓日期,我是在文章那个页面抓的,增量更新我是根据标题判断的,没有根据日期判断
2015-06-25 16:33:18 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 日期我抓取了呀
2015-06-25 14:44:43 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure js生成的页面没有时间戳,所以得不到精确到分钟的更新时间,只能得到日期。想要获取更新时间,需要通过分析js调用的接口才能实现,但是接口经常变化,维护成本高
2015-06-23 13:30:03 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 有可能,搜狗没有的账号,传送门也有,而且还能获取点赞和阅读数,应该是在微信里抓的。
http://werank.cn/
2015-06-22 23:56:58 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@ulic95 在搜狗微信搜索上线前,传送门就有了,应该是自动采集的,但是不知道作者如何实现的
2015-06-22 17:34:47 +08:00
回复了 berry10086 创建的主题 NGINX 求一段 Nginx 配置
@yanyuechuixue 抓公众号,生成rss,目前是直接从数据库生成xml,我想直接生成xml,然后用nginx直接把url映射到xml,可以减轻数据库压力
2015-06-22 11:03:38 +08:00
回复了 berry10086 创建的主题 NGINX 求一段 Nginx 配置
@Livid 找到方法了,谢谢
2015-06-22 00:18:03 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 谢谢你的建议,我先试着改进抓取策略。担心收录帐号多了以后,频繁访问搜狗会被封,目前确实是增量更新,每个公众号最多缓存20篇文章在本地,旧文章只保留链接和标题归档
2015-06-21 21:38:01 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@wogong 是的,搜狗的数据滞后,二十多很多公众号的内容在搜狗搜不到
1  2  3  4  5  6  7  8  9  10 ... 16  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   931 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 20:51 · PVG 04:51 · LAX 13:51 · JFK 16:51
Developed with CodeLauncher
♥ Do have faith in what you're doing.