V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  bytelee  ›  全部回复第 15 页 / 共 18 页
回复总数  341
1 ... 7  8  9  10  11  12  13  14  15  16 ... 18  
2016-01-24 23:32:18 +08:00
回复了 bytelee 创建的主题 Python 求助 关于 pyspider 使用多代理
@binux 最新更新

我尝试去掉了 @config 这些,直接在 self.craw 里边 加了 age 和 auto recaw,现在基本没问题了。

所以可能是我在使用 config 的时候使用的有些问题。
2016-01-24 11:42:37 +08:00
回复了 bytelee 创建的主题 Python 求助 关于 pyspider 使用多代理
@binux 是的 多谢提醒 昨天测试没问题 很赞的工具。不过有一个疑问,关于 every 和 age 的使用。我看文档不是很多。现在我用 itag 每次修改完后强制重新 load 一次。但是有个问题是这之后就一直不自动运行了,经常输出:

pyspider task done :on_start data:,on_start

是不是我的配置有问题?

from pyspider.libs.base_handler import *
import re
import datetime

class Handler(BaseHandler):
crawl_config = {
"itag":"v0.0.6"
}

@every(minutes=3)
@config(age=3*60)
def on_start(self):
self.crawl('http://www..com.cn/', callback=self.index_page)

@every(minutes=3)
@config(age=3*60)
def index_page(self, response):
for each in response.doc('a[href^="http"]').items():
href = each.attr.href
if re.match("http://www.xxxx.com.cn/gonglu/[^_]*/", href, re.U):
self.crawl(each.attr.href, callback=self.detail_page,save={'main_road_name':each.text()}, retries=10, auto_recrawl =True)

def detail_page(self, response):
road_name = response.save.get('main_road_name', '')
road_img_url = ""

for img_item in response.doc('td.hcenter > img').items():
road_img_url = img_item.attr.src

for each in response.doc('.roadlineB > li > a').items():
href = each.attr.href
if re.match("http://www.xxx.com.cn/gonglu/gaosu_[^cs]\w*/", href, re.U):
city_road_name = each.text()
self.crawl(each.attr.href, callback=self.detail_page,save={'main_road_name':road_name, 'city_road_name':city_road_name}, retries =10, auto_recrawl=True)

messages = []
for each in response.doc(".LKlistleftE > p").items():
message = each.text()
info = self.process_message(message)
if info:
messages.append(info)
city_road_name = response.save.get('city_road_name', '')
return dict(main_road_name=road_name, city_road_name=city_road_name, messages=messages, road_img_url=road_img_url)

def process_message(self, message):
return dict(content=message)

这是我的代码,不知道是不是有问题。

谢谢
2016-01-23 16:28:43 +08:00
回复了 bytelee 创建的主题 Python 求助 关于 pyspider 使用多代理
2016-01-23 16:16:40 +08:00
回复了 bytelee 创建的主题 Python 求助 关于 pyspider 使用多代理
多谢,居然忘了 @binux :)
2015-12-30 09:47:52 +08:00
回复了 bitbegin 创建的主题 NGINX 老罗提到的 openresty 是干啥的?就是 nginx 打个包?
这东西很好用
2015-12-17 00:55:26 +08:00
回复了 vincentxue 创建的主题 iDev [小测试] 以下情景中有哪些会造成循环引用?
还要分情况讨论 ARC MRC 这里边的表现也不同.
PS: 如果能贴上正确结论 就更好了
2015-10-09 00:06:06 +08:00
回复了 snowspace 创建的主题 iDev 苹果审核 app 会用模拟器吗?
apple 能够修改你的 ipa 然后在任何他们想测试的设备上跑。他们不用模拟器。最起码我没见过
2015-09-20 12:35:08 +08:00
回复了 fhefh 创建的主题 iDev 安全快速下载 Xcode 的姿势 ~~~~
腾讯就靠谱么 问题是 就和他们一直很有道德一样。。。。
经常用电脑 高中毕业就做了 目前没什么异样 不知道老了会不会有问题
2015-03-16 10:28:28 +08:00
回复了 PhiloSky 创建的主题 软件 12306 启用图形验证码,抢票工具失效,谁知道哪个还能用?
@kingwrcy 恩呢 就是不能登陆了。我说的版本能登陆。支持最新验证码格式了
2015-03-16 10:16:23 +08:00
回复了 PhiloSky 创建的主题 软件 12306 启用图形验证码,抢票工具失效,谁知道哪个还能用?
买票?如果你越狱了我给你iOS版本的 :)
2015-03-05 11:14:06 +08:00
回复了 kisshere 创建的主题 分享发现 大伙儿看看这个,国内 IT 行业真的有这么黑暗吗?
@WildCat 这是奇葩
2015-03-05 11:13:31 +08:00
回复了 luyiyuan129 创建的主题 北京 北京车牌摇号,屡摇不中,怎么办?
@bytelee 我租过一个 一个月1k,没碰到什么危险
2015-03-05 08:21:44 +08:00
回复了 kisshere 创建的主题 分享发现 大伙儿看看这个,国内 IT 行业真的有这么黑暗吗?
那以后在自己的app里边做广告收入,是不是也要这样搞了?
2015-02-26 17:50:47 +08:00
回复了 luyiyuan129 创建的主题 北京 北京车牌摇号,屡摇不中,怎么办?
租个吧 先买个便宜点的车开着 摇上号再置换
http://25.io/ 这不就是Mou的官网么
@oimotis cool! 感谢楼主
@oimotis 能支持自动部署到已有的oct站点么? 如果支持就更cool了 :)
那些拿走code的不留信息的是什么意思呢?楼主能发一个不?[email protected] 多谢
2014-12-29 22:13:01 +08:00
回复了 7colcor 创建的主题 问与答 求推荐智能手环,感觉很有必要关注自己的身体了
http://spire.io 不禁的想推销自己家的产品了 哈哈~~~
1 ... 7  8  9  10  11  12  13  14  15  16 ... 18  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   937 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 19:50 · PVG 03:50 · LAX 12:50 · JFK 15:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.