新手刚学 gevent,请帮忙看看我写的代码

2016-09-22 15:07:47 +08:00
 JianBingXia

麻烦帮我看看下面的代码,我这里在最后会报错,不知什么原因.

gevent.hub.LoopExit: ('This operation would block forever', <Hub at 0x2f62af8 select default pending=0 ref=0>)

还有我这段代码有什么问题吗?有哪些地方可以优化,求赐教.

我是新手,代码可能比较 low,求"教做人".

谢谢. (还请jiandan同学放过....我就是学习下)

# -*- coding:utf-8 -*-

import gevent
import gevent.queue
import requests
from lxml import etree

url_queue = gevent.queue.JoinableQueue(100)
headers = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
}


def spider():
    while True:
        url = url_queue.get()
        if url is None:
            url_queue.task_done()
            break

        try:
            html = requests.get(url, headers=headers, timeout=1).content
            selector = etree.HTML(html)
            title = selector.xpath('//a[@href="%s"]/text()' % url)[0]
            print(title)
        except Exception as e:
            print(e)


if __name__ == '__main__':
    urls = [
        'http://jandan.net/2016/09/22/migrants-choice.html',
        'http://jandan.net/2016/09/22/farting-really-good.html',
        'http://jandan.net/2016/09/22/special-cleaner.html',
        'http://jandan.net/2016/09/22/hand-mobile-phone.html',
        'http://jandan.net/2016/09/22/beer-you-order.html',
        'http://jandan.net/2016/09/22/pigeons-can-read.html',
        'http://jandan.net/2016/09/22/snake-inter-species.html',
        'http://jandan.net/2016/09/21/north-koreas-internet-2.html',
        'http://jandan.net/2016/09/21/mona-lisa-overrated.html',
        'http://jandan.net/2016/09/21/antikythera-ancient-skeleton.html',
        'http://jandan.net/2016/09/21/mentality-fish.html',
        'http://jandan.net/2016/09/21/things-smuggled-space.html',
        'http://jandan.net/2016/09/21/water-bear.html',
        'http://jandan.net/2016/09/21/oldest-fishing-hooks.html',
        'http://jandan.net/2016/09/21/b-21-raider.html',
        'http://jandan.net/2016/09/21/paper-cuts-hurt.html',
        'http://jandan.net/2016/09/21/cat-ecological-disaster.html',
        'http://jandan.net/2016/09/21/pluto-owns-heart.html',
        'http://jandan.net/2016/09/21/a-teenage-girl.html',
        'http://jandan.net/2016/09/21/light-drive-men.html',
        'http://jandan.net/2016/09/21/ai-analyses-mammograms.html',
        'http://jandan.net/2016/09/21/burnt-cheese.html',
        'http://jandan.net/2016/09/21/black-hole-spaghetti.html',
        'http://jandan.net/2016/09/21/womens-pubic-hair.html'
    ]
    for url in urls:
        url_queue.put(url)
    threads = []
    for i in range(1, 3):
        threads.append(gevent.spawn(spider))
    gevent.joinall(threads)

4191 次点击
所在节点    Python
12 条回复
Sylv
2016-09-22 15:35:03 +08:00
哈,邀请煎蛋网首席技术官 colt 前来围观 @kungfuchicken
JianBingXia
2016-09-22 15:42:42 +08:00
@Sylv 666
sylecn
2016-09-22 15:46:17 +08:00
看到好几个问题:

1. 为什么要自己写 Queue ,不用 gevent.pool?
2. 为什么用了 reqeusts 但是没有做 monkey patching ?这样引入 gevent 的好处全没了。
3. spider() 的 while 循环,队列和 gevent thread 的使用,这里是一团糟。

如果只是为了功能,建议全部用 gevent.pool 重写。如果想自己学着用 blocking queue ,需要先继续学习,然后重写。可以多看看别人的代码。学习内容不需要局限在 python 和 gevent. 多线程的东西都是相通的。
JianBingXia
2016-09-22 15:49:12 +08:00
@sylecn 十分感谢,我这就去"补课"
qwer1234asdf
2016-09-22 17:09:52 +08:00
@sylecn 如楼主代码所示,即使没打猴子布丁也不能说没有了一点 gevent 的作用了吧,打上了,只是将 python 里的很多调用改成了携程方式而已……不知道我的理解对不对
qwer1234asdf
2016-09-22 17:15:50 +08:00
@sylecn 另外,文档也声明猴子布丁是 evil 的,我目前也在一个爬虫中用到了 gevent ,遇到了两个问题:其一,我的爬虫运行时会有插入数据库的操作,打上布丁后,一直报数据库连接池益处的错误,这个倒是通过增大连接池解决了。另一个问题是,爬虫跑着的时候,会莫名其妙的报段错误,没打布丁前,从未出现过这个问题……
qwer1234asdf
2016-09-22 17:25:31 +08:00
@sylecn 最后,我以为,楼主这种方式,携程的粒度比较大……我也是类似的方式,不过没有用到 queue 之类的……爬到了数据直接入库和存盘
kungfuchicken
2016-09-22 18:06:55 +08:00
已经关注,反爬虫系统规则跟着楼主更新....
sylecn
2016-09-22 18:20:38 +08:00
>> 即使没打猴子布丁也不能说没有了一点 gevent 的作用了吧,打上了,只是将 python 里的很多调用改成了携程方式而已……不知道我的理解对不对

@qwer1234asdf 这个程序主要的阻塞就是在 requests.get(),这里没有做 monkey patching 等同于整个程序是同步的。你可以把正确实现的版本,使用 monkey patching 和不使用,执行时间做一个对比。取决于你的网络状况和使用的 gevent 线程数,使用 monkey patching 的版本应该快好几倍。

在 gevent, tornado 这种基于 coroutine 的异步机制下,只要一个严重耗时的地方阻塞,其它地方不阻塞就失去意义了,因为所有代码都是在一个 OS 级别的 thread 来执行的。

>> 文档也声明猴子布丁是 evil 的 以及你的数据库问题

gevent 不是万能的。测试其它软件库和 gevent 的兼容性是软件作者的责任。如果同时使用 gevent 和数据库,就要用支持 gevent 的数据库连接资源池。这些在 gevent 文档或者示范代码里面有。

>> 最后,我以为,楼主这种方式,携程的粒度比较大

这个我就不回复了,如果要讨论颗粒度,你先把正确代码摆出来再讨论比较好。
lennyh
2016-09-22 18:44:49 +08:00
为什么要用 gevent ? Python 3.5 的 async/awati 不是很好用吗……
qwer1234asdf
2016-09-22 20:54:45 +08:00
@sylecn mark 一下
JianBingXia
2016-09-23 09:48:33 +08:00
@kungfuchicken :-) 看我的眼神= =

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/308166

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX