发个来自 baidu 的爬虫 不是程序员 写的不好请轻喷

2016-04-01 12:44:25 +08:00
 Sequencer
import urllib.request
import re
import pdb
import webbrowser
from time import sleep


class Webpage:
    def __init__(self, url):
        # init page
        self.url = url
        header = {
            'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 8_2 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12D508 Safari/600.1.4'}
        request = urllib.request.Request(url, headers=header)
        sleep(2)
        webpage = urllib.request.urlopen(request)
        webpage = webpage.read()
        webpage_decode = webpage.decode()
        self.webpage = webpage_decode
        DCIM = re.compile(r'来自')
        title = DCIM.findall(webpage_decode)
        if len(title) != 0:
            webbrowser.open(url)
def Page(min ,max):
    for i in range(min, max):
        url ='http://yun.baidu.com/share/home?uk='+str(i)
        yield url

if __name__ == '__main__':
    for i in Page(1,5000):
        Webpage(i)
3300 次点击
所在节点    Python
7 条回复
knightdf
2016-04-01 13:06:05 +08:00
webbrowser.open(url)
leavic
2016-04-01 13:21:00 +08:00
10 年前,我们管这种一次打开 5000 个网页的东西叫做恶意脚本,确实很适合在愚人节用。
Tink
2016-04-01 13:32:19 +08:00
我昨晚下载完了,正在往数据库里导
Sequencer
2016-04-01 13:41:40 +08:00
@knightdf @leavic 有个判断语录 还有个 sleep 5000 个里面可能能找到一个
Sequencer
2016-04-01 13:43:51 +08:00
@Tink 你用的分布式爬的?
Tink
2016-04-01 13:48:09 +08:00
@Sequencer 我从 mega 上手动下载的。。。。
aksoft
2016-04-01 13:50:05 +08:00
今天是愚人节。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/267871

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX