发个来自 baidu 的爬虫不是程序员写的不好请轻喷

import urllib.request
import re
import pdb
import webbrowser
from time import sleep


class Webpage:
    def __init__(self, url):
        # init page
        self.url = url
        header = {
            'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 8_2 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12D508 Safari/600.1.4'}
        request = urllib.request.Request(url, headers=header)
        sleep(2)
        webpage = urllib.request.urlopen(request)
        webpage = webpage.read()
        webpage_decode = webpage.decode()
        self.webpage = webpage_decode
        DCIM = re.compile(r'来自')
        title = DCIM.findall(webpage_decode)
        if len(title) != 0:
            webbrowser.open(url)
def Page(min ,max):
    for i in range(min, max):
        url ='http://yun.baidu.com/share/home?uk='+str(i)
        yield url

if __name__ == '__main__':
    for i in Page(1,5000):
        Webpage(i)

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/267871

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

发个来自 baidu 的爬虫 不是程序员 写的不好请轻喷

发个来自 baidu 的爬虫不是程序员写的不好请轻喷