V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
onecode
V2EX  ›  Python

技术渣,谁给写个爬虫,感谢

  •  
  •   onecode · 2019-05-21 16:34:24 +08:00 · 16805 次点击
    这是一个创建于 1794 天前的主题,其中的信息可能已经有所发展或是发生改变。
    137 条回复    2019-06-19 17:22:49 +08:00
    1  2  
    onecode
        101
    onecode  
    OP
       2019-05-22 10:50:35 +08:00
    @usingnamespace 博客园啊
    RyanOne
        102
    RyanOne  
       2019-05-22 11:12:21 +08:00
    你这直接是 json 了 ,PowerShell 的 Invoke-WebRequest 一把梭
    cway
        103
    cway  
       2019-05-22 11:25:51 +08:00
    你的意思是把所有图片都爬下来,想想都很刺激呢
    doctortao
        104
    doctortao  
       2019-05-22 11:30:26 +08:00
    最近流行以学习爬虫为名的开车?破站药丸啊。
    jwh199588
        105
    jwh199588  
       2019-05-22 11:31:09 +08:00
    你是想干什么,直接通过链接将图片下载到本地吗
    loryyang
        106
    loryyang  
       2019-05-22 11:33:20 +08:00
    我很早写过一个爬桌面背景图片的爬虫,说实话,如果有反爬,就会难很多。至于谁给你写一个?写了也不给你
    PS:有些*黄 图*网站,会很卡,其实不是他网站问题,而是好多人在爬他
    dongya
        107
    dongya  
       2019-05-22 11:50:02 +08:00
    您尝试访问的网站类型属于[访问网站 /成人内容]已经被上网策略[ACL]拒绝访问。如果有疑问,请联系网络管理员。
    pecopeco
        108
    pecopeco  
       2019-05-22 12:21:04 +08:00
    口味太重。。。爬不动。。
    killerv
        109
    killerv  
       2019-05-22 12:39:43 +08:00
    本人穷,谁给点钱
    killerv
        110
    killerv  
       2019-05-22 12:41:23 +08:00
    楼主好像在开车
    hhhfffhhh
        111
    hhhfffhhh  
       2019-05-22 12:42:52 +08:00
    爬了
    都不是高清的 还带水印 没啥意思

    有高清的不带水印的吗?手动狗头
    xiaobai9927
        112
    xiaobai9927  
       2019-05-22 12:44:41 +08:00
    这都是现成的接口了,还不会爬啊。。。
    我怀疑楼主在开车。。。
    cway
        113
    cway  
       2019-05-22 12:56:35 +08:00
    这其实不算爬虫了,提交 http 请求获得 json 返回值,然后根据一定规则在电脑里建以 title 为名的文件夹,把图片都下载进去
    DeWhite
        114
    DeWhite  
       2019-05-22 12:58:52 +08:00
    @whitehack 这架飞机真实
    DeWhite
        115
    DeWhite  
       2019-05-22 13:03:34 +08:00
    @A1321A 厉害了,开飞机。
    我怀疑本贴很多人都开飞机,证据确凿了。
    dorothyREN
        116
    dorothyREN  
       2019-05-22 13:36:26 +08:00
    我怀疑你在开车,而且我好像也有证据
    c4f36e5766583218
        117
    c4f36e5766583218  
       2019-05-22 14:11:21 +08:00
    c4f36e5766583218
        118
    c4f36e5766583218  
       2019-05-22 14:12:21 +08:00
    [Imgur]( )
    dunn
        119
    dunn  
       2019-05-22 14:33:07 +08:00
    一点都不助人为乐

    爬虫
    xavier007
        120
    xavier007  
       2019-05-22 14:35:08 +08:00
    关键时刻还得看拍黄片(PHP)
    ```php
    $i =1;
    while (true) {
    $content = file_get_contents("http://adr.meizitu.net/wp-json/wp/v2/posts?page={$i}&per_page=40");
    $array = json_decode($content, true);
    var_dump($array);
    if ($array && count($array) > 0) {
    foreach ($array as $one) {
    $thumb_src = file_get_contents($one['thumb_src']);
    file_put_contents('./img/' . $one['title'] . '.jpg', $thumb_src);
    }
    } else {
    break;
    }
    usleep(1000);
    $i++;
    }
    ```
    510908220
        121
    510908220  
       2019-05-22 14:48:44 +08:00
    Rizio
        122
    Rizio  
       2019-05-22 14:54:49 +08:00
    直接看 pronhub 不好?再不然 C6
    daguaochengtang
        123
    daguaochengtang  
       2019-05-22 14:59:02 +08:00
    @registerrr 我也好奇这个网站首页是什么
    Tuuure
        124
    Tuuure  
       2019-05-22 15:31:25 +08:00 via Android
    @onecode #22 那就做个爬虫工具,爬取网页上所有的图片链接并显示。
    CatTom
        125
    CatTom  
       2019-05-22 16:35:45 +08:00
    貌似所有写爬虫的人第一练手都是妹子图(手动狗头)
    jaylee77
        126
    jaylee77  
       2019-05-22 16:46:22 +08:00
    这个贴我已经收藏了
    Kazuhira
        127
    Kazuhira  
       2019-05-22 16:51:44 +08:00 via Android
    DIY...
    sethverlo
        128
    sethverlo  
       2019-05-22 16:54:41 +08:00
    能不能在标题里加个 NSFW ……
    tikazyq
        129
    tikazyq  
       2019-05-22 17:12:39 +08:00
    写好的爬虫可以用爬虫平台 Crawlab 来管理,试一下呗,https://github.com/tikazyq/crawlab
    fank99
        130
    fank99  
       2019-05-23 09:57:35 +08:00
    我怀疑你在开车。但我又没有证据
    rffan
        131
    rffan  
       2019-05-23 10:23:00 +08:00
    哇,我都不敢点开你的 JSON 里面的值。这车开的不错,我收藏一下。
    evlos
        132
    evlos  
       2019-05-23 11:04:07 +08:00 via iPhone
    Dick-driven Development 简称 DDD
    overkazaf
        133
    overkazaf  
       2019-05-23 14:18:20 +08:00
    import os
    import time
    import requests
    import sys

    def fetch(total_page, per_page):
    url_prefix = "http://adr.meizitu.net/wp-json/wp/v2/posts?"
    image_path = "./images"

    if not os.path.exists(image_path):
    os.mkdir(image_path)

    os.chdir(image_path)

    for i in range(1, int(total_page)):
    url = url_prefix + "page=" + str(i) + "&per_page=" + str(per_page)
    r = requests.get(url)
    d = r.json()
    for item in d:
    img_src = item['thumb_src']
    cmd = "wget -c " + img_src
    os.system(cmd)
    time.sleep(0.1)
    print 'Images have been succefully downloaded to ./images folder'

    if __name__ == "__main__":
    if len(sys.argv) == 3:
    [f, total_page, per_page] = sys.argv
    fetch(total_page, per_page)
    else:
    fetch(18, 100)



    我是雷锋,拿走不谢
    overkazaf
        134
    overkazaf  
       2019-05-23 14:31:10 +08:00
    格式有问题,codes 改到这里了: https://shimo.im/docs/uuUDfLT1yTgWtNFm/
    hhzc
        135
    hhzc  
       2019-06-19 14:54:14 +08:00
    @zhtttyecho 110 的无门槛今天还能领吗?
    zhtttyecho
        136
    zhtttyecho  
       2019-06-19 15:26:52 +08:00
    @hhzc 活动截止到 6 月 18 号蛤,话说,你为什么在这个帖子艾特我。。。
    hhzc
        137
    hhzc  
       2019-06-19 17:22:49 +08:00
    @zhtttyecho 那帖回复提示权限不够,所以在这里试试。
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5253 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 08:28 · PVG 16:28 · LAX 01:28 · JFK 04:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.