首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
宝塔
V2EX  ›  Python

技术渣,谁给写个爬虫,感谢

  •  
  •   onecode · 185 天前 · 13080 次点击
    这是一个创建于 185 天前的主题,其中的信息可能已经有所发展或是发生改变。
    137 回复  |  直到 2019-06-19 17:22:49 +08:00
    1  2  
        101
    onecode   184 天前
    @usingnamespace 博客园啊
        102
    RyanOne   184 天前
    你这直接是 json 了 ,PowerShell 的 Invoke-WebRequest 一把梭
        103
    cway   184 天前
    你的意思是把所有图片都爬下来,想想都很刺激呢
        104
    doctortao   184 天前
    最近流行以学习爬虫为名的开车?破站药丸啊。
        105
    jwh199588   184 天前
    你是想干什么,直接通过链接将图片下载到本地吗
        106
    loryyang   184 天前
    我很早写过一个爬桌面背景图片的爬虫,说实话,如果有反爬,就会难很多。至于谁给你写一个?写了也不给你
    PS:有些*黄 图*网站,会很卡,其实不是他网站问题,而是好多人在爬他
        107
    dongya   184 天前
    您尝试访问的网站类型属于[访问网站 /成人内容]已经被上网策略[ACL]拒绝访问。如果有疑问,请联系网络管理员。
        108
    pecopeco   184 天前
    口味太重。。。爬不动。。
        109
    killerv   184 天前
    本人穷,谁给点钱
        110
    killerv   184 天前
    楼主好像在开车
        111
    hhhfffhhh   184 天前
    爬了
    都不是高清的 还带水印 没啥意思

    有高清的不带水印的吗?手动狗头
        112
    xiaobai9927   184 天前
    这都是现成的接口了,还不会爬啊。。。
    我怀疑楼主在开车。。。
        113
    cway   184 天前
    这其实不算爬虫了,提交 http 请求获得 json 返回值,然后根据一定规则在电脑里建以 title 为名的文件夹,把图片都下载进去
        114
    DeWhite   184 天前
    @whitehack 这架飞机真实
        115
    DeWhite   184 天前
    @A1321A 厉害了,开飞机。
    我怀疑本贴很多人都开飞机,证据确凿了。
        116
    dorothyREN   184 天前
    我怀疑你在开车,而且我好像也有证据
        117
    c4f36e5766583218   184 天前
        118
    c4f36e5766583218   184 天前
    [Imgur]( )
        119
    dunn   184 天前
    一点都不助人为乐

    爬虫
        120
    xavier007   184 天前
    关键时刻还得看拍黄片(PHP)
    ```php
    $i =1;
    while (true) {
    $content = file_get_contents("http://adr.meizitu.net/wp-json/wp/v2/posts?page={$i}&per_page=40");
    $array = json_decode($content, true);
    var_dump($array);
    if ($array && count($array) > 0) {
    foreach ($array as $one) {
    $thumb_src = file_get_contents($one['thumb_src']);
    file_put_contents('./img/' . $one['title'] . '.jpg', $thumb_src);
    }
    } else {
    break;
    }
    usleep(1000);
    $i++;
    }
    ```
        121
    510908220   184 天前
    写个个简单的。
        122
    Rizio   184 天前
    直接看 pronhub 不好?再不然 C6
        123
    nikolausliu   184 天前
    @registerrr 我也好奇这个网站首页是什么
        124
    Tuuure   184 天前 via Android
    @onecode #22 那就做个爬虫工具,爬取网页上所有的图片链接并显示。
        125
    CatTom   184 天前
    貌似所有写爬虫的人第一练手都是妹子图(手动狗头)
        126
    jaylee77   184 天前
    这个贴我已经收藏了
        127
    Kazuhira   184 天前 via Android
    DIY...
        128
    sethverlo   184 天前
    能不能在标题里加个 NSFW ……
        129
    tikazyq   184 天前
    写好的爬虫可以用爬虫平台 Crawlab 来管理,试一下呗,https://github.com/tikazyq/crawlab
        130
    fank99   183 天前
    我怀疑你在开车。但我又没有证据
        131
    rffan   183 天前
    哇,我都不敢点开你的 JSON 里面的值。这车开的不错,我收藏一下。
        132
    evlos   183 天前 via iPhone
    Dick-driven Development 简称 DDD
        133
    overkazaf   183 天前
    import os
    import time
    import requests
    import sys

    def fetch(total_page, per_page):
    url_prefix = "http://adr.meizitu.net/wp-json/wp/v2/posts?"
    image_path = "./images"

    if not os.path.exists(image_path):
    os.mkdir(image_path)

    os.chdir(image_path)

    for i in range(1, int(total_page)):
    url = url_prefix + "page=" + str(i) + "&per_page=" + str(per_page)
    r = requests.get(url)
    d = r.json()
    for item in d:
    img_src = item['thumb_src']
    cmd = "wget -c " + img_src
    os.system(cmd)
    time.sleep(0.1)
    print 'Images have been succefully downloaded to ./images folder'

    if __name__ == "__main__":
    if len(sys.argv) == 3:
    [f, total_page, per_page] = sys.argv
    fetch(total_page, per_page)
    else:
    fetch(18, 100)



    我是雷锋,拿走不谢
        134
    overkazaf   183 天前
    格式有问题,codes 改到这里了: https://shimo.im/docs/uuUDfLT1yTgWtNFm/
        135
    hhzc   156 天前
    @zhtttyecho 110 的无门槛今天还能领吗?
        136
    zhtttyecho   156 天前
    @hhzc 活动截止到 6 月 18 号蛤,话说,你为什么在这个帖子艾特我。。。
        137
    hhzc   156 天前
    @zhtttyecho 那帖回复提示权限不够,所以在这里试试。
    1  2  
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1016 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 24ms · UTC 23:22 · PVG 07:22 · LAX 15:22 · JFK 18:22
    ♥ Do have faith in what you're doing.