V2EX 首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

你们一般都爬些什么?

  •  
  •   julyclyde · 68 天前 · 5214 次点击
    这是一个创建于 68 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我看很多人都从爬虫入手学习 python 啊,可是在我的认识里,基本上是个网站都有各种防爬措施了吧,那你们到底在爬什么呢?如何区分是自己的程序有问题还是被对方给防御了?
    第 1 条附言  ·  67 天前
    如何区分是自己的程序有问题还是被对方给防御了?
    60 回复  |  直到 2017-07-25 22:34:54 +08:00
        1
    duan602728596   68 天前 via iPhone
    爬手机某些 app 的数据,爬某些网站的数据并实时发送到群里,脚本节省人工的时间
        2
    tgxh   68 天前 via Android
    爬某番号站的磁力链接
        3
    cnbeining   68 天前
    爬 Chegg 的答案 HTML 解析成 Markdown 渲染成 PDF 就可以丢 iPad 上随时看了(暴露年龄)
        4
    0xvincebye   68 天前 via iPad
    爬美女图片呀
        5
    am241   68 天前
    合法福利图片
    历史价格记录
    公开的非直接提供的数据
        6
    Tunar   67 天前 via Android
    。宅男福利图片
        7
    Mutoo   67 天前
    例如在墨尔本,政府有开放数据平台,可以获得各种有意思的社会化数据。有提供相应的 API 接口读取,可以用爬虫自己采集整合到自己的网站。
    https://data.melbourne.vic.gov.au/
        8
    hotsymbol   67 天前
    爬知乎的各种照片
        9
    laoyuan   67 天前
    害羞组?
        10
    xoxo419   67 天前
    @am241 #5 都是实用数据.
        11
    xspoco   67 天前   ♥ 3
    请问有没有爬汤不热的啊 https://carry9109.tumblr.com/archive [NSFW]
        12
    xiayibu   67 天前
    中纪委数据
        13
    janxin   67 天前
    爱情动作片? XX 照?
    如果实在没什么要爬的,你也没必要非爬不可
        14
    lxml   67 天前
    Javbus, 一个 Java 学习网站
        15
    ivlioioilvi   67 天前 via Android
    1024
        16
    janxin   67 天前
        17
    jeffersonpig   67 天前
    爬写真集的下载链接然后自动下载解压
        18
    est   67 天前
    @xspoco 开车了。。
        19
    gauzeehom   67 天前
    爬山爬树
        20
    annielong   67 天前
    爬汤的太多了,但都没有管理功能,爬一次以后,不能检测更新文件
        21
    jiangzhuo   67 天前
    看最近有谁出什么问题八卦了,爬他相关的社交账号内容,顺手 archive。等他删除后把黑料卖给利益相关的。
        22
    am241   67 天前 via Android
    @xoxo419 对啊实用数据才有动力爬,尤其是妹子图片
        23
    zwik   67 天前
    爬花瓣和 p 站的图到本地 做个本地备份
        24
    ARhen   67 天前
    @lxml 我凑 我还真天真的百度了下,,,,想着又多了个 Java 网站....结果真是个 JAVa 网站....
        25
    timwei   67 天前
    页游的推广码
        26
    Rice   67 天前 via iPhone
    @lxml
    这网站学习 JAVA 会导致学得营养跟不上。
        27
    myself659410   67 天前
    爬数据: 房价, 股票
        28
    aaronzjw   67 天前 via Android
    煎蛋妹子图,知乎,豆瓣不要害羞小组,国外高清大图,汤不热,p**nhub 等
        29
    downsky   67 天前
    @am241 历史价格,淘宝里面有吗?同步一下,也让偶学习学习!
        30
    syncher   67 天前 via Android
    爬楼梯
        31
    ikeeper   67 天前
    mark 了,回头把你们说的都爬一下
        32
    jaky666   67 天前
    mark
        33
    hayao650   67 天前
    @lxml 谢谢推荐,我一定要好好学习 Java
        34
    caniuse   67 天前
    人体艺术图片
        35
    showgood163   67 天前
    看来 PYTHON 还是得学
        36
    binjoo   67 天前
    @lxml 我信了你的邪。
        37
    BadMan   67 天前
    我是从写脚本入门 Python 的,够小清新吧
        38
    2929899530pgy   67 天前
    一般晚上爬
        39
    wolffn   67 天前
    我一般都爬山。
        40
    ss0xt   67 天前
    第一印象 想说爬山的。。。
        41
    kangu   67 天前
    @ikeeper 哈哈哈哈,好主意,同 mark !!
        42
    af463419014   67 天前
    爬 V2EX 的文章,看这些文章哪些被删了,哪些被移动了,什么时间操作的
    然后可以给 livid 统计一下他的工时
        43
    mnhkahn   67 天前
    豆瓣害羞组
        44
    sxm   67 天前   ♥ 1
    @lxml 前不久用 PHP 爬过,3 大类的车牌差不多 34 万+,磁力 85 万+,各类图片 1 千万+(下载下来 4 百多 G,开了 30 个 PHP 进程来抓,花了 1 天多)
        45
    wlbcs   67 天前
    @myself659410 用的哪的接口啊?
        46
    Kalv8n   67 天前 via Android
    hentai 网站,不过看腻了又不想玩了
        47
    yu099   67 天前 via Android
    @sxm 数据还是很容易拿的,就是难以筛,好坏要是能用机器学习筛出来的话。
        48
    OpenJerry   67 天前
    mark
        49
    gulangyu   67 天前
    豆瓣害羞组爬虫已写好,高速运行中... 多谢科普!
        50
    stzz   67 天前
    靠,本来自制力就弱,结果不小心点开这个帖子
    今天鸡儿又没得放假了😢
        51
    mingyun   67 天前
    @janxin mark 了
        52
    ddjian   66 天前
    mark 了 谢谢各位!
        53
    wqqdhero   66 天前
    mark 感谢各位司机
        54
    myself659410   66 天前
    @wlbcs 强行爬取
        55
    linus3389   66 天前
    pixiv
        56
    icerwinter   66 天前 via iPhone
    A 级通缉令的数据
        57
    niuoh   66 天前
    推荐一个 http 代理网站 http://www.ip-chi.net
        58
    tumbzzc   66 天前
    tumblr、1024、各种视频网站,应有尽有
        59
    sunwei0325   66 天前
    给老司机们跪了
        60
    Mavious   60 天前 via iPhone
    在线学习,20 分钟要确认一次在线。机器代挂机。
    对搜罗各种数据没有兴趣。只是拿来辅助人工而已。偷偷懒。
    DigitalOcean
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   547 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.7.5 · 35ms · UTC 20:01 · PVG 04:01 · LAX 13:01 · JFK 16:01
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1