首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

现在大家爬虫爬淘宝都是用什么办法能全站大量爬取啊?给个思路吧?能用手机 app 端爬取吗?

  •  1
     
  •   z1421012325 · 63 天前 · 4634 次点击
    这是一个创建于 63 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前在搞电商爬虫,
    京东还行,还是能爬取的,一台机使用 scrapy 开个四个假的分布式窗口(配置差,不敢开太多,怕一觉起来电脑卡死),ip 被 ban 也不是很严重,除了一些页面需要使用 selenium 抓取之外(图书页面要下滑加载 js),其他的页面都可以直接抓取,不过如果中间掺杂需要 selenium 的页面会很慢,12 小时总共能爬 8w 页面(因为 scrapy 回调函数),一台机器能爬 3w 数据算多的了..


    但是淘宝就恶心到我了........ 反爬很严重,用 selenium 爬几下就 gg, cookies 之后也用不了,除非用新的,再说我也没有那么多账号弄 cookies

    根据用户行为来判断是否爬虫的吗?

    还是查找原始 ip 来 ban 掉 ip?高匿 ip 不行吗?

    那么能使用 app 加 mitmdump 拦截抓取数据保存,还是通过 pc 端加自制脚本(非 selenium)模拟用户点击+mitmweb 拦截数据?

    48 回复  |  直到 2019-06-24 10:45:26 +08:00
        1
    VDimos   63 天前 via Android   ♥ 2
    为啥说的不让你爬错了一样,于情于理不让你爬都没问题
        2
    shanlan   63 天前
    未经同意,擅自爬取数据违法。
        3
    o00o   63 天前 via Android
    PC 端连正常用户都受影响了,更何况爬虫了
        4
    z1421012325   63 天前
    @VDimos 我也知道啊,但是学习不商用,而且也不是要全部爬取,只要能运行成功一天就好了
        5
    z1421012325   63 天前
    @o00o app 端有没有试过?,我这边弄不了,机器开虚拟机配置不行,淘宝都打不开...
        6
    daquandiao2   63 天前
    你最后不都想到两种办法了 怎么不试试
        7
    z1421012325   63 天前
    而且我不一定全站爬取,只要热门商品前面的就行,大概是每个商品爬个 5 60 页就爬下一个
        8
    z1421012325   63 天前
    @shanlan 学习不商用,试试爬爬,加强技能
        9
    q397064399   63 天前   ♥ 3
    @shanlan #2 敞开大门做生意,换个姿势就不让插了? 真的是搞笑,哪天说不定我浏览器打开一下淘宝,就被定义为爬虫把我给抓走了,口袋罪何患无辞
        10
    z1421012325   63 天前
    @daquandiao2 都算是构想,第一种我机器配置不行,在模拟器中开淘宝直接卡死,第二种还在想怎么弄,这不来 v2 上看看大家有什么思路不?
        11
    Baboonowen   63 天前   ♥ 1
    虽然我也写爬虫,但我不会觉得人家不让你爬错了……
        12
    z1421012325   63 天前
    @Baboonowen 也对,但是爬虫就是要反反爬吧
        13
    sobigfish   63 天前
    讨厌这些害的我正常浏览都要登录的 爬虫,但同时觉得,电商网站就应该明码实价,提供 API 给出价格都是应该的
        14
    zxcslove   63 天前
    @q397064399 根子就是不想公开竞争,弄羊毛忽悠用户,不好忽悠的用户都去死
        15
    zxcslove   63 天前
    @shanlan 相当于规定销售商品应当明码标价的情况下,未按商场指定方式看价格违法
        16
    Jirajine   63 天前 via Android
    mitm 可以试试吧,用大量客户端+自动操作脚本。我就是用这玩意配合自动操作脚本爬取一些 flash 内容(逆向 ActionScript 太痛苦)
        17
    cabing   63 天前
    我以前觉得还行吧~~,分析页面 js,ip 可以买个代理啥的。

    以前公司有个店铺卖书的,买个工具需要花钱,为了省钱,就爬过自己店铺的数据,然后再整理和分析。。
        18
    vzev   63 天前
    "但是淘宝就恶心到我了" 淘宝肯定也在想你恶心到它了,哈哈!
        19
    kppwp   63 天前 via iPhone
    是通过用户行为分析的,一般还是用大量 ip 代理去解决问题。
        20
    mrcn   63 天前 via Android
    淘宝天猫…我正常用户都用不了…
        21
    akira   63 天前
    有海量 ip/账号 肯定可以爬
        22
    z1421012325   63 天前
    @akira ip 倒是没啥问题,问题是账号,再说了如果被发现是爬虫,那么这个账号短时间内不能使用了,还有貌似每天都会让你登陆一次获取 cookies..
        23
    www6688w   63 天前
    用谷歌插件模拟真实用户采集试试呢?
        24
    compiler   63 天前
    我理解淘宝有反爬团队,干不过就加入,哈哈哈
        25
    turi   63 天前
    淘宝有自动拨号 vps,每次 连上都是不同 ip.
        26
    hgjian   63 天前 via Android
    @turi 能提供一下搜索关键词吗?没找到啊
        27
    turi   63 天前
    @hgjian ip 混播
    试试这个,去年还有拨号的 vps,今年就清理干净了。
        28
    turi   63 天前
    @hgjian

    这个关键词,还有的
    adsl ip
        29
    z1421012325   63 天前
    @www6688w 真实模式也没用啊,根据用户习惯分析就能轻松反爬,毕竟一个人不可能一天之内浏览这么多页面的
        30
    lonelygo   63 天前
    #24 @compiler 好办法,打入敌人内部。
        31
    weiqk   63 天前 via Android   ♥ 1
    你们要爬什么我帮你们爬,一分钱一个商品可好?
        32
    minami   63 天前   ♥ 1
    淘宝那个反爬策略,我一正常用户都觉得恶心,多开几个商品页面就开始弹东西了
        33
    jiejiss   63 天前
    把下滑、点击之类的,自己先实际操作七八遍,让程序 100%记录,然后重放出来
    包括等待页面加载的时候鼠标的移动,或者是拖动浏览器的右侧滚动条,也要录
    每两次操作之间的间隔建议也是基数+随机数
        34
    jiejiss   63 天前
    或者干脆接入打码平台
        35
    zdb1115   63 天前 via Android
    31 楼的可以爬一个品类的吗?
        36
    opengps   63 天前 via Android
    爬虫本不应该是被提倡的,毕竟原创成分太少,影响真原创方的负载能力。
        37
    DaWWW   63 天前
    动态 ip,控制访问速度,淘宝反爬很正常啊
        38
    dewi   63 天前 via iPhone
    TB 的话可以试试淘客的 api,或者直接爬大淘客上的,但是这个方法仅适用于有返利的宝贝,无返利的宝贝目前无解。。。
        39
    lovesky   63 天前 via Android
    selenium 是能被检测到的,你们要爬什么我帮你们爬,一分钱一个商品可好?
        40
    hgjian   63 天前 via Android
    @turi 感谢提供
        41
    bigbigeggs   63 天前
    这个爬取好像市场价,两毛一条。
    selenium 好像不行,会有下拉框。
    可以试试 ip,那种有真实用户下单的 ip 段
        42
    kingfalse   63 天前 via Android
    周瑜打黄盖,常威咬来福。
        43
    zzy578   63 天前
    我爬过一个店铺的,在 network 里找对数据的请求,分析 json 拿数据
    这个 url 没有反爬,把 cookie 加上就可以
        44
    z1421012325   63 天前
    @zzy578 详情页没啥反爬,只是列表页不好弄
        45
    weiqk   62 天前 via Android
    @zdb1115 当然可以
        46
    Jaho   62 天前
    要付费爬算我一个[手动狗头]
        47
    yebo777   62 天前
    淘宝现在都不能正常使用,动不动就要验证
        48
    fank99   62 天前
    淘宝大众点评都是出了名的难爬。。没发现百度都说"由于该网站的 robots.txt 文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述"
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2054 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 23ms · UTC 04:25 · PVG 12:25 · LAX 21:25 · JFK 00:25
    ♥ Do have faith in what you're doing.