V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
jerryge
V2EX  ›  Node.js

抓取淘宝店铺商品

  •  
  •   jerryge · Apr 12, 2014 · 8348 views
    This topic created in 4410 days ago, the information mentioned may be changed or developed.
    写了个简单的爬虫,想抓下一家淘宝店正在出售的宝贝(/search.htm?spm=a1z10.1.0.0.N8xbI3&search=y&orderType=hotsell_desc)。请求频率7秒抓一次,但发现抓了几次之后就要求登陆,跳转到登陆页面。请问有类似经验的同学吗
    11 replies    1970-01-01 08:00:00 +08:00
    manhere
        1
    manhere  
       Apr 12, 2014 via Android
    淘宝api
    leofml
        2
    leofml  
       Apr 12, 2014
    检查 Referer, UA 和 Cookies
    jsonline
        3
    jsonline  
       Apr 12, 2014 via Android
    用phantom吧
    alay9999
        4
    alay9999  
       Apr 12, 2014
    @manhere API 好像只能提供你账号对应店铺的商品数据吧
    andrewrong
        5
    andrewrong  
       Apr 12, 2014
    公司之前是使用淘宝API的,但是后来淘宝封了,现在的话是自己写爬虫爬,但是为了防止淘宝识别就通过代理(VPN)进行爬,这样就可以防止淘宝探测到...你的现象比较像被淘宝检测出然后进行限制了..当然是我的猜测...不是很懂
    alexapollo
        6
    alexapollo  
       Apr 12, 2014   ❤️ 1
    bladecamper
        7
    bladecamper  
       Apr 12, 2014
    API现在基本等于封闭状态。
    用火车头采集器吧。
    ryan10107
        8
    ryan10107  
       Apr 12, 2014
    可以AD拨号吧,搞多点cookie和header的模拟,现在淘宝封店铺商品列表封得很厉害,做爬虫还是看IP的
    jerryge
        9
    jerryge  
    OP
       Apr 13, 2014
    @andrewrong 是指通过VPN轮训IP吗
    jerryge
        10
    jerryge  
    OP
       Apr 13, 2014
    @manhere 现在的API基本废了
    jerryge
        11
    jerryge  
    OP
       Apr 13, 2014
    @ryan10107 倒霉孩子不是ADSL上网的。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2923 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 12:35 · PVG 20:35 · LAX 05:35 · JFK 08:35
    ♥ Do have faith in what you're doing.