stupidcat
V2EX  ›  问与答

如何提取淘宝物品详情页上的所有图片?

  •  
  •   stupidcat · Feb 29, 2016 · 5635 views
    This topic created in 3750 days ago, the information mentioned may be changed or developed.

    我现在是用下面两个正则来匹配:

    \"[^"]\.(jpg|png)\"
    '[^']
    \.(jpg|png)'

    但是只能抓到一小部分图片,如下图所示:
    乱码
    除了那两张大的是 700*700 以外,其余都是小图

    (那两张大图是因为我还做了一步处理,把形如“ http://...-item_pic.jpg_50x50.jpg ”的图片地址转化为“ http://...-item_pic.jpg ”,以得到全尺寸的图片)

    但是这个物品详情页上有非常多的图片,那么应该怎么把所有的图片都抓下来呢??

    4 replies    2016-02-29 20:10:14 +08:00
    stupidcat
        1
    stupidcat  
    OP
       Feb 29, 2016
    比如物品页上的第一张详情图,三个帅哥合影的那张,在浏览器上查看网页源代码是可以看到的,就是“<img src="https://img.alicdn.com/imgextra/i3/482811141/TB2x2s2fVXXXXbjXpXXXXXXXXXX_!!482811141.jpg" align="absmiddle">”,但是在程序里跑的时候就找不到了。。。。。(我用的是 C#,因为要做一个图形界面)
    stupidcat
        2
    stupidcat  
    OP
       Feb 29, 2016
    那两个正则表达式是
    "[^"]*\.(jpg|png)"
    '[^']*\.(jpg|png)'
    yeyeye
        3
    yeyeye  
       Feb 29, 2016   ❤️ 1
    淘宝的图片是懒加载的吧 所以要做相关的数据分析吧
    vdo
        4
    vdo  
       Feb 29, 2016 via Android
    嘿嘿嘿
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   917 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 19:26 · PVG 03:26 · LAX 12:26 · JFK 15:26
    ♥ Do have faith in what you're doing.