V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
jason52
V2EX  ›  Python

手把手教你写妹子图爬虫再次更新一发,这次先出个问题,再安利美女学霸一枚

  •  
  •   jason52 · 2015-05-23 18:09:06 +08:00 · 7155 次点击
    这是一个创建于 3253 天前的主题,其中的信息可能已经有所发展或是发生改变。
    好久不更,这次先一个问题,大家试着自己能不能解决哦~~

    主角就是这个网站中的美女学霸照片。
    https://www.zhinsta.com/profile/527439732/

    首先分析一下思路,这个网站明显也是抓 instagram 上的照片导入过来的,至于 instagram 爬虫又现成的解决方案,先按下不表。你要解决的只是抓美女照片这个需求的话,直接墙外搞个服务器爬下来即可。

    现在的限定是,在墙内的情况下只是抓在这个服务器上的照片。

    注意,我分析的时候发现有 tricky 的地方,明显没有妹子图这么好抓。下一页和更多没有使用显式的链接,没有什么规律。

    这个时候,就可以放出比较高级的爬虫技巧,比如,之前我做的笔记里




    大侠先试试看

    上图,剑桥化学系女学霸~~



    31 条回复    2015-05-25 01:11:07 +08:00
    49
        1
    49  
       2015-05-23 18:56:16 +08:00
    这排版有一种 氯 的味道
    >_<
    ChiangDi
        2
    ChiangDi  
       2015-05-23 19:08:55 +08:00
    看了她的 weibo ,感觉基因好完美,应该很多男生会有跟她繁衍后代的欲望。。。
    ddqp
        3
    ddqp  
       2015-05-23 19:19:54 +08:00
    顶!
    libraor
        4
    libraor  
       2015-05-23 19:50:34 +08:00   ❤️ 1
    你们都没发现照片都不是她自己,而是另外一个很亲密的人拍的么?so,骚年啊,不要YY了,快去写代码吧。。
    jason52
        5
    jason52  
    OP
       2015-05-23 20:35:29 +08:00
    @49 这是神马意思???
    @ChiangDi 说的好文艺~~
    @ddqp 和你的头像以及楼上完美的契合~~

    @libraor 然而也并没什么luan用~~
    jason52
        6
    jason52  
    OP
       2015-05-23 20:43:19 +08:00
    feiyuanqiu
        7
    feiyuanqiu  
       2015-05-23 20:50:30 +08:00
    @jason52 哈哈哈,都去看美女去了
    你主楼的问题是要解决 js 生成的页面的抓取吗?那可以看看 PhantomJS http://phantomjs.org/
    neone
        8
    neone  
       2015-05-23 20:50:38 +08:00
    忍不住点开她微博看了下(原谅我,我还是一个少年)。另外,思路的话由于对爬虫不是很了解,所有并不敢大声说话。
    jason52
        9
    jason52  
    OP
       2015-05-23 20:54:20 +08:00
    @feiyuanqiu 恩,还有个casperjs,基于你说的这个封装了一层,我考察了一番~~~
    mianju
        10
    mianju  
       2015-05-23 21:25:17 +08:00
    说好的手把手教程呢?
    vjnjc
        11
    vjnjc  
       2015-05-23 21:37:54 +08:00
    你们是怎么找到她得weibo得,有诀窍么?
    jason52
        12
    jason52  
    OP
       2015-05-23 21:49:08 +08:00
    vjnjc
        13
    vjnjc  
       2015-05-23 21:57:15 +08:00
    @jason52 。。。果然我还是个新手哈哈哈
    staticor
        14
    staticor  
       2015-05-23 21:59:14 +08:00
    本来就是想学习Python技术的. 搞这么一个照片弄没心情学了- .
    binux
        15
    binux  
       2015-05-23 22:28:15 +08:00
    完全没有看出来这个页面有什么难的了。。
    http://demo.pyspider.org/results?project=zhinsta
    jason52
        16
    jason52  
    OP
       2015-05-23 22:36:33 +08:00
    @binux 虫叔粗线~~这个解好简洁~~~我靠,这个框架好~~
    Sin
        17
    Sin  
       2015-05-23 22:38:43 +08:00
    @49 居然看懂了>_<
    jason52
        18
    jason52  
    OP
       2015-05-23 22:46:14 +08:00
    @Sin 被你这么一说,我也懂了~

    我感觉楼下会有数字粗线~
    jason52
        19
    jason52  
    OP
       2015-05-23 22:53:47 +08:00
    @binux 话说pyspider一出,爬虫其实就不用写"程序"啦。主要就是写一个配置文件定义一下所要的参数,所有的循环和判断部分可以省掉了。
    binux
        20
    binux  
       2015-05-23 22:55:00 +08:00
    @jason52 配置文件永远没有程序灵活
    jianghu52
        21
    jianghu52  
       2015-05-23 23:45:58 +08:00
    我比较笨。用的是比较笨的方法。
    这个页面写的挺规矩的。要是我爬的话,首先进入第一页就不用说了。
    然后Beautiful Soup来遍历文件,class= photos的只有一个地方,下面的ul 下面的li 里面就是图片了。
    之后 [更多] 里面的href也写的比较明白。直接拼好连接做一个迭代再继续模拟访问。就能得到新的一页。
    这样就能一直到最后一页。至于最后一页有没有 [更多] 我也不知道。快12点了。我准备睡觉了。以上纯粹脑洞。如果有问题,欢迎拍砖。
    O21
        22
    O21  
       2015-05-23 23:54:57 +08:00
    很简单的。。。自己看一天python 就会了。
    xuhaotian
        23
    xuhaotian  
       2015-05-24 04:13:26 +08:00
    微博 instagram

    已双关注

    先闪,谢谢lz
    won
        24
    won  
       2015-05-24 08:57:32 +08:00 via iPhone
    没任何图形识别技术在里面嘛,我觉得还是爬马赛克图片更直接
    jason52
        25
    jason52  
    OP
       2015-05-24 10:49:18 +08:00
    实验一下~~

    jason52
        26
    jason52  
    OP
       2015-05-24 10:57:49 +08:00
    楼主给的一个解~经大神一点拨,完全不用上js解析了唉(摊手)


    mingyun
        27
    mingyun  
       2015-05-24 11:27:37 +08:00
    @ChiangDi 哈哈,正有此意
    davidlau
        28
    davidlau  
       2015-05-24 11:33:17 +08:00
    weibo.cn 无js可直接抓
    lhbc
        29
    lhbc  
       2015-05-24 12:24:52 +08:00
    剑桥化学女学霸,分分钟让你死了都不知道怎么回事,哈哈哈
    Rorysky
        30
    Rorysky  
       2015-05-24 12:36:38 +08:00
    @ChiangDi 不重复利用几次,是不是太浪费了
    shepherd
        31
    shepherd  
       2015-05-25 01:11:07 +08:00
    这样真的好吗?一群人围着别人相册YY
    不过,看完相册真的就不觉得累了啊。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2916 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 00:30 · PVG 08:30 · LAX 17:30 · JFK 20:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.