问大家一个python写网络爬虫程序的问题。

我最近初学python和正则表达式，想写一个简单的爬图片的网络爬虫程序。但是现在卡在怎么分析图片地址上面。具体我有以下两个问题，想请教下大家：
1、比如http://lumeizhi.com这个网站，我用chrome浏览，按f12，怎么快速准确找到图片地址？
2、怎样写相应的正则表达式呢？
我写的代码是这样的：
import urllib2
import urllib
import re

pat = re.compile('')
html = urllib2.urlopen('http://lumeizhi.com').read()
imglist = pat.findall(html)
i = 1
for x in imglist:
urllib.urlretrieve(x,'D:\pic\%s.jpg' % i)
i = i + 1

但是我现在不知道该怎么写这个正则表达式了。

KK233

2013-12-09 03:07:30 +08:00

我也是新手~
1.源代码页面下ctrl+F搜索关键字'jpg',高亮的都是图片地址
2.观察发现图片地址的格式是<img src="xxxx" />,图片地址是xxxx.然后用懒惰匹配取url就可以了.注意这里是相对地址.前面得加上应该加的东西..
至于正则学习推荐 https://deerchao.net/tutorials/regex/regex.htm 正则表达式30分钟入门,看完应该就会写啦~

dizzy

2013-12-09 03:13:09 +08:00

@KK233 谢谢你的答复，你提到那篇教程我之前初略看了下，看来还得细看下啊。至于你提到的第二点还是有些不明白，匹配的时候<img src=这个也要匹配吗？

vmebeh

2013-12-09 03:18:58 +08:00

pat = re.compile(ur'<img\ssrc="(.+?)"\s/>')

python自带有个正则表达式测试工具，在 Tools\Scripts\redemo.py，表达式在其他地方写好了再复制过来，不然不小心匹配到的内容多会卡死

KK233

2013-12-09 03:27:19 +08:00

@dizzy "<img src="是"图片地址"的一个特征, 加上这个特征可以匹配你想匹配的img类型的图,
比如:
<img src="1.jpg" />
<img src="2.jpg" />
<img src="3.jpg" />
<script src="4.js"> 使用正则 (<img src=".*?") 抓取到的都是你想要抓取的东西,但是 4.js 就不是你想要的,如果你不用你仅仅用(src=".*?") 不加图片特征 img, 是不是连4.js都会匹配到?

dizzy

2013-12-09 03:33:50 +08:00

@vmebeh 用你的表达式倒是匹配到了地址，但是带到我的代码里面却还是不能下载，不知道怎么回事。

dizzy

2013-12-09 03:43:17 +08:00

@KK233 我用'<img src=".*?"'这样的正则表达式又试了下煎蛋网，过滤出了'<img src="http://ww4.sinaimg.cn/xxxxxxxxxxx.jpg"'这样的地址，但是这个图片地址前面有<img src字样，我怎么才能下载呢？

vmebeh

2013-12-09 03:45:53 +08:00

@KK233 似乎与编码有关? http://docs.python.org/2/library/re.html#regular-expression-syntax

@dizzy 这个站的图片地址是相对路径，前面要加上 http://lumeizi.com/

dizzy

2013-12-09 04:10:49 +08:00

@KK233
@vmebeh 代码终于可以运行了。非常感谢你们。我的正则表达式基础还需加强啊。不知道你们的正则表达式在哪学的。只需要看看这个吗？https://deerchao.net/tutorials/regex/regex.htm
最后我的代码是这样写的：
import urllib2
import urllib
import re

pat = re.compile('<img src="(.*?)"')
html = urllib2.urlopen('http://lumeizhi.com').read()
imglist = pat.findall(html)
i = 1
for x in imglist:
url = 'http://lumeizhi.com' + x
urllib.urlretrieve(url, 'D:\pic\%s.jpg' % i)
i = i + 1

dizzy

2013-12-09 04:23:52 +08:00

@Livid 这个我大概知道，我只是想在搞懂python基本库的情况下，再用第三方库。

jackjm

2013-12-09 08:26:01 +08:00

Python 3.3的话，这里有一个不用第三方库的例子。

http://bamos.github.io/2013/05/03/scraping-tables-python/

wizardoz

2013-12-09 09:17:57 +08:00

html的话有一个库叫做“beautiful soap”，绝对好用。我原来就用这个来下载整站图片。

luoyou1014

2013-12-09 09:26:00 +08:00

BS4 强烈推荐, 抛弃正则表达式吧 http://www.crummy.com/software/BeautifulSoup/bs4/doc/
不过BS4解析dom的能力和js还是差了N个水准, 网页不标准的时候, 页面结构可能会乱掉, 所以最好贪婪匹配

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/92333

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.