按教程用正则表达式提取不到内容怎么办?

2019-02-24 18:42:59 +08:00
 xiaozaiziwyt
爬取猫眼 100 名电影,结果检测正则表达式提取内容的时候返回的结果为空。

def parse_one_page(html):
pattern = re.compile(
'<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>',
re.S)
items = re.findall(pattern, html)
print(items)
这是第一个;

import re
def parse_one_page(html):

pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name">'
+ '<a.*?>(.*?)</a>.*?"star">(.*?)</p>.*?releasetime">(.*?)</p>'
+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

items = re.findall(pattern, html)

for item in items:
yield {
'index': item[0],
'image': item[1],
'title': item[2],
'actor': item[3].strip()[3:],
'time': item[4].strip()[5:],
'score': item[5] + item[6]
}
def main():
url = 'http://maoyan.com/board/4'
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
这是第二种方式。
发现都提取不出来内容,但是如果用完整的代码则在最后运行的时候会正确显示……
1955 次点击
所在节点    Python
8 条回复
Kacxxia
2019-02-24 18:49:05 +08:00
https://regex101.com
推荐你用这个测试正则,右上会有语法解析
xiaozaiziwyt
2019-02-24 18:57:02 +08:00
@Kacxxia 谢谢了。不过重新写代码后发现居然能运行了
fzinfz
2019-02-25 00:25:26 +08:00
写这么长正则解析 html 的教程是为了找人切磋不是教人的吧,劝楼主另寻教程。。。关键词:bs4
msg7086
2019-02-25 08:10:38 +08:00
比较好的办法是先用正则提取出主要数据,再用 XML / HTML 解析器解成结构化数据,再去读取遍历。
hakono
2019-02-25 10:42:05 +08:00
楼主你看的么破教程啊,教人抽取复杂的网页用正则。。。。
乖乖去用 beautiful soup 去,一个 css 选择器就抽出来,节省自己点时间和生命吧
xpresslink
2019-02-25 11:30:16 +08:00
建议楼主学习 一下 xPath 语法,写代码效率比正则要高多了,在 scrapy 中直接就可以用。 比较容易入手还是推荐 BS4
E1n
2019-02-25 13:50:19 +08:00
正则写的爽
hjq98765
2019-02-25 16:37:12 +08:00
bs4+1

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/538218

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX