对网站源码使用正则式的疑问？

网站： http://sou.kuwo.cn/ws/NSearch?type=all&catalog=yueku2016&key=%E6%B1%AA%E5%B3%B0
要求：爬取其上的歌曲 ID ，歌名，歌手名
我写了个太难看了,如何写得更优雅点，或其它更好的方法
pat = re.compile(r'<p class="m_name">\s+<a href=".+?(\d+)/"\s*title="(.+?)".+?\s+.+?\s+.+?\s+.+?\s+.+?\s+?<p class="s_name".+?title="(.+?)"><')
res = pat.findall(html.read().decode())
另外：如何插入图片啊这里，代码也很乱

源码示例：
<li class="clearfix">
<p class="number"><input type="checkbox" checked="checked" name="musicNum" value="122560" mid="122560" />01</p>

<p class="m_name">
<a href="http://www.kuwo.cn/yinyue/122560/" title="怒放的生命" target="_blank">
<script>document.write("怒放的生命".replace(/(汪峰)/gi,'<em class="redFont">$1</em>'))</script>
</a>
</p>
<p class="a_name"><a href="http://www.kuwo.cn/album/7985/" title="怒放的生命" target="_blank"><script>document.write("怒放的生命".replace(/(汪峰)/gi,'<em class="redFont">$1</em>'))</script></a></p>
<p class="s_name"><a href="http://www.kuwo.cn/mingxing/%E6%B1%AA%E5%B3%B0/" target="_blank" title="汪峰"><script>document.write("汪峰".replace(/(汪峰)/gi,'<em class="redFont">$1</em>'))</script></a></p>
<p class="listen"><a href="http://player.kuwo.cn/MUSIC/MUSIC_122560" title="怒放的生命试听" target="_blank"></a></p>
<p class="video"><a href="http://www.kuwo.cn/mv/122560/" title="怒放的生命 MV" target="_blank"></a></p>
<p class="share"><a href="javascript:void(0);" onclick="showShareMusic(this,'怒放的生命','','122560')" title="分享"></a></p>
<p class="down"><a href="javascript:void(0);" title="怒放的生命下载" onclick="showDownMusic2014('MUSIC_122560');"></a></p>
</li>

jackal

2016-05-02 11:47:31 +08:00

抛开立场之分
（立场之分是指有人要让正则表达式做不该它做的事情，比如解析任意复杂的 html 等）

题主的问题是：希望从数个固定格式的网页数据中抓取固定模式的数据段。我的意思是，前提条件是 kuwo 的歌曲网页数据都很固定，而且网页中关于歌曲 id ，歌曲名称，歌手名称，都是固定的模式数据（ class=“ number ”， class=“ name ” ， class=“ s_name ”）

这样，我觉得一个简单的实现，是可以用正则表达式来解析 /抓取数据的。

题主的正则表达式已经可以了，只是 3 点还有问题：
1 ）应该遵从 class=“ number ”， class=“ name ” ， class=“ s_name ”的格式来抓取对应的数据，而不是从其他地方去获取（以后就算页面改版，很可能 class 的名字和对应数据是不会改变的）

2 ）让.*能够匹配换行，这样你的正则表达式中+?\s+.+?\s+.+?\s+.+?\s+.+?\s+?就不要再出现了。

3 ）为提高效率，尽量使用普通字符串（ plain text ）匹配，少用.*+?等符号

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/275729