http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 这篇小有名气的SO回答貌似很受欢迎,但是我抓不到槽点阿阿。。。求解释
另外,如果不推荐使用正则解析HTML的理由是因为正则不能准确判断HTML层级的嵌套的话,那么用正则去抓取那些不太可能嵌套的信息是不是可取的?
比如img tag的src阿,这个会不会有可能嵌套/被嵌套呢?
还有比如anchor tag里的href,是不是这些都相对/嵌套被嵌套的可能性小一些?
从而可以用正则去抓取?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/50588
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.