http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454
这篇小有名气的SO回答貌似很受欢迎,但是我抓不到槽点阿阿。。。求解释
另外,如果不推荐使用正则解析HTML的理由是因为正则不能准确判断HTML层级的嵌套的话,那么用正则去抓取那些不太可能嵌套的信息是不是可取的?
比如img tag的src阿,这个会不会有可能嵌套/被嵌套呢?
还有比如anchor tag里的href,是不是这些都相对/嵌套被嵌套的可能性小一些?
从而可以用正则去抓取?
这篇小有名气的SO回答貌似很受欢迎,但是我抓不到槽点阿阿。。。求解释
另外,如果不推荐使用正则解析HTML的理由是因为正则不能准确判断HTML层级的嵌套的话,那么用正则去抓取那些不太可能嵌套的信息是不是可取的?
比如img tag的src阿,这个会不会有可能嵌套/被嵌套呢?
还有比如anchor tag里的href,是不是这些都相对/嵌套被嵌套的可能性小一些?
从而可以用正则去抓取?