求解这种非标准 html 如何提取有效数据

2018-11-22 17:11:21 +08:00
 csx163


近 10W+的文本文件,如何正确取出里面的姓名、地址、身份证号等信息,是不是只能用正则?
1700 次点击
所在节点    问与答
4 条回复
ClutchBear
2018-11-22 18:04:36 +08:00
我记得 pyquery 某个参数可以把没有闭合标签自动解析出闭合的
fox1955
2018-11-22 18:11:03 +08:00
npm install sax
imn1
2018-11-22 18:14:53 +08:00
建议正则吧,10w+用 dom 解析是难以想象的
用 xml sax 流式解析也可以
night98
2018-11-22 23:50:36 +08:00
格式完全一致还是说其中有部分缺斤少两的?先写个正则把 html 元素干掉,剩下的看规律写正则搞定。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/510473

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX