Python 有没有好的 html 格式库

2019 年 1 月 3 日
 lixuda

网上搜了一圈没有找到合适,做下伸手党。 爬虫得到的是 html 内容,带大量各类标签及 css,id 等 attr 内容, 想通过一个库之间输出干净的 html 只保留简单的 p br img 等标签,谢谢大家

4609 次点击
所在节点    Python
14 条回复
fan2006
2019 年 1 月 3 日
用过 lxml 和 beautifulsoup4.
boom7
2019 年 1 月 3 日
lxml.html.clean 试一下?
JackeyGao
2019 年 1 月 3 日
不确定这个可以不可以, 试试看吧。 https://github.com/kennethreitz/requests-html
lihongjie0209
2019 年 1 月 3 日
不就是 dom 树的 变量
lihongjie0209
2019 年 1 月 3 日
变量 -> 遍历
ivechan
2019 年 1 月 3 日
bytewalk
2019 年 1 月 3 日
搭车问 小程序 中有没有好用的?搜了下只有 wxParse ?而且得不到有用的信息
villivateur
2019 年 1 月 3 日
Beautiful Soup
tabris17
2019 年 1 月 3 日
就说一个,pyquery 有坑,其他如何不清楚
Huelse
2019 年 1 月 3 日
beautifulsoup4 容易点
huluhulu
2019 年 1 月 3 日
Beautiful Soup 很好用
WeaponXu
2019 年 1 月 3 日
bs4 啊
heiybb
2019 年 1 月 3 日
居然没人说 pyquery 嘛
Olorin
2019 年 1 月 3 日
beautifulsoup4

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/523397

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX