求推荐好用的网页减噪的 Python 库

2015 年 5 月 27 日
 Feiox

需要抓取很多新闻网站,但这些页面很多是极其不规范的使用 html ,那么如何自动化提取这些网页中的正文部分呢?
试用了几个,感觉还是有一些问题。。。。求推荐

4750 次点击
所在节点    Python
20 条回复
shierji
2015 年 5 月 27 日
额 XPath选取还行啊

我遇到的主要是改版问题 不过我感觉逻辑上多处理一下也行
我遇到的问题是很多新闻网站旧链接是孤岛 没法从当前时间递归抓取 不知道楼主有这个问题没有?
Valyrian
2015 年 5 月 27 日
每个网站单独处理。。我上个实习就是干这个的,没有什么好办法
binux
2015 年 5 月 27 日
现在正常一点的 html 库都能做到兼容不规范的 html
要不你试试 lxml
fy
2015 年 5 月 27 日
@shierji 文不对题啊,楼主说的是那种自动分析网页,猜测正文大概位置的库。并不是说xpath选取不准确。
fy
2015 年 5 月 27 日
= = 好像也并不是来着,如果是这样的话lxml的xpath确实已经够用了。
alexapollo
2015 年 5 月 27 日
web extractor
binux
2015 年 5 月 27 日
@fy 还真是「正文大概位置的库」,这种涉及策略的东西,想要好,就自己写一个吧。
TuxcraFt
2015 年 5 月 27 日
你需要人工智能黑科技…… (逃
zts1993
2015 年 5 月 27 日
招点实习生吧
simo
2015 年 5 月 27 日
看下qq收藏网页助手,插件应该能反编吧
nbndco
2015 年 5 月 27 日
libextract
hewigovens
2015 年 5 月 27 日
Diffbot?
xixijun
2015 年 5 月 27 日
不知道楼主说的不规则具体指的是什么。
bootstrap可以自动补全
zog
2015 年 5 月 27 日
pip install html2text
zhicheng
2015 年 5 月 27 日
13k
2015 年 5 月 27 日
zztt168
2015 年 5 月 27 日
在学习爬虫,感谢楼主和楼上的分享!
bigbook
2015 年 5 月 27 日
https://github.com/buriy/python-readability
这个算是最好用的了

具体遇到什么问题了呢?
pango
2015 年 5 月 27 日
楼主遇到点什么小问题?请具体说说。
一直在用python-goose爬youtube,从来没有出过什么问题。
shiznet
2015 年 5 月 27 日
印象笔记在chrome的插件可以实现类似的功能

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/194038

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX