编程都是为了解决问题,下载网页的特定部分并保存成 PDF 该如何做呢?

2015-03-09 09:46:25 +08:00
 Chigogo

比如我想下载某个网页
http://www.economist.com/news/china/21645839-prime-minister-seeks-lower-expectations-economy-go-slow

下载后,只留下正文部分。

存储为PDF文档。

如何编程让这个过程自动化?

1987 次点击
所在节点    问与答
8 条回复
liuhaotian
2015-03-09 10:14:03 +08:00
curl 获取网页,正则匹配包含正文id的容器,生成pdf。
生成pdf可以直接用轮子。
liuhaotian
2015-03-09 10:15:20 +08:00
liuhaotian
2015-03-09 10:16:54 +08:00
@Livid
这个在做链接自动匹配的时候是刻意把两个相邻链接的\n转成空格的还是匹配的时候替换有问题?
Chigogo
2015-03-09 10:37:52 +08:00
@liuhaotian JS 可行吗?一定要学习Python吗?
Chigogo
2015-03-09 10:39:19 +08:00
@liuhaotian 看到了,用PHP,OK
Draplater
2015-03-09 11:10:32 +08:00
要提取"正文部分"已经涉及到数据挖掘了。这个可以用readability完成。正文匹配并不容易,可能不台精确。
readability有python port,例如:
https://pypi.python.org/pypi/readability-lxml
接下来把文字转换成pdf就是很简单的事情了,参考:
http://www.interfaceware.com/manual/python_text_to_pdf.html
Chigogo
2015-03-09 11:29:14 +08:00
@Draplater 可以一步到位吗?下载某个特定的网站的正文,正文问题很好解决的。但是下载,存储PDF 这两部可以一步到位吗?
manhere
2015-03-10 02:22:07 +08:00
casperjs搞定一切

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/175466

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX