编程都是为了解决问题，下载网页的特定部分并保存成 PDF 该如何做呢？

2015-03-09 09:46:25 +08:00

Chigogo

下载后，只留下正文部分。

存储为PDF文档。

如何编程让这个过程自动化？

1987 次点击

所在节点

8 条回复

liuhaotian

2015-03-09 10:14:03 +08:00

curl 获取网页，正则匹配包含正文id的容器，生成pdf。
生成pdf可以直接用轮子。

liuhaotian

2015-03-09 10:15:20 +08:00

liuhaotian

2015-03-09 10:16:54 +08:00

@Livid
这个在做链接自动匹配的时候是刻意把两个相邻链接的\n转成空格的还是匹配的时候替换有问题？

Chigogo

2015-03-09 10:37:52 +08:00

@liuhaotian JS 可行吗？一定要学习Python吗？

Chigogo

2015-03-09 10:39:19 +08:00

@liuhaotian 看到了，用PHP，OK

Draplater

2015-03-09 11:10:32 +08:00

要提取"正文部分"已经涉及到数据挖掘了。这个可以用readability完成。正文匹配并不容易，可能不台精确。
readability有python port，例如：
https://pypi.python.org/pypi/readability-lxml
接下来把文字转换成pdf就是很简单的事情了，参考：
http://www.interfaceware.com/manual/python_text_to_pdf.html

Chigogo

2015-03-09 11:29:14 +08:00

@Draplater 可以一步到位吗？下载某个特定的网站的正文，正文问题很好解决的。但是下载，存储PDF 这两部可以一步到位吗？

manhere

2015-03-10 02:22:07 +08:00

casperjs搞定一切

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.