如何用 Python 将若干 html 文件提取正文，并转换成 mobi 或 txt 格式？

如果不复杂的话，直接用HTMLPaser就可以了，可以提取指定标签

https://docs.python.org/2/library/htmlparser.html

栗子:
http://www.pythonclub.org/python-files/htmlparser

只要<body> 提取出来，随便你写成什么格式

icedx

Apr 14, 2015 via Android

Out=[]
Pass=0
for char in page:
if Pass=0:
if char=='<':
Pass=1
continue
else:
if char=='>'
Pass=0
continue
else:
Out.append(Char)
else:
pass
Fatch=''.join(Out)

既然楼主不是伸手党
补全缩进就可以用了

tinybvjk

Apr 14, 2015

readability提供了提取正文的api，返回的html可以使用amazon kindlegen生成mobi格式

icedx

Apr 14, 2015

不对我那个不能用...

icedx

Apr 14, 2015

https://gist.github.com/anonymous/bf0e27d046e3c5c90168

这个还有一点瑕疵但是已经接近完美

ztmark

Apr 14, 2015

http://blog.codinglabs.org/articles/convert-html-to-kindle-book.html

xiaoboost

Apr 14, 2015

mobi？想要在kindle上看的是吗？

我以前用正则提取的，最后程序把正文存成docx文件，发到自己kindle邮箱
mobi是亚马逊自己的格式，不开源的，貌似没有现成的制作方法吧

crccw

Apr 15, 2015 via Android

BeautifulSoup挺好用的啊。。

endoffight

Apr 15, 2015 via Android

更直观的话，我给楼主推荐
pyquery

endoffight

Apr 15, 2015 via Android

忘了给给文档了 )逃

https://pypi.python.org/pypi/pyquery

metrue

Apr 15, 2015

http://get.jobdeer.com/122.get 可以参考实现。

XcodeUser

Apr 15, 2015

学下xpath，然后用lxml不就挺好挺快吗

hatni

Apr 15, 2015

@icedx 感谢你的代码，刚刚试了下打开乱码，手动添加了网页编码可行。我经管系，自学python，看了点Html CSS,陆续几个月始终没入门JavaScript。

hatni

Apr 15, 2015

@endoffight pyquery ,这个需要懂Jquery,计划准备学，

BOYPT

Apr 15, 2015

@hatni pyquery 和jquery可没什么关系，共同个的是，pyquery和jquery都实现了类似的css选择器的功能。

MayLava

Apr 15, 2015

pyquery+html2text 直接转成markdown格式

hatni

Apr 15, 2015

多谢各位的帮助，我只刚看完《Learn Python the Hard Way》。Beautiful Soup 、xpath 、xml 、 pyquery 、正则表达式，上面各种新手应该按照怎样的难易顺序来学。

icedx

Apr 15, 2015 via Android

@hatni 以后要从事开发么

Loop680

Apr 15, 2015

我之前做了一个提取PDF内容转换成TXT的小工具，用的是正则做的。

fburst

Apr 15, 2015

这个我试过很多种方案，
beautfulsoup虽然没用过，但是应该是效果最好的。
其他的那些库容错率太低了，少个引号什么的都不行。比如<body>标签，html5标准里是可以不闭合的，也解析不出。
有瑕疵的网页还是比较多的，就算163什么的也免不了。
目前方案是selenium直接对接firefox。通过firefox的解析器解析html，然后js直接提取词条。这样firefox解析成什么样，我得到的就是什么。