请问 stripogram 的 html2text 功能在碰到 这样的字符的时候出错怎么解决

2014-11-20 15:19:05 +08:00
 loginv2
# -*- coding: UTF-8 -*-
import codecs,time,urllib2,re,random,sys
from stripogram import html2text, html2safehtml
reload(sys)
sys.setdefaultencoding( "utf-8" )

html = '''<div>&nbsp;<span>10月25日</span></div>'''
print html.decode("utf-8")
print html2text(html).decode("utf-8")



Traceback (most recent call last):
File "C:\Users\new 1.py", line 9, in <module>
print html2text(html).decode("utf-8")
File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa0 in position 0: invalid start byte
2499 次点击
所在节点    Python
1 条回复
loginv2
2014-11-20 15:21:48 +08:00
啊咧咧,V2竟然过滤掉了 昏倒 <div> <span>之间有一个nbsp的空格字符

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/148018

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX