为什么爬虫获取的文本带有格式？

其中 question.title() 是一个爬虫爬取html获得标题的结果。
但是为什么自动有格式，而且我也没有发现带有换行符之类的，甚至试过替换掉html标签，但也没有发现html标签。以前爬虫的学习仅限于普通的功能，忽略了这些问题，但是如今想实现更多的功能，不清楚为什么会出现这种情况。
而且截取下来的标题，内容等统统都带有格式，搞得很多空行很不好看，可是没发现任何换行符之类的。
```
a = os.path.split('/home/path/')
if a[1] == '':
a = a[0] + '/' + re.sub('<[^>]+>','',str(question.title())) + '.txt'
print a
```

结果
```
/home/path/

做寿司需要厨师哪方面的功夫？

.txt
```
questions.title()获取到的标题文本，中间自动带空行，如何让其变成普通的无格式字符串？
变成 /home/path/做寿司需要厨师哪方面的功夫？.txt

爬虫

换行符

空行

1 条回复 • 2015-05-24 11:47:42 +08:00

cc7756789

2015-05-24 11:47:42 +08:00

额，原来是因为空格，只需要用 s.strip()去掉空格就可以了。。。。