V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
cc7756789
V2EX  ›  Python

为什么爬虫获取的文本带有格式?

  •  
  •   cc7756789 · 2015-05-24 11:31:31 +08:00 · 2281 次点击
    这是一个创建于 3260 天前的主题,其中的信息可能已经有所发展或是发生改变。
    其中 question.title() 是一个爬虫爬取html获得标题的结果。
    但是为什么自动有格式,而且我也没有发现带有换行符之类的, 甚至试过替换掉html标签,但也没有发现html标签。以前爬虫的学习仅限于普通的功能,忽略了这些问题,但是如今想实现更多的功能,不清楚为什么会出现这种情况。
    而且截取下来的标题,内容等统统都带有格式,搞得很多空行很不好看,可是没发现任何换行符之类的。
    ```
    a = os.path.split('/home/path/')
    if a[1] == '':
    a = a[0] + '/' + re.sub('<[^>]+>','',str(question.title())) + '.txt'
    print a
    ```

    结果
    ```
    /home/path/

    做寿司需要厨师哪方面的功夫?

    .txt
    ```
    questions.title()获取到的标题文本,中间自动带空行,如何让其变成普通的无格式字符串?
    变成 /home/path/做寿司需要厨师哪方面的功夫?.txt
    1 条回复    2015-05-24 11:47:42 +08:00
    cc7756789
        1
    cc7756789  
    OP
       2015-05-24 11:47:42 +08:00
    额,原来是因为空格, 只需要用 s.strip()去掉空格就可以了。。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2893 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 14:34 · PVG 22:34 · LAX 07:34 · JFK 10:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.