理论上爬虫能爬取到所有我们看到的页面吗?

2014-04-02 14:11:48 +08:00
 zoosucker
如果每次浏览器和服务器的通信都有一个token,而我们又无法看懂到底是什么,那么我们的爬虫是不是就无法爬取页面信息了啊?
3888 次点击
所在节点    问与答
11 条回复
Esay
2014-04-02 14:17:58 +08:00
是的。
抓取比较困难的内容可以使用 http://phantomjs.org/ 这样没有界面的浏览器。
asing
2014-04-02 14:24:30 +08:00
lz的问题可以这样理解不

如果一个网站的管理后台路径是example.com/ksdks31
这样爬虫也抓取不到吧

这样只需书签下地址就可以,也不用做ip访问限制等策略了.
jsonline
2014-04-02 14:25:09 +08:00
天天有人研究爬虫
binux
2014-04-02 14:31:40 +08:00
我们看到页面是一个获得信息,消除信息不确定性的过程,爬虫也是
dorentus
2014-04-02 15:46:59 +08:00
理论上么,爬虫和浏览器一样都是 user agent,自然能做的东西都是一样的……
cxh116
2014-04-02 15:49:03 +08:00
像某些小说站,内容都生成图片了,这个应该是无法索引
msg7086
2014-04-02 17:40:54 +08:00
@asing 说不定就有浏览器连书签也爬虫给你看
xh1994
2014-04-03 00:13:21 +08:00
不能!那些通过 ajax 加载内容的页面你怎么爬?而且现在这样的页面越来越多了!
mengli
2014-04-03 00:14:46 +08:00
@cxh116 弄个orc文字识别如何?你总不可能把文章加工的很验证码一样。
cxh116
2014-04-06 19:38:38 +08:00
@mengli ocr的话,不同的站用不同的字体,而且还有很多站加了背景图之类的

通用的蜘蛛实现是比较难,针对每个站写定向蜘蛛肯定是没有问题
zoosucker
2014-04-29 10:18:33 +08:00
@xh1994 我用selenium + Python做的一个爬虫,类似自己一个一个点击,这样就可以搞定Ajax的了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/106960

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX