想爬取hao123上的所有网站,有没有好的方法?

2012-12-14 14:51:11 +08:00
 kenneth
求方法,求思路。
需要抓取全,只要hao123网站上的,不要爬出去了。
7743 次点击
所在节点    Python
29 条回复
wang2191195
2012-12-14 14:52:04 +08:00
scrapy 你值得拥有
enj0y
2012-12-14 14:52:54 +08:00
使用云的理念,用访客的资源来爬行,节约服务器资源。。
哈哈,估计这样的网站没有人敢访问。
kenneth
2012-12-14 14:56:01 +08:00
@enj0y 求实现
@wang2191195 scrapy必须扩展basespider, 我没抓成功。求代码
flyingkid
2012-12-14 15:15:59 +08:00
设置一个规则 http://*.hao123.com/*

其他的全部调过。
kenneth
2012-12-14 15:19:25 +08:00
@flyingkid 我要抓全站的域名,当然不能控制域。scrapy链接提取的时候,只要有链接,我就要去匹配,所以我补知道如何处理这块。
zuroc
2012-12-14 15:22:12 +08:00
zuroc
2012-12-14 15:23:26 +08:00
momou
2012-12-14 17:16:32 +08:00
kenneth
2012-12-14 17:29:44 +08:00
@momou 问题是抓下来,我们还要处理下,最后还要到数据库去,所以工具是不够的。
tioover
2012-12-14 18:33:36 +08:00
curl拉下来
然后找出所有<a>
dreampuf
2012-12-14 20:52:43 +08:00
wget -e robots=off -r -T 3 --domains=hao123.com www.hao123.com
for i in `find . -iname *.html`; do cat $i | grep "http:" | sed 's/^.*http/http/' | cut -d'"' -f1 | sort -u;done
greatghoul
2012-12-14 21:06:59 +08:00
wget 就搞定了。
glsee
2012-12-14 22:41:03 +08:00
barbery
2012-12-15 10:02:08 +08:00
右键网页另存为。。。。用正则提取。。。。
im924106179
2012-12-15 15:55:22 +08:00
100rmb包搞定
kenneth
2012-12-15 17:10:58 +08:00
@im924106179 你能搞定就上代码,100rmb我付你。
xjay
2012-12-16 14:11:25 +08:00
scrapy 你值得拥有,呵呵。
用CrawlSpider,写好rules规则,然后在parse_item里面就可以处理你要的数据了,再实现一个pipeline数据管道,把你要的数据保存起来,就ok了。
ccdjh
2012-12-16 15:32:39 +08:00
爬取应该不行,你写个爬虫,总有你控制不住,或者没有那么智能。
你还不如写一个按页抓取的。就是你输入http://www.hao123.com/hardware

把http://www.hao123.com/hardware上的站提取出来,并且转json就好了。没必要钻胡同
xieranmaya
2012-12-17 19:03:08 +08:00
这样行不行,用jQuery
$("a").each(function(){
$("<div></div>").load(this.href).appendTo(document.body);
});
ADIVILOrz
2012-12-18 23:25:07 +08:00
@kenneth 所有网站指的是?
1. 推荐的网站域名吗,
2. 还是包括外链所在的网站?
3. 包含推荐的影片、图片链接地址所在的网站吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/54895

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX