想爬取hao123上的所有网站，有没有好的方法？

2012-12-14 14:51:11 +08:00

kenneth

求方法，求思路。
需要抓取全，只要hao123网站上的，不要爬出去了。

8368 次点击

所在节点

29 条回复

kenneth

2012-12-18 23:35:26 +08:00

@ADIVILOrz
只要hao123出现的链接，如果这个链接出去了，不继续爬。
我是想首先匹配链接，从所有链接中，取出域名。
链接的只要hao123出现的，就是不要爬出去了。

bigdude

2012-12-19 13:59:49 +08:00

wget 啊

IFoon

2012-12-19 16:19:25 +08:00

用采集工具啊。。
www.sensite.cn

adyizhan

2012-12-19 23:16:35 +08:00

@im924106179 怎么联系。

ADIVILOrz

2012-12-19 23:28:46 +08:00

@kenneth

1. wget爬
2. 用grep提取网址

我把shell脚本和结果发在了 https://github.com/leeleilei/spideHao123

kenneth

2012-12-20 09:57:31 +08:00

@ADIVILOrz 谢谢，我一会实践下，入库的话，能否通过shell搞定？因为我不懂直接用shell

ADIVILOrz

2012-12-20 21:00:38 +08:00

@kenneth 看你入什么库，什么表结构。sqlite3，postgresql，mysql都有CLI工具，shell可以直接调用导入文本。

secretworry

2012-12-20 21:06:22 +08:00

@kenneth echo "YOUR_SQL_HERE" | $MYSQL 就能输入数据库了。
其中MYSQL="mysql -u"(YOUR MYSQL ACCESS COMMAND)

aksoft

2012-12-21 22:25:35 +08:00

都是NB人,学习下..

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.