想爬取hao123上的所有网站,有没有好的方法?

2012-12-14 14:51:11 +08:00
 kenneth
求方法,求思路。
需要抓取全,只要hao123网站上的,不要爬出去了。
7768 次点击
所在节点    Python
29 条回复
kenneth
2012-12-18 23:35:26 +08:00
@ADIVILOrz
只要hao123出现的链接,如果这个链接出去了,不继续爬。
我是想首先匹配链接,从所有链接中,取出域名。
链接的只要hao123出现的,就是不要爬出去了。
bigdude
2012-12-19 13:59:49 +08:00
wget 啊
IFoon
2012-12-19 16:19:25 +08:00
用采集工具啊。。
www.sensite.cn
adyizhan
2012-12-19 23:16:35 +08:00
@im924106179 怎么联系。
ADIVILOrz
2012-12-19 23:28:46 +08:00
@kenneth

1. wget爬
2. 用grep提取网址

我把shell脚本和结果发在了 https://github.com/leeleilei/spideHao123
kenneth
2012-12-20 09:57:31 +08:00
@ADIVILOrz 谢谢,我一会实践下,入库的话,能否通过shell搞定?因为我不懂直接用shell
ADIVILOrz
2012-12-20 21:00:38 +08:00
@kenneth 看你入什么库,什么表结构。sqlite3,postgresql,mysql都有CLI工具,shell可以直接调用导入文本。
secretworry
2012-12-20 21:06:22 +08:00
@kenneth echo "YOUR_SQL_HERE" | $MYSQL 就能输入数据库了。
其中MYSQL="mysql -u"(YOUR MYSQL ACCESS COMMAND)
aksoft
2012-12-21 22:25:35 +08:00
都是NB人,学习下..

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/54895

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX