爬虫在 Raspberry Pi 上跑得挺欢的 。

2013-03-15 02:26:48 +08:00
 sohoer
之前用GAE 的本地环境访问Raspberry Pi 很慢很慢,以为是Raspberry Pi 的性能问题,后来发现不是。
原来可以跑得这么欢,当然我要求不高。
不久后我会提供外网访问的DEMO。

WEB版的通用型采集工具 NewCrawler.COM

上两张图,
http://bcs.duapp.com/picstore/K4UJ2dnClL.jpg
http://bcs.duapp.com/picstore/DMllpJc7W8.jpg
4996 次点击
所在节点    分享发现
14 条回复
workaholic
2013-03-30 20:18:58 +08:00
用java写的? 基于什么库?
ipoh
2013-03-30 22:51:16 +08:00
楼主怎么买的 我也想买一个
sohoer
2013-03-31 01:09:25 +08:00
@workaholic 用的HttpURLConnection+正则,没有用其它第三方库,xpath,javascript支持倒是用了,不过现在把他当成插件了。



@ipoh 淘宝买的,如果需要你留个邮箱我把交易记录发给你,我现在每天晚上都是开着的,在爬煎蛋妹子图,稳定性挺好的。
workaholic
2013-03-31 12:36:43 +08:00
我最近也在爬图片,请教个问题:图片上水印你怎么处理的?肯定不希望自己的图片上带上别的网站的水印吧?
chemhack
2013-03-31 12:43:00 +08:00
@workaholic 自己的图片。。。。。 我真是吐槽无力了
workaholic
2013-03-31 12:45:57 +08:00
@chemhack 神经病
cooiky
2013-03-31 15:50:12 +08:00
@sohoer 求个淘宝地址 3q
34D
2013-03-31 16:04:23 +08:00
自己的图片吐槽无力+1。
workaholic
2013-03-31 16:32:26 +08:00
@34D QNMLGB
goxofy
2013-03-31 16:59:06 +08:00
自己的图片吐槽无力+1
ywencn
2013-03-31 17:06:06 +08:00
没懂你们在说什么自己的图片?
chemhack
2013-03-31 17:13:33 +08:00
@ywencn 爬别人的图片,还说“不希望自己的图片上带上别的网站的水印”
jason52
2013-05-19 16:27:25 +08:00
-----------------

from pyquery import PyQuery as pq
import time


fp=open("meizhitu.txt",'w')
for i in range(800,813):
url = 'http://jandan.net/ooxx/page-' + str(i)


d1 = pq(url)

posts = []

for anchor in d1('#comments p>img'):
anchor = d1(anchor)
ans = anchor.attr('src')
posts.append(ans)
print >>fp,ans
print ans
fp.close

----------------------
用pyquery写了一个简单的爬妹子图的脚本
jason52
2013-05-19 16:29:04 +08:00
哎呀,v2ex发代码都乱掉了。。python缩进都没了。。看来以后不能直接放代码了。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/62970

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX