第一次玩爬虫有点上瘾啊,写了个百度云资源搜索。。

2017-07-25 22:37:14 +08:00
 huangzitao
http://wiseso.cc/
16546 次点击
所在节点    分享创造
77 条回复
upczww
2017-07-26 17:52:13 +08:00
@Antidictator 那是别人做了二次整理的,分好类的
huangzitao
2017-07-26 18:09:10 +08:00
@xmh51 百度网盘前几天被人差评,现在封了很多,所以你懂得
@Adamla 用的第三方中文分词器,后台看了下,有 bug
@Zioyi springboot 跟 lucene
@iShawnWang 这个也没什么难度啊,无非是爬文件分享链接。
66kanfengjing
2017-07-26 18:36:07 +08:00
搜索*会报 500O(∩_∩)O 哈!以前做 lucene 的时候就忘了考虑通配符的问题
huangzitao
2017-07-26 19:01:14 +08:00
@66kanfengjing 什么都不写也 500 O(∩_∩)O 这程序不够健壮啊
66kanfengjing
2017-07-26 19:12:32 +08:00
@huangzitao 我用 Lucene ( Version:3.5 )的时候用的 IK(Version:2012FF)分词器,目前还没有遇到分词器的 bug.
Zioyi
2017-07-26 19:32:55 +08:00
大佬 你是怎么爬下来的?百度云盘有 api ?
huangzitao
2017-07-26 19:55:56 +08:00
@66kanfengjing 👌,下次还是用低版本的算了,唉 ik 都不更新了
@Zioyi 这个要分析啊,只要能看到的,公开的,都能爬
zyowe
2017-07-27 10:26:57 +08:00
NullException
2017-07-27 10:55:10 +08:00
666
hienchu
2017-07-27 13:41:45 +08:00
不错
sumuu
2017-07-27 14:06:59 +08:00
@zyowe

哈哈~~~牛逼.
WEAlex
2017-07-27 15:27:10 +08:00
有源码可以分享一下吗?最近刚把 springboot 和 docker 学习了.
gao117348222
2017-07-27 16:12:06 +08:00
@zyowe
smartdie
2017-07-28 09:24:34 +08:00
可以啊,这个引擎的速度非常可观。希望能分享下实现方式或者源码。
huangzitao
2017-07-28 11:06:31 +08:00
@WEAlex
@smartdie 源码都没注释啊,也没什么技术含量哈,主要是在本地建好索引在上传到服务器的,建索引特耗内存而且 gc 一时半会不释放
Hugh123
2017-07-28 17:28:59 +08:00
需要 66666666
Dwyanetalk
2017-07-28 18:51:43 +08:00
贤者,我对这个名字来源感兴趣
huangzitao
2017-07-28 20:52:49 +08:00
@Dwyanetalk 哈哈我朋友想的,感觉屌爆了
propc
2017-07-29 07:16:22 +08:00
不错不错
mooncakejs
2017-07-29 20:04:42 +08:00
@ericbize 偷偷爬不查你也就算了,show 出来就不行了,殊不知有 robots 协议。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/377944

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX