[招聘爬虫] whereisjob.com ,昨天写了一个专门爬 V2EX 酷工作版块的爬虫

2015-08-18 09:44:33 +08:00
 vitovan

网址: http://whereisjob.com/
先上图:

昨天有人发了个帖子说:「那么多抓招聘网站内容的 V 友,可以把公司地址显示在地图上呀,方便挑选里家近的公司。」 http://v2ex.com/t/213594

然后我看国外有人抓 HackerNews 的 ( http://whoishiring.it/ ),没见国内有人抓 V2EX ,于是就做了个。

源码: https://github.com/VitoVan/whereisjob.com

有兴趣的朋友一起来完善~

5281 次点击
所在节点    分享创造
44 条回复
Razyshen
2015-08-18 09:52:47 +08:00
初涉爬虫领域,用 nodejs 玩的爬虫,各位技术大大有交流技术的吗
vitovan
2015-08-18 10:06:44 +08:00
@Razyshen NodeJs 好啊, Phantomjs 棒吖,再也不用担心那些动态加载的数据了。
superbear
2015-08-18 10:15:17 +08:00
居然是 lisp ,厉害
Razyshen
2015-08-18 10:18:25 +08:00
@vitovan 我现在基本都是去找网页接口,比较大的网站应该都有 json 数据接口。
vitovan
2015-08-18 10:41:52 +08:00
@Razyshen 貌似是挂了。
Razyshen
2015-08-18 10:44:28 +08:00
@vitovan 爬虫如何应对,被爬网站内容结构的改变呢
qiayue
2015-08-18 10:46:36 +08:00
地点还需要再细分,最好能够具体到门牌号
目前只到城市,没多大意义
laotaitai
2015-08-18 10:47:50 +08:00
Lisp 看起来很厉害, 但代码缩进让人看着蛋疼
vitovan
2015-08-18 10:50:04 +08:00
@qiayue http://v2ex.com/go/jobs 酷工作里写门牌号的不多,不过也有,类似这个: http://v2ex.com/t/213805

功能慢慢加吧,一起来?

https://github.com/VitoVan/whereisjob.com

等 Pull Request ~~
vitovan
2015-08-18 10:54:46 +08:00
@laotaitai 看这里,还是很好看的吖,如果把工具调整好。

?1

![lisp-work-screenshot][?1]
x4
2015-08-18 10:59:00 +08:00
@qiayue 不光门牌号,还得标出楼层办公区域乃至座位位置。逃
qiayue
2015-08-18 11:09:30 +08:00
@vitovan 要去对应的公司官网上抓取详细地址信息
djyde
2015-08-18 11:31:07 +08:00
我还以为你要招做爬虫的。。
vitovan
2015-08-18 11:32:45 +08:00
@djyde ...... Sorry about the words ......
eary
2015-08-18 12:34:08 +08:00
这精准到城市,目前所有的招聘网站都能筛选城市。别人的需求应该是精确到街区具体地址。
laotaitai
2015-08-18 13:05:57 +08:00
@vitovan 呃, 我是说 Lisp 的缩进不好看, 整体一眼看去, 特么别扭, 但用 Lisp 写程序, 在满大街用 Java, Python, PHP, OC 等情况下, 特别有逼格. 让我一下子想起那个"黑客与画家"的书.
laotaitai
2015-08-18 13:07:53 +08:00
我想问下, 也是用 Lisp 爬取数据的么?
sciooga
2015-08-18 13:54:46 +08:00
楼主看你网站右边写的 “仅显示近两月数据” 你是一天爬了 V 站两个月的数据?还是说数据库只保存最近两个月的数据?
如果是前者,你是怎么做到的?
sciooga
2015-08-18 13:55:34 +08:00
@sciooga 喔... 是只爬了酷工作这个板块是吧?
vitovan
2015-08-18 14:07:42 +08:00
@laotaitai 是呀,看代码:

https://github.com/VitoVan/whereisjob.com/blob/master/server.lisp

(defun get-job-dom (tid )
(format t "REQUESTING PAGE... ~A ~A" tid #\newline )
(multiple-value-bind (job-html )
(drakma:http-request (concatenate 'string "http://v2ex.com/t/" tid ))
(parse-html5 job-html )))

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/213945

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX