爬虫能不能做这个一个需求

2016-10-27 17:30:11 +08:00
 snopy
最近,公司网站上发了关于各种技术培训的帖子(包括 IT 架构、 Hadoop 数据分析...),每个帖子对应一种技术培训,如果想参加某类技术培训,公司员工只需在对应帖子下留言“报名”即可(当然跟帖是要求实名制的,所以自然会留下小马甲)。由于帖子众多,报名人数也很多,因此,人工统计汇总会变得很繁杂,而且会存在遗漏的风险。

-----重点来了-----
那么,我在想能不能通过爬虫的形式,每天爬取帖子中留言“报名”的员工姓名及其对应的培训技术类别,然后入库,以便于查询和汇总
2018 次点击
所在节点    问与答
13 条回复
tumbzzc
2016-10-27 17:34:08 +08:00
可以。
但是最好是严格匹配“报名”,然后进入有“报名”的员工的个人页,读取员工信息
b821025551b
2016-10-27 17:41:06 +08:00
可以,重点是如何匹配满足条件的用户,比如有个人回复了“我才不报名呢!”,该如何处理?
xenme
2016-10-27 17:42:59 +08:00
为啥不加个按钮,我要报名或者直接爬库,简单多了
xjx0524
2016-10-27 17:45:13 +08:00
这种需求不能单独做一个报名页面么。。。
或者直接创建个 Google 表单
tumbzzc
2016-10-27 17:49:24 +08:00
@xjx0524 这装的。为什么不考虑中国无法访问谷歌的问题?不如用问卷星
zhouyg
2016-10-27 17:50:16 +08:00
直接读数据库不是最快么
snopy
2016-10-27 18:00:02 +08:00
@all 其实我想咨询下具体点的技术细节,待会我到家了上个帖子的截图,谢谢
why1
2016-10-27 19:25:11 +08:00
不用签字确认吗
qiayue
2016-10-27 21:17:59 +08:00
直接金数据建个表单 jinshuju.net
liudanning
2016-10-27 22:12:03 +08:00
https://github.com/liudanning/spider/tree/dev
用 nodejs 和 jquery 的话可以尝试这个,可以看 test 里的示例用法, master 分支的太老没更新,用 dev 分支
hanzichi
2016-10-28 11:08:05 +08:00
肯定可以啊,不过要严格规定格式吧,不能无效灌水
snopy
2016-10-28 13:49:05 +08:00
恩,有人已经这么做了,参考 http://www.jianshu.com/p/448af630dd72
alfer
2016-10-28 16:17:00 +08:00
简单问题复杂化,你们自己公司直接读数据不就行了?
如果就想用爬虫做也可以,例子也大把。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/315932

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX