爬虫抓取高校官网公开信息

2017-12-14 11:31:51 +08:00
 sweetcali
教师的邮箱,姓名,职称,学院,系或学科,联系方式。
要求就是官方公开的信息即可,扒下来统计到 EXCEL 即可
北京,上海,广州,深圳,南京,苏州,武汉,成都
这 8 个城市的重点高校,一本二本即可。
一毛一条,按照上面规范的话,给多少要多少,数据我们会作验收审核,所以要在 excel 里体现抓取来源,抓取日期等。
这个很没水平,但是如果有愿意的话,可以联系我一下
1448 次点击
所在节点    外包
36 条回复
gyh
2017-12-14 12:41:41 +08:00
一所大学的要么
zzw888888
2017-12-14 13:05:14 +08:00
这边是资深抓取:wx:bestdata
sweetcali
2017-12-14 14:10:01 +08:00
@gyh 当然可以!
gyh
2017-12-14 14:16:15 +08:00
@sweetcali #3 wechat:R3VveWhfXw==
sweetcali
2017-12-14 14:25:06 +08:00
@gyh 这是啥规则转换的。。能直接告诉我吗,让 2 个技术来看了也没反应过来。。
gyh
2017-12-14 14:29:21 +08:00
@sweetcali #5 base64 啊。。
lsxiao
2017-12-14 14:29:25 +08:00
@sweetcali Base64,这是解码网站,解冒号后面的就行了。https://1024tools.com/base64
sweetcali
2017-12-14 14:36:50 +08:00
@lsxiao to7 ,谢谢!我们还在数多少位,想他是怎么弄的。。。
sweetcali
2017-12-14 14:37:05 +08:00
@gyh 已经加你了
gyh
2017-12-14 14:40:30 +08:00
@sweetcali #9 没有收到,确认下名字最后是两条下划线万一你不是复制的话
cxl008
2017-12-14 14:40:45 +08:00
码工作量了。。。。
kuroismith
2017-12-14 14:42:02 +08:00
麻将脸
mrsunday
2017-12-14 16:35:23 +08:00
叫我 wx:mrsundaychen,可以详聊
linuxchild
2017-12-14 17:34:50 +08:00
1 个学校有 500 个公开信息的话大概是 50。。GG
leyle
2017-12-14 17:50:33 +08:00
@linuxchild 你这样一算,好廉价。

一个城市,以成都为例,4 个一本,估计有几个二本,两个加起来估计有十来个,或者更多一点。
把这八个城市综合一下,算 15 个学校一个城市,总的就是 120 个学校。
每个学校假设有 500 个公开信息,就是差不多 6000 块,这个 500 个公开信息还是乐观估计的。

如何寻找到这些公开信息,并且写规则提取出来,都是工作量,同一个学校的不同页面,如果存在了这些信息,
很有可能规则是不一样的,换句话说,一个学校估计有好几个提取规则。

120 个学校,保守估计,至少要写 300 个规则。然后乐观估计才 6000 块。

20 块钱一个规则。

为什么这里这个就没人吐槽价格低廉,还一堆人留联系方式了。
sweetcali
2017-12-14 18:13:43 +08:00
@leyle 需求是 50 万条.....而且我们从没有这种经验。。所以都可以聊
sweetcali
2017-12-14 18:14:25 +08:00
不是我个人的想法。。。上面有老总,我也非常头疼,现在是纯人工在录入,纯人工!
lhx2008
2017-12-14 18:54:11 +08:00
之前做过是 5 毛一条,联系方式大部分都没有,每个学院的样式不一样,gg
lhx2008
2017-12-14 18:58:58 +08:00
@sweetcali wx:
bmV3X19vYmplY3Q=
(两横)
codeyung
2017-12-14 19:30:50 +08:00
。。。这价格

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/414633

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX