如何成为一名爬虫工程师? (顺带招人)

2017-10-18 17:43:15 +08:00
 scriptB0y
Hi,本人目前的工作就是 V 友介绍的,入职之后非常喜欢现在这家公司。

帮 HR 发一下招聘信息,在下文(贴到 V2EX 需要改格式我就直接放链接了)《如何成为一名爬虫工程师》中的最后有 jd。通过这篇博文你也能对我们公司有个大体了解(博文是入门篇,我比较菜,这篇文章只能代表一个应届生的水平不代表公司水平)

https://www.kawabangga.com/posts/2277

有什么问题可以在这里或博客评论问我,我知道的话尽量回答。
7990 次点击
所在节点    酷工作
48 条回复
Betsy
2017-10-18 19:48:18 +08:00
楼主的文章写的很棒,其实我有个很小白的问题。就是关于使用“ JavaScript 脚本动态获取网站数据”这一块有点疑惑。我在爬取 新榜 这个网站指定公众号的热门文章的时候,发现其值是通过 post 方式获取的。它同时上传了 4 个值,前两个值是不变的,后两个值貌似是随机生成的。看了你的文章之后,我觉得那俩随机数应该是通过 JavaScript 生成的,然后我想问的是,如何找到它用的是哪个 JavaScript 脚本?这样我想我就应该能获取到随机数生成规则了吧!?
scriptB0y
2017-10-18 20:19:29 +08:00
@Betsy 可以设置断点跟踪进去

https://developers.google.com/web/tools/chrome-devtools/javascript/?hl=zh-cn

不过一般即使是客户端生成的也很难破解,实在不行可以开浏览器抓
evanshh
2017-10-18 22:13:53 +08:00
非计算机专业毕业的,在向爬虫方向学习但是觉得自己编程基础比较薄弱,是不是对应聘影响很大呢?比如贵公司的招聘,专业是不是死门槛?
scriptB0y
2017-10-18 22:26:13 +08:00
@evanshh 专业问题不是很大,不用心虚。我们 NLP 有个大神好像是化学专业的。

计算机专业课上讲的东西很烂的,基本上还是和高中讲的应试教育那一套。不仅讲的烂还打击人的学习兴趣,自己看书有趣多了。对我来说大学自学学到的东西大约占 90%
Betsy
2017-10-18 22:28:16 +08:00
@scriptB0y 感觉似乎找到了 js 中生成随机数的方法,但因为不懂 JavaScript 语法,有点懵逼。话说开浏览器怎么抓?那两个值每刷新一次网页就会变一次,感觉不能复制出来再使用啊!
sangmong
2017-10-18 22:43:10 +08:00
get 和 post 真的没啥区别么...
forestyuan
2017-10-19 08:51:38 +08:00
很好奇爬虫工程师的待遇如何
scriptB0y
2017-10-19 09:02:30 +08:00
@sangmong 除了语义,没有
scriptB0y
2017-10-19 09:04:16 +08:00
@forestyuan 可以来聊聊,我认为待遇不错。不然我就不会入职不久就来拉人了。

领导 nice,五险一金,免费零食,节日福利。
scriptB0y
2017-10-19 09:05:36 +08:00
@Betsy 额,开浏览器是爬虫的无界面浏览器那种,那样爬虫会使用浏览器执行 js 代码。和真实用户看到的网页一样。
yeless
2017-10-19 09:47:29 +08:00
Python + Selenium + PhantomJS
WoodenRobot
2017-10-19 10:41:56 +08:00
使用无界面浏览器做爬虫推荐一下 Splinter。已经集成 Firefox 和 Chrome 的 Headless 模式。
JackZong
2017-10-19 10:43:10 +08:00
天猫商品销量可否有办法爬到?
Betsy
2017-10-19 11:26:03 +08:00
@scriptB0y 是指 Selenium + PhantomJS 这种组合吗?这种的话,我已经实现了,效率堪忧啊...
scriptB0y
2017-10-19 11:27:41 +08:00
@Betsy 效率确实是问题。不过按照你的描述,没办法破解就只好这样了。
Betsy
2017-10-19 11:51:13 +08:00
@scriptB0y 感觉 js 文件本身没有混淆,我再去研究研究下 js 文件中关于生成随机数这部分代码。谢谢你啦,祝你尽快招到合适的人选。
YuuuZeee
2017-10-19 12:01:12 +08:00
用过你们公司的 API,感觉挺棒的,比 BAT 的不相上下
sangmong
2017-10-19 12:17:35 +08:00
@scriptB0y 随便百度一下都有很多区别吧...https://www.zhihu.com/question/28586791
scriptB0y
2017-10-19 12:24:09 +08:00
@sangmong 可能因为你用的是百度?

不如举例说说百度到哪些区别……
sangmong
2017-10-19 12:43:11 +08:00
@scriptB0y 知乎的域名不认识?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/398713

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX