讲讲做 NLP 的某 team,顺带招些人

2014-11-20 09:13:38 +08:00
 Gestalt
说来大概是我攒卡太多积了些RP的缘故,在七年前听说自然语言处理这东西之后,最后真到了一个做NLP的厂。虽然我不喜欢随便感谢别人,但是还是要感谢v2ex,感谢google,感谢互联网……之类的,否则我还在某个角落里写android app或者拿GAE的一套东西搞爬虫……吧?既然如此,做点同样“加速信息传播”的事情好了。

其实Machine Learning大玄学在恰当的行业倒是可以创造巨大的价值,甚至更相关一点来说,做机器翻译、语音识别或者输入法之类厂都可以活得很好了。但是在中文语言(文字)处理方面,也许钱没有砸到位或者技术始终不及人类的想象吧,非domain knowledge(专业领域知识)相关的分词、命名体识别、话题聚类之类的分析任务,会中文的人都能发现无数愚蠢的错误。所以真正把这玄学用来挣钱的时候遇到各种惨不忍睹的问题也是显而易见的,以至于让人质疑基于大规模数据标注的机器学习的前途。但是毕竟,some are useful ( http://en.wikiquote.org/wiki/George_E._P._Box ). 至少在面对三百万数据的时候,把其中相关的东西聚到一起的还是有一些意义的;识别出文章中的产品、公司、组织、时间,把一段文字当中的关键词自动提取出来,也不是没有意义的(比如你现在在某论坛上看到的)。 最基本的一些东西,可以看这里的demo: http://bosonnlp.com/demo 另外如果想用这玩意的REST API欢迎注册,如果需要调用量可以发邮件给那个support加。

所以真正做事情的时候,甚至难以一句话讲清楚你这个厂是在做什么,面向coder有时也需要解释一会儿。也许比起称之为一个互联网公司,称其为一个广告公司或者一个数据分析公司更加恰当。但对应到工程方面的时候,单这一件事情涉及的方面还是多的:提feature跑模型、优化算法、管理语料、抓数据、做数据标注、写API、web后端系统开发、服务器管理自动化部署、网站前端、生成报告……这些任务都需要人写代码,可是人的精力是有限的,即使你PM也在写代码,CTO也能一天战二十个小时,但是你还是需要其他人。不过招人这种双向选择的事情还真是拼RP,我大概算了一下,敝厂招到一个人的概率远小于我找活干的成功率。虽然这种事情跟我其实没有什么关系,但是很多事情并不是不得已而做,而是因为“看不下去”。一来至少不用看着别人把时间花在无谓的面试上,二来多认识一个coder对我也没有什么坏处。虽然NLP说来也不是一个特别酷炫的技术,但是如果喜欢的话能有个地方写写代码做点相关的事情还是挺好的。

也许一个创业团队能招到靠谱的人,起码一开始需要在事情有意思、队伍好,经验刷得快、给钱多、环境宽松之类的条件里多少占几条。考虑我之所以现在还没有跑路,前三条占的比重应该相当大。第一条因人而异,ML行业在某些时候还真是劳动力密集型;team应该算得上优质,做机器学习的和写python的敝厂还真都有算得上top的人,技术方面讨论到掀桌也无所谓。不忙成狗的时候基本每周我会组织技术分享,生产相关/无关的东西都会有,CTO还会不时做机器学习的专题,所以经验值方面还是很适合想提高自己的人;第四条客观说大概也是互联网行业的平均水平,起码被投的钱上倒是真心不缺,大概可以做到“两年不收于国”。最后一条想想也没有什么恶心人的地方,技术书买了可以报销,嫌键盘不好可以自带生产工具。

虽然JD写得略正式,但实际上对于开发类的活要求仅限于会写代码,不过起码得了解你用的语言(Know your language)。虽然敝厂主要写python,但是不会也没有关系;如果想做NLP的话需要懂点机器学习的常识能切点算法题(起码能手写二分查找或者堆排序之类的吧,很基本了),在ACL之类的地方发过文搞过算法竞赛(OI、ICPC)那最好了。另外因为产品方面脑洞不得不开得大,虽然都是和NLP相关,但是最终输出有可能是一个分析网站,也有可能是一份报告,还有可能是一个REST API,所以技术方面习得新东西能力也是必须的(话说就是单做NLP也要看paper啊——说来有时工作就是看paper也是一个槽点)。

厂址在魔都徐汇话剧大厦的某层,具体可以看网站。周围整体环境算上闹中取静,也许比起在张江干活逼格要高一点。正式招工的JD在此: http://www.bosondata.com.cn/jobs 发简历到 jobs@bosondata.com.cn 就好。

另祝诸位coder都能找到“有趣和有意义的事情”,++RP。

最后附几张公司环境照:





16406 次点击
所在节点    酷工作
61 条回复
wshcdr
2014-11-20 09:32:45 +08:00
恩,比较牛的创业公司啊,
neutrino
2014-11-20 09:34:55 +08:00
赞看paper的哈哈
xunyu
2014-11-20 09:44:45 +08:00
cto是谁??有多少人在做数据标注呢?
Gestalt
2014-11-20 09:48:39 +08:00
@xunyu http://www.bosondata.com.cn/team 第二个。数据标注这种活一般都找学校或者外包之类的,厂里面做好品控就很不容易了。
fghzpqm
2014-11-20 10:09:10 +08:00
我在这里写 Python,欢迎大家过来一起愉快的玩耍。
zix
2014-11-20 10:29:12 +08:00
好像不错,可是在帝都:(
soli
2014-11-20 10:37:43 +08:00
很高大上的样子
tommark
2014-11-20 10:39:55 +08:00
测试”一群牛排着队走着“
结果”一 群 牛排 着 队 走 着“
分析出了,牛排。。。
fishleen
2014-11-20 10:40:09 +08:00
问个不相关的,如果要开始做NLP的小项目,哪里开始比较好。我对于NLP很好奇,但是没接触过。
类似于写个插件优化Lucene的搜索结果。
Gestalt
2014-11-20 10:49:59 +08:00
@tommark “不要把大便当饭吃”之类的……如果分词添加依存文法之类的feature可能可以避免这样的问题,但是毕竟慢。我们的一个解决方法是拿不同的算法做了几套分词在具体的语境下测试效果。

@fishleen 想具体尝试一下可以看看Nature Language Processing With Python, 想了解NLP的概况可以看冯志伟的《计算语言学基础》这本小册子(虽然现在有点老了不过作为索引和概述还是不错的)。
ipush
2014-11-20 10:59:15 +08:00
见过的最牛的招聘贴。 能来北京开个分店吗
Gestalt
2014-11-20 11:09:07 +08:00
@ipush 如果能做大一些也不是没有可能233
Melodic
2014-11-20 11:26:59 +08:00
@zix 明明在魔都...害的我又回头看了一眼
tommark
2014-11-20 11:45:32 +08:00
@Gestalt 可以透露一下你们用的是什么模型吗? 基于概率模型的分词部分我知道有HMM,CRF这两个概率模型,不知道还有没有其他的了
66CCFF
2014-11-20 11:49:19 +08:00
曾经ICPC的队友和学长在你们这 : -)
还是说……你就是 lyr ?
Gestalt
2014-11-20 11:51:35 +08:00
@66CCFF 好吧被你发现了w
66CCFF
2014-11-20 11:55:52 +08:00
@Gestalt 头像暴露系列2333333
我下个月搬去漕河泾那边啦0w<
Gestalt
2014-11-20 12:13:49 +08:00
@tommark 对,就是CRF和一些半监督的方法,只不过在各个层面进行了各种优化和调参。
vibbow
2014-11-20 12:26:18 +08:00
显示器是清华同方的。。。
xcv58
2014-11-20 12:31:24 +08:00
竟然没有双显示器。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/147911

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX