求机器学习/数据挖掘相关工作

2015-11-13 17:54:37 +08:00
 lufo816
## 基本信息

- 姓名:刘学博
- 教育经历: 2012 级中山大学移动信息工程学院软件工程专业本科
- 个人博客: [lufo.me]( http://lufo.me/)
- Github: [github.com/lufo816]( https://github.com/lufo816)
- 电子邮件: [lufo816@gmail.com](mailto:lufo816@gmail.com)
- 技能:熟悉 Python,C,C++,长期使用 Linux/Unix 操作系统

## 实习经历

- 2015.7-2015.9:于中国科学院重庆研究院[智能多媒体技术研究中心]( http://www.cigit.cas.cn/jggk/ggkypt/201403/t20140328_4082809.html)人脸识别组([云从科技]( http://www.cloudwalk.cn/)研发组)实习,工作内容包括:
- 进行实验:对比不同 Alignment 算法对人脸识别性能的影响,并提出改进方案
- 完善深度学习代码:尝试将 PLDA 算法作为 loss function 写入 caffe 的源代码中.尝试设计 CNN 完成图片去模糊的工作
- 数据抓取:完成爬虫抓取百度,人人,bing 等网站的图片并进行自动筛选,部署到多台机器上,目标是抓取数十 TB 的数据,整理后将获得比现有数据集大至少一个数量级的数据集
- 2014.3-2015.7:中山大学移动信息工程学院人工智能,软件设计的教学助理

## 论文发表

- **Xuebo Liu**, Shuang Ye, Yonghao Luo, Yanghui Rao, [ZhihuRank: A Topic-Sensitive Expert Finding Algorithm in Community Question Answering Websites]( http://lufo.me/docs/ZhihuRank.pdf), [International Conference on Web-based Learning (ICWL) 2015]( http://www.cityu.edu.hk/merc/icwl/icwl2015home.htm)
- Xin Li, Yanghui Rao, Yanjia Chen, **Xuebo Liu**, Huan Huang, [Social Emotion Classification via Reader Perspective Weighted Model]( http://lufo.me/docs/Social%20Emotion%20Classification%20via%20Reader%20Perspective%20Weighted%20Model.pdf), [AAAI 16 Student Abstract](www.aaai.org/Conferences/AAAI/2016/aaai16studentcall.php)
- Shuang Ye, KaiChun Lin, XinYi Lin, **XueBo Liu**, Chang-Dong Wang, HanChen Yu, Schedule Management Application ‘ WiDay ’ based on SAE cloud platform, [IEEE International Conference on Big Data and Cloud Computing 2015]( http://www.cybermatics.org/SWC2015/CBD/CBD2015.htm)



## 项目经历

- **机器学习**
- ZhihuRank:问答类社交网站中专家推荐创新算法,在社交类问答网站(知乎,Quora)中基于用户与问题间的主题相似度和用户间的赞同关系对每个问题推荐最适合回答这个问题的用户.算法基于 LDA 和 PageRank,从知乎上抓取了超过 20 万条答案进行实验,效果比同类算法提高 2%-10%,以第一作者完成论文并发表在 ICWL 2015
- 人脸识别系统:完成基于深度学习的人脸识别系统.使用 CNN 提取图片特征,使用联合贝叶斯完成 verification.使用 alignment 后的 CASIA Webface 进行训练,LFW 数据及上测试人脸识别的准确度超过 97%
- [语音识别系统]( https://github.com/lufo816/SpeechRecognitionSystem):完成基于 GMM 和 HMM 的语音识别系统,可以识别特定的连续语音,如电话号码,单个数字的识别准确率超过 90%,电话号码的识别准确率超过 80%.使用 MFCC 作为特征,HMM 中的每个 state 使用 GMM 表示,以 word 为单位进行识别,训练数据很少,增加数据可提升效果
- [TwitterRank]( https://github.com/lufo816/TwitterRank):提取各个主题下最有影响力的 Twitter 用户,使用 LDA 算法提取主题,抓取 Twitter 上粉丝数前 100 的用户数据完成实验
- **其他**
- [基于 Flask 框架的微信公众号二维码管理网站]( https://github.com/lufo816/WeiXinPublicAccountFollowedByQRAnalysis):方便微信公众号管理二维码的网站.个人负责基于 FLask 框架进行后台开发,使用 MySQL 储存数据
- [基于 webpy 框架查菜谱微信公共号]( https://github.com/lufo816/WeiXinCookbook):用户可在公众号中查询各种菜的做法,基于 webpy 框架进行开发,使用 MySQL 储存数据,调用聚合数据的 API 获取菜的做法,完成静态网页生成器将 json 格式的数据转化为网页推送给用户
- 最流行的[知乎民间 API]( https://github.com/egrcc/zhihu-python)(Github 上有超过 500 个 stars):可以获取知乎的各种数据,使用 requests 库发送请求,使用 BeautifulSoup 对网页源码进行解析.个人负责修改 Bug,添加功能,如获取每个答案赞同人列表等

## 演讲

- 2015 年 11 月于广州华南理工大学进行关于发表在[ICWL 2015]( http://www.cityu.edu.hk/merc/icwl/icwl2015home.htm)上论文的演讲,幻灯片在[这里]( http://lufo.me/docs/pre_icwl_2015.pdf)
3902 次点击
所在节点    求职
11 条回复
ryon
2015-11-13 18:30:01 +08:00
来什么吗?接触聊聊?我们在做基因检测,有大量的基因组数据可供挖掘。。 www.wegene.com
可以联系我:zq#wegene.com
1oscar
2015-11-13 20:07:41 +08:00
mark 一下,是因为我也在找这个工作
andyhenry
2015-11-13 23:24:56 +08:00
@ryon 您这个方向很好的,我也有点心动,只是在深圳,我去深圳小产权都够呛能买得起。。。
northisland
2015-11-14 01:12:14 +08:00
本科生这么 nb ,直接申全奖出去?
benatsh
2015-11-14 08:22:31 +08:00
这背景不急着工作的吧,应该申请个好学校,找个好导师先深造一下,要积累,要沉淀
clarkchen
2015-11-14 10:44:37 +08:00
您好,我是 wecash 闪银 的机器学习工程师,我觉的您的经历非常符合我们这边的机器学习方面工作,您如果有兴趣,我可以帮内推~
lufo816
2015-11-14 11:14:25 +08:00
@ryon 偏向找北京的公司哈,谢谢了.
lufo816
2015-11-14 11:15:03 +08:00
@benatsh 绩点一般啊.
ryon
2015-11-15 01:28:28 +08:00
@andyhenry 一起,说不定我们有机会呢:)
ryon
2015-11-15 01:29:16 +08:00
@lufo816 北京空气不好啊
wolfsecond
2015-11-16 11:29:15 +08:00
我们做购物方向,需要大数据技术,能处理 100tb 级别的数据。有意向,我们可以聊聊, gaoyang@miaomiaoz.com 。坐标北京北苑

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/236020

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX