十年了 😄 最近准备做些总结 欢迎提问!!

2017-03-26 23:50:23 +08:00
 ijustdo
睡不着 好多年没总结了 貌似 干过的挺多 准备总结下
想到的第一块 要不从搜索引擎 和商品搜索 商品个性化 推荐 用户兴趣爱好分析建模开始

当然大家也可以下面提需要知道的知识 我干过的也可以总结下 😄

相关总结会慢慢填坑 发个预告先
4383 次点击
所在节点    随想
47 条回复
Camile
2017-03-27 07:54:57 +08:00
沙发,期待
hzwei
2017-03-27 08:06:16 +08:00
当初踏入程序员的路是从那一块开始学的?
Shura
2017-03-27 08:09:46 +08:00
十年内换过技术方向吗?
isb
2017-03-27 08:45:34 +08:00
十年职业发展跟自己当初计划的是否大致相同?
Yourshell
2017-03-27 09:20:04 +08:00
十年前和十年后解决问题的思路有什么不同?纯粹的编码能力在当中扮演什么角色 /地位?
语文不太好,感到不清晰的麻烦回复下。
EchoUtopia
2017-03-27 09:25:34 +08:00
请问你现在使怎样平衡生活和工作的?现在你对未来的生活和工作的规划是怎样的?
Yourshell
2017-03-27 09:30:10 +08:00
上面说到的纯粹的编码能力感觉不是很妥当,感觉编程并没有纯粹的编码能力吧!不知道该怎么问了,我所学到的已经不能表达我想知道的了。
acoder2013
2017-03-27 09:33:08 +08:00
学习历程?
viko16
2017-03-27 09:33:19 +08:00
有什么事令你后悔过?(技术路上的、非技术路上的)
91mikechaos
2017-03-27 09:33:52 +08:00
头像是娜美么?
R18
2017-03-27 09:34:23 +08:00
怎么结婚的
ii4Rookie
2017-03-27 09:34:55 +08:00
@R18 问到重点了。
ijustdo
2017-03-27 09:47:14 +08:00
首先回答职业发展问题?
1. 10 年前作为 python 程序员入职,那个时候 python 的境地跟现在 golang 差不多,用的公司还不是很多
2. 我的特别感谢公司一来作为新人,有技术大牛带,第一个项目就是大约 10w 或者跟多的一个分布式 python 爬虫项目
3. 让我学到了很多东西,多线程,多语言混合编程,任务调度,正则表达式(曾经一段时间每天写几个小时)
4. 初期做垂直搜索,后期做网站和电商,公司原来很多都是传统软件开发转过来的,我也跟着公司不停的换方向
5. python-->php 公司中途有我见过的最牛的 java(被称为或者的 java 手册), 纯记事本手写,指法飞快
6. 公司中途做过针对特殊行业的输入法,那哥们也牛人, 学化学的在 07 年做带显示的,模拟实景的跑步机,产品出来了没钱推广,来我们这,现在应该是其它公司合伙人

7. 我一直从事开发,转了好多方向页转了好多语言,初期么有方向的时候 不断对模式尝试。
8. 中途经理过技术经理甚至到过技术总监,但是我觉得我的性趣还是在代码上, 只是到后期不习惯写那种体力型代码(更多愿意写一些有难度,有成就感的代码), 但是以我这种性格不太适合做管理(不强势,脾气很大 [可能别人认为很难得,我觉得很简单,就喜欢骂人] ), 所以后期基本是公司需要哪方面的东西我觉做哪方面,用什么技术什么语言自己把握。。。 头衔不太在乎,并且对于技术部从来没超过 20 人左右的团队,那些都是虚的,毕竟出东西第一位。。。

9. 现在个人学 golang 在 呵呵 我觉得这个很有前途 现在的境地有点像 2006 2007 那时候 python 的境地,其实还有一个原因,保持不停的学习新东西,避免学习能力下降和脑子退化(反应慢,健忘)

首先说怎么学习新知识 古语有云 后面忘了原话, 要学习知识首先自己得分得清好的和坏的,还有就是你碰到的问题,肯定不是第一个碰到,但是任何问题到一定的程度还得自己研究了, 当时我决定用 rabbitmq 做消息队列,财务里面,第一是看上有证券交易所用这玩意做每天交易监控核算(米国), 说明了在金融上的 可靠, 其它的问题 我们另说, 然后测试了 我台式机做了 1500w 左右的离线消息堆积 以及模拟断电 发现没有任何数据丢失, 就决定用它了, 但是我们财务要用到延时消息,当时找网上发现好多人因为这个功能放弃 rabbitmq ,我的做法是,把他手册全都看一遍,呵呵 找到了 消息又生存时间按 使用了那个 到到生存时间自动转发 完美实现 也没碰到什么问题


其实一直做技术没有什么不好,不好的是心态,或者是自己认为自己已经写不动代码,那是因为你写的是重复劳动, 找不到接着写下去的乐趣。。。
ijustdo
2017-03-27 09:48:41 +08:00
2. 我的特别感谢公司一来作为新人,有技术大牛带,第一个项目就是大约 10w+ 行的一个分布式 python 爬虫项目
ijustdo
2017-03-27 10:48:19 +08:00
这是初稿 大约花了半个小时左右写的,不对或者错误地方, 有时间在填坑

如果转载 标明出去呢 MIT 协议 吧

----------------------------


#### 商品:

+ 类别
+ 各种标签属性
+ 继承来的卖家属性 及标签
+ 继承来的店铺属性及标签
+ 如果是 B2C 还会有继承来的供货商属性及标签
+ 其它分类
- 一次性或者购买周期很长的商品(床,电视,基本大件,或者房子, 车子), 购买后会形成新的购买需求的
- 周期性商品(手纸,日用品...)
- 礼品(比喻生日。。,情人节。。。)


#### 用户:

- 基本标签及属性
- 属于自己的动态兴趣记录
- 用户购买兴趣会变, 可能最近买了个车,然后就产生需求
- 或者最近对明清的古玉有兴趣。。。
- 这个记录应该是一个动态的改变


#### 商品搜索接口:

- 关键词搜索
- 按标签搜索过滤
- 提供各种聚合及聚类分析
- 支持自定义公式排序 这点很重要
- 我要多少天内的,被点赞多少以上, 以及买家收藏到了多少,曾经售出多少,卖家信誉超过多少 的商品
- 几百万或者几千万商品+ 毫秒的聚合和 这是必备基础啊


#### 怎么搞?

1. 我们认为用户的行为会反应他的习惯
2. 我们认为用户的习惯会发生改变
3. 我们认为我们的分析结果还可以改经(设计结构预留后续可继续进行)
4. 设计若干场景, 当然这些场景模型以后可以加
- 用户收藏一件商品 我们可以记录 uid , 商品 id , 行为
(这里不记录商品标签,我们认为我们商品分析在后期可能还会进步,所以是直接记录一个商品 id 引用商品)
- 用户周期性看某一类商品 记录 uid , 类别
- 一段时间内重复看 某一件商品 这里是不是侧面说明购买这个可能性大 但是还在犹豫 价格或者商家地域 物流等因素。。。

5. 用户的购买过的订单数据挖掘
- 比喻最近购买床,大型家电,那么很可能买房子了,这个时候推荐家装家具。。。。
- 没到一个月或者多久买姨妈巾,只要数据足够 你可以得到很多背后的信息
6. 用户收藏的商品兴趣挖掘
- 收藏的商品的个性
- 收藏的商品的共性
7. 基本思想就是用户行为 产生数据, 我们在对数据异步分析得出爱好,再根据爱好和其它因素推荐商品
8. 推荐商品的时候我们以用户最近的需求,和性趣为主,慢慢向上回溯
9. 我们好可以挖掘用户兴趣之间的距离 这样防止冷启动, 对于第一次来的用户, 比喻好多都浏览过什么, 我们就找跟他性趣类似的推荐
然后他的进一步的幸会产生数据了 呵呵
10. 我们尽量一我们能把控的确定数据及标签来操作,不确定的慢慢来

#### 关于机器学习挖掘兴趣?
1. 我们可以看到 好多地方可以聚类,但是当我们结果可以肯定的时候 为什么要那么暴力去用也许我们现在还无法可控的机器学习
2. 我就是要个自行车,你非得搞得一堆。。。, 有时候选择多了并不是好事,直接命中最关键
3. 你看九几年的 神经网络到最近换了个马甲出现的深度学习, 多少年了,让科技再发展伙,先解决问题先
4. 文本挖掘有时候 没有一堆各种情况下的正则实在, 起码正则出来的就是这个正则匹配的我要的,然后机器学习聚类出来的
你怎么去掉不需要的干扰 又是个问题


#### 相关工具
1. 自行脑补热力图
2. 我们可以页面部分使用新推荐口, 然后根据热力图,逐步调整策略
3. 搜索引擎的一些技术,自行脑补 文档矩阵, 倒排索引相关知识
feather12315
2017-03-27 10:58:13 +08:00
支持
ijustdo
2017-03-27 11:00:44 +08:00
上面问道怎么结婚的时候个好问题
同事介绍 然后结婚 然后生孩子 然后买房子 感谢同事介绍了有北京户口又不是北京人的媳妇 呵呵

学习知识的路线
一般是工作中要用到什么 就去学 然后不太懂或者无法把握之前不要用
比喻 bdb 当时做搜索引擎离线存储的时候 发现这玩意单个文件 100w 后性能下降 但是那时候早也许现在的版本或者 ssd 早不存在那些问题


大道至简 越简单稳定性越高,特别服务级别的程序,还有饼不要摊太大,一块快来,我们只需要考虑 这个小饼子旁边后面还要加其它饼子就 OK 起码先有的吃
ijustdo
2017-03-27 11:05:38 +08:00
再开一个 要不来大批量商品 自动裁剪商品图
也可以说是图片主题(主体)识别
ijustdo
2017-03-27 11:15:05 +08:00
图片主体(主题)识别

如果转载 标明出去呢 MIT 协议 吧

----------------------------

+ 背景是 B2C 会有大量的拍摄图片需要修图然后作为商品的图片

+ 我们这里确定几点先
- 假设都是相同或类似的背景
- 我们认为图片里占图片面积最大 或者次大的为图片主体 或者是商品
- 这里你基本可以理解了 只要识别图片上最大联通区域 的面积基本就搞定

+ 实施 直接 opencv 当然 pyopencv 貌似比 cpp 直接来的简单
- 输入图片
- 确定图片联通区域面积
- 按照联通区域面积排序 得出图里 要取的图片矩形坐标
- 从这些矩形里区域 生成新的图片 哈哈
- 这里没有想像的那么难吧

+ 代码在这里: https://github.com/ghostwwl/ghostlib/blob/master/maxarea.py
ijustdo
2017-03-27 11:17:03 +08:00
那个代码是 10 年的呢 那时候 opencv 版本还很低 有的函数还有内存泄露问题

现在估计你改吧改吧 还可以跑吧 呵呵

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/350486

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX