V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ijustdo  ›  全部回复第 4 页 / 共 9 页
回复总数  174
1  2  3  4  5  6  7  8  9  
2017-03-27 11:17:03 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
那个代码是 10 年的呢 那时候 opencv 版本还很低 有的函数还有内存泄露问题

现在估计你改吧改吧 还可以跑吧 呵呵
2017-03-27 11:15:05 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
图片主体(主题)识别

如果转载 标明出去呢 MIT 协议 吧

----------------------------

+ 背景是 B2C 会有大量的拍摄图片需要修图然后作为商品的图片

+ 我们这里确定几点先
- 假设都是相同或类似的背景
- 我们认为图片里占图片面积最大 或者次大的为图片主体 或者是商品
- 这里你基本可以理解了 只要识别图片上最大联通区域 的面积基本就搞定

+ 实施 直接 opencv 当然 pyopencv 貌似比 cpp 直接来的简单
- 输入图片
- 确定图片联通区域面积
- 按照联通区域面积排序 得出图里 要取的图片矩形坐标
- 从这些矩形里区域 生成新的图片 哈哈
- 这里没有想像的那么难吧

+ 代码在这里: https://github.com/ghostwwl/ghostlib/blob/master/maxarea.py
2017-03-27 11:05:38 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
再开一个 要不来大批量商品 自动裁剪商品图
也可以说是图片主题(主体)识别
2017-03-27 11:00:44 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
上面问道怎么结婚的时候个好问题
同事介绍 然后结婚 然后生孩子 然后买房子 感谢同事介绍了有北京户口又不是北京人的媳妇 呵呵

学习知识的路线
一般是工作中要用到什么 就去学 然后不太懂或者无法把握之前不要用
比喻 bdb 当时做搜索引擎离线存储的时候 发现这玩意单个文件 100w 后性能下降 但是那时候早也许现在的版本或者 ssd 早不存在那些问题


大道至简 越简单稳定性越高,特别服务级别的程序,还有饼不要摊太大,一块快来,我们只需要考虑 这个小饼子旁边后面还要加其它饼子就 OK 起码先有的吃
2017-03-27 10:48:19 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
这是初稿 大约花了半个小时左右写的,不对或者错误地方, 有时间在填坑

如果转载 标明出去呢 MIT 协议 吧

----------------------------


#### 商品:

+ 类别
+ 各种标签属性
+ 继承来的卖家属性 及标签
+ 继承来的店铺属性及标签
+ 如果是 B2C 还会有继承来的供货商属性及标签
+ 其它分类
- 一次性或者购买周期很长的商品(床,电视,基本大件,或者房子, 车子), 购买后会形成新的购买需求的
- 周期性商品(手纸,日用品...)
- 礼品(比喻生日。。,情人节。。。)


#### 用户:

- 基本标签及属性
- 属于自己的动态兴趣记录
- 用户购买兴趣会变, 可能最近买了个车,然后就产生需求
- 或者最近对明清的古玉有兴趣。。。
- 这个记录应该是一个动态的改变


#### 商品搜索接口:

- 关键词搜索
- 按标签搜索过滤
- 提供各种聚合及聚类分析
- 支持自定义公式排序 这点很重要
- 我要多少天内的,被点赞多少以上, 以及买家收藏到了多少,曾经售出多少,卖家信誉超过多少 的商品
- 几百万或者几千万商品+ 毫秒的聚合和 这是必备基础啊


#### 怎么搞?

1. 我们认为用户的行为会反应他的习惯
2. 我们认为用户的习惯会发生改变
3. 我们认为我们的分析结果还可以改经(设计结构预留后续可继续进行)
4. 设计若干场景, 当然这些场景模型以后可以加
- 用户收藏一件商品 我们可以记录 uid , 商品 id , 行为
(这里不记录商品标签,我们认为我们商品分析在后期可能还会进步,所以是直接记录一个商品 id 引用商品)
- 用户周期性看某一类商品 记录 uid , 类别
- 一段时间内重复看 某一件商品 这里是不是侧面说明购买这个可能性大 但是还在犹豫 价格或者商家地域 物流等因素。。。

5. 用户的购买过的订单数据挖掘
- 比喻最近购买床,大型家电,那么很可能买房子了,这个时候推荐家装家具。。。。
- 没到一个月或者多久买姨妈巾,只要数据足够 你可以得到很多背后的信息
6. 用户收藏的商品兴趣挖掘
- 收藏的商品的个性
- 收藏的商品的共性
7. 基本思想就是用户行为 产生数据, 我们在对数据异步分析得出爱好,再根据爱好和其它因素推荐商品
8. 推荐商品的时候我们以用户最近的需求,和性趣为主,慢慢向上回溯
9. 我们好可以挖掘用户兴趣之间的距离 这样防止冷启动, 对于第一次来的用户, 比喻好多都浏览过什么, 我们就找跟他性趣类似的推荐
然后他的进一步的幸会产生数据了 呵呵
10. 我们尽量一我们能把控的确定数据及标签来操作,不确定的慢慢来

#### 关于机器学习挖掘兴趣?
1. 我们可以看到 好多地方可以聚类,但是当我们结果可以肯定的时候 为什么要那么暴力去用也许我们现在还无法可控的机器学习
2. 我就是要个自行车,你非得搞得一堆。。。, 有时候选择多了并不是好事,直接命中最关键
3. 你看九几年的 神经网络到最近换了个马甲出现的深度学习, 多少年了,让科技再发展伙,先解决问题先
4. 文本挖掘有时候 没有一堆各种情况下的正则实在, 起码正则出来的就是这个正则匹配的我要的,然后机器学习聚类出来的
你怎么去掉不需要的干扰 又是个问题


#### 相关工具
1. 自行脑补热力图
2. 我们可以页面部分使用新推荐口, 然后根据热力图,逐步调整策略
3. 搜索引擎的一些技术,自行脑补 文档矩阵, 倒排索引相关知识
2017-03-27 09:48:41 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
2. 我的特别感谢公司一来作为新人,有技术大牛带,第一个项目就是大约 10w+ 行的一个分布式 python 爬虫项目
2017-03-27 09:47:14 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
首先回答职业发展问题?
1. 10 年前作为 python 程序员入职,那个时候 python 的境地跟现在 golang 差不多,用的公司还不是很多
2. 我的特别感谢公司一来作为新人,有技术大牛带,第一个项目就是大约 10w 或者跟多的一个分布式 python 爬虫项目
3. 让我学到了很多东西,多线程,多语言混合编程,任务调度,正则表达式(曾经一段时间每天写几个小时)
4. 初期做垂直搜索,后期做网站和电商,公司原来很多都是传统软件开发转过来的,我也跟着公司不停的换方向
5. python-->php 公司中途有我见过的最牛的 java(被称为或者的 java 手册), 纯记事本手写,指法飞快
6. 公司中途做过针对特殊行业的输入法,那哥们也牛人, 学化学的在 07 年做带显示的,模拟实景的跑步机,产品出来了没钱推广,来我们这,现在应该是其它公司合伙人

7. 我一直从事开发,转了好多方向页转了好多语言,初期么有方向的时候 不断对模式尝试。
8. 中途经理过技术经理甚至到过技术总监,但是我觉得我的性趣还是在代码上, 只是到后期不习惯写那种体力型代码(更多愿意写一些有难度,有成就感的代码), 但是以我这种性格不太适合做管理(不强势,脾气很大 [可能别人认为很难得,我觉得很简单,就喜欢骂人] ), 所以后期基本是公司需要哪方面的东西我觉做哪方面,用什么技术什么语言自己把握。。。 头衔不太在乎,并且对于技术部从来没超过 20 人左右的团队,那些都是虚的,毕竟出东西第一位。。。

9. 现在个人学 golang 在 呵呵 我觉得这个很有前途 现在的境地有点像 2006 2007 那时候 python 的境地,其实还有一个原因,保持不停的学习新东西,避免学习能力下降和脑子退化(反应慢,健忘)

首先说怎么学习新知识 古语有云 后面忘了原话, 要学习知识首先自己得分得清好的和坏的,还有就是你碰到的问题,肯定不是第一个碰到,但是任何问题到一定的程度还得自己研究了, 当时我决定用 rabbitmq 做消息队列,财务里面,第一是看上有证券交易所用这玩意做每天交易监控核算(米国), 说明了在金融上的 可靠, 其它的问题 我们另说, 然后测试了 我台式机做了 1500w 左右的离线消息堆积 以及模拟断电 发现没有任何数据丢失, 就决定用它了, 但是我们财务要用到延时消息,当时找网上发现好多人因为这个功能放弃 rabbitmq ,我的做法是,把他手册全都看一遍,呵呵 找到了 消息又生存时间按 使用了那个 到到生存时间自动转发 完美实现 也没碰到什么问题


其实一直做技术没有什么不好,不好的是心态,或者是自己认为自己已经写不动代码,那是因为你写的是重复劳动, 找不到接着写下去的乐趣。。。
2017-03-27 00:53:57 +08:00
回复了 saberpowermo 创建的主题 北京 北京 关于进一步加强商业、办公类项目管理的公告
关键是一批卖商住两用的人 苦了 不好出手
卖商住两用 一要么投资 因为不限购
二是没有户口的刚需 这种很多吧

说到底还是坑了一批人啊
2017-03-23 18:05:56 +08:00
回复了 poppinbaobao 创建的主题 职场话题 尴尬!这样的面试你们遇到过吗!!!
他们不知道有个数学软件叫 lingo 专治这种问题么 垃圾公司 如果说 这些提用 lingo 怎么建模 可能都比这个靠谱点 谁给你手算
就他妈的假金士顿 后来找卖 u 盘的 一顿骂
十年前 我们学院两个公开答辩 我是其中一个 还是第一 头天买的优盘 答辩插上 不认得 我的论文 我的 demo 哎 结果凭记忆盲讲 还好分数后给的不低 想起来一身汗
2017-03-20 23:26:40 +08:00
回复了 idblife 创建的主题 程序员 公司有个 5000 元的培训额度,学点啥好
吃顿好的 😄
你看我能给多少 没咋写过简历
2017-03-18 22:13:19 +08:00
回复了 maiganne 创建的主题 自然语言处理 Python 自然语言分析如何提取特定关键词?
哈工大 ltp
2017-03-18 17:38:48 +08:00
回复了 maiganne 创建的主题 自然语言处理 Python 自然语言分析如何提取特定关键词?
北大的中文有个撒实验室 也出类似的 其实 就是带 词性的分词 然后再处理 python jieba 分词也带词性分词

最简单的 你可以先用 jieba 试试 找名词 和机构名词 我要是没记错 jieba 也带新词发现 。。。
2017-03-18 17:33:23 +08:00
回复了 maiganne 创建的主题 自然语言处理 Python 自然语言分析如何提取特定关键词?
百度的自然语言接口也提供 免费的文本相关的接口 每天有次数限制
2017-03-18 17:32:03 +08:00
回复了 maiganne 创建的主题 自然语言处理 Python 自然语言分析如何提取特定关键词?
实体识别 找这个 相关的库 我用的哈工大的库
2017-03-18 16:59:42 +08:00
回复了 maiganne 创建的主题 自然语言处理 Python 自然语言分析如何提取特定关键词?
INFO 2017-03-18 16:58:52,236] intxt: 有一个叫一腿有限公司的是个好公司
INFO 2017-03-18 16:58:52,236] 1:有 /v[-1:HED] 2:一个 /m[7:SBV] 3:叫 /v[7:SBV] 4:一 /m[4:ATT] 5:腿 /n[5:ATT] 6:有限公司 /n[2:VOB] 7:的 /u[2:RAD] 8:是 /v[0:COO] 9:个 /q[10:ATT] 10:好 /a[10:ATT] 11:公司 /n[7:VOB]
INFO 2017-03-18 16:58:52,236] A1(3, 5): 一 腿 有限公司
INFO 2017-03-18 16:58:52,236] A0(1, 1): 一个
INFO 2017-03-18 16:58:52,236] A0(6, 6): 的
INFO 2017-03-18 16:58:52,236] A1(8, 10): 个 好 公司
INFO 2017-03-18 16:58:52,236] ------------------------------------------------------------

看到没有 一腿有限公司 成功识别 当然这个公司是不存在的 呵呵
2017-03-18 16:51:37 +08:00
回复了 maiganne 创建的主题 自然语言处理 Python 自然语言分析如何提取特定关键词?
中文处理里面有个 实体识别 就是代词性的分词 然后找到那些 为 机构名词
2017-03-18 16:48:15 +08:00
回复了 littleylv 创建的主题 PHP 吐槽一下支付宝 alipay-sdk- PHP
我们这边弄过蚂蚁金服的 呵呵 当时也是恶心的不行呢 后来干脆不用它 sdk 自己动手丰衣足食
1  2  3  4  5  6  7  8  9  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1053 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 19:32 · PVG 03:32 · LAX 12:32 · JFK 15:32
Developed with CodeLauncher
♥ Do have faith in what you're doing.