V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  zzzlight  ›  全部回复第 7 页 / 共 10 页
回复总数  194
1  2  3  4  5  6  7  8  9  10  
261 天前
回复了 loveumozart 创建的主题 职场话题 GPT 老哥的三集连续剧看得有点头晕
@BeautifulSoap 感觉是热度很高自动推得吧,主要是 v 站这种剧情的和讨论度的帖子还真不多
261 天前
回复了 xiaoxin0523 创建的主题 程序员 寻求一些秋招简历修改意见
简历总的没问题,把四六级写上吧。过不了简历大概率学校问题,没得办法。只能说多投,互联网非互联网都试试,投非互联网项目可以不写那么细,换一个学校表现的版本去投。现在的行情已经不是你有技术就能干了,学历必须过关。唉。
我觉得 op 目前地方挺好的。不读研去或者读研毕业去了其他地方,我倒是感觉现在面临的焦虑会更严重。
267 天前
回复了 Pezeo 创建的主题 问与答 被联通标记为诈骗电话后号码无法开机
可能被诈骗的冒用了,然后被标记然后封号了?但是能非本人拨出电话,只能说运营商是不是又有啥漏洞被人逮到搞黑产了?
275 天前
回复了 Mark24 创建的主题 问与答 为何而卷?
@Mark24 看到 okr 就想到宇宙厂。哈哈哈哈,我只能说你有这样想法说明环境有问题了,速润
275 天前
回复了 Mark24 创建的主题 问与答 为何而卷?
@Mark24 看到 ok 就想到宇宙厂。哈哈哈哈,我只能说你有这样想法说明环境有问题了,速润
参加高考和研究生入学考试。其他的也没办法达成你的目的。还有计算机考公卷度现在直逼三不限
@LancerComet 你好,我稍微看了下 pgvector 的 git ,好像他们提供的 l2 距离的搜索是直接用的 faiss 的 ivfflat 方法(也就是是聚类大致分几个桶之后查询点和图库中数据暴力遍历的思路)(也叫倒排索引)。具体的 pgvector 的表现情况可以看: https://ann-benchmarks.com/pgvector.html 这里用常用的一些数据集(基本就是手写数字和一些经典图像转换过来的究极经典数据集)评估了 qps 情况,查询量可以参考这个的 qps ,理论上来说这些数据集都是被算法极大适应的数据类型,真实世界的查询情况只会差不会好(单由于你这个本来也就是暴力遍历,我估计会和真实环境下差不多)。大致达到 90 多的召回率在 10-100 的 qps 这个范围。
解释一下为啥 milvus 里面有 faiss ,因为所谓的 milvus 核心的代码还是从 faiss 的开源库里面拿过来魔改的,反正现在就是啥开源啥拿来魔改缝合,我不知道你是用的哪个语言接口,里面提供的方法还有哪些,但是这个玩意核心还是用 c++实现的,提供的 mode 溯源的核心算法应该就是那几个(抱歉好久没看 milvus 的调用接口了,现在也不记得了)。
不过 milvus 上那些已经算是能用的算法可以都了解一下,就那么几篇论文,应该对你提高搜索精度上能有所帮助。名字就是我上面提到的一些,考虑到你主要估计是做学习的,省事可以直接看知乎,勤快点就看看论文原文。
向量检索是个大坑,发论文啥的就别碰这个了,对 c++实力要求太高了,而且很多现在的论文也是想尽办法水(属于水都不好水了)
检索上就是速度和精度的权衡,根据你的数据量、内存大小的取舍。
距离度量的话 l2 是没啥毛病的。
@OysterQAQ
除了用 faiss 的话,没事你可以看看 milvus 的配置,换换别的方法,底层用基于图的一些算法或者聚类量化+图结合的应该能提高不少检索精度(不过这个也看你数据量,上亿如果一亿数据还能勉强用用图,更多就只能 pq 算法(又叫基于量化的算法)或者他们的魔改版 diskann 了)。
@OysterQAQ faiss 是 Facebook 的一个库,里面有常见的一些算法比如 pq 、ivfpq 、HNSW 这些,ann 是近似最近邻搜索的意思(现在换了个皮叫向量检索),faiss 是 ann 的搜索算法库。是这么个关系。
检索上 milvus 的集成了不少算法,可以都试试(最后会发现还是经典的 HNSW 最好用)。工业上主流还是 ivfpq 、HNSW 这些,milvus 好像把 diskann 这种超大规模的集成了,但是还是不如经典的 HNSW (听说 milvus 最近魔改进 Diskann 了)。反正检索方面是这个情况。
@OysterQAQ resnet 够用了(这方面真的越经典的越好用,确实是有原因的,很多灌水的或者好像很火的论文在工业应用上是大粪)
这玩意核心还是数据,我还记得以前实验室师弟高强度爬数据的日子 5555555555 。以及被硬盘爆满支配的恐惧。
厉害的,虽然我研究生是做向量搜索的,曾经也有过做这个的想法,可惜行动力不足+实验室折磨导致彻底被恶心到了。楼主研一虽然都是开源库,把这一套搞出来真的很不容易了。
正版机价格不够好确实不好卖,我 slim 带手柄 700 出的
1  2  3  4  5  6  7  8  9  10  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1060 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 20:17 · PVG 04:17 · LAX 13:17 · JFK 16:17
Developed with CodeLauncher
♥ Do have faith in what you're doing.