求大神解答，怎么用 Python 将两个 excel 中类似信息提取出来。

2020-12-17 14:26:57 +08:00

kevinfk2

例如：A 表记录了某场会议的参加名单，B 表是自己拥有的客户名单。

想找出 A 表中哪些客户是来自 B 表的。

用 excel 的问题就在 A 表记录的名称和 B 表记录的名称可能不完全一样，就不方便使用 VLOOK 函数了。

请问 python 有没有使用关键词去查的方法呢？

1954 次点击

所在节点

9 条回复

6167

2020-12-17 14:35:00 +08:00

具体情况具体分析，这个不完全一样具体有多不一样得有个例子才好判断

TimePPT

2020-12-17 14:40:53 +08:00

你这需求能实现的太多了，得看不一样到啥程度
A 表是「张三」
B 表有个「*张叁」一个「张三丰」
这怎么对应？

kevinfk2

2020-12-17 14:41:25 +08:00

@6167 比如 a 里面是 XX 市 XX 科技有限公司，B 里面可能是 XXxx 科技有限公司。
所以我的意思是用关键词，就是公司的名字那段去查。

6167

2020-12-17 15:38:02 +08:00

先把 AB 表筛一遍，把 XXxx 有限公司中的“X 地名”“有限”“公司”等无效字符去掉，剩下的字符串就是你需要的“公司名”，把关键字存为新的一列，再比对。用 '你好' in '你好吗'这种比差不多吧

xiaolinjia

2020-12-17 15:57:38 +08:00

qiuhang

2020-12-17 15:58:20 +08:00

pandas

kevinfk2

2020-12-17 15:58:49 +08:00

@6167 多谢咯
@xiaolinjia 多谢咯

ZAXON

2020-12-17 16:07:50 +08:00

单从你举的例子来看，应该是计算字符串相似度吧。四楼说的去除地区名，正好我前几天用到了，可以去 github 上面找找，有整理好的行政区清单。

shyrock

2020-12-18 14:47:20 +08:00

直接计算相似度的方法效果不好，可以先分词，再用 TF-IDF 模型来计算相似度。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.