网站内容同时存在多种语言的标题时, 怎么做搜索分词?

2021-01-03 13:12:03 +08:00
 skypyb

RT.

假如一个网站需要支持文章搜索。
那么当文章标题可能存在 中文|日文 时, 这个文章应该如何分词? 用户输入时又如何分词?


来个好哥哥指点一下

1439 次点击
所在节点    程序员
9 条回复
ryh
2021-01-03 13:28:50 +08:00
个人觉得可以不用那么复杂,依照用户设置的显示什么语言 或者 header 里的 accept-language 搜那个语言的标题就好了,其他语言忽略

显示中文 但搜 平假名 片假名 这种倒是好处理,搜日语的就行, 搜汉字的话你怎么处理,只有用户定义( client 设置 /自选)搜索语言
learningman
2021-01-03 13:56:34 +08:00
你看看谷歌怎么处理的呗,你不定义就按网站语言来
当然谷歌可能还有机器学习之类的东西,但这个方向应该没啥问题
niubee1
2021-01-03 14:05:52 +08:00
ES 里存多条
skypyb
2021-01-03 15:40:33 +08:00
@ryh
@learningman

网站就是中文网站, 但是站内内容可能会出现相当一部分的日文标题 (因为是二次元相关)
如果只搜中文, 那就会漏东西了 😂
YouLMAO
2021-01-03 16:03:18 +08:00
```
1. title analyzer 设置中加日, 浪费索引速度 2 倍
2. 当你知道这个视频包含日语, 比如只占 0.1%的视频, 则同时索引进 title 和 title_jp, 其他情况索引进 title
```

当 query 包含日语, 同时搜索 title+title_jp
YouLMAO
2021-01-03 16:04:20 +08:00
markdown 咋搞的, 不好用
leekafai
2021-01-04 10:11:46 +08:00
p**b 好像就是这样,多语种 title 都可以搜索得到
zhuangjia
2021-01-04 10:14:17 +08:00
@YouLMAO 仅主贴支持,评论不支持
huayumo
2021-01-04 16:14:20 +08:00
上 elasticsearch 搜索引擎,数据库分词什么的鼓捣半天不如 es

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/741196

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX