有没有人把 ik 分词器和 html_strip 一起用的?

2015-03-23 15:02:05 +08:00
 sailxjx

最近在项目中用 elasticsearch 做搜索,分词器用的是 ik,索引 html 内容时需要过滤标签,所以就想和内置的 html_strip 过滤器一起使用,但是这两个插件好像不能同时使用,也许是我的配置有问题。

PUT /foo
{
  "index": {
    "analysis": {
      "analyzer": {
        "ik": {
          "alias": [
            "ik_analyzer"
          ],
          "type": "org.elasticsearch.index.analysis.IkAnalyzerProvider"
        },
        "ik_html_strip": {
          "char_filter": [
            "html_strip"
          ],
          "type": "ik",
          "use_smart": false
        }
      }
    }
  }
}

测试的结果中仍然会包含 html 标签

GET /foo/_analyze?format=text&text=the+%3Cb%3Equick%3C%2Fb%3E+br%C3%B6wn+%3Cimg+src%3D%22fox%22%2F%3E+%26quot%3Bjumped%26quot%3B&analyzer=ik_html_strip

求问,怎样才能在使用 ik 分析器之前先过滤 html 标签?

4367 次点击
所在节点    Elasticsearch
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/178805

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX