通过多个标签来预测值并解释原因，可以使用什么算法来实现？

标题可能没写清楚。目的是，研究搜索引擎的排序规则。

已知的是，网页里面出现特定区块会显著有助于排名，比如「相关文章」这般的区块。

如果自行去判断区块的性质，还要仿照到搜索引擎具体实现的细节，可能过于困难。但如果仅提取处理网页里面的词，提取出「相关」这样的词，就容易得多，并且也能满足一部分需求。

目前，通过这样的方式，将网页的分词结果去对照排序结果，通过一些最基础的统计手段有了一些成果。

但肯定有些不理想之处，比如「相关」和「类似」这两个词有时作用可能是相同的，又如「当前」和「位置」两个词可能要同时出现才具有意义（面包屑导航）……依靠统计方法，也较难在样本量不到特别大的时候，去寻找到一些出现频率极少的但有效的词语。

x: ['网站', '首页', '文章', '作者'……] (网页上出现的词)

y: 5 (网页在搜索引擎上搜某一个词时候的排名)

在大量样本下，可以「一定程度」去分析到底是 x 里面的某个词具体是如何影响 y 的，不知道是否有可能可行的机器学习算法？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。