如何评价一篇文章的质量？

// 科技类的新品发布内容可能很少，质量很低；而深度的产品解剖、行业分析质量很高。

抛开以上不说，浏览、点赞、评论是很值得参考的值，是否有一个经验公式来将这些因素组合成质量？还是一定得用标注样本来训练一遍？

各位有什么好想法？

murmur

2016 年 5 月 17 日

没有好坏太主观了这不像分类器训练你让 10 个人能给你订出 10 个标准来这数据能拿来训练么？

alexapollo

2016 年 5 月 17 日

@murmur 标准虽然主观，但一定存在，只是尺度的控制罢了

cheneydog

2016 年 5 月 17 日

人肉识别

menc

2016 年 5 月 17 日

打分是机器学习最典型的应用之一。

首先要说明的是，打分这种事情没法主观来标注，尤其对于今日头条这种，你作为一个硕士毕业或者博士毕业生，你喜欢的，你觉得质量高的，在你的目标眼睛里，未必是高质量的，你觉得俗不可耐的，却恰恰是他们的蜜糖。
或者，你不喜欢阿里，不喜欢 wp ，但是买了微软和阿里的股票，就一定非常喜欢关注他们的文章。

那么对于文章的评价，要用统计量来对文章的质量作评价，合适的 label 有：
对于已经过滤掉了标题党的文章，可以使用 ctr
对于没有过滤过内容的文章，可以使用平均停留时长
或者，以上两者的加权平均。

有了 label ，考虑进行打分。当然分数按照 label 的 scale 来，若是 ctr 做 label ，分数是 0-1 越高越好， 0.3 以上的 ctr 一般就是质量非常高的分数了。

对于特征，有两种特征：
一种叫做泛化特征，即伴随着文章一直不变的特征，如 tf-idf ， word2vec ，文中是否包含不规范的标点，文章来源，文章发布时间等等
一种叫做历史特征，即随时间会变化的特征，如历史 ctr ，如每个词的 ctr ，如类别的 ctr 。

用两种特征套到模型里，就能得到一个你想要的公式或者模型了。

一般地，我们用于打分的特征，不少于 300 维，也就是说，从几百个方面来衡量一篇文章究竟质量好还是坏，从而决定，是否要给用户推送。

jedicxl

2016 年 5 月 17 日

@alexapollo 标准不存在

同一篇文章，在不同的背景、不同的语境、不同的作者、不同的读者群、不同的传播渠道、不同的宣传方式下，得到的评价都会不同

文无第一，这话放到现在依然适用

charlie21

2016 年 5 月 17 日

出版物质量 > 电子书 > 网页新闻 > 论坛帖子 > 热门跟帖回帖
一群猫可以评出最好吃的猫粮是什么但那不是人吃的

charlie21

2016 年 5 月 17 日

并不是对于出版物的偏见，而是 ....

熵的社会学意义
http://www.ruanyifeng.com/blog/2013/04/entropy.html

如果训练的话，可以先找出 10 个目标受众，然后让他们去训练机器（设计评价的维度或标准），然后再让机器再去训练其他机器（类似于机器的繁殖，可以包含基因交换，这样就诞生了子代个体包含父代的基因但有自己的变化），最终的子项去作为筛选器、评分器去工作。 —— 这样的机器和人基本没分别了

让机器做机器擅长的事情还是可以的

alexapollo

2016 年 5 月 17 日

@menc
我认为你说的并不是文章的质量，而是另外几个分数[1]，与文章质量并不能等同。
一篇心灵鸡汤，它的 CTR 、阅读时长可能都很高，但它并不是质量高的文章。

换一个角度来讲，我们衡量的可能不是质量，在这个语境下，更贴近深度（领域专业度），这里给出一些我的经验：
1. 娱乐八卦下的深度八卦可能是很合适的素材
2. 就“科技-AI ”类别，机器之心推送的内容大部分深度较高
3. 剖析苹果发展史的比推苹果手机的内容更深度。

深度本身应该是一个独立的模型，而不应该揉杂在其他的分数中， CTR 无法代表深度（深度往往看得人更少），但它们[1]都对深度预测有一定意义。

[1] CTR 、阅读时长、阅读百分比

alexapollo

2016 年 5 月 17 日

@menc 如果有深度本身，对于用户可能才会有更好的筛选、鉴别。
如果你是头条的，那我说的可能更贴合你们另一个特征：逼格

alexapollo

2016 年 5 月 17 日

@jedicxl 你说的是有道理的，相当于是：文章质量的度量可能意义不大，意义更大在于群体划分
但不管如何，文章质量客观存在，我们很清楚的知道“不转不是中国人”是俗的、质量差的，理应可以区分的

alexapollo

2016 年 5 月 17 日

@charlie21 典型的半监督学习思想 :)

menc

2016 年 5 月 17 日

@alexapollo
一切脱离现实的空谈都是耍流氓。
对于你，可能深度的产品解剖、行业分析质量很高，但是徐小平不在乎，李开复不在乎，他们对行业的理解已经不需要这些东西，他们看这些都是小儿科，他们反而更希望看到改变世界的新创意和新点子，这些对他们才是高质量。
”汝之蜜糖,彼之砒霜”就是这个道理。

所以，没有普世价值的质量高，只有对某一个群体的价值高。
数据量大了，展现的趋势足够说明问题。相信数据不凭主观臆断做事情，是做机器学习最基本的准则。

数据量大了， bias 就会显得微不足道，数据就足够说明问题。

如果你想要一个对你质量高的，那你就自己去标记然后训练模型咯，也能得出结果，但只对你有效。

alexapollo

2016 年 5 月 17 日

@menc 对，毫无疑问的是，深度也只是一个特征而已。
李开复不喜欢深度，无非就是不推深度文章而已。数据是可以说明问题的。

alexapollo

2016 年 5 月 17 日

@menc 深度本身并不代表价值，反而正是区分群体的特征。
“改变世界的新创意和新点子” 倒是怎么量化呢？
我觉得你没有理解我说的话。

menc

2016 年 5 月 17 日

@alexapollo
还是那句话，先学数学，学完了你什么都懂了。

alexapollo

2016 年 5 月 17 日

@menc 对你我也只能摊手了 ╮(╯_╰)╭

如果你懂的比我多，看懂我说的也是分分钟的事，奈何你连理解都不理解就妄图下定义

cqcn1991

2016 年 5 月 17 日

说个我极其粗糙的做法，用 Pocket 的数据来做的
http://productchaseapp.herokuapp.com/tech2pocket

其他的可用数据，是 twitter 或者 facebook 的分享数。但是显然，被分享的数据并不意味着文章质量，这方面， pocket 的数据会更好一些。

我这个 demo 只是一个简单的排序。稍微好一点，是结合本身信息源的推送频度来做。其实做到这个基础水平，文章质量基本就有保证了。

menc

2016 年 5 月 17 日

@alexapollo 对数据缺乏起码的尊重

alexapollo

2016 年 5 月 17 日

@cqcn1991 有趣， pocket 数据很好，不过国内有对标的数据吗？

alexapollo

2016 年 5 月 17 日

@menc
我们讨论的是两个维度，大哥，基于内容的推荐有两块，一块是内容特征的抽取，一块是推荐
我说的是内容特征，你说的是推荐，驴头不对马嘴好吗？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/279282

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.