如何评价一篇文章的质量？

// 科技类的新品发布内容可能很少，质量很低；而深度的产品解剖、行业分析质量很高。

抛开以上不说，浏览、点赞、评论是很值得参考的值，是否有一个经验公式来将这些因素组合成质量？还是一定得用标注样本来训练一遍？

各位有什么好想法？

451223358

2019-03-18 09:59:19 +08:00

@alexapollo 目前做文本传播质量的预测更现实

alexapollo

2019-03-18 14:17:32 +08:00

@451223358
当然有标准了，现在各个 feeds 产品动辄二三十人专门做质量的算法 team 又不是吃白饭的，而 FB / GOOG 早几年就开始做了，FB 在 6 年前的质量、审核团队就有上百人
更不要说楼上 menc 所在的头条早几年就开始做的质量 team （当时头条被批斗的厉害，张一鸣承诺要加数千到上万人，各位忘了吗）

我发这贴主要是想看看各家从业者到底是用什么思路来做的，不是让人回答“我虽然没有做过吗，但是这很难，不可能”

451223358

2019-03-19 09:04:09 +08:00

@alexapollo 机器做不到语义理解，谈何标准。你说的标准如果是传播质量当然可以根据历史数据反推，如果是根据文本内容，那标准如果不是语义理解还能是什么呢？
另外，我总能感到从事算法的爆棚的自信...

alexapollo

2019-03-20 15:05:18 +08:00

@451223358 hmm，看起来你连从业者都不是，这种辩论就没有任何意义了。

451223358

2019-03-20 16:51:57 +08:00

@alexapollo 如果您愿意保持这样审慎的态度，我倒是愿意说说自己的看法。其实两个方向不一样，一个是内容传播质量，一个是单纯的内容质量。前一个是头条等单位正在做的，后一个单纯的从文本角度，不依赖除文本外的其他数据去做内容质量体系。

451223358

2019-03-20 16:59:16 +08:00

无论是上文头条那伙计的蜜糖砒霜，还是您这样的，都得界定一个前提。是内容质量还是内容传播质量，一般来说，是根据内容的传播质量反馈的数据去反推内容质量高低。这样做是因为内容传播质量是数据可描述的，而内容质量数据描述不了。但这样做有弊端，根据内容传播质量反推内容质量最大的弊端在于内容传播的文本大多数都是新闻资讯类文本，小说等深度阅读的长文很少，只能对于浅阅读或者说快速阅读的资讯等信息有效果，对于深度阅读或者某类深度信息其实是没用的。所以问题得改改，不是文章质量评估，而是某类特定文章的传播预测。

alexapollo

2019-03-20 18:14:27 +08:00

@451223358
1. 内容质量：BAT、头条都在做，而且有很大的团队，我已经在上面说过了，这是事实；
2. 内容传播效率：这个问题每个场景优化点不一样罢了，小说一样可以靠阅读时间来衡量效果，头条前两天做了滑动级别的实验，观察每个用户的滑动、停留数据，进而分析关注点，不同内容模态、不同目标也早就是老生常谈了。

alexapollo

2019-03-20 18:15:20 +08:00

@451223358 事实无需辩论，如果你不接受，我们就没有谈论的必要了

451223358

2019-03-20 19:43:37 +08:00

@alexapollo 您在混淆话题，针对上述 1，bat 和头条做的都是垃圾识别，欢迎找到一例单纯根据文字本身来评估内容质量——注意，是指优质内容打分，而非识别垃圾，而这个打分的分值是对应的是未来的传播数值，即仅根据文字本身来做到传播预测，如有，欢迎打脸。
关于上述 2 你和头条那伙计还有我观点没有区别。

alexapollo

2019-03-21 00:17:15 +08:00

@451223358 兄嘚，你该了解了解 BAT/头条的算法部门了，其中有一个核心 team 以前就是我带的
我们在三年前就已经做了高质量内容的模块了，发这个帖子纯粹是想和业界其他团队交流交流

451223358

2019-03-22 08:21:45 +08:00

@alexapollo 文本在未传播前（离线）就对可能的传播情况做出来预测吗？如果是这样，那确实我错了，怎样可以更多的了解这块的进展呢？

451223358

2019-03-22 08:24:01 +08:00

@alexapollo 如果是根据小范围传播或者早期传播推断整个文本的传播情况，那您说的高质量内容模块测试依然属于内容传播质量的范畴

alexapollo

2019-03-26 09:30:40 +08:00

@451223358 做的不是这个，反而是主观判断文章好不好
- -# trade secret 就不说了，你是做哪行的，传统媒体从业者？

451223358

2019-03-27 09:57:18 +08:00

@alexapollo 可能我们还未就“文本质量”定义达成共识。到底是文章在“文本”方面的质量呢？还是文章在动态的“传播”过程和用户读后“交互反馈”的质量。关键是这方面没有达成共识，我理解现行的技术可能更侧重传播侧，读者交互方面的机器计算，文本未传播前（离线）的拆解这些角度我还没看到有愿意去介入的公司。但个人可能觉得这方面未来更重要一些，内容毕竟最重要的是“内容”，传播是外在辅助条件了。
关注的干果云，灵犬还有悟空 /瓦力这些都没有直接就文本本身就做研究的，很可惜。
个人是新闻从业者转舆情产品，就那种比较低级的采集监测产品。

451223358

2019-03-27 10:07:50 +08:00

@alexapollo 如果是 NLP 为主的技术手段判断文章质量（非传播）好不好，那非常希望向您请教

alex1551723566

2019-03-29 15:44:27 +08:00

@alexapollo 楼主，目前组里是怎么做内容质量评价的？直接搞成多分类？还是考虑多个维度信息，如内容的时效性、专业性、严肃性、准确性等？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/279282

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.