如何评价一篇文章的质量？

质量

科技类

解剖

公式

56 条回复 • 2019-03-29 15:44:27 +08:00

1

murmur

2016-05-17 17:09:59 +08:00

没有好坏太主观了这不像分类器训练你让 10 个人能给你订出 10 个标准来这数据能拿来训练么？

2

alexapollo

OP

2016-05-17 17:18:15 +08:00

@murmur 标准虽然主观，但一定存在，只是尺度的控制罢了

3

cheneydog

2016-05-17 17:19:51 +08:00

人肉识别

4

menc

2016-05-17 17:57:34 +08:00

4

打分是机器学习最典型的应用之一。

首先要说明的是，打分这种事情没法主观来标注，尤其对于今日头条这种，你作为一个硕士毕业或者博士毕业生，你喜欢的，你觉得质量高的，在你的目标眼睛里，未必是高质量的，你觉得俗不可耐的，却恰恰是他们的蜜糖。
或者，你不喜欢阿里，不喜欢 wp ，但是买了微软和阿里的股票，就一定非常喜欢关注他们的文章。

那么对于文章的评价，要用统计量来对文章的质量作评价，合适的 label 有：
对于已经过滤掉了标题党的文章，可以使用 ctr
对于没有过滤过内容的文章，可以使用平均停留时长
或者，以上两者的加权平均。

有了 label ，考虑进行打分。当然分数按照 label 的 scale 来，若是 ctr 做 label ，分数是 0-1 越高越好， 0.3 以上的 ctr 一般就是质量非常高的分数了。

对于特征，有两种特征：
一种叫做泛化特征，即伴随着文章一直不变的特征，如 tf-idf ， word2vec ，文中是否包含不规范的标点，文章来源，文章发布时间等等
一种叫做历史特征，即随时间会变化的特征，如历史 ctr ，如每个词的 ctr ，如类别的 ctr 。

用两种特征套到模型里，就能得到一个你想要的公式或者模型了。

一般地，我们用于打分的特征，不少于 300 维，也就是说，从几百个方面来衡量一篇文章究竟质量好还是坏，从而决定，是否要给用户推送。

5

jedicxl

2016-05-17 18:33:01 +08:00

@alexapollo 标准不存在

同一篇文章，在不同的背景、不同的语境、不同的作者、不同的读者群、不同的传播渠道、不同的宣传方式下，得到的评价都会不同

文无第一，这话放到现在依然适用

6

charlie21

2016-05-17 20:16:33 +08:00

出版物质量 > 电子书 > 网页新闻 > 论坛帖子 > 热门跟帖回帖
一群猫可以评出最好吃的猫粮是什么但那不是人吃的

7

charlie21

2016-05-17 20:26:58 +08:00

并不是对于出版物的偏见，而是 ....

熵的社会学意义
http://www.ruanyifeng.com/blog/2013/04/entropy.html

如果训练的话，可以先找出 10 个目标受众，然后让他们去训练机器（设计评价的维度或标准），然后再让机器再去训练其他机器（类似于机器的繁殖，可以包含基因交换，这样就诞生了子代个体包含父代的基因但有自己的变化），最终的子项去作为筛选器、评分器去工作。 —— 这样的机器和人基本没分别了

让机器做机器擅长的事情还是可以的

8

alexapollo

OP

2016-05-17 21:32:31 +08:00

@menc
我认为你说的并不是文章的质量，而是另外几个分数[1]，与文章质量并不能等同。
一篇心灵鸡汤，它的 CTR 、阅读时长可能都很高，但它并不是质量高的文章。

换一个角度来讲，我们衡量的可能不是质量，在这个语境下，更贴近深度（领域专业度），这里给出一些我的经验：
1. 娱乐八卦下的深度八卦可能是很合适的素材
2. 就“科技-AI ”类别，机器之心推送的内容大部分深度较高
3. 剖析苹果发展史的比推苹果手机的内容更深度。

深度本身应该是一个独立的模型，而不应该揉杂在其他的分数中， CTR 无法代表深度（深度往往看得人更少），但它们[1]都对深度预测有一定意义。

[1] CTR 、阅读时长、阅读百分比

9

alexapollo

OP

2016-05-17 21:34:09 +08:00

@menc 如果有深度本身，对于用户可能才会有更好的筛选、鉴别。
如果你是头条的，那我说的可能更贴合你们另一个特征：逼格

10

alexapollo

OP

2016-05-17 21:36:37 +08:00

@jedicxl 你说的是有道理的，相当于是：文章质量的度量可能意义不大，意义更大在于群体划分
但不管如何，文章质量客观存在，我们很清楚的知道“不转不是中国人”是俗的、质量差的，理应可以区分的

11

alexapollo

OP

2016-05-17 21:37:33 +08:00

@charlie21 典型的半监督学习思想 :)

12

menc

2016-05-17 23:16:53 +08:00

@alexapollo
一切脱离现实的空谈都是耍流氓。
对于你，可能深度的产品解剖、行业分析质量很高，但是徐小平不在乎，李开复不在乎，他们对行业的理解已经不需要这些东西，他们看这些都是小儿科，他们反而更希望看到改变世界的新创意和新点子，这些对他们才是高质量。
”汝之蜜糖,彼之砒霜”就是这个道理。

所以，没有普世价值的质量高，只有对某一个群体的价值高。
数据量大了，展现的趋势足够说明问题。相信数据不凭主观臆断做事情，是做机器学习最基本的准则。

数据量大了， bias 就会显得微不足道，数据就足够说明问题。

如果你想要一个对你质量高的，那你就自己去标记然后训练模型咯，也能得出结果，但只对你有效。

13

alexapollo

OP

2016-05-17 23:21:41 +08:00

@menc 对，毫无疑问的是，深度也只是一个特征而已。
李开复不喜欢深度，无非就是不推深度文章而已。数据是可以说明问题的。

14

alexapollo

OP

2016-05-17 23:23:43 +08:00

@menc 深度本身并不代表价值，反而正是区分群体的特征。
“改变世界的新创意和新点子” 倒是怎么量化呢？
我觉得你没有理解我说的话。

15

menc

2016-05-17 23:39:48 +08:00

@alexapollo
还是那句话，先学数学，学完了你什么都懂了。

16

alexapollo

OP

2016-05-17 23:46:11 +08:00

@menc 对你我也只能摊手了 ╮(╯_╰)╭

如果你懂的比我多，看懂我说的也是分分钟的事，奈何你连理解都不理解就妄图下定义

17

cqcn1991

2016-05-17 23:46:43 +08:00

说个我极其粗糙的做法，用 Pocket 的数据来做的
http://productchaseapp.herokuapp.com/tech2pocket

其他的可用数据，是 twitter 或者 facebook 的分享数。但是显然，被分享的数据并不意味着文章质量，这方面， pocket 的数据会更好一些。

我这个 demo 只是一个简单的排序。稍微好一点，是结合本身信息源的推送频度来做。其实做到这个基础水平，文章质量基本就有保证了。

18

menc

2016-05-17 23:51:00 +08:00

@alexapollo 对数据缺乏起码的尊重

19

alexapollo

OP

2016-05-17 23:54:45 +08:00

@cqcn1991 有趣， pocket 数据很好，不过国内有对标的数据吗？

20

alexapollo

OP

2016-05-17 23:57:04 +08:00

@menc
我们讨论的是两个维度，大哥，基于内容的推荐有两块，一块是内容特征的抽取，一块是推荐
我说的是内容特征，你说的是推荐，驴头不对马嘴好吗？

21

menc

2016-05-17 23:57:39 +08:00

@alexapollo 泛化特征就是内容特征，你回去仔细看

22

menc

2016-05-17 23:58:14 +08:00

@alexapollo 我在公司做的本来就是质量打分，你跟我说牛头不对马嘴，我也是觉得有点无可奈何

23

alexapollo

OP

2016-05-18 00:07:17 +08:00

@menc 可能是我们角度不同，你的角度是“推荐质量打分”而不是“内容质量打分”吧？
推荐质量是另一个话题了，跟内容质量是两码事。。按你说的就是去做 CTR 、时长，以及长期目标优化了。

再者，内容质量不是单纯的 w2v 、 lda 就能表达的。。像头条里，我看深度文章（ AI 方向）不少，但只给我推我看的一两个头条号，在我看来是非常愚蠢的。。

24

cqcn1991

2016-05-18 00:39:51 +08:00 via iPhone

@alexapollo 我本来打算抓国内内容, 但是确实没找到比较简单的指标。另一方面，国内优质内容本来也很少（确实有，但是极少）

其实基本来源有哪些，大概也就 36kr, 知乎。而 36kr 的客推内容基本来自于公众号。然而我对这种本身自带“营销属性”的内容，不是很喜欢。

25

gzelvis

2016-05-18 00:43:41 +08:00

马上要睡了，明天可以给你点评一下

26

menc

2016-05-18 00:44:21 +08:00

@alexapollo 我就是内容质量打分，个推是另外一个领域，是流水线的后面的部分。

27

gzelvis

2016-05-18 00:44:25 +08:00

@cqcn1991 想问下 “ 36kr 的客推内容基本来自于公众号” 这句话应该怎么理解？愿闻其详

28

alexapollo

OP

2016-05-18 00:59:15 +08:00

1

@menc
但我觉得你说的跟内容质量没啥关系啊。。你说的都是个性化推荐的部分，或者说稍微靠前一点，用户画像的生成。
> 那么对于文章的评价，要用统计量来对文章的质量作评价，合适的 label 有：
> 对于已经过滤掉了标题党的文章，可以使用 ctr
> 对于没有过滤过内容的文章，可以使用平均停留时长
> 或者，以上两者的加权平均。
文章深度我觉得是独立的，不依靠人群的，只是一个 feature 而已，不是你说的这类 label 。。

29

alexapollo

OP

2016-05-18 01:00:14 +08:00

@cqcn1991 科普性质还有虎嗅、极客公园，以及像知乎的一些领域， V2EX 某些好帖吧

30

alexapollo

OP

2016-05-18 01:14:09 +08:00

@menc
A. 如果单从文章角度出发，用文章的各个特征去预估 CTR/平均时长，那么我认为这是个文章曝光门槛。
B. 如果从个性化角度出发，用不同人群结合文章的各个特征去预估 CTR/平均时长，那么我认为就是个性化推荐了。

如果你做的是 A ，那我觉得很 OK ，但和这贴的主题还是两码事，或者说，头条有很多数据：点击率 /数、收藏率 /数、阅读时长 /百分比、点赞率 /数，等等，这些特征怎么组合成你的目标，这才是我关心的。。

31

alexapollo

OP

2016-05-18 01:17:29 +08:00

@menc 当然，这些说的跟我讲的行业深度仍然是两码事。

32

FrankFang128

2016-05-18 01:23:00 +08:00

论文不是根据引用数嘛

33

cqcn1991

2016-05-18 08:13:46 +08:00 via iPhone

@alexapollo 原来仔细看过这些科技媒体的内容，最后的结论就是质量实在是…

@gzelvis 36kr 上优秀的内容主要来自于“读者投稿”，来自于某些公众号。这些内容本身有很大一部分“自我营销”的目的在里面。我不喜欢“自我营销”过于明显的内容

当然这也是我对于内容的要求过高了。从自我提升的角度，我觉得看这些内容的提升远远不如读书。

34

alexapollo

OP

2016-05-18 09:55:29 +08:00

@cqcn1991 这些科技媒体很多都是追新，深度报道、分析比较少。但深度报道说实话看的人很少的（所以他们天天在发追新）。

35

cqcn1991

2016-05-18 10:08:50 +08:00 via iPhone

@alexapollo 是的，所以我很少看…

36

menc

2016-05-18 13:36:36 +08:00

@alexapollo
真是想骂人，怎么组合我都告诉你了，难道非要我说
0.自己打 label
1.自己抽 feature
2.用 xgboost ，用 gbdt 这样的 tree ensemble 模型
3.调参，让 rmse 最小
4.打出模型看看是怎么样的一个模型，每个特征权重是多少

你才能听懂么？

37

menc

2016-05-18 13:37:58 +08:00

你想要你想要的，你就自己打 label ，不靠其他的东西，最后得到的就是顺你心的结果。

你来定义行业深度，文章质量，就是一个 label ，有什么不能做的呢？

至于你定义的和客观上的有什么区别，你肯定是觉得你觉得好的比客观上的要好，因为 bias 的存在

38

menc

2016-05-18 13:40:59 +08:00

@alexapollo 个性化推荐和质量打分没你想得这么简单，是两个完全不同的问题，考虑问题的角度也完全不一样，不是一个问题拿来这看看是打分，那看看是推荐。

你没看过朋友圈每小时更新的全部公众号数据，良莠不齐，从几十万文章里面筛选出几百篇堪读的文章，不管用户群体是什么。这是最典型的质量打分。

之所以采用历史特征如 CTR ，停留时长，只是基于一个朴素的假设：用户不是傻子，用户趋向于点击和阅读更高质量的文章。

39

alexapollo

OP

2016-05-18 14:51:10 +08:00

@menc 你说的这些我想是个从业者都知道吧 :)

关键点还是一点
label ：我不认为只关心阅读时长和点击率是有益的，用户的交互很多时候更重要 —— 如果你觉得这不归质量，归到最后的产品策略，那当我没说

40

451223358

2019-03-18 09:56:57 +08:00

@menc 他没懂，他说的其实是文本传播质量
@alexapollo 您说的，其实是单纯的从文本角度去评估文章质量，这个其实目前通用型的文章机器做不了，因为没有标准。某个特定的文本素材或许会有标准，比如政务发布的文章。

41

451223358

2019-03-18 09:59:19 +08:00

@alexapollo 目前做文本传播质量的预测更现实

42

alexapollo

OP

2019-03-18 14:17:32 +08:00

@451223358
当然有标准了，现在各个 feeds 产品动辄二三十人专门做质量的算法 team 又不是吃白饭的，而 FB / GOOG 早几年就开始做了，FB 在 6 年前的质量、审核团队就有上百人
更不要说楼上 menc 所在的头条早几年就开始做的质量 team （当时头条被批斗的厉害，张一鸣承诺要加数千到上万人，各位忘了吗）

我发这贴主要是想看看各家从业者到底是用什么思路来做的，不是让人回答“我虽然没有做过吗，但是这很难，不可能”

43

451223358

2019-03-19 09:04:09 +08:00

@alexapollo 机器做不到语义理解，谈何标准。你说的标准如果是传播质量当然可以根据历史数据反推，如果是根据文本内容，那标准如果不是语义理解还能是什么呢？
另外，我总能感到从事算法的爆棚的自信...

44

alexapollo

OP

2019-03-20 15:05:18 +08:00

@451223358 hmm，看起来你连从业者都不是，这种辩论就没有任何意义了。

45

451223358

2019-03-20 16:51:57 +08:00

@alexapollo 如果您愿意保持这样审慎的态度，我倒是愿意说说自己的看法。其实两个方向不一样，一个是内容传播质量，一个是单纯的内容质量。前一个是头条等单位正在做的，后一个单纯的从文本角度，不依赖除文本外的其他数据去做内容质量体系。

46

451223358

2019-03-20 16:59:16 +08:00

无论是上文头条那伙计的蜜糖砒霜，还是您这样的，都得界定一个前提。是内容质量还是内容传播质量，一般来说，是根据内容的传播质量反馈的数据去反推内容质量高低。这样做是因为内容传播质量是数据可描述的，而内容质量数据描述不了。但这样做有弊端，根据内容传播质量反推内容质量最大的弊端在于内容传播的文本大多数都是新闻资讯类文本，小说等深度阅读的长文很少，只能对于浅阅读或者说快速阅读的资讯等信息有效果，对于深度阅读或者某类深度信息其实是没用的。所以问题得改改，不是文章质量评估，而是某类特定文章的传播预测。

47

alexapollo

OP

2019-03-20 18:14:27 +08:00

@451223358
1. 内容质量：BAT、头条都在做，而且有很大的团队，我已经在上面说过了，这是事实；
2. 内容传播效率：这个问题每个场景优化点不一样罢了，小说一样可以靠阅读时间来衡量效果，头条前两天做了滑动级别的实验，观察每个用户的滑动、停留数据，进而分析关注点，不同内容模态、不同目标也早就是老生常谈了。

48

alexapollo

OP

2019-03-20 18:15:20 +08:00

@451223358 事实无需辩论，如果你不接受，我们就没有谈论的必要了

49

451223358

2019-03-20 19:43:37 +08:00

@alexapollo 您在混淆话题，针对上述 1，bat 和头条做的都是垃圾识别，欢迎找到一例单纯根据文字本身来评估内容质量——注意，是指优质内容打分，而非识别垃圾，而这个打分的分值是对应的是未来的传播数值，即仅根据文字本身来做到传播预测，如有，欢迎打脸。
关于上述 2 你和头条那伙计还有我观点没有区别。

50

alexapollo

OP

2019-03-21 00:17:15 +08:00

@451223358 兄嘚，你该了解了解 BAT/头条的算法部门了，其中有一个核心 team 以前就是我带的
我们在三年前就已经做了高质量内容的模块了，发这个帖子纯粹是想和业界其他团队交流交流

51

451223358

2019-03-22 08:21:45 +08:00

@alexapollo 文本在未传播前（离线）就对可能的传播情况做出来预测吗？如果是这样，那确实我错了，怎样可以更多的了解这块的进展呢？

52

451223358

2019-03-22 08:24:01 +08:00

@alexapollo 如果是根据小范围传播或者早期传播推断整个文本的传播情况，那您说的高质量内容模块测试依然属于内容传播质量的范畴

53

alexapollo

OP

2019-03-26 09:30:40 +08:00

@451223358 做的不是这个，反而是主观判断文章好不好
- -# trade secret 就不说了，你是做哪行的，传统媒体从业者？

54

451223358

2019-03-27 09:57:18 +08:00

@alexapollo 可能我们还未就“文本质量”定义达成共识。到底是文章在“文本”方面的质量呢？还是文章在动态的“传播”过程和用户读后“交互反馈”的质量。关键是这方面没有达成共识，我理解现行的技术可能更侧重传播侧，读者交互方面的机器计算，文本未传播前（离线）的拆解这些角度我还没看到有愿意去介入的公司。但个人可能觉得这方面未来更重要一些，内容毕竟最重要的是“内容”，传播是外在辅助条件了。
关注的干果云，灵犬还有悟空 /瓦力这些都没有直接就文本本身就做研究的，很可惜。
个人是新闻从业者转舆情产品，就那种比较低级的采集监测产品。

55

451223358

2019-03-27 10:07:50 +08:00

@alexapollo 如果是 NLP 为主的技术手段判断文章质量（非传播）好不好，那非常希望向您请教

56

alex1551723566

2019-03-29 15:44:27 +08:00

@alexapollo 楼主，目前组里是怎么做内容质量评价的？直接搞成多分类？还是考虑多个维度信息，如内容的时效性、专业性、严肃性、准确性等？