评分与排名讨论会 » 讨论
评分体系崩坏的根本原因在于评分体系本身的缺陷

#1 - 2024-1-10 19:40

Chernobergs

先声明利害关系：我是从16年开始知道bangumi来看每一季新番的评分，但是直到今天才注册账号。同时，我对滚，Go，危S1这三部动画评价都很高，如果我真的评分，我对它们的评分可能都是10分（当然我现在没有参与评分）。
以下是正文。
暴论：带排名的10分制（也就是现在Bangumi的评分体系）就应该扫进历史的垃圾堆。
这里的“带排名的10分制”指代任何试图仅靠一个数字来衡量一个艺术创作作品好坏的评分制度，后简称为10分制。
当我们仅靠一个数字给一个什么东西打分的时候，这个分数的值的意义是什么？
举个例子，说对于数学考试的分数，它的值可以看作是掌握程度百分比的一个估计：如果你是满分，那么我有理由认为你对考试范围内知识掌握的程度接近100%；如果你是零分，那我同样有理由认为，你对考试范围内知识掌握程度接近0%。
我认为，数学考试的评分体系是一个合理的评分体系，因为作为一个试图寻找客观唯一值的体系，它满足：1、对于可能存在的任何一种分数，都存在至少一种答案与之对应2、答案唯一决定分数，不受其他任何因素的影响。第一条能够保证这个分数值作为榜样的合理性，第二条能够保证这个分数值作为比较的合理性。
为什么我觉得10分制不合理？首先它不满足上述的第一个条件。你是一个读者观众，你看完一本书或者一部电影或者一部番剧，突然有一个打分的系统从0分到10分，但是你不会知道这个分数代表着什么：10分的作品应该是什么样子的？0分的作品应该是什么样子的？你想给这个作品打8分，那8分附近的作品有哪些？这些，我们通通不知道，创立打分系统的人也没有提供。在这样的条件下，你所给出的“8”这个数字蕴含了多少信息？这些信息和这部作品本身的信息相比又损失了多少？
同时，它也不满足上述的第二个条件。这个很好理解。性别不同，年龄不同，生活区域不同，所受教育不同，过往经历不同等等的这些差异，使我们不能对一部作品做出同样的甚至说相近的评价。不过这个是可以接受的，因为这些差异同样也能反过来反应作品本身的素质。真正不能接受的是，即使同一个个体，对同一部作品的评分，也会因为其他因素而产生不小的变化。比如对Ａ作品评价时，是否看过Ｂ作品可能会对它产生影响；仅以番剧而言，追番完成后给到分数和补番完成后给的分数也是不同的，但是这些东西和作品本身的素质没有关系。
以上是我对10分制的“不合理性”的论证，如果各位对“合理”的定义与我不同，我也想用另一种方式来解释10分制的缺陷：
如果存在一种10分制能够客观正确的衡量不同作品的好坏程度，那么这个制度和“一张客观正确的对所有作品的排名表”是等价的：前者能够产生后者，后者也能够产生前者。很显然，后者是做不到的，那么前者自然不能存在。换言之，“10分制”“客观正确”“衡量好坏”三者不能同时存在。显然后两者是我们所必须的（毕竟排行榜嘛），那么我们就只能将不需要的10分制给舍弃了。
归根结底，一个数字所能蕴含的信息量实在是太少了，就连我点完外卖之后对这次订单的评价，都至少要三个数字呢，对于动辄数十万字的小说，12集x24分钟的动画，100分钟以上的电影等等而言，仅用一个数字来做总结损失了太多的信息。能够“客观正确的衡量好坏”的评分体系存在吗？我不知道，不过我觉得10分制一定是离这个美妙的正确答案比较遥远的一位。
最后，我也不是什么动漫高手，如果各位不喜欢就当看赛博小丑吧。

#2 - 2024-1-10 19:48

abcdeegg (萌豚)

评分的时候不是有参考词吗

#3 - 2024-1-10 19:51

东坡Des1ope (The Raisin Rises)

省流：太伟大了爱撕衣，10分制不如赞和踩

#3-1 - 2024-1-11 07:59

2022

s1要是搞个正负各四个选项（总计九个档位）那或许确实比bangumi强，可是只有五个档位

#4 - 2024-1-10 20:08

星宫草莓 (紫玉成煙，白花飛蝶。)

带排名的10分制比单纯的10分制好，你直接打分不知道多少分，但对着自己打过的分就知道了啊。
我给某某片甲打了10分，片乙明显不如某某片甲，所以最高打9分，然后一部明显不如片乙的片丙，最高就只能打8分了。
所以你没有真正打过分，只凭感觉就会说出让我打，甲乙丙都会打10分的话。等你真的给一百部两百部五百部一千部片子打完分，就不会这么武断了。

#5 - 2024-1-10 20:11

Hakula

关于这两点，观众对作品的评价 / 评分并非一成不变的，而可以随阅历增长持续动态调整。人生中第一部作品或许很难给出一个确切的评分，但看了 100 部作品后，他或许就有机会通过作品间的比较得出每部作品的大致档位，即 10 分制中的每一分位。即使由于阅历的局限性（比如你提到的是否看过 B 作品）导致评分有所偏颇，等之后看过了再调整不就行了。所以这两个点我感觉问题不大，并不是说因为永远不可能准确地评价作品，所以任何评价（不仅包括 10 分制，实际这个逻辑也适用于长短评）都没意义了。反正你要我说还是那句，别太把评分当回事，仿佛要毕恭毕敬、沐浴更衣、正襟危坐才能打分，正因过于在意才会觉得「损失了太多信息」、「离美妙的正确答案比较遥远」是什么要紧事，但评分本来就不值得被抬高到这种地位。

关于你后来的补充：

“10分制”“客观正确”“衡量好坏”三者不能同时存在

如果是我，我会把「客观正确」踢了。如果你能意识到每个人的评分都是基于自身经验的主观判断结果，就不会苛求最终能达到客观的、正确的、暗含着某种一致性的评分。

#6 - 2024-1-11 02:02

聊聊

如果有什么更先进，更理性的评估方式出现的话这个十分制才能被扫进垃圾桶。但是现在没有。

#7 - 2024-1-11 02:06

ドリドリ

你能不能理解bangumi的评分是在有限的10分制度内容尽可能的调整不同作品之间的差距？摇滚，mygo，我心危之间不可能都是10分，这中间差距是客观上一定会存在的，主观上差多少需要靠集体最终平均分来决定。但是所有人都选择10分或者1分那么bangumi会变成steam式的yes/not。那么就不能反应差距只能表达推荐程度。

#7-1 - 2024-1-11 20:26

Chernobergs

我的意思就是说，10分制这样的评分工具没有衡量出优秀的作品之间差距的能力。按高中化学打个比方就是，硫酸盐酸硝酸酸性有差距，但是水这个溶剂不足以使这个差距显示出来。

#8 - 2024-1-11 02:44

夏日勘探者 (家に帰るまでが遠足です)

自然数是良序的，但评分不是良序集，映射必然带来矛盾。打分是一种分类，对标签作数学运算是无意义的。

#8-1 - 2024-1-11 20:27

Chernobergs

所以比较标签和分类的大小并进行排名当然也是无意义的。

#9 - 2024-1-11 03:11

青宇 (一个普普通通的御主)

你觉得现有方案不行那也美提出个（可行的）方案来啊？
就像上面你自己说的 “你是一个读者观众，你看完一本书或者一部电影或者一部番剧，突然有一个打分的系统从0分到10分，但是你不会知道这个分数代表着什么：10分的作品应该是什么样子的？0分的作品应该是什么样子的？你想给这个作品打8分，那8分附近的作品有哪些？这些，我们通通不知道，创立打分系统的人也没有提供。在这样的条件下，你所给出的“8”这个数字蕴含了多少信息？这些信息和这部作品本身的信息相比又损失了多少？”
那问题来了，你有更好的方案或者建议吗？然而你的回答是这个 “能够“客观正确的衡量好坏”的评分体系存在吗？我不知道，不过我觉得10分制一定是离这个美妙的正确答案比较遥远的一位。”
那我很好奇你没有发现你的上下文很矛盾吗？你没有评过分，所以不知道怎么评。从而间接觉得班固米的评分机制是钩式！但是你也没见过好的评分机制那请问你是怎么得出班固米评分机制是钩式的呢？
最后你都给滚、我心危、MyGO十分了我还能说什么呢？毕竟你都明知这个体系的问题就是十分制结果自己评分却还是会给那个“10”。顺从你 (bgm104)

#9-1 - 2024-1-11 20:05

Chernobergs

谢谢你的顺从。
非要说的话，我的观点是，要么放弃排名的客观正确性（也就是承认“我们这个排名就是许多人的主观选择的综合，并不代表作品实际的素质”），要么就不要排名了，只做一个带分类的评分。
如果非要一个“新的”评分体系的话，我倾向于对于作品的不同素质分别评分，就像我说的外卖的评价一样。

#10 - 2024-1-11 03:13

丰川祥子

我知道，你想要的是steam好评如潮

#10-1 - 2024-1-11 03:17

青宇

那岂不是有人会动摇守望先锋2的地位吗？

#11 - 2024-1-11 08:26

小鱿鱼

张雪峰最近说文科都是服务业，就是舔。我觉得跟10分制打分类似。
都是用最简单最通俗大家容易理解易于操作的方法来展示，确实有些瑕疵不尽完美，但是想要介绍的更清晰准确就要付出几倍的工作量。

另外评分体系最大的问题是幸存者偏差，这个无法避免客观存在，大众评分毕竟不是专家会审

#12 - 2024-1-11 20:43

lrioxh (拒绝汴京拯救生命)

首先，排名本身没有客观正确性，认同的人多了，才有的所谓华语最权威 (bgm38)

以下是对于所谓评分崩坏的个人观点（xjb扯）：
本质是bgm大扩圈前，这里的用户自监督形成的一套评分认知和大量新用户涌入自监督失效造成概念漂移的矛盾。这并不是评分体系的问题（不是说没有问题），也不是单纯评分体系能解决的。而应该从样本考虑：要么相信自监督调节慢慢消化达到平衡，要么强行维持样本一致性如vib科排，要么引入人工修正，要么相信后人智慧，拥抱新样本，面向新时代 (bgm93)

10分不能衡量作品的信息衰减，是另外的维度，而不是你说的原本的体系崩坏的本质

#13 - 2024-1-11 20:59

国见佐彩 (想让世界热闹起来)

人是活的, 分也不是死的.
一个人凭自己感受主观排个名不难, 大伙应该都能做到. 许多人的排名, 反应大概的趋势.
非绝对客观正确不可, 那肯定没办法, 能力不够.

问题是不少人被自己和作品以外的因素带着跑, 评分的主体客体都偏了.

#14 - 2024-1-11 21:36

泡粑 (成为无用垃圾中的一员，使我充满了决心 ... ... ...)

一个人的评分对作品好坏评价肯定没有意义啊，你说一大段证明这么理所当然的事干嘛，

哪怕拿高中化学打比方，水也是自己评分标准太低随便强点的酸就给满分才做不出区分，就算是评分标准很高的溶剂随便弱点的酸就给1分拉平同样做不出区别，这恰恰说明了合理利用十分制的必要性，世界上存在能区分硫酸盐酸硝酸酸性的溶剂，ban里也存在正经打分的用户，

水灌进来越来越多让评分真实性下降，该想想到底是这些水自己评测能力的问题，还是在这质疑用电离程度来评价酸碱性的方法有问题

/ 返回评分与排名讨论会小组

评分与排名讨论会 » 讨论评分体系崩坏的根本原因在于评分体系本身的缺陷

评分与排名讨论会 » 讨论
评分体系崩坏的根本原因在于评分体系本身的缺陷