Mahoo » 日志
评分实践论——为什么我说mygo的评分模式并非妥当

2023-9-19 02:58 /

都给nzh和mygo闹麻了，刚好这季度没啥动画好写的，就把七月季度的日志给评分这个话题吧

引言：普遍而言，我们认为评分千人千面，对于不同人有不同意义，因而很难说评分拥有一个普适意义而言的含金量。在本文中，作者试图从信息有效度的角度切入，提出一种可能具有普遍意义的评分“含金量”，同时论证为何mygo目前的打分模式或许并非妥当，并提出了可能的改进方式的思路。

目录：
一、评分网站与评分
二、评分含金量
三、评分实践论——以mygo为例
四、如何应对

一、评分网站与评分
   没有烂的评分，只有不会看评分的人——评分相对论
   当我们面对评分时，我们想要获取的是什么？或者说，你想利用评分来达到什么目的？这是每个讨论评分的人在讨论前都应当思考的事，不同的用途决定了不同的对于评分方式的价值判断方式
   例如，对于一个更关注作品学术价值与借鉴意义的人来说，他可能更希望评分人都是对着作品能解构再建构评论大拿或者业界专业人士，而拒绝大众评分的介入；对于一个更关注作品商业价值的人来说，他可能更希望看到大众评分甚至干脆以销量作为评分；对于一个雷点较多但对作品完成度要求不是很高的想用评分来筛选作品的人来说，他可能更希望低分占比更高的评分模式，或者对雷点(低分)更为敏感的评分群体；对于一个想通过评分来筛选出具有独特看点的人来说，他可能又希望高分占比更高的评分模式或者对亮点（高分）更为敏感的评分人群。
   然而对于一个评分网站，它不可能满足所有人的需求，或者说，对于不同的人，所谓的评分含金量可能完全有着不同甚至相对的意义，因而也无从谈起，这些不同的人聚在一起讨论评分同样也是鸡同鸭讲，所以正确的做法应当是：通过对不同网站的整体评分趋势，评价体系做评判，理解在该网站下的某个分数段意味着什么，从而找到符合自己需求的评分，从网站评分中提炼出想要的信息。例如，利用b站评分可以筛选有明显雷点的作品，利用mal评分可以筛选出近年热门作品，利用bgm7.3-8.1分段可以找到质量有一定保证但观看门槛又相对不高的作品等等，利用评分，再加之一些辅助的tag 评论等信息，我们可以从中获取更多的有效信息。
   不过相对的，对于以赛博斗蛐蛐叠盒为乐趣的人来说，他可能更希望有一个评分毫无章法可循的评分网站，这样就可以很容易的找到“梯子”, 轻易得出eva不如蒜的结论，而对于乐于到处找人说评分屁用没有来展现自己与众不同从而获取优越感的人来说，他可能更希望评分方差都是厨黑大战以印证自己的观点。不过作者相信对于这类评分需求的人并非普遍的，而且他们这种对于评分的目的也是不可持续的（即当评分真的满足他们的需求时，他们的需求本身也会从而瓦解，导致这样的评分又不再能满足他们的需求，在这里不展开讨论）。
   因此，本文后续讨论的评分相关内容，都是基于希望从评分中获取关于作品的某些信息的人群而言，或者说，是基于希望评分有意义的人群而言的。关于这类人群的普遍特征，将于下一节讨论。

二、评分含金量
   烂的评分来源于过多的有效信息丢失——评分绝对论
   上一节中，我们提到了希望评分有意义的人群的不同需求，他们的需求各不相同，但他们都有一个类似的特征，即希望评分能够有效反应出作品的某些信息，而且反应的越具有辨识度越好。
   他们为什么有这样的普遍特征？在讨论这个问题之前，我们先来回顾一下我们为什么有时候需要去看平均分，众数、方差等统计值，为什么图像处理中，我们会更关注图像矩阵的特征值？因为当我们需要关注这些值的时候，通常意味着本体的所有信息对我们来说过于冗杂，且不必要，我们只想要获得其中的某些我们关注的特征，而这些值之外信息的丢失对于我们可有可无，因而相对的，我们也希望我们选取的这些值能有效反应我们关注的部分。
   回到评分，我们为什么会关注评分，通常也是因为作品的源信息本身对我们而言过于冗杂，从中提取出我们想要的信息成本过于庞大，因而，我们愿意去通过评分这样一个特征值，辅助一些其他相对简单的手段，来得到我们需要的信息。
   很自然的，我们对这个特征值的要求是有效的反应某种信息。何为有效？我想应当有这两点：一、同一组特征参数（评分，tag，年份等）对应的不同情况应当是尽量少的，以及，在上述条件能够满足我们需求的同时，我们希望这组特征参数的个数应当尽可能少，这对应数据的辨识度，或者说“特征”的程度。二、同一个作品的特征参数，我们希望它尽可能的稳定：假设我们有一套算法，能够输入作品就能直接输出我们关注的信息，我们希望今天得到的信息和明天得到的信息是一致的，或者，即便有变，我们也希望它是相对缓慢的，因为作品本身没变，这是一种时间上的守恒。这就像做实验我们期待实验是可重复的一样。
   那么相对的，什么是差的评分呢，即特征值无法有效反应信息，或者说，我们期待的有效信息在这样的评分中失真了。那么从有效的角度来看，差的评分，或者说质量低下的评分，具有这样的特征：想要得到作品的有效信息，除了评分之外，我们需要辅以非常多的额外参数，去获得这些额外参数的成本对我们来说是过大的；这样的参数提取出的信息并不稳定，时效性很强，今天通过评分等参数提取的信息明天可能就失真了。
   来到mygo，接下来我将以mygo为例，用诸如看评分是为了看动画等具体视角来应用上述理论，并阐释为什么我认为mygo的打分模式是不甚妥当的

三、评分实践论——以mygo为例
   Mygo评分的失真来源于过于强烈的追番效应
   在我看来，mygo评分的最大的问题在于，它的体验强烈依赖于追番体验，或者，更激进的说，来源于它与动画本身无关的场外因素，比如假药，官方互动等，而这样一个体验，是偶发性的，是不可重复的，是后来的观众绝无可能体验到的。例如ep10，就我个人而言，我认为它是操之过急的，是缺乏推动力的，它放在经过几集的铺垫后的ep12或者13，会是更为合适的位置，但对于许多mygo追番观众来说，这些推动力早已在各路战吧贴，在观众物理上的时间沉淀中得到解决，因而他们会认为是神回。而一个三个月后来看mygo的人，他看不到假药，看不到官方互动，看不到每周六33989三小时mygo回，也没有每周四后“求求你再给我看mygo下一集”的心情体会，那么，他还会有同样的感受吗（假设有两个平行世界，同样一个人在一个世界是追番，在另一个世界是补番），基于前者人群的评分对于后者还有意义吗？
   从第二节的理论来说，这样一个强烈依赖于追番效应的评分下，我们想去从中提取有效信息，必须获取更多的参数，例如假药，或者至少知道当时有很多假药，而这类信息的获取，在非追番时段是极其困难的，成本极大的（一个简单的例子，你现在还能找到当时刀使巫女的假药吗）。同时，这样一个强烈的追番效应，造成了番剧体验的不可重复性——7月看和10月看是完全不同的体验，因而对于非7-9月的评分观看者来说，mygo评分对于他的价值是很小的。
当然会有人说，难道我们就只看中非追番体验吗？
   其实不是，大部分时候，对于追番者来说，作品评分对于他们的意义完结于作品完结的时候，对于明晰着作品评分变化趋势的他们来说，这部作品怎样的评分代表怎样的意义早已存于他们的大脑，从获取信息的角度来说，他们不再需要评分，而他们的打分，在可持续的意义上，也不过是一种前人栽树后人乘凉的行为。而对于后来者而言，却无法分辨出这样一个评分所代表的含义，这显然是不妥的。
   对于这样的状况，我认为可以从这样的角度来改善。

四、如何应对
   从用户侧的角度来说，鼓励追番者附上各类非番剧本身的场外信息，以降低后来者的获取有效信息所必要的参数的难度，亦或是打分时解构出追番效应的因素来打分——这对用户本身的要求较高，作为大众评分网站，无论如何这类方法都是可行性低下且效果微弱的。
   从网站侧的角度来说，一个可能的方案是，当后来的评分与先前的评分差距较大时，提高后来评分的比重，这样一个比重，应当是随时间指数变化（即在番剧完结附近的权重差异最大），并与后来者观看人数（率）呈负相关的（防止来看古早番的人过少从而跟不上评分膨胀的步伐）。这样的一个补正，或许可以提升评分对于需要评分人的价值。笔者并非数学系，因而仅提供一个可能的思路，不再多做展开。

Tags: 评分

#1 - 2023-9-19 03:01

Mahoo (喵~)

此贴做留档用

#2 - 2023-9-19 03:54

犬

评分本来就是主观评价
对于评分标准的评分标准也是主观评价
大多评分都是冲动评分、即看完是的感情渲染环境打的分
每个人的评分习惯也不一样
这种极端的主观行为找标准属实没意义
分数到哪都是图一乐
跟性格一样，啥都不可能用简单的2个数字来衡量
另外mygo果然是电波作
EP10的认同与否基本决定了对mygo整体的认同度
我就是EP10对mygo有了极大的改观
看EP10之前纯粹乐子番
看完EP10其后劲太足才反复去细品mygo整体

#2-1 - 2023-9-22 00:57

莉莉学姊

是的，这个观点比本文章作者的观点更符合我的胃口

#2-2 - 2023-9-24 10:47

mexj773

是的，本文作者认为ep10的情绪效果是由于观众接受场外信息自己在心中渲染铺垫的，这一点比较偏颇。ep10的特点就是打破了偶像/乐队番解决矛盾，然后live升华的固定范式，而是通过一种先斩后奏的方式，先以音乐互动激起情感，之后再以此让角色开始讨论并解决矛盾。以文章作者的观点，这样的表现手法可能比较非理性（亦即上述提到的此类动画的传统范式），但是无论是从创作上，还是类比现实生活中的乐队，音乐本身就是一个能承担非理性的载体，就是有这么一种超越了普通的言语沟通的效果的“音乐的力量”在，而mygo对此的呈现也足够浪漫。

#3 - 2023-9-19 04:08

犬

这种类比就像本人以前看推理小说，就像是叙述性诡计故事，很多都是一次性体验，看完的瞬间会给人恍然大悟的上当感，这种感觉很刺激体验也很新奇。但经过时间沉淀，这种感觉会越来越平淡。但当时的感官刺激确实是真的，这类小说的时间沉淀差距会让评分多样化。这类追求瞬间体验的小说跟本格故事的类别评分就很难判别好坏。更别说tag更加丰富多样受众更加垂直的动画类别了。评分系统做再多花样，也无法改变其参考价值极低，只能图一乐的作用。

#3-1 - 2023-9-19 09:01

lrioxh

你班用户暴涨不就是天天拿你班评分做参考引来的。真像阿b那么图一乐会有人拿来说事吗

#3-2 - 2023-9-19 11:49

犬

lrioxh 说: 你班用户暴涨不就是天天拿你班评分做参考引来的。真像阿b那么图一乐会有人拿来说事吗

人数少才会有评分共鸣的可能，人多就只会变成图一乐，可能开始会被评分参考引来，但刷着刷着就会发现评论和吐槽才是核心，这些评论和吐槽也不是一个分数能概括的。等bgm人越来越多，评分共鸣也会越来越少，图一乐的感觉也会越来越多，趋势而已。

#3-3 - 2023-9-23 00:15

lrioxh

犬说: 人数少才会有评分共鸣的可能，人多就只会变成图一乐，可能开始会被评分参考引来，但刷着刷着就会发现评论和吐槽才是核心，这些评论和吐槽也不是一个分数能概括的。等bgm人越来越多，评分共鸣也会越来越少，图一乐...

同样也一直会有坚持体系评分的新人老人，追求更合理的系统也就有其意义

#4 - 2023-9-19 08:49

lrioxh (拒绝汴京拯救生命)

合理的，建议完结前评分统统降权 (bgm53)

#5 - 2023-9-19 09:00

修学好古 (每天都很困?)

我现在已经跟刷10分的ylg和解了。
真正的动漫高手要敢于和自己和解
天要下雨，娘要嫁人，随他去刷吧
刷得越多越证明这番的观众极端
?也没必要去平衡
作为观众要有自己的判断，不要盲从

#6 - 2023-9-19 11:12

q小风 (动画评分看心情，偏好校园，恋爱，媚宅，和冷门作游戏分总体偏)

学会和无脑打10分的新用户和解吧，咋们都看了这么多，什么作品在什么区间也能分明白了，要高就高吧，萌二开心就行了

#7 - 2023-9-19 11:49

Dand_rio

挺可挖的角度，感觉只在 bgm 讨论局限了。总之这个角度是：观众在作品以外的体验是否应该介入、甚至可以主导对该作品的评价？如果是，那么这样的评分就认可观众在作品外体验的价值。

与上述角度针锋相对的，恐怕要数推崇艺术制作技艺的角度：应该评价制作技艺而避免个人好恶。这个角度在理论上有标准答案：对技法判断不会是私人的，它可以达成共识。所谓「经典作品」体现的就更多是这种标准。其他角度还有政治价值、历史还原、惊吓等。

回到角度 1，对于一份评价来说，我们观众个人的在作品外的体验，为什么会有价值、对谁有价值（如果我们都同意评价必然是分享给他人的）、我个人是不是想要提供这个价值——对这个问题的辩护会非常尖锐。

#7-1 - 2023-9-19 11:50

Dand_rio

之前也看到一篇个人的对评分反应的思考，梳理也蛮清晰：https://www.gcores.com/articles/170405

#7-2 - 2023-9-19 14:19

soyuzu

虽然技法能成为共识，但选择哪一个共识进行评价是主观的，短评区刚刚就有个拿赛璐璐时代的演出标准去指责赞扬一片好评的第七集的人是“不懂演出和调度”的样本 @absurd

#7-3 - 2023-9-19 14:42

Dand_rio

soyuzu 说: 虽然技法能成为共识，但选择哪一个共识进行评价是主观的，短评区刚刚就有个拿赛璐璐时代的演出标准去指责赞扬一片好评的第七集的人是“不懂演出和调度”的样本＠absurd

不是和每一个人、立刻达成共识，而是钻研者的意见经过时间最终收敛。10 年后或许赛璐璐标准的信徒离开了，但赛璐璐的标准是什么仍然是共识的。

#8 - 2023-9-19 12:52

星空17 (不同事物应该适用不同评分标准)

很多人说着不在乎评分但围绕评分的撕逼并不少见

#9 - 2023-9-19 13:36

angzeh

你觉得追番体验会给这部番打高分，但是问题要辩证的看，很多人在讨论中和解，是不是也有很多人在讨论中假药吃多了反而过度期待了呢？那如果没看过假药的后面的观众是不是反而在这一层面能得到更好的体验？就例如12集的live，很多人觉得还会有大活，然而制作组恰恰就给了个适合mygo完结的live，当时12集结束可有不少人觉得这个live平淡，还有祥子的最后一个镜头，如果没有看到别人假药的分析，观众其实没办法用有限的信息去拼凑出这个真相，那么最终揭露出来是不是相比于现在追番的人有更好的体验？希望你在分析评分的问题时，更多的从辨证角度去看，而不是拿评分机制作为论据，实际上觉得这个番并不配这样的评分

#9-1 - 2023-9-19 13:40

angzeh

而且观众的口味本来就是不一样的，某些人觉得是10分，有些人觉得是7分，这样平均下来才是一个作品最终的分数，你不可能要求所有的人都给这部番打8分吧，那么大众评分的存在意义是什么？如果不认可的话还不如搞编辑评分

#9-2 - 2023-9-19 14:12

Mahoo

假药导致的过度期待同样也是不可重复的，一样该被补证，至于最后补正结果如何完全取决于后来者的评分与追番人群评分的差距。我提出这个问题又没有预设立场，更无意去辩驳mygo到底高了还是低了，你觉得高就高，你觉得低就低，我写这篇文章更多的还是针对评分本身

#9-3 - 2023-9-20 01:20

angzeh

Mahoo 说: 假药导致的过度期待同样也是不可重复的，一样该被补证，至于最后补正结果如何完全取决于后来者的评分与追番人群评分的差距。我提出这个问题又没有预设立场，更无意去辩驳mygo到底高了还是低了，你觉得高就高，你...

如果你希望评分剔除场外因素，那么很多番可能都要中枪，因为场外因素不只是追番体验，就像推子那首超级出圈的主题曲会不会影响评分呢？还有一些大热的番，会不会因为出圈导致过高的热度，导致评分可能会失真呢？要不然就是搞一套很复杂的评分机制，或者是提高评分人的要求，不然所谓的评分本就是一个复杂多维度的综合评价，想要真正用评分完全反映作品质量，有可能越改越失真。

更不用说从目前来看，完结后的用户评分似乎并没有明显下降，至少等一年后有具体数据后，再来下所谓追番影响mygo分数的结论

#10 - 2023-9-19 15:29

云中初梦

和解吧，mygo分再高，在我这也只有七分，别人怎么想的不重要

#10-1 - 2023-9-19 18:30

纸纸菌

楼主的评论：《孤独摇滚》整的活是“喜闻乐见”，《mygo》整的活就是有点剧本和演出的扭曲乐子偶像番。很难不想像楼主带着多主观的情绪在评论动画，自己是这种情绪主观评分的人，却在评论区指责别人的评价不客观，我的评价是，建议以后设立一个“动画评价家”的职业，把职业选手和路人的评分分开，这样大家就都乐意了。

#10-2 - 2023-9-19 18:33

纸纸菌

纸纸菌说: 楼主的评论：《孤独摇滚》整的活是“喜闻乐见”，《mygo》整的活就是有点剧本和演出的扭曲乐子偶像番。很难不想像楼主带着多主观的情绪在评论动画，自己是这种情绪主观评分的人，却在评论区指责别人的评价不客观...

至于楼主，你觉得你是客观的职业选手吗

#10-3 - 2023-9-19 18:33

genesis

不要查成分。明显是有3D、声优水平不高、反对分割商法这种客观不适应因素导致降分的打分是没什么问题的

#10-4 - 2023-9-19 21:00

野生型丧男

“楼主的评论：《孤独摇滚》整的活是“喜闻乐见”，《mygo》整的活就是有点剧本和演出的扭曲乐子偶像番。”
很容易解释啊，番剧是有不同类别的，你拿喜剧的8分和现实剧的8分对比有意思吗？没意思，你观看的时候情绪都不一样，你评分出来的玩意能一样的？能对比的？
而且我还想讲，如果楼主企图用修正过的八股文去求得你所期望的结果，只会得到更没趣的玩意。

#10-5 - 2023-9-22 23:30

追风酱

genesis 说: 不要查成分。明显是有3D、声优水平不高、反对分割商法这种客观不适应因素导致降分的打分是没什么问题的

讲真，mygo能这么爆很大程度上也是因为这些限制。

#11 - 2023-9-19 18:20

genesis

怎么在这边也发了。
我支持评分解构论。只有彻底掀翻旧的评分秩序，才能创造自己想要的“附上各类非番剧本身的场外信息”的新秩序。
举一个极端的例子，《死亡搁浅》因为现实世界的变化而逐渐被人理解这种现象，并不是任何评分体系可以概括的。我们需要更高信息量，更高信息密度而又不失直观性的一种评价载体，来取代现有的体系。
另外，追番体验这个现象也是很值得分析的。比起强调未来对追番体验的不可复制性，我认为去写一些回溯论坛过往帖子的脚本，真正在一定程度上帮助后来人还原追番体验，能为更多的人创造价值。

#11-1 - 2023-9-19 18:27

Mahoo

你班超展开太难找了，写日志主要是方便存个档

#12 - 2023-9-21 16:33

小泉空 (透明人)

所以还是回到了一个根本的问题，人的自私性。因为自私，所以他们不会在意评分是否会对其他观众具有有效的参考价值，只想一股脑的强推自己喜欢的作品。
随着评分越来越多的注水，日后只能拿来作为一个不太准确的"人气值"参考了。从这点出发，解决办法或许可以增加一个"浏览量(人气值)"指标，或许大家就不会那么无脑的往评分上刷"业绩"了，因为可以用刷"热度"来替代

#13 - 2023-9-22 05:22

维度 (去死)

水

#14 - 2023-10-2 10:17

羊皮狼二代

一个片全女人起评分10分，看情况减分
一个片有男人起评分0分，看情况加分
这就是我的评分逻辑

关联条目

BanG Dream! It's MyGO!!!!!

Mahoo » 日志评分实践论——为什么我说mygo的评分模式并非妥当

关联条目

Mahoo » 日志
评分实践论——为什么我说mygo的评分模式并非妥当