评分与排名讨论会 » 讨论
评分实践论——为什么我说mygo的评分模式并非妥当

#1 - 2023-9-19 09:35

Mahoo (喵~)

都给nzh和mygo闹麻了，刚好这季度没啥动画好写的，就把七月季度的日志给评分这个话题吧

引言：普遍而言，我们认为评分千人千面，对于不同人有不同意义，因而很难说评分拥有一个普适意义而言的含金量。在本文中，作者试图从信息有效度的角度切入，提出一种可能具有普遍意义的评分“含金量”，同时论证为何mygo目前的打分模式或许并非妥当，并提出了可能的改进方式的思路。

目录：
一、评分网站与评分
二、评分含金量
三、评分实践论——以mygo为例
四、如何应对

一、评分网站与评分
   没有烂的评分，只有不会看评分的人——评分相对论
   当我们面对评分时，我们想要获取的是什么？或者说，你想利用评分来达到什么目的？这是每个讨论评分的人在讨论前都应当思考的事，不同的用途决定了不同的对于评分方式的价值判断方式
   例如，对于一个更关注作品学术价值与借鉴意义的人来说，他可能更希望评分人都是对着作品能解构再建构评论大拿或者业界专业人士，而拒绝大众评分的介入；对于一个更关注作品商业价值的人来说，他可能更希望看到大众评分甚至干脆以销量作为评分；对于一个雷点较多但对作品完成度要求不是很高的想用评分来筛选作品的人来说，他可能更希望低分占比更高的评分模式，或者对雷点(低分)更为敏感的评分群体；对于一个想通过评分来筛选出具有独特看点的人来说，他可能又希望高分占比更高的评分模式或者对亮点（高分）更为敏感的评分人群。
   然而对于一个评分网站，它不可能满足所有人的需求，或者说，对于不同的人，所谓的评分含金量可能完全有着不同甚至相对的意义，因而也无从谈起，这些不同的人聚在一起讨论评分同样也是鸡同鸭讲，所以正确的做法应当是：通过对不同网站的整体评分趋势，评价体系做评判，理解在该网站下的某个分数段意味着什么，从而找到符合自己需求的评分，从网站评分中提炼出想要的信息。例如，利用b站评分可以筛选有明显雷点的作品，利用mal评分可以筛选出近年热门作品，利用bgm7.3-8.1分段可以找到质量有一定保证但观看门槛又相对不高的作品等等，利用评分，再加之一些辅助的tag 评论等信息，我们可以从中获取更多的有效信息。
   不过相对的，对于以赛博斗蛐蛐叠盒为乐趣的人来说，他可能更希望有一个评分毫无章法可循的评分网站，这样就可以很容易的找到“梯子”, 轻易得出eva不如蒜的结论，而对于乐于到处找人说评分屁用没有来展现自己与众不同从而获取优越感的人来说，他可能更希望评分方差都是厨黑大战以印证自己的观点。不过作者相信对于这类评分需求的人并非普遍的，而且他们这种对于评分的目的也是不可持续的（即当评分真的满足他们的需求时，他们的需求本身也会从而瓦解，导致这样的评分又不再能满足他们的需求，在这里不展开讨论）。
   因此，本文后续讨论的评分相关内容，都是基于希望从评分中获取关于作品的某些信息的人群而言，或者说，是基于希望评分有意义的人群而言的。关于这类人群的普遍特征，将于下一节讨论。

二、评分含金量
   烂的评分来源于过多的有效信息丢失——评分绝对论
   上一节中，我们提到了希望评分有意义的人群的不同需求，他们的需求各不相同，但他们都有一个类似的特征，即希望评分能够有效反应出作品的某些信息，而且反应的越具有辨识度越好。
   他们为什么有这样的普遍特征？在讨论这个问题之前，我们先来回顾一下我们为什么有时候需要去看平均分，众数、方差等统计值，为什么图像处理中，我们会更关注图像矩阵的特征值？因为当我们需要关注这些值的时候，通常意味着本体的所有信息对我们来说过于冗杂，且不必要，我们只想要获得其中的某些我们关注的特征，而这些值之外信息的丢失对于我们可有可无，因而相对的，我们也希望我们选取的这些值能有效反应我们关注的部分。
   回到评分，我们为什么会关注评分，通常也是因为作品的源信息本身对我们而言过于冗杂，从中提取出我们想要的信息成本过于庞大，因而，我们愿意去通过评分这样一个特征值，辅助一些其他相对简单的手段，来得到我们需要的信息。
   很自然的，我们对这个特征值的要求是有效的反应某种信息。何为有效？我想应当有这两点：一、同一组特征参数（评分，tag，年份等）对应的不同情况应当是尽量少的，以及，在上述条件能够满足我们需求的同时，我们希望这组特征参数的个数应当尽可能少，这对应数据的辨识度，或者说“特征”的程度。二、同一个作品的特征参数，我们希望它尽可能的稳定：假设我们有一套算法，能够输入作品就能直接输出我们关注的信息，我们希望今天得到的信息和明天得到的信息是一致的，或者，即便有变，我们也希望它是相对缓慢的，因为作品本身没变，这是一种时间上的守恒。这就像做实验我们期待实验是可重复的一样。
   那么相对的，什么是差的评分呢，即特征值无法有效反应信息，或者说，我们期待的有效信息在这样的评分中失真了。那么从有效的角度来看，差的评分，或者说质量低下的评分，具有这样的特征：想要得到作品的有效信息，除了评分之外，我们需要辅以非常多的额外参数，去获得这些额外参数的成本对我们来说是过大的；这样的参数提取出的信息并不稳定，时效性很强，今天通过评分等参数提取的信息明天可能就失真了。
   来到mygo，接下来我将以mygo为例，用诸如看评分是为了看动画等具体视角来应用上述理论，并阐释为什么我认为mygo的打分模式是不甚妥当的

三、评分实践论——以mygo为例
   Mygo评分的失真来源于过于强烈的追番效应
   在我看来，mygo评分的最大的问题在于，它的体验强烈依赖于追番体验，或者，更激进的说，来源于它与动画本身无关的场外因素，比如假药，官方互动等，而这样一个体验，是偶发性的，是不可重复的，是后来的观众绝无可能体验到的。例如ep10，就我个人而言，我认为它是操之过急的，是缺乏推动力的，它放在经过几集的铺垫后的ep12或者13，会是更为合适的位置，但对于许多mygo追番观众来说，这些推动力早已在各路战吧贴，在观众物理上的时间沉淀中得到解决，因而他们会认为是神回。而一个三个月后来看mygo的人，他看不到假药，看不到官方互动，看不到每周六33989三小时mygo回，也没有每周四后“求求你再给我看mygo下一集”的心情体会，那么，他还会有同样的感受吗（假设有两个平行世界，同样一个人在一个世界是追番，在另一个世界是补番），基于前者人群的评分对于后者还有意义吗？
   从第二节的理论来说，这样一个强烈依赖于追番效应的评分下，我们想去从中提取有效信息，必须获取更多的参数，例如假药，或者至少知道当时有很多假药，而这类信息的获取，在非追番时段是极其困难的，成本极大的（一个简单的例子，你现在还能找到当时刀使巫女的假药吗）。同时，这样一个强烈的追番效应，造成了番剧体验的不可重复性——7月看和10月看是完全不同的体验，因而对于非7-9月的评分观看者来说，mygo评分对于他的价值是很小的。
当然会有人说，难道我们就只看中非追番体验吗？
   其实不是，大部分时候，对于追番者来说，作品评分对于他们的意义完结于作品完结的时候，对于明晰着作品评分变化趋势的他们来说，这部作品怎样的评分代表怎样的意义早已存于他们的大脑，从获取信息的角度来说，他们不再需要评分，而他们的打分，在可持续的意义上，也不过是一种前人栽树后人乘凉的行为。而对于后来者而言，却无法分辨出这样一个评分所代表的含义，这显然是不妥的。
   对于这样的状况，我认为可以从这样的角度来改善。

四、如何应对
   从用户侧的角度来说，鼓励追番者附上各类非番剧本身的场外信息，以降低后来者的获取有效信息所必要的参数的难度，亦或是打分时解构出追番效应的因素来打分——这对用户本身的要求较高，作为大众评分网站，无论如何这类方法都是可行性低下且效果微弱的。
   从网站侧的角度来说，一个可能的方案是，当后来的评分与先前的评分差距较大时，提高后来评分的比重，这样一个比重，应当是随时间指数变化（即在番剧完结附近的权重差异最大），并与后来者观看人数（率）呈负相关的（防止来看古早番的人过少从而跟不上评分膨胀的步伐）。这样的一个补正，或许可以提升评分对于需要评分人的价值。笔者并非数学系，因而仅提供一个可能的思路，不再多做展开。

#2 - 2023-9-19 09:54

静水秋风 (远离谜语人，人人有责)

好！

#3 - 2023-9-19 09:55

藍嵐

Mygo评分的失真来源于过于强烈的追番效应

感觉用社区效应形容更准确些。欧美宅区也存在类似的现象，一部分人只追新番不补番，实际他们在乎的不是动画本身，而是社区实时的讨论氛围。就像热度高的竞技比赛会吸引大批新人入坑一样。

#4 - 2023-9-19 10:00

Kisara (相信心就是你的魔法)

好开

#5 - 2023-9-19 10:06

高三电波台 (精神不错啊，是不是发生了什么好事啦？)

评分进行加权是否导致评分理解难度变大？
很赞同评分附上相关信息

#5-1 - 2023-9-19 10:55

Mahoo

我的这种加权想做的只是缩短评分趋于稳态的时间，例如原本需要一年五年才会到达的评分让他几个月来达到。我觉得这样一种加权方案的benchMark，应该是取一个排名曾在完结后较长一段时间有明显变化，然后在近今年已经趋于稳定的动画，取一个还未稳定的时间点，然后对这个时间点前的数据做加权，看能不能得到已经稳定的分数。

#6 - 2023-9-19 10:12

honami (少说多看)

赞同，让我想起之前追异度侵入的时候，天天跟群u讨论剧情，一起猜测发展，虽然结局完全没对上我们猜的，但最后追完的体验我到现在都没有再感受到过，某种程度上我喜欢追原创讨论动画就是从那时候开始的 (bgm43)

#7 - 2023-9-19 11:03

愛言葉ཏ༿༼༻⁺ (疼痛讓思考明晰)

不过，打回重写。

#7-1 - 2023-9-19 12:13

Mahoo

#8 - 2023-9-19 11:17

大卫不是歪果仁 (Explosion！爆裂魔法是无敌的！)

好好好

#9 - 2023-9-19 11:39

先生 (太初有道，道与神同在，道就是神……道成了肉身)

反对一切加权计算

#10 - 2023-9-19 12:25

Hakula

有一定道理，新时代观众和旧时代观众的审美也不同，一定程度的时间加权可以反映作品在不同时代的接受史。当然这建立在一个判断上：评分应当更反映当下的大众审美观。

一个担忧：如果我想刷分，是否可以通过用脚本（或手动）不断刷新标记时间的方式来提高自己评分的权重？

关于场外信息，从我个人的补番经验来说，可以通过在每集的讨论区里补全。追番党的楼层会出现在更前面，如果有需要补充的信息基本一眼就能看到，我自己补番时基本看完一集就会看看本集的讨论区。

#11 - 2023-9-19 12:56

padorax (戯言なんだよ)

没有可行性。现在已经有大量用户抱怨（排名靠前的）评分的整体上涨，按照楼主的算法那现在的上涨情况会变得更高。
再假设一种极端情况，每部b站购买的动画官方都付了bgm条目链接呼吁关注打分（非刷分），在这种情况下楼主要不要降低这些评分者的权重呢？不降低的话势必造成评分体系的崩塌。

其次，举一个常见的情况，冷门番因为新观众少评分趋势是不符合热门番的，楼主是否要进行修正?

#11-1 - 2023-9-19 13:01

蜂蜜四叶草

它真涨了吗？如涨，每年过八分的动画数量不都差不多

#11-2 - 2023-9-19 13:25

EmAugust

遗老的话当屁话就行了，你要真摆数据讲道理会发现大部分前排条目评分都在下降

#12 - 2023-9-19 13:10

音羽 (What are you waiting for)

从网站侧的角度来说，一个可能的方案是，当后来的评分与先前的评分差距较大时，提高后来评分的比重，这样一个比重，应当是随时间指数变化（即在番剧完结附近的权重差异最大），并与后来者观看人数（率）呈负相关的（防止来看古早番的人过少从而跟不上评分膨胀的步伐）。这样的一个补正，或许可以提升评分对于需要评分人的价值。

一部十二集的番是由独立的十二个集数组成的，现在看动漫早就已经进入了标签化时代，如何定义先来后来？更如何定义差距较大？首先这是个快餐化时代，看一些你想看的番无非就是打发时间，找点乐子。慢热的番剧，坚持不到后面，早早就弃了打低分就是不如认真看完了之后打高分吗？我看番的需求是看完吗？我是观众，不是奴隶，没有必要强行压迫着我看完，就因为我早早的弃了就丢失评分的权重不会让我满意，更不会让这个快餐化的时代，每一集都有每一种新的声音的时代满意。评分体系的意义是一个比较的过程，高评分看的不是你喜欢什么，更不是什么好看，而是更多人眼里认为这部番好不好看。分是由一个一个人打出来的（当然你要说有很多一击脱离的小号机器人我不反驳），质疑越高分的番剧并不是质疑这部番好不好看，而是反对越多人认为这部番好不好看的声音。如果对评分加以权重的话，呈现出一种“谁说了算”的趋势只会让讨论环境越来越恶劣

#12-1 - 2023-9-19 13:44

Mahoo

我想你完全误解了我的意思，我的想法从来不是车未完结打分，你完全可以看不下去打个垃圾分数走人，但如果之后再来看的人，普遍打出了明显不同于你的分数(不管有没有看完)那么意味着对于后来者而言，(尽管个体的评分毫无意义，但整体的趋势是能够反应某些问题实在的)你(或者说先前群体)的评分对于他们的参考意义是低下的，是误导性质的，为了让更少人继续被误导，应当减少你的，或者提高后来人的权重。至于怎样算大，我只能说这是一个连续变化的函数，具体是怎样的形式取决于能不能满足我在5楼说的benchmark

#12-2 - 2023-9-19 13:54

音羽

Mahoo 说: 我想你完全误解了我的意思，我的想法从来不是车未完结打分，你完全可以看不下去打个垃圾分数走人，但如果之后再来看的人，普遍打出了明显不同于你的分数(不管有没有看完)那么意味着对于后来者而言，(尽管个体的评...

一部番的价值不应该被后面的好和坏去否定前面的坏和好，国王排名前面都快8.5了呢。实在是后面太烂导致bgmer怒火中烧才有了那么严重的回旋镖，而且当时也有不少人打出了高分且至今未改的。但即便如此，你不能说这部番前面毫无亮点，完全不值得一看。最后，我觉得避免被误导最直接的办法就是自己去看个一两集，看得下去就看，看不下去就跑路，而不是纠结别人打出来的评分，以至于调整整个网站的权重。

#12-3 - 2023-9-19 14:06

Mahoo

回复音羽：Mahoo 说: 我想你完全误解了我的意思，我的想法从来不是车未完结打分，你完全可以看不下去打个垃圾分数走人，但如果之后再来看的... 说: 一部番的价值不应该被后面的好和坏去否定前面的坏和好，国王排名前面都快8.5了呢。实在是后面太烂导致bgmer怒火中烧才有了那么严重的回旋镖，而且当时也有不少人打出了高分且至今未改的。但即便如此，你不能说这部番前面毫无亮点，完全不值得一看。最后，我觉得避免被误导最直接的办法就是自己去看个一两集，看得下去就看，看不下去就跑路，而不是纠结别人打出来的评分，以至于调整整个网站的权重。

还是回到第一节，评分目的，以及第二节为什么不直接看作品而看评分。另外本文是针对于希望通过评分做到些什么的人群(评分有意义党)撰写，觉得评分没啥用的人为什么要来参与评分讨论和指指点点。至于我个人立场，我向来秉承高分信自己低分信自己，平等的视各网站评分为一坨狗屎的立场

#12-4 - 2023-9-19 14:12

音羽

Mahoo 说: 还是回到第一节，评分目的，以及第二节为什么不直接看作品而看评分。另外本文是针对于希望通过评分做到些什么的人群(评分有意义党)撰写，觉得评分没啥用的人为什么要来参与评分讨论和指指点点。至于我个人立场，我...

对于说评分有意义党来说，加权这种东西只会把话语权留在少数人手上，到时候我是该信那些前面打低分后面打高分的多数人呢？还是该信前面打高分后面打低分的多数人呢？我觉得评分的参考意义是一种浮动的东西，你说无脑去信，那也是不可能的。你说真不信，这又能反应了更多人是怎么看待这部番的，对你决定是否要不要看这个番有帮助。但是你避免不了有些人就是要看评分，做评分的奴隶，这番低分哪怕有亮点但是就是不看，你说不加权会误导别人，加权了反而更会误导别人

#12-5 - 2023-9-19 14:21

Mahoo

回复音羽：Mahoo 说: 还是回到第一节，评分目的，以及第二节为什么不直接看作品而看评分。另外本文是针对于希望通过评分做到些什么的人群(... 说: 对于说评分有意义党来说，加权这种东西只会把话语权留在少数人手上，到时候我是该信那些前面打低分后面打高分的多数人呢？还是该信前面打高分后面打低分的多数人呢？我觉得评分的参考意义是一种浮动的东西，你说无脑去信，那也是不可能的。你说真不信，这又能反应了更多人是怎么看待这部番的，对你决定是否要不要看这个番有帮助。但是你避免不了有些人就是要看评分，做评分的奴隶，这番低分哪怕有亮点但是就是不看，你说不加权会误导别人，加权了反而更会误导别人

唉，不要老是说“信谁”，这种拟人化的词汇是充满误导性的。所谓评分本质反应的就是一种统计规律，只要你处于被统计的对象，你就不可避免的处于这样的统计规律之中，你既然想利用这个统计规律做什么，尤其是对于自身去做什么，你要得到真正有效的信息，无可置疑的是要选择正作用你身上的统计规律而不是去刻舟求剑。至于统计规律之于个人作用何在，那就见仁见智了

#12-6 - 2023-9-19 14:38

音羽

Mahoo 说: 唉，不要老是说“信谁”，这种拟人化的词汇是充满误导性的。所谓评分本质反应的就是一种统计规律，只要你处于被统计的对象，你就不可避免的处于这样的统计规律之中，你既然想利用这个统计规律做什么，尤其是对于自身...

“信谁”这种东西本身就是降低自己的思考效率转而去以别人为依据去从事某项事情的。对你来说，是，你是高分信自己低分信自己，但是别人呢？你保不准真的会有人是相信评分，相信某个bgmer，相信bgm的。而且你知道本身很多人都是把bgm当成所谓的圣地，例如现在动画排名第一是攻壳机动队SAC GIG，你保不准真的会有人以为这是世界第一动漫呢？是的，人要有自己的思考，但是你保不准有人真的会这么想。你自己可以不信任这个网站，不信任那个网站，这是可以理解的，但是如果加权，这更是对信任这个网站的评分，信任那个网站的评分的人的不负责。评分的洪流也是如此，每一个人打出来的分数，写出来的评语都是汇入了数据之河的，也许可能真的有人恰巧看到了我对于某某动漫，打了十分，写了评语“神”而去看了这部动漫，哪怕这部动漫没有那么神。也许可能有另一个人看到第三个人给某一部番打了一分，评语“构思”，他就再也不想收集关于这部番的信息，也决定不看这部番了。所以我觉得评分所带来的统计规律，不应该被权所制衡甚至被引导，如果我的一分＞你的十分，那我是看还是不看？这或许真的对我很重要，因为我可能就错失了接触一部好片的机会。

#12-7 - 2023-9-19 14:59

Mahoo

回复音羽：Mahoo 说: 唉，不要老是说“信谁”，这种拟人化的词汇是充满误导性的。所谓评分本质反应的就是一种统计规律，只要你处于被统计的... 说: “信谁”这种东西本身就是降低自己的思考效率转而去以别人为依据去从事某项事情的。对你来说，是，你是高分信自己低分信自己，但是别人呢？你保不准真的会有人是相信评分，相信某个bgmer，相信bgm的。而且你知道本身很多人都是把bgm当成所谓的圣地，例如现在动画排名第一是攻壳机动队SAC GIG，你保不准真的会有人以为这是世界第一动漫呢？是的，人要有自己的思考，但是你保不准有人真的会这么想。你自己可以不信任这个网站，不信任那个网站，这是可以理解的，但是如果加权，这更是对信任这个网站的评分，信任那个网站的评分的人的不负责。评分的洪流也是如此，每一个人打出来的分数，写出来的评语都是汇入了数据之河的，也许可能真的有人恰巧看到了我对于某某动漫，打了十分，写了评语“神”而去看了这部动漫，哪怕这部动漫没有那么神。也许可能有另一个人看到第三个人给某一部番打了一分，评语“构思”，他就再也不想收集关于这部番的信息，也决定不看这部番了。所以我觉得评分所带来的统计规律，不应该被权所制衡甚至被引导，如果我的一分＞你的十分，那我是看还是不看？这或许真的对我很重要，因为我可能就错失了接触一部好片的机会。

我所提出的方案就是照顾喜欢信评分的。你似乎带有很严重的评分生而平等的观念在里面，并以此大加发挥。但事实就是真正对于这类人群来说，有帮助的评分往往只有他观看该作品前后的的一小段时间。举一个极端的例子，清代人给笑林广记打的分(如果有)对于现代人找没品笑话有帮助吗？除非你是专门研究笑林广记历史意义的研究人员，但你更可能会去看笑林广记的netaba而不是一个简单的评分。回到bgm，你真的认为对于现在观众来说，sac9.1真的具有多大的参考意义吗？

#12-8 - 2023-9-19 15:10

音羽

Mahoo 说: 我所提出的方案就是照顾喜欢信评分的。你似乎带有很严重的评分生而平等的观念在里面，并以此大加发挥。但事实就是真正对于这类人群来说，有帮助的评分往往只有他观看该作品前后的的一小段时间。举一个极端的例子，清...

先说最后一句话，没有多大，但不能说没有。评分不一定要生而平等，只是加权带来的坏影响比好影响只多不少。你也自始至终有一个误区，就是认为加权真的对“信评分”的人有帮助，但是如果在一个网站评分有加权的前提下，到底该信你今天打出的十分还是明天我打出的一分？我前面第一句话说得很清楚，对于一部番来说，采用“评分+实际观看体验”是对你对这部番有清晰的认知最显而易见的办法，但是还是那句话，总会真的有人就是不爱动脑子，看到一个分数就去看了，本身评分这种东西就是简化你对于一部番从无到有的理解，你对这部番一无所知，也没在任何地方看到过剧透，你就看到这部番有多少分你就能决定去看了，这是不用费脑子的，没有很多人在任何情况下都要去自己思考的。加权只会让评分体系更复杂，或许对于整个评分合理性有帮助，但是还是那句话，我看评分是看分数数字斗蛐蛐的，我喜欢的番高分我就高兴，我不喜欢的番高分我就会疑惑，并且去车评分。但是从简单的数字比较进行加权之后，只会变得更复杂，这是不利于更多人的追番体验的，就拿你的话来说，sac9.1也许对于大多数来说没有什么意义，但是在平权的前提下，这个分数，或者说这个数字就是满足了大多数人的需要。进行加权之后反而要思考得更多，首先是没必要，其次是我做参考，或者我去电子斗蛐蛐都要思考得更多，不利于一个人接触新事物的长远发展。

#12-9 - 2023-9-19 16:47

Mahoo

回复音羽：Mahoo 说: 我所提出的方案就是照顾喜欢信评分的。你似乎带有很严重的评分生而平等的观念在里面，并以此大加发挥。但事实就是真正... 说: 先说最后一句话，没有多大，但不能说没有。评分不一定要生而平等，只是加权带来的坏影响比好影响只多不少。你也自始至终有一个误区，就是认为加权真的对“信评分”的人有帮助，但是如果在一个网站评分有加权的前提下，到底该信你今天打出的十分还是明天我打出的一分？我前面第一句话说得很清楚，对于一部番来说，采用“评分+实际观看体验”是对你对这部番有清晰的认知最显而易见的办法，但是还是那句话，总会真的有人就是不爱动脑子，看到一个分数就去看了，本身评分这种东西就是简化你对于一部番从无到有的理解，你对这部番一无所知，也没在任何地方看到过剧透，你就看到这部番有多少分你就能决定去看了，这是不用费脑子的，没有很多人在任何情况下都要去自己思考的。加权只会让评分体系更复杂，或许对于整个评分合理性有帮助，但是还是那句话，我看评分是看分数数字斗蛐蛐的，我喜欢的番高分我就高兴，我不喜欢的番高分我就会疑惑，并且去车评分。但是从简单的数字比较进行加权之后，只会变得更复杂，这是不利于更多人的追番体验的，就拿你的话来说，sac9.1也许对于大多数来说没有什么意义，但是在平权的前提下，这个分数，或者说这个数字就是满足了大多数人的需要。进行加权之后反而要思考得更多，首先是没必要，其次是我做参考，或者我去电子斗蛐蛐都要思考得更多，不利于一个人接触新事物的长远发展。

你的出发点在于复杂的技术性处理会造成理解的困难，但事实恰好相反，我们在统计中做技术处理都是为了方便理解的(如果排除掩人耳目的目的的话)。一个简单的例子就是现在bgm的排名增加了理解难度吗？事实上大部分人不会去刻意理解排名背后的统计手法，对于他们来说，评判这个排名只在于适不适合他们，和他们想的一不一样，而技术处理要做的就是让其尽可能的符合大部分观看排名者的预期。而对于研究者来说，他们需要自定义统计手法，需要原数据，那只要保持获取原数据的渠道就可以了，这并不妨碍对于普通人而言他们只关注最显眼位置那个数字的大小对自己有没有用，而非背后的统计手法。

#13 - 2023-9-19 13:24

EmAugust

麻了，你真这么想针对追番效应怎么不拿海贼王评分当靶子

#13-1 - 2023-9-19 13:46

Mahoo

平等的车每一个不可复现体验的评分，海贼王早该被车了

#14 - 2023-9-19 13:30

皆川すみれ✨ (あなたが、私の夢だ)

不能对用户进行简单加权，否则什么神奇的事情都会发生，这么简单的道理我以为大家都懂

#14-1 - 2023-9-19 13:47

Mahoo

提醒你一下，一来我提的方案不是对用户加权，二来你班排名本身就是有加权的

#14-2 - 2023-9-19 13:52

皆川すみれ✨

Mahoo 说: 提醒你一下，一来我提的方案不是对用户加权，二来你班排名本身就是有加权的

第一，行，更正为用户评分
第二，我不反对加权，我反对的是基于简单的方案或者简单的目的（例如一厢情愿的平衡意愿）进行加权

顺带一提，我觉得mygo肯定不配现在这个分数，就第一季来说我也看不起这个故事和塑造，但我无所谓它多少分

#15 - 2023-9-19 14:27

小澄

可以建立一种原教旨评分主义：
假药不算分，国内追番体验绝对不算分，一切评分假定是真空中的无国籍人士不上论坛在无母语背景下没有家庭阶层没有情怀滤镜也没有会造成共情的人生苦难，同时还没有任何或喜或忧的性别意识，年龄未知，然后对半考虑追番体验和补番体验的评分

纯粹的原教旨太过于极端了，但是单独对买狗来说，追番和社区讨论体验对分数的加成加的太高了，很明显的值得看空的程度

#15-1 - 2023-9-19 15:19

静水秋风

建议让真空中的球形鸡来打分（x）

#15-2 - 2023-9-19 17:22

小澄

静水秋风说: 建议让真空中的球形鸡来打分（x）

快进到没有战吧挺好萌投票权一律剥夺打分权

#16 - 2023-9-19 15:25

心教 (人生就是豪运的连续！)

lz打字格式看得真舒服 (bgm38)

好久没有这么轻松地读一长串话了

#17 - 2023-9-19 16:48

genesis

想法探讨：取消评分，改为用户提出+tag，-tag和中立tag，以及给其他用户提出的tag点赞。硬要弄排行榜的话，可以[(+tag)-(-tag)]/[(+tag)+(-tag)]。
这样的话，追番体验因素可以完全集中于一个或几个+tag的同意人数数量。
我是对评分这个东西有点虚无了。想方设法论证一大堆东西来为自己认定的一个自然数或者实数辩护，完全就是在屁股决定脑袋，是把创造力和表达力浪费在最不应该浪费的地方的表现。不如整点新活，我觉得哪里行与哪里不行都可以大胆的写出来不是。
当然我也知道，在这里讨论的很多人都是评分厨，或者喜欢讨论评分系统改进这件事本身的元评分厨，还有元元评分厨。只是相对于一个客观合理的评分对路人的正面意义，我本身倾向于它对参与评分论战的各位的负面意义更大。
再补充一句：如果说因为这本身就是个评分网站，所以无法取消评分的话，那至少可以说明「解决本楼所述问题的最佳的评价体系不是评分体系」。

#18 - 2023-9-19 17:25

Leitmotif (Koffein- und Brahms-Liebhaber)

给用户的打分添加打分功能，给用户给用户的打分打分添加打分功能，依此套娃，再根据各层打分加权

#18-1 - 2023-9-19 17:28

Mahoo

支持

#18-2 - 2023-9-19 17:29

Leitmotif

Mahoo 说: 支持

补充：给用户打分的最高层数设置注册时间的硬性门槛

#19 - 2023-9-19 17:57

HARU (そよ風が涼しく、すごく、いい！)

我觉得有评分透视能看不同时期的分数变化基本就够了。

追番时的分含金量高还是后来的人打分的含金量高，这不是一个能有客观答案的问题，因此我不认为把一个加权到这种程度的评分直接作为最终结果是合适的；当然，如果有人能另外做一份基于你那种算法的榜单，让人能直观看到更接近后来者审美的分数，我觉得还是好的。

除方案外，前边说的东西我觉得还是挺同意的

#19-1 - 2023-9-19 18:42

HARU

后知后觉，现在那个按入站时间算评分的透视不也基本解决这方面需求了嘛

#20 - 2023-9-19 18:28

飞飞飞飞飞飞飞栗 (我要脱宅。闭嘴，我要脱宅。)

这么加权岂不是更方便刷分了 (bgm38)

#21 - 2023-9-19 18:54

TTK

比牛子豪说得好

#22 - 2023-9-19 19:00

想带你去吹吹风 (蛋糕学说创始人)

说的很有道理，打的分数就不该包含任何场外因素。

#23 - 2023-9-20 00:06

Bill huang (欲买桂花同载酒，终不似，少年游)

评分不是为了自己的感受还是为了什么？至于机制，那不是管理员的问题？你有心中的评分就可以了，管别人干嘛。。 (bgm116)

#24 - 2023-9-20 00:33

星宫草莓 (紫玉成煙，白花飛蝶。)

有必要么，补番的人觉得不好看，不值这个分，就会打个相对的低分。这分数不就逐渐降下去了。
唯一的问题就是要杜绝刷分，比如追番觉得是神作的人，看到分数降了，就急吼吼的注册小号刷分，维持分数不降，这才是问题。

#25 - 2023-9-20 01:58

ThermalBunny (一破看动画的，最近有开始学点写作)

“当后来的评分与先前的评分差距较大时，提高后来评分的比重，这样一个比重，应当是随时间指数变化（即在番剧完结附近的权重差异最大），并与后来者观看人数（率）呈负相关的（防止来看古早番的人过少从而跟不上评分膨胀的步伐）。”
我对于这个权重的提出方式是有意见的。
1. 用户可以有意识地通过延后评分时间去获得更高的权重和影响力。那么无论是为了刷分也好、别的理由也罢，每周实时更新评分变成了一个不讨好的行为。这样也许会导致新番放送期间，打出分数给其他用户参考的意愿也会大幅减少了。
2. 古早番少人看了也不需要为了跟上所谓的“评分膨胀”而给后来评分加权。更少人去评分，干涉分数才是最合理的。让现在的观众去评分也许并不会得到一致的评分。

预期通过改变评分计算机制，我们可以多探讨具体应该如何给出一个合理的评分，并试图让用户们在讨论中达成一个初步共识。让更多用户去思考自己和他人的评分标准有和异同，让新用户在入站的时候先阅读一个简单的评分guideline，或者是一个简单的测试（例如给出一个第三者的简单评语、让该用户根据这评分填上对应的合理分数）。
我目前在个人主页上也写出了个人的评分标准，不定期更新。之前也有Ban友看到之后互相加为好友，我想也是没白写的。

#26 - 2023-9-20 03:06

Joh (Let me down)

除非把评分的机制搞成：什么模块打几分，比如剧情几分、演出几分、内涵几分…ect——如此的加权评分，不然单纯讨论评分的作用并不大（虽然这么弄了意义也不大），因为个人评分本身就是个人主观臆断的微观结果，但这并非说评分都是主观的，因为另一方面，大众评分则绝非个人评分的简单加总，而是一种其妙的宏观客观结果。

bangmumi自己的评分依据也都是“超神作、神作、强推、推荐、一般……”——的很主观的标准，我个人曾经也尝试过第一段提到的严格加权评分，结果就是把标准差弄到了1.81，而且评分的高低也会严重收到主观感受到影响（比如剧情写得好直接往着8分往上靠，这其实完全是主观的判断）

因此，在以个人评分无法客观的前提下讨论，评分的客观意义，就来到了大众评分的手上，正如第一段所提到的“大众评分并非个人评分的简单加总”：

因为无论是怎样一部作品，这个“哈姆雷特”在每个人眼中也是截然不同的，也正所谓之“人无法踏入同一条河流”，那么一部作品在这种前提（有好评、差评、中立）下，所得出的总评分，就表明了这一群体的总体性观点，这一“总体性观点”，则可以很好地让每个群体内成员，或“认为自己是成员”的人，对自己的个人观点进行一些反思——这算得上评分与评分榜的最内涵作用之一。

不过在我看来，评分榜的作用还是一个推荐作用，在Top250以内的的，那总得看看吧，除此之外，没有更多除“娱乐外”的效用了。（因为看mygo的评分沉沦真的很有意思）

乱七八糟说了一大堆，我的意见就是，评分榜与标准都不需要改，不过以各个时期为区域（比如1980—1999，2000—2005，2006—2010），以及分出作品类型（也就是剧场版、TV、Ova），有且仅有这样的、单独的评分榜，更有意义。

#27 - 2023-9-20 08:07

奶龙

删除了回复

#28 - 2023-9-20 08:36

川水 (Anime is a gag, and so are its dilettantes.)

问题就是，大家需要的有效信息不一致啊，现在没找到更好的办法。

#29 - 2024-3-31 19:50

景曜东隅☀ (上古竞于道德,中世逐于智谋,当今争于气力)

都给nzh和mygo闹麻了

这下nzh和芙莉莲要接着闹麻了

#29-1 - 2024-3-31 19:53

2022

你是疯狂戴夫的铲子？

#29-2 - 2024-3-31 19:54

景曜东隅☀

2022 说: 你是疯狂戴夫的铲子？

这文章挺好的，值得一读

/ 返回评分与排名讨论会小组

评分与排名讨论会 » 讨论评分实践论——为什么我说mygo的评分模式并非妥当

评分与排名讨论会 » 讨论
评分实践论——为什么我说mygo的评分模式并非妥当