#1 - 2024-1-13 21:51
fy
先说结论,平均分体系必然崩坏

在当今社会,评分已经成为了衡量事物优劣的重要标准。然而,随着评分的普及,其内在的问题也逐渐暴露出来:我们发现这些评分似乎越来越难以反映作品的真实质量,各网站评分体系的不断崩坏,是因为用户的问题?然而并非如此,本文将探讨为什么基于简单计算平均分必然造成体系崩坏,并提出我的评价体系设想。

内生缺陷导致热门程度影响分数

首先我们做一个简单的实验,假设有绝对客观优劣的ABCD等作品,作品质量依次降低,模拟用户去打分并计算平均分

可以看到热门作品的平均分不可避免的往两端靠近了分值更加夸张,出现了所谓的“德不配位”,是打分用户的错吗,并不是,其实每个打分用户都对他看过按客观质量的从高到低的打分,但平均分结果却违背了客观质量,平均分体系连有绝对客观优劣的都无法胜任又如何反映出错综复杂的现实作品的真实质量。

评分分值是否应该反应热度

我认为不应该,评分应该只反应作品质量,因为有非常直观的数据可以直接反应热度:追番人数或是评分人数,只要给排行榜做个筛选人数(隐藏低于××
人的作品)就非常容易找到又热门又好看的作品,但质量只有分值可以反应,如果分值包含热门因子除了会出现所谓的体系崩坏,还会出现实际上优秀的作品分值却比同等质量的热门作品分值低很多,这种现象将导致了许多优秀作品被埋没。

抽象分值的标准锚点变动

评分往往是一个抽象的数字,而不是一个具体的描述。这使得用户很难理解这个分数到底代表了什么。这将非常容易影响评分标准。
外部影响
各大评分网站评分标准不同,但偏偏又基本是五分制十分制,用户很容易将其他平台的标准代入这边,热门作品受众大新用户更容易给其打分,而这又加剧了热门作品分数的失真。
内部影响
因为评分是个抽象的数字,用户潜意识会将自己看过作品的站内分数当做锚点,而热门作品由于社交网络曝光几率大加深印象,会有非常大的概率被选中当做评分标准,用户再以失真数据作为基准打分,会将热门作品分数的夸张化,带到其他作品当中,这一过程又将加剧作为锚点的热门作品分值膨胀,不断循环膨胀的最终结果就是全员9.9分,评分彻底失去参考意义

摒弃评分重回比较

我一直认为两个作品的优劣只有两部都看过的人才能决定它俩的高低,“没有调查,没有发言权”,对,插件里的科学排名就是基于两两对比,但只给了一个排名除了看哪个“德不配位”并没啥用,说起科排,我看到最多的一句话是“冷门狂喜”但实际上只是将排名中热门比重调低重回质量排名,也有其他基于两两对比的算法调高热门比重,用不同算法做统一排名其实是为了避免A>B>C>A的循环情况,但作品评价又不是体育比赛

我们真的需要一个全站统一的排行榜吗?

统一排行榜只会引发打榜行为,什么进第一页第二页、被引流来的一击脱离、平衡党,还有各种叽里呱啦只会引发矛盾,排行榜本来作用无非就是为了寻找好作品,一个作品一个榜并不影响,将两两对比数据直接呈现,不应整合成一个榜

彻底抛弃分数

将作品质量量化成抽象的分数会引发上述的诸多问题,而评价体系重回两两对比,也就没有了打“分”的必要性,用户评价可以采取梯队图,什么T0 T1 T2 T3的或是S A B C,将用户直观的拉回作品对比给作品排序排梯队,不在是五分十分制 用户想搭几个梯队都可以,发现更多好看的也无需再大面积改分,直接给最上面加一层即可,梯队制顺带防止了一击脱离,而且更加直观的显示了用户个人梯队排行榜没了全站榜单,平衡党或许也会减少

判断作品好坏

彻底抛弃分数后,原来分数判断作品的功能可以通过该作品的两两对比排行榜隐藏掉其他未看作品,从该作品处于你看过/在看作品中的位置直观体现

分赛道

将梯队图分开赛道有两个好处,观看作品多了梯队图难免变得庞大,分赛道可以更加精细化管理,按题材分或是按年份季度分,当然你也可以选择不分,一部分人分赛道后加强了相同题材或是年份的相关度,再加上筛选人数(隐藏低于××人同时打分的作品),直接自带大数据推荐了

全流程

番荒了,点击喜欢的条目想看类似作品,查看该条目对比排行榜,可以选择性的隐藏低关联度和已看的,找到不错的(或是其他社交网络看到然后再bgm搜索)点进去看简介吐槽标签和该作品在你看过作品中大致位置的排行榜(默认隐藏其他未看),看完后在自己首页将其拖动到自己心目中的梯队位置
#2 - 2024-1-13 21:55
先问是不是,评分体系蒸蒸日上
#3 - 2024-1-13 22:01
(未来一定属于美少女撕逼吵架。)
崩坏了吗?我怎么看还蒸蒸日上了呢
#4 - 2024-1-13 22:38
(相信美好的事情即将发生)
评分势必会受情绪化影响,然而我们都无法做到不被情绪左右
#4-1 - 2024-1-13 23:07
fy
如果是抽象的分数当然会受到情绪影响来个满分,但梯队图强制给他拉回和自己以前打满分作品的对比
#5 - 2024-1-13 22:39
(相信美好的事情即将发生)
还是建议多看多累计阅片量,看的越多越容易以旁观者、审视者的心态来看待作品
#6 - 2024-1-13 22:45
理论上来说,我cos成上帝按着所有人的头让他们在无限时间/空间中把bgm前5000的动画全看完之后就能得到一个完美的打分了,不过这显然不现实
#6-1 - 2024-1-13 22:47
tomzach
这是我在给书籍打分的时候想到的,我在bgm上打了分的就只有一部漫画,打了9分。说不定这只是因为我没看过太多更好的漫画,如果我能够把bgm前500的漫画全看完,那现在这部漫画说不定可能就8分了。替换到动画这里也是一样的逻辑
#6-2 - 2024-1-13 22:48
TonyLafis
tomzach 说: 这是我在给书籍打分的时候想到的,我在bgm上打了分的就只有一部漫画,打了9分。说不定这只是因为我没看过太多更好的漫画,如果我能够把bgm前500的漫画全看完,那现在这部漫画说不定可能就8分了。替换到动...
同感
#6-3 - 2024-1-13 23:04
fy
tomzach 说: 这是我在给书籍打分的时候想到的,我在bgm上打了分的就只有一部漫画,打了9分。说不定这只是因为我没看过太多更好的漫画,如果我能够把bgm前500的漫画全看完,那现在这部漫画说不定可能就8分了。替换到动...
所以我的观点是抛弃抽象的打分,回归只给自己看过的作品对比排序
#6-4 - 2024-1-13 23:15
tomzach
fy 说: 所以我的观点是抛弃抽象的打分,回归只给自己看过的作品对比排序
记得bgm有一个评分是把每个用户给不同作品的打分高低作为权重计入考量的,是科排吗?
#6-5 - 2024-1-13 23:17
fy
tomzach 说: 记得bgm有一个评分是把每个用户给不同作品的打分高低作为权重计入考量的,是科排吗?
上面提到过,但我觉得目前科排并不完善
#7 - 2024-1-13 23:00
还好我是低水平二次元底层观众
#8 - 2024-1-13 23:03
所以说科学排名不是已经解决你这个问题了吗。
而且看得太少也属于低水平观众,而且低水平观众不会像你这样完全尊重客观事实地打分。
#8-1 - 2024-1-13 23:13
fy
科排只给了个排名,并没有做到挖宝和排雷的作用,只能跟原有排名做做对比看看是升了还是降了,而且科排数据源头依旧是从分数来
#8-2 - 2024-1-13 23:16
fy
我认为就算只看过两部,他对两部优劣的排序也是有价值的,但如果按他一个打10分一个打1分计入平均分就会出现很大问题
#8-3 - 2024-1-13 23:24
树梢树枝树根根
fy 说: 我认为就算只看过两部,他对两部优劣的排序也是有价值的,但如果按他一个打10分一个打1分计入平均分就会出现很大问题
一个人打了两个分数,一个10分一个1分。另一个人也打两个分数,一个6分一个5分。这两个打分的标准差不一样就会导致前者打分的权重大于后者。可以通过一些算法在统计的时候把两个人的标准差变成一样的,这两个人打得分权重就一样了。换句话说一个人打10分占他打过分的作品的百分比越多,统计的时候他的10分价值就越低。不是很难解决的问题。
#8-4 - 2024-1-13 23:32
fy
树梢树枝树根根 说: 一个人打了两个分数,一个10分一个1分。另一个人也打两个分数,一个6分一个5分。这两个打分的标准差不一样就会导致前者打分的权重大于后者。可以通过一些算法在统计的时候把两个人的标准差变成一样的,这两个人...
但是如果他是觉得A比B好,但是觉得A平均分太高了所以打了1分,觉得B平均分太低了所以打的10分的平衡党呢,但是我让他做梯队图就能把他的评分锚点从平均分强制拉回到两部作品的对比
#8-5 - 2024-1-13 23:40
树梢树枝树根根
fy 说: 但是如果他是觉得A比B好,但是觉得A平均分太高了所以打了1分,觉得B平均分太低了所以打的10分的平衡党呢,但是我让他做梯队图就能把他的评分锚点从平均分强制拉回到两部作品的对比
梯队图不也能打低分做平衡党?最好的办法是把滥用打分规则的用户踢出去封号。
#8-6 - 2024-1-14 00:03
fy
树梢树枝树根根 说: 梯队图不也能打低分做平衡党?最好的办法是把滥用打分规则的用户踢出去封号。
没有统一的官方榜单没有分值,只有梯队图直观的体现了你把哪个排在哪个上面,他还平衡什么