#1 - 2021-12-27 20:30
narcissus
如果我可以得到一个去掉1分的排名榜单,我更愿意看那个。
当然,我不是说打1分的人可以忽略,因为他们表达不喜欢一部番剧,肯定也算是评分意见的一部分。但是问题就在于这部分人对排名影响的实际影响,已经远远超越了那批不喜欢番剧的人比例。
这也是一个比较现实的问题,不能简单的理想化。因为现实里一部动画的均分差不多在7,特别是高分动画,有时候甚至均分能达到8。这个时候打10分能提高的均分是很小的,打1分能降低的均分是极大的。不管是10分还是1分都只代表了一种强烈的情感取向。(甚至1分的情感取向更大,只有极少人是不考虑情感打1分)
如果说打分目的是本来就是让一小部分人情感取向获得很大权重,那这么设计是没问题的。问题是打分的设计绝大部分都是基于一个平均值算法,设计的时候想达到效果通过是1人1票外加10分到1分的细致区分,来让大家的每个分数有差不多的权重。只有在这一部分上格格不入(甚至高分和低分用两种完全不一样的算法),实际上这个1分严重影响了排名系统的一致性。
打1分的本人是没有任何问题的,因为任何人都有权利打分,但是你系统计算的时候是会出问题的。
如果打分是基于对比,那肯定会比平均分科学:比如看过动画a和b的人群每种100票对比,10分的a比b高10票,9分的a比b高10票,最终虽然1分的a比b高3票,但不至于因为这区区3票1分得出a在100人口碑上输给了b的结论。
当然,我不是说打1分的人可以忽略,因为他们表达不喜欢一部番剧,肯定也算是评分意见的一部分。但是问题就在于这部分人对排名影响的实际影响,已经远远超越了那批不喜欢番剧的人比例。
这也是一个比较现实的问题,不能简单的理想化。因为现实里一部动画的均分差不多在7,特别是高分动画,有时候甚至均分能达到8。这个时候打10分能提高的均分是很小的,打1分能降低的均分是极大的。不管是10分还是1分都只代表了一种强烈的情感取向。(甚至1分的情感取向更大,只有极少人是不考虑情感打1分)
如果说打分目的是本来就是让一小部分人情感取向获得很大权重,那这么设计是没问题的。问题是打分的设计绝大部分都是基于一个平均值算法,设计的时候想达到效果通过是1人1票外加10分到1分的细致区分,来让大家的每个分数有差不多的权重。只有在这一部分上格格不入(甚至高分和低分用两种完全不一样的算法),实际上这个1分严重影响了排名系统的一致性。
打1分的本人是没有任何问题的,因为任何人都有权利打分,但是你系统计算的时候是会出问题的。
如果打分是基于对比,那肯定会比平均分科学:比如看过动画a和b的人群每种100票对比,10分的a比b高10票,9分的a比b高10票,最终虽然1分的a比b高3票,但不至于因为这区区3票1分得出a在100人口碑上输给了b的结论。
只要用户不根据自己的观感而是出于让自己一个人左右多人的意见这种目的去打分,什么算法都救不了。
为避免误解,我简单说一下自己对科学排名的理解,科学排名的主要思想就是取任意两部作品A和B,在同时给A和B打分的人里面,统计是A>B的人多,还是B>A的人多,由此给AB赋予相对分值,最后再根据所有的两两相对分值做出排名。这就和主楼最后一段说的差不多呀。
更严格地讲,对任意两部作品A和B的相对分值,小乖是考虑了三种计算方式,然后融合到一起的。上述只说了倾向性概率这一种,另外两种是算术平均和几何平均,如果想要完全消除1分的影响,那不融合后两种就行。
我说的对比不是同一批人,是整个分数的比例按照票数多少对比。
理由的话比如,绝对分数在不同的人眼中的意义会差很多,也容易变动,但相对优劣会更稳定。比如在看到了以前从未见过的神作之后,不仅会给它10分,而且会把以前看过的大多数作品的分数都下调1分,这种操作是不少见的。
就算按绝对分数来算,也是打分多的用户被参考次数多,只不过随着打分数是线性增长,而按相对分值计算的话是平方增长。
所以我才说科学排行榜和我说的南辕北辙,更加重了一票的权重。
你可能没注意到这里面强烈的筛选和偏见。因为一般来说能比较两种动画好坏的人,都是老宅,因为必须看过足够多的动画才有足够大可能有这种比较,看新番的人是很难有的。老宅那可是一个极端强的筛选了。
举个例子,你评价辣条是不是一种好吃的零食,但是必须吃过龙虾对比,不然会被筛掉。这实际变成了你统计富人们觉得辣条是不是一种好零食了。
而老宅的口味实际上和新宅不一样的,你可能会想把十年前的你打一顿,十年前的你也会想打你一顿。这不是优劣的问题而是取向不一样。十年前你最喜欢的那个新番有情怀,换成今天的你再看可能不会打高分,反而你会喜欢一些老宅口味的动画,然而这个你不喜欢的新番也是别人的十年后的白月光。
a作品95个人喜欢5人不喜欢;b作品80人喜欢20人不喜欢,只需要那不喜欢的5人打1分就可以均分输给b。而这5人可能完完全全是外部因素,比如看a分数太高了,b运气好没有人打。
刷10分比刷1分难
而且这东西除了让平均分明显低于实际口碑均值,除了让分数从8.5变成8.4也体现不出来预警,还是均分高于无雷的作品。除非那些看分数构成的,而你都看分数构成了,有额外的维度单独评价作品了,直接来一个争议榜就行了,更不能容忍额外维度对均分的不合理影响。
另外我看了这个思路,和我不太一样。这个也是基于排名对比,但是强调同一个用户,强调是不能刷分。而我则觉得刷分是很重要的参考,没有任何人规定看了a动画没看b动画就没发言权,而且不喜欢才会刷低分,喜欢才会刷高分。你给这去完了完全和我思路不一样。
我任何1分问题和10分问题不在于刷,而是1%的刷1分的,效果比5%刷10分的大。这实际上和平均这种计算综合口碑的方式背道而驰了。目前来说可能最好的方法是改变打分的方式,比如默认动画0分,喜欢加1分,再喜欢加2分,最高加到5分,同样最低扣到5分。这样的话就从根本上解决这问题了。
平均分系统的不合理并不是打1分的人不合理。我只是说如果能有去掉1分的均分数据,我个人更愿意相信那个。如果有办法可以按照人数比例口碑比例反应1分的方法,那肯定比简单粗暴去掉更合理。
总不可能让2个人打1分比10个人打10分影响力更大吧。如果现实里的话那肯定是10个人代表多数意见啊,只有均分里才会2个人代表多数意见。我看均分是为了看多数意见,不是为了特定谁(这里是打1分的人)的意见。
问题在于平均分应该如何解释,或者说平均分的设计目标是什么:那应该是打分人的平均口碑。这时候1分就会导致平均分偏移平均口碑,这问题不是打1分的人造成的,而是所有人的打分倾向造成的。