#1 - 2023-9-19 09:35
Mahoo (喵~)
都给nzh和mygo闹麻了,刚好这季度没啥动画好写的,就把七月季度的日志给评分这个话题吧
引言:普遍而言,我们认为评分千人千面,对于不同人有不同意义,因而很难说评分拥有一个普适意义而言的含金量。在本文中,作者试图从信息有效度的角度切入,提出一种可能具有普遍意义的评分“含金量”,同时论证为何mygo目前的打分模式或许并非妥当,并提出了可能的改进方式的思路。
目录:
一、评分网站与评分
二、评分含金量
三、评分实践论——以mygo为例
四、如何应对
一、评分网站与评分
没有烂的评分,只有不会看评分的人——评分相对论
当我们面对评分时,我们想要获取的是什么?或者说,你想利用评分来达到什么目的?这是每个讨论评分的人在讨论前都应当思考的事,不同的用途决定了不同的对于评分方式的价值判断方式
例如,对于一个更关注作品学术价值与借鉴意义的人来说,他可能更希望评分人都是对着作品能解构再建构评论大拿或者业界专业人士,而拒绝大众评分的介入;对于一个更关注作品商业价值的人来说,他可能更希望看到大众评分甚至干脆以销量作为评分;对于一个雷点较多但对作品完成度要求不是很高的想用评分来筛选作品的人来说,他可能更希望低分占比更高的评分模式,或者对雷点(低分)更为敏感的评分群体;对于一个想通过评分来筛选出具有独特看点的人来说,他可能又希望高分占比更高的评分模式或者对亮点(高分)更为敏感的评分人群。
然而对于一个评分网站,它不可能满足所有人的需求,或者说,对于不同的人,所谓的评分含金量可能完全有着不同甚至相对的意义,因而也无从谈起,这些不同的人聚在一起讨论评分同样也是鸡同鸭讲,所以正确的做法应当是:通过对不同网站的整体评分趋势,评价体系做评判,理解在该网站下的某个分数段意味着什么,从而找到符合自己需求的评分,从网站评分中提炼出想要的信息。例如,利用b站评分可以筛选有明显雷点的作品,利用mal评分可以筛选出近年热门作品,利用bgm7.3-8.1分段可以找到质量有一定保证但观看门槛又相对不高的作品等等,利用评分,再加之一些辅助的tag 评论等信息,我们可以从中获取更多的有效信息。
不过相对的,对于以赛博斗蛐蛐叠盒为乐趣的人来说,他可能更希望有一个评分毫无章法可循的评分网站,这样就可以很容易的找到“梯子”, 轻易得出eva不如蒜的结论 ,而对于乐于到处找人说评分屁用没有来展现自己与众不同从而获取优越感的人来说,他可能更希望评分方差都是厨黑大战以印证自己的观点。不过作者相信对于这类评分需求的人并非普遍的,而且他们这种对于评分的目的也是不可持续的(即当评分真的满足他们的需求时,他们的需求本身也会从而瓦解,导致这样的评分又不再能满足他们的需求,在这里不展开讨论)。
因此,本文后续讨论的评分相关内容,都是基于希望从评分中获取关于作品的某些信息的人群而言,或者说,是基于希望评分有意义的人群而言的。关于这类人群的普遍特征,将于下一节讨论。
二、评分含金量
烂的评分来源于过多的有效信息丢失——评分绝对论
上一节中,我们提到了希望评分有意义的人群的不同需求,他们的需求各不相同,但他们都有一个类似的特征,即希望评分能够有效反应出作品的某些信息,而且反应的越具有辨识度越好。
他们为什么有这样的普遍特征?在讨论这个问题之前,我们先来回顾一下我们为什么有时候需要去看平均分,众数、方差等统计值,为什么图像处理中,我们会更关注图像矩阵的特征值?因为当我们需要关注这些值的时候,通常意味着本体的所有信息对我们来说过于冗杂,且不必要,我们只想要获得其中的某些我们关注的特征,而这些值之外信息的丢失对于我们可有可无,因而相对的,我们也希望我们选取的这些值能有效反应我们关注的部分。
回到评分,我们为什么会关注评分,通常也是因为作品的源信息本身对我们而言过于冗杂,从中提取出我们想要的信息成本过于庞大,因而,我们愿意去通过评分这样一个特征值,辅助一些其他相对简单的手段,来得到我们需要的信息。
很自然的,我们对这个特征值的要求是有效的反应某种信息。何为有效?我想应当有这两点:一、同一组特征参数(评分,tag,年份等)对应的不同情况应当是尽量少的,以及,在上述条件能够满足我们需求的同时,我们希望这组特征参数的个数应当尽可能少,这对应数据的辨识度,或者说“特征”的程度。二、同一个作品的特征参数,我们希望它尽可能的稳定:假设我们有一套算法,能够输入作品就能直接输出我们关注的信息,我们希望今天得到的信息和明天得到的信息是一致的,或者,即便有变,我们也希望它是相对缓慢的,因为作品本身没变,这是一种时间上的守恒。这就像做实验我们期待实验是可重复的一样。
那么相对的,什么是差的评分呢,即特征值无法有效反应信息,或者说,我们期待的有效信息在这样的评分中失真了。那么从有效的角度来看,差的评分,或者说质量低下的评分,具有这样的特征:想要得到作品的有效信息,除了评分之外,我们需要辅以非常多的额外参数,去获得这些额外参数的成本对我们来说是过大的;这样的参数提取出的信息并不稳定,时效性很强,今天通过评分等参数提取的信息明天可能就失真了。
来到mygo,接下来我将以mygo为例,用诸如看评分是为了看动画等具体视角来应用上述理论,并阐释为什么我认为mygo的打分模式是不甚妥当的
三、评分实践论——以mygo为例
Mygo评分的失真来源于过于强烈的追番效应
在我看来,mygo评分的最大的问题在于,它的体验强烈依赖于追番体验,或者,更激进的说,来源于它与动画本身无关的场外因素,比如假药,官方互动等,而这样一个体验,是偶发性的,是不可重复的,是后来的观众绝无可能体验到的。例如ep10,就我个人而言,我认为它是操之过急的,是缺乏推动力的,它放在经过几集的铺垫后的ep12或者13,会是更为合适的位置,但对于许多mygo追番观众来说,这些推动力早已在各路战吧贴,在观众物理上的时间沉淀中得到解决,因而他们会认为是神回。而一个三个月后来看mygo的人,他看不到假药,看不到官方互动,看不到每周六33989三小时mygo回,也没有每周四后“求求你再给我看mygo下一集”的心情体会,那么,他还会有同样的感受吗(假设有两个平行世界,同样一个人在一个世界是追番,在另一个世界是补番),基于前者人群的评分对于后者还有意义吗?
从第二节的理论来说,这样一个强烈依赖于追番效应的评分下,我们想去从中提取有效信息,必须获取更多的参数,例如假药,或者至少知道当时有很多假药,而这类信息的获取,在非追番时段是极其困难的,成本极大的(一个简单的例子,你现在还能找到当时刀使巫女的假药吗)。同时,这样一个强烈的追番效应,造成了番剧体验的不可重复性——7月看和10月看是完全不同的体验,因而对于非7-9月的评分观看者来说,mygo评分对于他的价值是很小的。
当然会有人说,难道我们就只看中非追番体验吗?
其实不是,大部分时候,对于追番者来说,作品评分对于他们的意义完结于作品完结的时候,对于明晰着作品评分变化趋势的他们来说,这部作品怎样的评分代表怎样的意义早已存于他们的大脑,从获取信息的角度来说,他们不再需要评分,而他们的打分,在可持续的意义上,也不过是一种前人栽树后人乘凉的行为。而对于后来者而言,却无法分辨出这样一个评分所代表的含义,这显然是不妥的。
对于这样的状况,我认为可以从这样的角度来改善。
四、如何应对
从用户侧的角度来说,鼓励追番者附上各类非番剧本身的场外信息,以降低后来者的获取有效信息所必要的参数的难度,亦或是打分时解构出追番效应的因素来打分——这对用户本身的要求较高,作为大众评分网站,无论如何这类方法都是可行性低下且效果微弱的。
从网站侧的角度来说,一个可能的方案是,当后来的评分与先前的评分差距较大时,提高后来评分的比重,这样一个比重,应当是随时间指数变化(即在番剧完结附近的权重差异最大),并与后来者观看人数(率)呈负相关的(防止来看古早番的人过少从而跟不上评分膨胀的步伐)。这样的一个补正,或许可以提升评分对于需要评分人的价值。笔者并非数学系,因而仅提供一个可能的思路,不再多做展开。
引言:普遍而言,我们认为评分千人千面,对于不同人有不同意义,因而很难说评分拥有一个普适意义而言的含金量。在本文中,作者试图从信息有效度的角度切入,提出一种可能具有普遍意义的评分“含金量”,同时论证为何mygo目前的打分模式或许并非妥当,并提出了可能的改进方式的思路。
目录:
一、评分网站与评分
二、评分含金量
三、评分实践论——以mygo为例
四、如何应对
一、评分网站与评分
没有烂的评分,只有不会看评分的人——评分相对论
当我们面对评分时,我们想要获取的是什么?或者说,你想利用评分来达到什么目的?这是每个讨论评分的人在讨论前都应当思考的事,不同的用途决定了不同的对于评分方式的价值判断方式
例如,对于一个更关注作品学术价值与借鉴意义的人来说,他可能更希望评分人都是对着作品能解构再建构评论大拿或者业界专业人士,而拒绝大众评分的介入;对于一个更关注作品商业价值的人来说,他可能更希望看到大众评分甚至干脆以销量作为评分;对于一个雷点较多但对作品完成度要求不是很高的想用评分来筛选作品的人来说,他可能更希望低分占比更高的评分模式,或者对雷点(低分)更为敏感的评分群体;对于一个想通过评分来筛选出具有独特看点的人来说,他可能又希望高分占比更高的评分模式或者对亮点(高分)更为敏感的评分人群。
然而对于一个评分网站,它不可能满足所有人的需求,或者说,对于不同的人,所谓的评分含金量可能完全有着不同甚至相对的意义,因而也无从谈起,这些不同的人聚在一起讨论评分同样也是鸡同鸭讲,所以正确的做法应当是:通过对不同网站的整体评分趋势,评价体系做评判,理解在该网站下的某个分数段意味着什么,从而找到符合自己需求的评分,从网站评分中提炼出想要的信息。例如,利用b站评分可以筛选有明显雷点的作品,利用mal评分可以筛选出近年热门作品,利用bgm7.3-8.1分段可以找到质量有一定保证但观看门槛又相对不高的作品等等,利用评分,再加之一些辅助的tag 评论等信息,我们可以从中获取更多的有效信息。
不过相对的,对于以赛博斗蛐蛐叠盒为乐趣的人来说,他可能更希望有一个评分毫无章法可循的评分网站,这样就可以很容易的找到“梯子”, 轻易得出eva不如蒜的结论 ,而对于乐于到处找人说评分屁用没有来展现自己与众不同从而获取优越感的人来说,他可能更希望评分方差都是厨黑大战以印证自己的观点。不过作者相信对于这类评分需求的人并非普遍的,而且他们这种对于评分的目的也是不可持续的(即当评分真的满足他们的需求时,他们的需求本身也会从而瓦解,导致这样的评分又不再能满足他们的需求,在这里不展开讨论)。
因此,本文后续讨论的评分相关内容,都是基于希望从评分中获取关于作品的某些信息的人群而言,或者说,是基于希望评分有意义的人群而言的。关于这类人群的普遍特征,将于下一节讨论。
二、评分含金量
烂的评分来源于过多的有效信息丢失——评分绝对论
上一节中,我们提到了希望评分有意义的人群的不同需求,他们的需求各不相同,但他们都有一个类似的特征,即希望评分能够有效反应出作品的某些信息,而且反应的越具有辨识度越好。
他们为什么有这样的普遍特征?在讨论这个问题之前,我们先来回顾一下我们为什么有时候需要去看平均分,众数、方差等统计值,为什么图像处理中,我们会更关注图像矩阵的特征值?因为当我们需要关注这些值的时候,通常意味着本体的所有信息对我们来说过于冗杂,且不必要,我们只想要获得其中的某些我们关注的特征,而这些值之外信息的丢失对于我们可有可无,因而相对的,我们也希望我们选取的这些值能有效反应我们关注的部分。
回到评分,我们为什么会关注评分,通常也是因为作品的源信息本身对我们而言过于冗杂,从中提取出我们想要的信息成本过于庞大,因而,我们愿意去通过评分这样一个特征值,辅助一些其他相对简单的手段,来得到我们需要的信息。
很自然的,我们对这个特征值的要求是有效的反应某种信息。何为有效?我想应当有这两点:一、同一组特征参数(评分,tag,年份等)对应的不同情况应当是尽量少的,以及,在上述条件能够满足我们需求的同时,我们希望这组特征参数的个数应当尽可能少,这对应数据的辨识度,或者说“特征”的程度。二、同一个作品的特征参数,我们希望它尽可能的稳定:假设我们有一套算法,能够输入作品就能直接输出我们关注的信息,我们希望今天得到的信息和明天得到的信息是一致的,或者,即便有变,我们也希望它是相对缓慢的,因为作品本身没变,这是一种时间上的守恒。这就像做实验我们期待实验是可重复的一样。
那么相对的,什么是差的评分呢,即特征值无法有效反应信息,或者说,我们期待的有效信息在这样的评分中失真了。那么从有效的角度来看,差的评分,或者说质量低下的评分,具有这样的特征:想要得到作品的有效信息,除了评分之外,我们需要辅以非常多的额外参数,去获得这些额外参数的成本对我们来说是过大的;这样的参数提取出的信息并不稳定,时效性很强,今天通过评分等参数提取的信息明天可能就失真了。
来到mygo,接下来我将以mygo为例,用诸如看评分是为了看动画等具体视角来应用上述理论,并阐释为什么我认为mygo的打分模式是不甚妥当的
三、评分实践论——以mygo为例
Mygo评分的失真来源于过于强烈的追番效应
在我看来,mygo评分的最大的问题在于,它的体验强烈依赖于追番体验,或者,更激进的说,来源于它与动画本身无关的场外因素,比如假药,官方互动等,而这样一个体验,是偶发性的,是不可重复的,是后来的观众绝无可能体验到的。例如ep10,就我个人而言,我认为它是操之过急的,是缺乏推动力的,它放在经过几集的铺垫后的ep12或者13,会是更为合适的位置,但对于许多mygo追番观众来说,这些推动力早已在各路战吧贴,在观众物理上的时间沉淀中得到解决,因而他们会认为是神回。而一个三个月后来看mygo的人,他看不到假药,看不到官方互动,看不到每周六33989三小时mygo回,也没有每周四后“求求你再给我看mygo下一集”的心情体会,那么,他还会有同样的感受吗(假设有两个平行世界,同样一个人在一个世界是追番,在另一个世界是补番),基于前者人群的评分对于后者还有意义吗?
从第二节的理论来说,这样一个强烈依赖于追番效应的评分下,我们想去从中提取有效信息,必须获取更多的参数,例如假药,或者至少知道当时有很多假药,而这类信息的获取,在非追番时段是极其困难的,成本极大的(一个简单的例子,你现在还能找到当时刀使巫女的假药吗)。同时,这样一个强烈的追番效应,造成了番剧体验的不可重复性——7月看和10月看是完全不同的体验,因而对于非7-9月的评分观看者来说,mygo评分对于他的价值是很小的。
当然会有人说,难道我们就只看中非追番体验吗?
其实不是,大部分时候,对于追番者来说,作品评分对于他们的意义完结于作品完结的时候,对于明晰着作品评分变化趋势的他们来说,这部作品怎样的评分代表怎样的意义早已存于他们的大脑,从获取信息的角度来说,他们不再需要评分,而他们的打分,在可持续的意义上,也不过是一种前人栽树后人乘凉的行为。而对于后来者而言,却无法分辨出这样一个评分所代表的含义,这显然是不妥的。
对于这样的状况,我认为可以从这样的角度来改善。
四、如何应对
从用户侧的角度来说,鼓励追番者附上各类非番剧本身的场外信息,以降低后来者的获取有效信息所必要的参数的难度,亦或是打分时解构出追番效应的因素来打分——这对用户本身的要求较高,作为大众评分网站,无论如何这类方法都是可行性低下且效果微弱的。
从网站侧的角度来说,一个可能的方案是,当后来的评分与先前的评分差距较大时,提高后来评分的比重,这样一个比重,应当是随时间指数变化(即在番剧完结附近的权重差异最大),并与后来者观看人数(率)呈负相关的(防止来看古早番的人过少从而跟不上评分膨胀的步伐)。这样的一个补正,或许可以提升评分对于需要评分人的价值。笔者并非数学系,因而仅提供一个可能的思路,不再多做展开。
第二,我不反对加权,我反对的是基于简单的方案或者简单的目的(例如一厢情愿的平衡意愿)进行加权
顺带一提,我觉得mygo肯定不配现在这个分数,就第一季来说我也看不起这个故事和塑造,但我无所谓它多少分