#1 - 2015-1-15 13:29
天地守
标题变更(关于评分标准的讨论→各位一般如何评分和解释作品得分?→【再次变更标题】有关现有bgm现有评价体系的想法)
主题尚未完全确定,所以标题不知该怎么起。
评分系统(的合理性)与(个人)评分标准不管在哪都可以成为热点话题,在bangumi似乎也不例外。评分系统这里先不讨论,因为我并无促使bgm评分、排名乃至条目收录规则变革的行动力与精力(意图倒是有的),对系统的讨论的优先级可以降低一些。
批评空间是一个功能(说定位可能更好?)与bgm有相似之处且内容也有所重叠的网站,该网站首页醒目处有みなさんの評価から逸脱した得点について一文。为方便不懂日语的用户参与讨论,我将我与我想要讨论的话题相关的内容翻译出来(实际就是最后两段啦):期待
这是身为管理员的我的一个期待。
在有人给作品打5分之类的情况下,我并不知道究竟是“真实可信的5分”还是“为了拉低平均分而打5分”。
因此,我“假设”用户们都是以“选拔日本小姐的评审员”的心态来打分,进行各种统计(在统计的世界里(虽说其他世界也一样),需要假定各种数值进行计算。)
并且,我期待着观客们都“拥有一定程度的统计知识,能正确理解统计结果”。
如上所说,为了让“填写分数的一方”和“查看结果的一方”,让大家都能获得幸福,我期待着诸君能在持有最低限的知识和良心的前提下利用本站。 顺便
虽然在强调打分者要“怀着选拔日本小姐的评审员(的心态)”,但我认为类似“虽然是80分的游戏,不过我想让大家都来玩玩看,调高至90分吧”“虽然是80分的游戏,不过这要挑玩家,所以给个70分吧”的打分方式也是可取的。倒不如说,我认为这种打分方式更能让大家幸福。
还请多多关照。
下面进入正题:
1、对包括平均分数在内的各种统计数据,诸君习惯于如何解读、如何利用?是跟着感觉走,还是基于基本的统计学知识看,甚或自制插件统计数据?bgm上好像有程序员制作了众多插件,不过我并未使用任何插件,不知道其中是否有插件添加了相关功能(比如,统计搁置/抛弃的比例,显示中位数)?
bgm上常用而直观的参数有三个——平均分、体现分数分布情况的柱状图以及(不是一定有的)排名。排名系统的机制似乎未公开,不知是否类似imdb那样使用贝叶斯平均?平均分是必然存在的项目,不过仅此一项不免有些信息量不足。而bgm的柱状图又不如批评空间和vndb来得直观。
2、诸位一般是如何评分的?
多数人在评价作品时应是考虑了这三个不完全独立的要素中的某几个(可能不完善,欢迎补充):
①体验。受评分人的阅历(人生经历与作品阅历)、个人喜好、对作品的预期、当时的生活/心理状态、观看/游玩习惯以及观看/游玩结束后经过的时间等大量因素影响;
②素质。既包含客观的甚至可以量化的可操作性定义(比如单位时间原画张数,恩,我随便说说罢了),也包含某些受个人审美观等主观因素影响的概念(比如,画风?);
③推荐度(1/16改:有意图地给出偏离实际情况的得分,详见#19-1)。想要向他人“传教”就可能美化作品,反之若评分人认为一部作品不适合向不特定多数人,或是向某一(几)类特定团体推荐,则评价可能会是保守的甚至偏低的。
从评价到评分仍有一段距离,站点评分采用几分制、整体的评分倾向如何(一说虽然不同网站的平均给分会有差别,但平移后会发现其分布趋势是接近的,不过即便如此实际得分仍是不同的)
,还有个人评分的宽严(1/16改:增加“及起评分数”)都会影响到实际打分。
我的想法是,bgm并没有一个指导性的评分标准,也没有对评分、排名等参数的解读建议(有效解读或许是需要用户自行努力的部分),这不利于bgmer有效利用bgm上的信息。如果能够讨论出一套可操作性、可重复性高的指导性评分标准,再进一步,如果这套标准能够在社区中推广(比如,加入“社区指导原则”),难道不是一件好事吗(至少在我的想象中是)?
可能有人觉得去考虑其他人的评分标准是闲得发慌(虽说我现在在家养病确实闲得发慌),不过我个人希望评分能够更加有效地代表作品价值(是否值得一看)的近似。举个例子,比如@富士見書房・ファンタジア,在下无意冒犯,但既然不是对所有作品都进行了评分,对看过的作品不加区分地打10分这种行为实在不敢恭维(不打分还比较合理)。我知道这个例子极端了些,并且指导意见的出现也未必能(不如说,很难)改变所有人的评价习惯,而评分的宽与严就更难影响了,讨论一下总是可以的吧。
那么,各位的观点是?也许对诸位bgmer而言根本不需要什么评分标准,也不想被他人的想法所影响,不过于我(及和我有着同样想法的人),即使不去制作什么参考标准,能够尽可能多地获取样本也不是什么坏事。
——————————
1/18:从这几天的讨论中提炼出的想法:
参考vndb的tag系统(来自#19-1);
将现有的文字描述(不忍直视~超神作)变更为可操作性定义。
另,我发贴的初衷之一是讨论“如何通过改善用户行为的方式矫正评分”,我还真是个精神红名啊。
主题尚未完全确定,所以标题不知该怎么起。
评分系统(的合理性)与(个人)评分标准不管在哪都可以成为热点话题,在bangumi似乎也不例外。评分系统这里先不讨论,因为我并无促使bgm评分、排名乃至条目收录规则变革的行动力与精力(意图倒是有的),对系统的讨论的优先级可以降低一些。
批评空间是一个功能(说定位可能更好?)与bgm有相似之处且内容也有所重叠的网站,该网站首页醒目处有みなさんの評価から逸脱した得点について一文。为方便不懂日语的用户参与讨论,我将我与我想要讨论的话题相关的内容翻译出来(实际就是最后两段啦):
お願い
これはここの管理人としてのお願いです。
私には例えば5点がつけられた時に、「本当に5点なのか」「平均点を下げるために5点をつけているのか」わかりません。
ですので、私はユーザーさんがつけた得点は「ミス日本一を選ぶ審査員」の気持ちでつけられた得点と「仮定」して、いろんな統計を出します(統計の世界では(他の世界でもそうですが)、いろんなことを仮定して計算してます。)
そして見る側のみなさんに「ある程度の統計の知識があって、統計の結果をちゃんと解釈出来る」ことを期待しています。
そんなわけで「得点を入れる方」も「統計の結果を見る方」もみんなが幸せになれるよう、みんなが最低限の知識と良識を持ってここを利用してくれることを期待してます。
いかがでしょうか?
这是身为管理员的我的一个期待。
在有人给作品打5分之类的情况下,我并不知道究竟是“真实可信的5分”还是“为了拉低平均分而打5分”。
因此,我“假设”用户们都是以“选拔日本小姐的评审员”的心态来打分,进行各种统计(在统计的世界里(虽说其他世界也一样),需要假定各种数值进行计算。)
并且,我期待着观客们都“拥有一定程度的统计知识,能正确理解统计结果”。
如上所说,为了让“填写分数的一方”和“查看结果的一方”,让大家都能获得幸福,我期待着诸君能在持有最低限的知识和良心的前提下利用本站。
ちなみに
得点のつけ方で「ミス日本一を選ぶ審査員」を強調してますが、私は「80点のゲームなんだけど、みんなにやってもらいたいから高めで90点をつける」とか「80点のゲームだけど、これ人を選びそうだら、70点」という点数のつけ方はありだと思っています。むしろ、そんな得点のつけ方の方がみんなが幸せになれると思っています。
よろしくお願いします。
虽然在强调打分者要“怀着选拔日本小姐的评审员(的心态)”,但我认为类似“虽然是80分的游戏,不过我想让大家都来玩玩看,调高至90分吧”“虽然是80分的游戏,不过这要挑玩家,所以给个70分吧”的打分方式也是可取的。倒不如说,我认为这种打分方式更能让大家幸福。
还请多多关照。
下面进入正题:
1、对包括平均分数在内的各种统计数据,诸君习惯于如何解读、如何利用?是跟着感觉走,还是基于基本的统计学知识看,甚或自制插件统计数据?bgm上好像有程序员制作了众多插件,不过我并未使用任何插件,不知道其中是否有插件添加了相关功能(比如,统计搁置/抛弃的比例,显示中位数)?
bgm上常用而直观的参数有三个——平均分、体现分数分布情况的柱状图以及(不是一定有的)排名。排名系统的机制似乎未公开,不知是否类似imdb那样使用贝叶斯平均?平均分是必然存在的项目,不过仅此一项不免有些信息量不足。而bgm的柱状图又不如批评空间和vndb来得直观。
2、诸位一般是如何评分的?
多数人在评价作品时应是考虑了这三个不完全独立的要素中的某几个(可能不完善,欢迎补充):
①体验。受评分人的阅历(人生经历与作品阅历)、个人喜好、对作品的预期、当时的生活/心理状态、观看/游玩习惯以及观看/游玩结束后经过的时间等大量因素影响;
②素质。既包含客观的甚至可以量化的可操作性定义(比如单位时间原画张数,恩,我随便说说罢了),也包含某些受个人审美观等主观因素影响的概念(比如,画风?);
③推荐度(1/16改:有意图地给出偏离实际情况的得分,详见#19-1)。想要向他人“传教”就可能美化作品,反之若评分人认为一部作品不适合向不特定多数人,或是向某一(几)类特定团体推荐,则评价可能会是保守的甚至偏低的。
从评价到评分仍有一段距离,站点评分采用几分制、整体的评分倾向如何(一说虽然不同网站的平均给分会有差别,但平移后会发现其分布趋势是接近的,不过即便如此实际得分仍是不同的)
,还有个人评分的宽严(1/16改:增加“及起评分数”)都会影响到实际打分。
我的想法是,bgm并没有一个指导性的评分标准,也没有对评分、排名等参数的解读建议(有效解读或许是需要用户自行努力的部分),这不利于bgmer有效利用bgm上的信息。如果能够讨论出一套可操作性、可重复性高的指导性评分标准,再进一步,如果这套标准能够在社区中推广(比如,加入“社区指导原则”),难道不是一件好事吗(至少在我的想象中是)?
可能有人觉得去考虑其他人的评分标准是闲得发慌(虽说我现在在家养病确实闲得发慌),不过我个人希望评分能够更加有效地代表作品价值(是否值得一看)的近似。举个例子,比如@富士見書房・ファンタジア,在下无意冒犯,但既然不是对所有作品都进行了评分,对看过的作品不加区分地打10分这种行为实在不敢恭维(不打分还比较合理)。我知道这个例子极端了些,并且指导意见的出现也未必能(不如说,很难)改变所有人的评价习惯,而评分的宽与严就更难影响了,讨论一下总是可以的吧。
那么,各位的观点是?也许对诸位bgmer而言根本不需要什么评分标准,也不想被他人的想法所影响,不过于我(及和我有着同样想法的人),即使不去制作什么参考标准,能够尽可能多地获取样本也不是什么坏事。
——————————
1/18:从这几天的讨论中提炼出的想法:
另,我发贴的初衷之一是讨论“如何通过改善用户行为的方式矫正评分”,我还真是个精神红名啊。
我还没有狂妄到自以为能够替他人思考的地步,本贴主要目的还是看看其他人的评分思路,如果能得到一些值得参考的观点就更好了。
一个普适的评判标准本身就已经是代替他人思考了
不能说这么做是错的,但bgm不是这么做的地方
我上面这段话是基于“讨论出一个有参考价值的评分准则”之目的而写。于你,评分或许是一种不需要参考他人更不容他人干涉的行为,而于我,我希望我获得的,以及包含我的反馈的先验信息拥有尽可能大的可靠性。
也许,比起一个参考评分原则,类似如果能建立一个作品平均分数来评价staff的系统这样的想法更有意义?比如,在制作人员的条目里显示作品分数以及该条目下全部作品的平均分(或是按职务分别显示,等等)。
我再稍微修改一下正文好了。以上。
结果还是漏了一句:( bgm的建立初衷如何我并不清楚,至少它现在具有记录看番状态之外的意义,比如显示bgmer对一部作品的评价,而类似这样的信息应该会影响(我想也确实地影响着)其他用户对于作品的筛选。
不知现在是哪位乘客,想起个事,不过在这里回复欠妥,还是去你的まとめ日志里回复好了。
另,我不认同你的理念,但我尊重你选择的权力。
在数据量不足的情况下,优秀的作品是会被埋没的,只不过这是因其“优秀”的确定程度不够高所致,这本身是合理的。
优秀的确定程度低,是指其得分的置信区间过大,或是由先验信息向“真实”值的逼近不够等,总而言之统计可靠性不足(皆因样本过少所致)。
似乎烧起来了,休息一下,总之多谢讨论:)
反正我说了不算(ry
多谢回复。
1、我正文是说,
2、此处需控制变量。同样级别的本子,不同水准的班底,两者水准显然不会相同。当然我也理解你的意思:某一关键属性(你的例子里就是剧情)太糟,则作品整体评价也不会高。
谢谢参与。
“神作”一词是不是会给人心理压力,是不是换一种描述方法更好,这个问题以前也有人讨论过,因此我不认为九星档有必要留给凤毛麟角。
ps:貌似你那里的平均分比较低也是因为你原本就不喜接触那些被大众交口称赞的作品?
看完你的回复,我发现昨天头脑还是不够清醒,正文仍有表意不清、需要改动的地方(暂且修改两处好了)。
你的评分标准我之前在你主页看过,标准本身没有需要我妄加评论之处,不过因我在正文使用了“传教”二字,似乎误导了包括你在内的部分人。我想表达的意思是“蜉蝣撼树般(笑)对现有分数进行平衡(笑)”,“传教”算是一种力挺的表现,反过来为攻击作品而打低分的情况也不少见,也存在“认为当前得分异常”而打高分/低分平衡的人。
“评分的价值就在于更高效地利用有限时间”及“他人的评分不可信(或者说需要以怀疑的态度面对他人评分)”,这两点我双手赞同。不过我的视点略有不同,统计最终会推断、估计出整体的态度,我怀疑他人所以希望以给出参考标准的方式修正不当打分行为,但反过来我也会最大限度地信任统计结果(样本量越多越是信任)。
之前有个贴子对批评空间和bgm的部分属性作了对比。事实上不论是批判空间还是vndb我都很少上,所以我的认识可能有误(如果有误还请指出):批评空间的基本内容(作品信息、公司信息、tag/pov/属性)都是运营在添加,用户不参与这方面内容的建设;而vndb则和bgm类似,条目和tag都由用户添加编辑。vndb的所有tag构成了一个分类详细的标签树状图(aka tag tree),似乎还存在tag审核机制(由谁操作我并不清楚),灌水、意义不明及价值低的tag会被删除。批评空间的tag系统很成熟了,但如果我的认识无误,bgm和批评空间的运作机制相差太大,模仿批评空间可能有难度,vndb使用的体系也许更容易移植到bgm上。Well, who knows?
逻辑不清知识不足,见笑了。
我其实很疑惑,为什么7-8这两个评分给的描述是推荐和力荐?这可能是受了豆瓣的影响,豆瓣4-5星评价就是推荐和力荐。推荐和力荐其实本身并没有什么不妥,只不过可能会暗示评分者“这评价的是推荐他人的程度,而不是作品本身的素质”,进而让评分者偏离自己打分的轨道,毕竟推荐度的打分还要牵涉到题材和猎奇度等其他一些问题
至于标签,那贴说明的确实很明白了,我也挺赞同最后的结论:批评空间在galgame评论的功能性方面完胜BGM。BGM的标签也应该是照搬豆瓣的,同样是不知所云的标签,基本标签的套路是游戏名字(汉日各来一遍,如果有英文再加个英文),游戏类型,游戏平台,以及staff和一些有鲜明特色的主要角色。但这些标签都是给我们自己看的,往往没法作为别人的借鉴标准的。所以我觉得如果没法做到像厨子空间那样的运营编辑POV,像vndb那样有人审阅标签那也已经足够了。
顺便,针对#22-1,看看这个,真的应当默认评分趋势为正态分布吗?(之后会在#22回复,阁下可先不回复本层)
试验完毕,只改了5分以下的描述,除了我刚才提的2、3的顺序之外对我影响不大。
1:不忍直视
2:差
3:很差
4:较差
既然要改的话何不考虑一下7分和8分的描述?觉得好看和会推荐给别人实际上没什么必然关联啊(我就喜欢挑雷片推荐……)。
由这个改动,我突然想到一点:bgm对分数的文字描述是否会造成部分人的选择障碍?虽然录入错误的可能性更大,但若2-差/3-很差这个标准就是sai的本意呢?我的这个说明可能会令人产生困惑,那么换个说法——如果文字描述与评分人的既有观念冲突结果会是什么?现在はるはる应该能明白我的意图了——如果其他的文字描述实际和“2-差/3-很差”一样造成了冲突,究竟该使用哪一套标准(比如,之前被很多人提过的“60分及格”这一固有概念与“5-不过不失”的冲突)?
更进一步,如果真的存在一个参考评分标准(而它造成了观念冲突),这是否会导致部分人的选择障碍?虽然这只是杞人忧天,不过老实说我在发贴之前还因为这一点而犹豫过该不该发——虽然现在想想,根本还没到忧虑这一点的时候。
既然动画能做出来那就不会太差,低分作品大量少于高分作品是必然的,大多数考试的平均分也都在70左右吧?再加上这里太低的就直接弃了。一开始的文字描述个人觉得夸张,特别是雷区和神作区。但再改动位子就要否定所有之前的评分了。
#19-2就对7、8分的文字描述进行了质疑,我个人在打分时除了打10分会被“请谨慎评价”震慑(虽然我即使是在5分制下也倾向于打4分而不是5分)倒也不会关注文字描述,但鼠标停留在星数上即浮出的文字描述有很大可能曾经、正在或是将会影响一个人的评分行为(而文字描述却显得模棱两可)。即使不做大改动也是可以的:调整评分对应的文字描述的用语/为其增加可操作性定义(比如,为每个等级找出若干部分数可靠的参考用条目)/索性去除文字描述,这些都是可能的解决方法。
edit:虽然我即使是在5分制下也倾向于打4分而不是5分→自扇,我在5分制的情况下其实是打了大量5分的(5分制下扣1分还是让我觉得太多)。
我也有奇怪的定向思维。然后现在有“给大量低分和差评的大龄中二,真正的巨巨都是5、6、7分给的多并且不屑于评分”的感觉。
另,我在正文里也说了,不打分不可怕,可怕的是全都打(ry
资格是什么,能吃吗
(本科的学习内容倒是和机电系、计算机系、软院等有不少重叠,或者说软硬都学了点……统计相关的话,也只有线性代数、数学分析、概率论、数理统计学了点皮毛,且遗忘比率很大)
如果不是问教育背景是问立意,只能说我也不知道(ry
我想到了林卯的这个构想。
——呃我手机看帖没看到上面发过了。