靠谱人生茶话会 » 讨论
【再次变更标题】有关bgm现有评价体系的想法

#1 - 2015-1-15 13:29

天地守

标题变更（关于评分标准的讨论→各位一般如何评分和解释作品得分？→【再次变更标题】有关现有bgm现有评价体系的想法）
主题尚未完全确定，所以标题不知该怎么起。
评分系统（的合理性）与（个人）评分标准不管在哪都可以成为热点话题，在bangumi似乎也不例外。评分系统这里先不讨论，因为我并无促使bgm评分、排名乃至条目收录规则变革的行动力与精力（意图倒是有的），对系统的讨论的优先级可以降低一些。
批评空间是一个功能（说定位可能更好？）与bgm有相似之处且内容也有所重叠的网站，该网站首页醒目处有みなさんの評価から逸脱した得点について一文。为方便不懂日语的用户参与讨论，我将我与我想要讨论的话题相关的内容翻译出来（实际就是最后两段啦）：

お願い

　これはここの管理人としてのお願いです。
　私には例えば5点がつけられた時に、「本当に5点なのか」「平均点を下げるために5点をつけているのか」わかりません。
　ですので、私はユーザーさんがつけた得点は「ミス日本一を選ぶ審査員」の気持ちでつけられた得点と「仮定」して、いろんな統計を出します（統計の世界では（他の世界でもそうですが）、いろんなことを仮定して計算してます。）
　そして見る側のみなさんに「ある程度の統計の知識があって、統計の結果をちゃんと解釈出来る」ことを期待しています。
　そんなわけで「得点を入れる方」も「統計の結果を見る方」もみんなが幸せになれるよう、みんなが最低限の知識と良識を持ってここを利用してくれることを期待してます。
　いかがでしょうか？

期待

  这是身为管理员的我的一个期待。
  在有人给作品打5分之类的情况下，我并不知道究竟是“真实可信的5分”还是“为了拉低平均分而打5分”。
  因此，我“假设”用户们都是以“选拔日本小姐的评审员”的心态来打分，进行各种统计（在统计的世界里（虽说其他世界也一样），需要假定各种数值进行计算。）
  并且，我期待着观客们都“拥有一定程度的统计知识，能正确理解统计结果”。
  如上所说，为了让“填写分数的一方”和“查看结果的一方”，让大家都能获得幸福，我期待着诸君能在持有最低限的知识和良心的前提下利用本站。

ちなみに

　得点のつけ方で「ミス日本一を選ぶ審査員」を強調してますが、私は「80点のゲームなんだけど、みんなにやってもらいたいから高めで90点をつける」とか「80点のゲームだけど、これ人を選びそうだら、70点」という点数のつけ方はありだと思っています。むしろ、そんな得点のつけ方の方がみんなが幸せになれると思っています。
　よろしくお願いします。

顺便

虽然在强调打分者要“怀着选拔日本小姐的评审员（的心态）”，但我认为类似“虽然是80分的游戏，不过我想让大家都来玩玩看，调高至90分吧”“虽然是80分的游戏，不过这要挑玩家，所以给个70分吧”的打分方式也是可取的。倒不如说，我认为这种打分方式更能让大家幸福。
还请多多关照。

下面进入正题：
1、对包括平均分数在内的各种统计数据，诸君习惯于如何解读、如何利用？是跟着感觉走，还是基于基本的统计学知识看，甚或自制插件统计数据？bgm上好像有程序员制作了众多插件，不过我并未使用任何插件，不知道其中是否有插件添加了相关功能（比如，统计搁置/抛弃的比例，显示中位数）？
bgm上常用而直观的参数有三个——平均分、体现分数分布情况的柱状图以及（不是一定有的）排名。排名系统的机制似乎未公开，不知是否类似imdb那样使用贝叶斯平均？平均分是必然存在的项目，不过仅此一项不免有些信息量不足。而bgm的柱状图又不如批评空间和vndb来得直观。
2、诸位一般是如何评分的？
多数人在评价作品时应是考虑了这三个不完全独立的要素中的某几个（可能不完善，欢迎补充）：
①体验。受评分人的阅历（人生经历与作品阅历）、个人喜好、对作品的预期、当时的生活/心理状态、观看/游玩习惯以及观看/游玩结束后经过的时间等大量因素影响；
②素质。既包含客观的甚至可以量化的可操作性定义（比如单位时间原画张数，恩，我随便说说罢了），也包含某些受个人审美观等主观因素影响的概念（比如，画风？）；
③推荐度（1/16改：有意图地给出偏离实际情况的得分，详见#19-1）。想要向他人“传教”就可能美化作品，反之若评分人认为一部作品不适合向不特定多数人，或是向某一（几）类特定团体推荐，则评价可能会是保守的甚至偏低的。
从评价到评分仍有一段距离，站点评分采用几分制、整体的评分倾向如何（一说虽然不同网站的平均给分会有差别，但平移后会发现其分布趋势是接近的，不过即便如此实际得分仍是不同的）
，还有个人评分的宽严（1/16改：增加“及起评分数”）都会影响到实际打分。

我的想法是，bgm并没有一个指导性的评分标准，也没有对评分、排名等参数的解读建议（有效解读或许是需要用户自行努力的部分），这不利于bgmer有效利用bgm上的信息。如果能够讨论出一套可操作性、可重复性高的指导性评分标准，再进一步，如果这套标准能够在社区中推广（比如，加入“社区指导原则”），难道不是一件好事吗（至少在我的想象中是）？
可能有人觉得去考虑其他人的评分标准是闲得发慌（虽说我现在在家养病确实闲得发慌），不过我个人希望评分能够更加有效地代表作品价值（是否值得一看）的近似。举个例子，比如@富士見書房・ファンタジア，在下无意冒犯，但既然不是对所有作品都进行了评分，对看过的作品不加区分地打10分这种行为实在不敢恭维（不打分还比较合理）。我知道这个例子极端了些，并且指导意见的出现也未必能（不如说，很难）改变所有人的评价习惯，而评分的宽与严就更难影响了，讨论一下总是可以的吧。

那么，各位的观点是？也许对诸位bgmer而言根本不需要什么评分标准，也不想被他人的想法所影响，不过于我（及和我有着同样想法的人），即使不去制作什么参考标准，能够尽可能多地获取样本也不是什么坏事。
——————————
1/18：从这几天的讨论中提炼出的想法：

参考vndb的tag系统（来自#19-1）；

将现有的文字描述（不忍直视~超神作）变更为可操作性定义。

另，我发贴的初衷之一是讨论“如何通过改善用户行为的方式矫正评分”，我还真是个精神红名啊。

#2 - 2015-1-15 13:34

Doream (夜海全书)

不反对、不支持、不参与。
啊，标题改了，那修改一下讨论。评分原则Bangumi已经给出了：
天雷、巨雷、雷、较雷、不过不失、还行、推荐、力荐、神作、超神作（请谨慎评价）。
照着这个给出自己的评价。

#3 - 2015-1-15 13:49

CMK (No Music, No Life)

看过的作品在心里总是有排序的嘛，喜欢的就打高分，无聊的就低一些，简直骗钱就超低了……

说起来我很少留意作品的评分，偶的评分是给自己看的 233

#3-1 - 2015-1-15 14:57

天地守

谢谢回复。

#4 - 2015-1-15 14:02

chaucer (あなたの傷は私の食べ物)

who cares

#4-1 - 2015-1-15 14:49

天地守

比如我

#5 - 2015-1-15 14:04

我怎么知道我又没上过学

任何人无权也不应该代替其他人思考
你当然可以设计一套科学的评分标准并付诸实践，但bangumi并不是，也不应该是这种地方

#5-1 - 2015-1-15 14:54

天地守

或许我内文没有说清楚？看来我应该换一个标题。
我还没有狂妄到自以为能够替他人思考的地步，本贴主要目的还是看看其他人的评分思路，如果能得到一些值得参考的观点就更好了。

#5-2 - 2015-1-15 16:06

我怎么知道我又没上过学

天地守说: 或许我内文没有说清楚？看来我应该换一个标题。
我还没有狂妄到自以为能够替他人思考的地步，本贴主要目的还是看看其他人的评分思路，如果能得到一些值得参考的观点就更好了。

"如果能够讨论出一套可操作性、可重复性高的指导性评分标准，再进一步，如果这套标准能够在社区中推广（比如，加入“社区指导原则”），难道不是一件好事吗（至少在我的想象中是）？"
一个普适的评判标准本身就已经是代替他人思考了
不能说这么做是错的，但bgm不是这么做的地方

#5-3 - 2015-1-15 16:28

天地守

karmaangle 说: "如果能够讨论出一套可操作性、可重复性高的指导性评分标准，再进一步，如果这套标准能够在社区中推广（比如，加入“社区指导原则”），难道不是一件好事吗（至少在我的想象中是）？"
一个普适的评判标准本身就已...

我明白你的意思了。
我上面这段话是基于“讨论出一个有参考价值的评分准则”之目的而写。于你，评分或许是一种不需要参考他人更不容他人干涉的行为，而于我，我希望我获得的，以及包含我的反馈的先验信息拥有尽可能大的可靠性。
也许，比起一个参考评分原则，类似如果能建立一个作品平均分数来评价staff的系统这样的想法更有意义？比如，在制作人员的条目里显示作品分数以及该条目下全部作品的平均分（或是按职务分别显示，等等）。
我再稍微修改一下正文好了。以上。
结果还是漏了一句:( bgm的建立初衷如何我并不清楚，至少它现在具有记录看番状态之外的意义，比如显示bgmer对一部作品的评价，而类似这样的信息应该会影响（我想也确实地影响着）其他用户对于作品的筛选。

#6 - 2015-1-15 14:37

洗脸喵✨ (兔子爱洗脸，我也爱洗脸。)

你需要的是评分细则。

全文在材料范围内行文，立意准确，观点鲜明，认识较为深刻，可判为切合题意，内容分可在一等（25—21）打分，表达一般也应在一等（25—21）打分，发展等级一般也也应在一等（10—9）打分；

全文大部分篇幅在材料范围内行文，立意较准确，观点较明确，认识相对肤浅，可判为符合题意，内容分可在二等（20—16）打分，表达一般也应在二等（20—16）打分，发展等级一般也也应在二等（8—6）打分；

全文一半以上篇幅脱离材料范围，立意似是而非，认识模糊，可判为基本符合题意，内容分可在三等（15—11）打分，表达一般也应在三等（15—11）打分，发展等级一般也也应在三等（5—3）打分；

全文大部分篇幅脱离材料范围，立意不准确，可判为偏离题意，内容分可在四等（10—0）打分，表达一般也应在四等（10—0）打分，发展等级一般也也应在四等（2—0）打分。

#6-1 - 2015-1-15 15:13

默不作声的结城照美（仮）

喂喂可恶不要拿出这个

#6-2 - 2015-1-15 16:25

沙拉酱

心好累

#7 - 2015-1-15 14:47

矮木油希希 (都是异端！)

1.不清楚
2.完全主观，看的开心分就高……也有安利的成分在吧

#7-1 - 2015-1-15 14:58

天地守

感谢回复。

#8 - 2015-1-15 15:21

Yuki.N> (また図書館に)

这么多说法？我觉得就是看心情
卖安利？买安利？对不起，关我叼事

#9 - 2015-1-15 15:59

跳坑速度堪比守夜人 (He's dead, Jim.)

觉得好看的、当时看完心情良好的才打分
看完好久顺手标注的一般懒得打分
至于觉得不好看的一般看不完，更不会去打分了
所以我打出来的总是7-9

#10 - 2015-1-15 16:32

豆沙包罐头

看完打分。开坑了只要不是太呵呵就一定看完。
正常片子7分，看得高兴8分，赞不绝口9分。10分是什么好不好吃
6分代表绝大部分“看完了但是什么玩意”的片子。心情不好的话5分。
4分以下没怎么评过，除了个别情况以外会落在这个区间的片子在看到简介的时候就过滤掉了

#11 - 2015-1-15 16:43

‬

楼主是否在@富士見書房・ファンタジア这位？应当atID。

#11-1 - 2015-1-15 16:52

天地守

是，之前没在bgm用过@ 这一功能（不过既然你@ 了我就不改了）。
不知现在是哪位乘客，想起个事，不过在这里回复欠妥，还是去你的まとめ日志里回复好了。

#11-2 - 2015-1-17 12:17

富士見書房・ファンタジア

天地守说: 是，之前没在bgm用过@ 这一功能（不过既然你@ 了我就不改了）。
不知现在是哪位乘客，想起个事，不过在这里回复欠妥，还是去你的まとめ日志里回复好了。

其任何事物都很难以分数来衡量的，我的理念是平等，虽然喜欢的程度不同，每部片子的水准也不同。

#11-3 - 2015-1-17 15:12

天地守

富士見書房・ファンタジア说: 其任何事物都很难以分数来衡量的，我的理念是平等，虽然喜欢的程度不同，每部片子的水准也不同。

若真的是一视同仁，至少都打10分或者都不打分啊（可能的话，我当然希望你选择都不打分）。
另，我不认同你的理念，但我尊重你选择的权力。

#12 - 2015-1-15 16:44

KERO (没干劲)

6星及以下是实在受不了
7星无聊看完一般般
8星可以推荐给别人
9星就是觉得赞，力荐给别人
10星，不要问我为什么，看完了有种感觉这片子我一定就是要打10星

#13 - 2015-1-15 16:53

天地守

多谢ls诸位回复，为避免虚假繁荣，我就不一一回复了，只在对某位的标准有不解之处或是想要进行进一步讨论的情况下回复。

#14 - 2015-1-15 17:07

沙拉酱 (我是要娶黑长直的男人)

持有最低限的知识和良心的前提下超喜欢这句话
评分这么撕逼的事情一般不想说哈，总有些人会说没人care（世上没人care的事情多了，但是总要傻傻的相信自己做的一些事情对哪怕一个人有用，在成本允许的情况下，那都该继续往下做）
评分这种东西带有个人性以及人人之间无法相符契合的撕逼性，但是理智的人我认为会趋向于在客观的基础上加之自己的主观情感。
但是我觉得指导性的评分标准其实没有必要。作品是给大家看的，每个人会有自己的体会，但是随着这个人数的增加，这个体会就会趋向于同质化，这就体现在了最终的评分上。虽然会出现极端粉黑，但是对作品的影响大部分还是可以忽略的。bangumi把这个误差控制在了0.5分，所以看字面意思"推荐”等就可以了。个人是觉得班固米因为把10分设定为超神作，9分设定为神作，导致总体分数偏低（这个有待考究）。总之这么多废话就是，好的作品不会因为脑残而埋没，而被埋没的只能说明这个作品不够好。
同样卧病在床，没事写写~

#14-1 - 2015-1-15 17:30

天地守

吐槽一下，虽然我理解也部分认可你的发言，但同质化不是一个褒义词（并且意思本身也不对），你应该是想表达smoothing（平滑化（1-17edit：校正/修正）），或是趋近于一个边界值吧？
在数据量不足的情况下，优秀的作品是会被埋没的，只不过这是因其“优秀”的确定程度不够高所致，这本身是合理的。

#14-2 - 2015-1-15 17:38

沙拉酱

天地守说: 吐槽一下，虽然我理解也部分认可你的发言，但同质化不是一个褒义词（并且意思本身也不对），你应该是想表达smoothing（平滑化），或是趋近于一个边界值吧？
在数据量不足的情况下，优秀的作品是会被埋没的...

~吼，学到个词先。然后也没有什么可以讨论下去的点了，就借机会说说自己的感想，你补充的很对。如果想说优秀的程度值的话？

#14-3 - 2015-1-15 18:09

天地守

沙拉酱说: ~吼，学到个词先。然后也没有什么可以讨论下去的点了，就借机会说说自己的感想，你补充的很对。如果想说优秀的程度值的话？

不好意思，看来我是烧傻了，查了一下Homogeneity，在这个语境之下同质化应可表示“数据间差异的减少”。
优秀的确定程度低，是指其得分的置信区间过大，或是由先验信息向“真实”值的逼近不够等，总而言之统计可靠性不足（皆因样本过少所致）。
似乎烧起来了，休息一下，总之多谢讨论:)

#15 - 2015-1-15 17:08

ハーフサマー (あなたは…そんな私に差した眩しい光だったのかも)

1.就个人感觉来说，大多数评分柱状图分布都集中在6-8，结果平均下来大多数都是个“推荐”，所以自己基本不看。除非和自己心理期望分值相差特别多时会多看看评分人数，看看大家的吐槽啥的，以防止自己脑子发热随便评分，结果过一段时间还得滚回来修改。

2.自己对动画技术方面懂得太少所以评分只能主要依靠自己的体验与推荐度 (bgm39)

评分的都是自己看完的，抛弃的不算。评分按照bgm评分原则打分，1-4分绝对是抛弃的，所以最低5分。
因此这样一来评分就变成了给自己看的东西了……而且很久以前看过的只能凭模糊的印象打分……

感觉bgm的评分原则可能有些简单，“推荐”的描述性词语本身不就含有安利暗示么……

LZ你看这样行不行……以动画条目为例，如果可能的话最好弄成简单评分模式与高级评分模式，简单的就是一个打分项目，一般性的打分，综合了个人体验，素质，推荐度等等的一个综合性分数。高级的就是多个打分项，侧重作品的素质（剧本，分镜，演出，作画等等啥的，我也不懂就是随便说说嗯），打分项描述最好细致一点，然后对各个项目进行统计平均（怎么个算法就看大触们的了）作为一个条目的分数，然后简单和高级评分加权……或者简单评分与高级评分结果都可以在条目下查看……而且可以考虑每一话都有评分，毕竟每一话的制作人员都有所变动……

像个白痴一样说了这么多，我的意思就是说大家都来参加评分，简单模式提供给大多数的，高级模式提供给那些真正愿意静下心客观的为一部作品负责地打分的人。就是不知道愿意花时间做评分的人会有多少

#15-1 - 2015-1-15 17:33

天地守

LZ你看这样行不行

好啊！（蛤蛤脸）
反正我说了不算（ry
多谢回复。

#16 - 2015-1-15 17:52

原来的头像呢 (null)

一般来说也就那样的都扔到8分里
有点认真的一般会7分
认真起来的会在6-8分
当时觉得神的会在9、10
=================================
个人认为有一个合适的评分指导原则是件好事，毕竟在不知道看什么番的时候上bgm的排行榜总能挖到些有趣的东西。
至于指导原则应该怎么制定，这些都不是一两天的事情，但是我个人觉得应该本着“求同存异”去制定。
毕竟每个人都不一样，但是如果都按照一些大家都承认的，普世的审美、艺术欣赏什么的去制定原则的话这部作品的评分就会变得更加客观，我想这对于总体评分又或是个人评分来说都是好事。
当然，以上只是我个人的想法，指导原则里带有有关审美的条例可能不是太好

另，我个人并不认同因为制作的素质而且给一部动画打分。一部电影就算是一镜到底120分钟故事讲的烂这电影还是烂。

#16-1 - 2015-1-15 18:17

天地守

对最后一句的回复：
1、我正文是说，

应是考虑了这三个不完全独立的要素中的某几个

，并不是说一定要三条都考虑才算认真、有效或者别的什么。
2、此处需控制变量。同样级别的本子，不同水准的班底，两者水准显然不会相同。当然我也理解你的意思：某一关键属性（你的例子里就是剧情）太糟，则作品整体评价也不会高。
谢谢参与。

#17 - 2015-1-15 19:34

老白 (Anime is trash and so am I.)

很好奇，像我这样按照BGM的评分标准打分的多吗？我一般对于最一般作品会打5分，要这么说我平均打分也就六分左右。。。关键我觉得能达到8分及以上的实在太少了///

#17-1 - 2015-1-15 19:57

心的神话

十星九星为优秀，八星七星为良好，六星准良作而五星为庸，四星三星为较差，两星一星为糟糕。我既不以六星为及格线也不吝打高分，只把它们当作十个档次，拉开梯度。既然价值100分的作品本就几近于无，那就让十星一档对应96分以上这个最高位阶就好。
“神作”一词是不是会给人心理压力，是不是换一种描述方法更好，这个问题以前也有人讨论过，因此我不认为九星档有必要留给凤毛麟角。

ps:貌似你那里的平均分比较低也是因为你原本就不喜接触那些被大众交口称赞的作品？

#17-2 - 2015-1-15 21:01

老白

心的神话说: 十星九星为优秀，八星七星为良好，六星准良作而五星为庸，四星三星为较差，两星一星为糟糕。我既不以六星为及格线也不吝打高分，只把它们当作十个档次，拉开梯度。既然价值100分的作品本就几近于无，那就让十星一...

倒不是，我个人对于喜欢的作品打分也是不吝惜的，不过这样的情况还是太少，大概就是星际牛仔我能打9.5分这样的情况

#18 - 2015-1-15 20:28

塔塔塔

1.
我打分是跟着感觉走，不会受现有的分数左右。因为统计结果就是若干人跟着感觉走的结果。
我看待平均分的态度很主观，如果我的评分高于平均分，我就会感到失落，如果低于平均分就会感到着急吧…其实当看到虫师和eva的时候还是犹豫了一下，因为很多人都给了神作，我却没这个感觉，我没有去质疑别人的评分，反而很怀疑我自己的心态。遇到这种很难下手的评分，我就很怂地就不评了，这种时候走心就是找喷吧…

2.
楼主说的三个要素总结的挺好，
如果作品打动了我，就给体验分，例如闪电十一人
如果内容没什么共鸣，但素质方面确实有不俗的呈现，就给素质分，例如kill la kill
至于传教方面，我一般不会为了传教而打高分…你看LL手游，如果大家都是为了传教而打分，现在肯定是神作了。
遇到本命的话心理成分太大，低分根本下不了手！应该不是为了传教，而是真的打不了低分_(:з」∠)_这种心情会有人理解吗[[

以上

#19 - 2015-1-16 00:18

潮汐听雨 (少年听雨歌楼上，红烛昏罗帐。)

厨子空间是galgame评分网站，但楼下基本都是以动画作为标准进行回复的吧（笑
首先我不是动画党，仅就galgame发表看法
首先，老鸟决定推游戏或者看番，估计是不大会参考固有评分的，或者说有限的参考，正所谓高分看自己，低分看群众。当然，也不能说评分完全无用，起码在相同条件下大家肯定都会去倾向于追评分高的游戏和番。说到底，评分对于参照的人的意义不过是为了让他们在有限的时间里品味更多的质量相对上乘的作品。
至于我打分的标准，见下

bgm上个人对galgame、动画评价的标准
10分：超神作。剧本超神。此项仅有一个席位，galgame为车轮之国，动画10分尚未出现
9分：神作。剧本优秀             百分制打分为90-94，下同
8分：佳作。剧本良好                      85-89
7分：良作。剧本尚可                      80-84
6分：凡作。剧本勉强能看                  75-79
5分：劣作。脚本家，我们来谈谈      70-74
1-4分：雷作。老子上都比你写得好    70以下
至于剧情的具体打分细则，我一般是按照主题深度、剧情的转折性与戏剧性、人物塑造、叙事结构这4个部分打分（文笔、风趣性属于印象分），虽然不能说绝对客观，但基本还是不会偏离太远。
（以上标准对游戏性galgame不适用，此类打分以游戏性为主，剧情放在次要位置，但也是重要打分项）
当然，打分可能也会有略微浮动，总之就是以剧本为中心，剧本不行的我看原画和音乐能不能凑合着加点分（当然这加的分bgm的十分制体现不出来，要百分制打分才能看出来），要是原画音乐也不行，那直接gg
主要针对素质打分，体验算是一个方面，至于传教，那不在我打分时的考虑范围之内

可以看出我的评分跟大部分人不一样。当然，我对于其他人的评分是持一种怀疑态度的，因为我怎么知道别人打分是根据人设还是BGM抑或是CV啥的，甚至是各种莫名其妙的打分方式。就算是剧本，也会有人把日常写着不犯困和风趣性作为主要加分项来计算。
所以，我就引出同样是厨子空间里的功能：POV。POV有很多种，和标签类似，但是是由网站固定好的，比如剧情好、画风好之类的，在评分时就可以选择。在厨子空间可以通过搜索POV中的一些项目来选择自己理想的游戏，技术宅甚至还可以自己编辑SQL分析数据。所以，我个人是觉得BGM也是能学习这一方面的，起码可以让人从更多方面认识一款游戏。

我才刚入BGM十几天，觉得这样的浅见应该有前辈提过了，但还是让我就这么再提一遍吧。

#19-1 - 2015-1-16 11:37

天地守

如其名，我想bangumi的核心功能还是在标注动画啦（虽然这远不是bgm的全部）。
看完你的回复，我发现昨天头脑还是不够清醒，正文仍有表意不清、需要改动的地方（暂且修改两处好了）。
你的评分标准我之前在你主页看过，标准本身没有需要我妄加评论之处，不过因我在正文使用了“传教”二字，似乎误导了包括你在内的部分人。我想表达的意思是“蜉蝣撼树般（笑）对现有分数进行平衡（笑）”，“传教”算是一种力挺的表现，反过来为攻击作品而打低分的情况也不少见，也存在“认为当前得分异常”而打高分/低分平衡的人。
“评分的价值就在于更高效地利用有限时间”及“他人的评分不可信（或者说需要以怀疑的态度面对他人评分）”，这两点我双手赞同。不过我的视点略有不同，统计最终会推断、估计出整体的态度，我怀疑他人所以希望以给出参考标准的方式修正不当打分行为，但反过来我也会最大限度地信任统计结果（样本量越多越是信任）。
之前有个贴子对批评空间和bgm的部分属性作了对比。事实上不论是批判空间还是vndb我都很少上，所以我的认识可能有误（如果有误还请指出）：批评空间的基本内容（作品信息、公司信息、tag/pov/属性）都是运营在添加，用户不参与这方面内容的建设；而vndb则和bgm类似，条目和tag都由用户添加编辑。vndb的所有tag构成了一个分类详细的标签树状图（aka tag tree），似乎还存在tag审核机制（由谁操作我并不清楚），灌水、意义不明及价值低的tag会被删除。批评空间的tag系统很成熟了，但如果我的认识无误，bgm和批评空间的运作机制相差太大，模仿批评空间可能有难度，vndb使用的体系也许更容易移植到bgm上。Well, who knows?
逻辑不清知识不足，见笑了。

#19-2 - 2015-1-16 14:21

潮汐听雨

天地守说: 如其名，我想bangumi的核心功能还是在标注动画啦（虽然这远不是bgm的全部）。
看完你的回复，我发现昨天头脑还是不够清醒，正文仍有表意不清、需要改动的地方（暂且修改两处好了）。
你的评分标准我之前...

存在“认为当前得分异常”而打高分/低分平衡的人

这是肯定存在也难以避免的，就算是我自己，在统一评分标准前也会因为这个原因给一些作品打出较高/较低的分。对于这个问题，也只能是期待大家按照自己内心真实所想评分吧。当然也可以考虑让每个人自己建立一套有效的评分机制，不过这一条实行起来很有难度，毕竟随意打分的是多数，像我这般闲的蛋疼的毕竟是少数。

我其实很疑惑，为什么7-8这两个评分给的描述是推荐和力荐？这可能是受了豆瓣的影响，豆瓣4-5星评价就是推荐和力荐。推荐和力荐其实本身并没有什么不妥，只不过可能会暗示评分者“这评价的是推荐他人的程度，而不是作品本身的素质”，进而让评分者偏离自己打分的轨道，毕竟推荐度的打分还要牵涉到题材和猎奇度等其他一些问题

但反过来我也会最大限度地信任统计结果（样本量越多越是信任）

我同样信任评分基数足够高的作品的统计结果，毕竟我的怀疑是对其他个体的怀疑，群体可以很好的弥补个体在各个方面没有考虑到的地方。

至于标签，那贴说明的确实很明白了，我也挺赞同最后的结论：批评空间在galgame评论的功能性方面完胜BGM。BGM的标签也应该是照搬豆瓣的，同样是不知所云的标签，基本标签的套路是游戏名字（汉日各来一遍，如果有英文再加个英文），游戏类型，游戏平台，以及staff和一些有鲜明特色的主要角色。但这些标签都是给我们自己看的，往往没法作为别人的借鉴标准的。所以我觉得如果没法做到像厨子空间那样的运营编辑POV，像vndb那样有人审阅标签那也已经足够了。

#20 - 2015-1-16 00:37

邵小猫 (Live for speed)

拜诸君所赐，最近已经不怎么打分了。
对了，这地儿只是有IMDB式的功能，并非IMDB类的网站。

#20-1 - 2015-1-16 11:50

天地守

额，我只是为了s=(Rv+Cm)/(v+m)这个imdb在用的所谓的TBA（真贝叶斯平均）而提了一下而已啊……
顺便，针对#22-1，看看这个，真的应当默认评分趋势为正态分布吗？（之后会在#22回复，阁下可先不回复本层）

#20-2 - 2015-1-18 03:18

邵小猫

天地守说: 额，我只是为了s=(Rv+Cm)/(v+m)这个imdb在用的所谓的TBA（真贝叶斯平均）而提了一下而已啊……
顺便，针对#22-1，看看这个，真的应当默认评分趋势为正态分布吗？（之后会在#22回复，...

不是不是，我觉得有的人单纯只是觉得正态分布看起来很爽而已233333

#21 - 2015-1-16 04:13

春遥 (电波不合半句多)

借守守帖，夜里突然惊醒刷BGM惊讶地发现评分的描述改了！我最近打的一个2星变成了“差”，3星是“很差”，别的还没挨个看，想先找个相关讨论帖竟然没找到，不知道是我睡迷糊了还是真的没有讨论帖……难道就是刚刚才改？
我是严格按照文字描述打分的啊，最近还在想那种很无聊但是不雷的应该归到哪呢，文字描述一改我可能要把评分全部重捋一遍了。
老板，如果你能看到的话……“很差”不是应该比“差”要差吗？

#21-1 - 2015-1-16 04:14

邵小猫

直接 @Sai

#21-2 - 2015-1-16 04:23

春遥

邵小貓说: 直接 @Sai

感谢帮忙。
试验完毕，只改了5分以下的描述，除了我刚才提的2、3的顺序之外对我影响不大。
1:不忍直视
2:差
3:很差
4:较差

既然要改的话何不考虑一下7分和8分的描述？觉得好看和会推荐给别人实际上没什么必然关联啊（我就喜欢挑雷片推荐……）。

#21-3 - 2015-1-16 12:05

天地守

这个昵称还是好羞耻///
由这个改动，我突然想到一点：bgm对分数的文字描述是否会造成部分人的选择障碍？虽然录入错误的可能性更大，但若2-差/3-很差这个标准就是sai的本意呢？我的这个说明可能会令人产生困惑，那么换个说法——如果文字描述与评分人的既有观念冲突结果会是什么？现在はるはる应该能明白我的意图了——如果其他的文字描述实际和“2-差/3-很差”一样造成了冲突，究竟该使用哪一套标准（比如，之前被很多人提过的“60分及格”这一固有概念与“5-不过不失”的冲突）？
更进一步，如果真的存在一个参考评分标准（而它造成了观念冲突），这是否会导致部分人的选择障碍？虽然这只是杞人忧天，不过老实说我在发贴之前还因为这一点而犹豫过该不该发——虽然现在想想，根本还没到忧虑这一点的时候。

#21-4 - 2015-1-16 13:15

Sai🖖

是反了，待会改

#21-5 - 2015-1-16 20:28

老大

天地守说: 这个昵称还是好羞耻///
由这个改动，我突然想到一点：bgm对分数的文字描述是否会造成部分人的选择障碍？虽然录入错误的可能性更大，但若2-差/3-很差这个标准就是sai的本意呢？我的这个说明可能会令人...

60及格和不过不失没有直接冲突，（60有意义但50一般、没有意义当然也不会及格咯）
既然动画能做出来那就不会太差，低分作品大量少于高分作品是必然的，大多数考试的平均分也都在70左右吧？再加上这里太低的就直接弃了。一开始的文字描述个人觉得夸张，特别是雷区和神作区。但再改动位子就要否定所有之前的评分了。

#21-6 - 2015-1-16 23:37

天地守

lighthouse 不该说: 60及格和不过不失没有直接冲突，（60有意义但50一般、没有意义当然也不会及格咯）
既然动画能做出来那就不会太差，低分作品大量少于高分作品是必然的，大多数考试的平均分也都在70左右吧？再加上这里太低的...

语义理解上的差异（当然也是打分宽严/起评分数的问题）：不过不失和一般/中规中矩的意义是否一样？一个一般/中规中矩的作品（在60分及格的前提下）会得到多少分，这是个问题。

#19-2就对7、8分的文字描述进行了质疑，我个人在打分时除了打10分会被“请谨慎评价”震慑（虽然我即使是在5分制下也倾向于打4分而不是5分）倒也不会关注文字描述，但鼠标停留在星数上即浮出的文字描述有很大可能曾经、正在或是将会影响一个人的评分行为（而文字描述却显得模棱两可）。即使不做大改动也是可以的：调整评分对应的文字描述的用语/为其增加可操作性定义（比如，为每个等级找出若干部分数可靠的参考用条目）/索性去除文字描述，这些都是可能的解决方法。

edit：虽然我即使是在5分制下也倾向于打4分而不是5分→自扇，我在5分制的情况下其实是打了大量5分的（5分制下扣1分还是让我觉得太多）。

#21-7 - 2015-1-16 23:48

老大

天地守说: 语义理解上的差异（当然也是打分宽严/起评分数的问题）：不过不失和一般/中规中矩的意义是否一样？一个一般/中规中矩的作品（在60分及格的前提下）会得到多少分，这是个问题。

#19-2就对7、8分的文字...

所以果然还是取消吧。嗯我自己手动眼瞎看不见就好了

#22 - 2015-1-16 05:10

老大 (你谁啊？我准许你套近乎了吗？)

10分个人神作，9、8强荐，7分看了不后悔。1星黑、拉低突破天际的橱的分数。

大多数作品不打分（觉得自己阅历不够还不够资格评价）。特别是在看了白箱之后把自己为数不多的2-6分低分给删了，觉得业界人士不容易就不打分了。
所以说主要还是跟着感觉走。虽然引用里用的是③推荐，但实际更像是①体验度。所以如果只是作品的一部分（②）特别出众（比如画风），就会在推荐度上加一分。

另外我有神作恐惧症，所以刚接触bangumi的时候完全不敢打9分更别说10分了。“雷”的描述同理（所以刚看到楼上的发现还小开心了一下）。后来和用户沟通过几次后就慢慢无视了那些描述，已存用户评分图标同理。

我知道我这样的评分方式一定是最不可取的 (bgm30)

#22-1 - 2015-1-16 06:11

邵小猫

等等，这样不应该更加容易出现（打分强迫症患者追求的）正态分布么（

#22-2 - 2015-1-16 06:13

老大

邵小貓说: 等等，这样不应该更加容易出现（打分强迫症患者追求的）正态分布么（

欸？抱歉没理解你的意思…… (bgm38)

#22-3 - 2015-1-16 06:15

邵小猫

lighthouse 不该说: 欸？抱歉没理解你的意思……

少量低分，少量高分，最后出来的不应该是一个类似山峰状的评分分布么？

#22-4 - 2015-1-16 06:21

老大

邵小貓说: 少量低分，少量高分，最后出来的不应该是一个类似山峰状的评分分布么？

哦哦倒是（虽然我低分的特别少还是8分居多）。然后4-6就不一定了……

#22-5 - 2015-1-16 06:23

邵小猫

lighthouse 不该说: 哦哦倒是（虽然我低分的特别少还是8分居多）。然后4-6就不一定了……

可以去 netaba.re 查看自己的评分分布，强迫症患者需要完美正态分布是五分最多然后其他分数向左右对称递减（

#22-6 - 2015-1-16 06:27

老大

邵小貓说: 可以去 netaba.re 查看自己的评分分布，强迫症患者需要完美正态分布是五分最多然后其他分数向左右对称递减（

嗯，就是看到你回复后去netabare查了下的说~（然后发现完全不正态 (bgm30)

#22-7 - 2015-1-16 06:31

邵小猫

lighthouse 不该说: 嗯，就是看到你回复后去netabare查了下的说~（然后发现完全不正态

还没有netaba.re的时候我拜托有人查出来我的平均分是8分 (bgm38)

不过有意思的地方在于好像大家都有“习惯给片子打高分的一定都是没什么见识的小学生，而动辄给低分和差评的才是看片多的巨巨”这样的奇怪的思维定势（

#22-8 - 2015-1-16 06:36

老大

邵小貓说: 还没有netaba.re的时候我拜托有人查出来我的平均分是8分不过有意思的地方在于好像大家都有“习惯给片子打高分的一定都是没什么见识的小学生，而动辄给低分和差评的才是看片多的巨巨”这样的奇怪的思维定...

我有评分障碍，打了分的只有1/5不到，大多为7/8分。
我也有奇怪的定向思维。然后现在有“给大量低分和差评的大龄中二，真正的巨巨都是5、6、7分给的多并且不屑于评分”的感觉 (bgm38)

。

#22-9 - 2015-1-16 12:23

天地守

看来真的有因为文字描述导致选择困难的人（请看21-3） (bgm38)

另，我在正文里也说了，不打分不可怕，可怕的是全都打(ry
资格是什么，能吃吗

#23 - 2015-1-16 05:12

Vicia (万人如海一身藏)

#24 - 2015-1-16 12:21

Kane (この勝利を、近所のおばさんに捧げる！)

想问一下lz的background，是Stats或者CS吗？

个人理想中的打分方式是这样的：选择要给打分的作品 → 系统在我已打分的作品中挑选几部 → 我给出相对评分（“这部比那部稍好/稍差/好很多/差很多/无法比较”） → 系统跑个类似pagerank的东西自动打分

主要解决需要不停回翻以前打的分数保持一致性的问题 ← 虽然我现在已经很少打分了但以前还是经常干这种事的

#24-1 - 2015-1-16 13:11

天地守

如果是问教育背景，本科期间浑浑噩噩除了半桶水日语什么都没学会就混了个证除了实习没有工作经验通信工程，现在希望换个方向进修。
（本科的学习内容倒是和机电系、计算机系、软院等有不少重叠，或者说软硬都学了点……统计相关的话，也只有线性代数、数学分析、概率论、数理统计学了点皮毛，且遗忘比率很大）
如果不是问教育背景是问立意，只能说我也不知道（ry
我想到了林卯的这个构想。

#24-2 - 2015-1-17 14:16

林卯

关于相对式打分，自荐一个多年前的帖子：http://bgm.tv/m/topic/group/13906
——呃我手机看帖没看到上面发过了。

#24-3 - 2015-1-18 03:06

Kane

林卯说: 关于相对式打分，自荐一个多年前的帖子：http://bangumi.tv/m/topic/group/13906
——呃我手机看帖没看到上面发过了。

我今年暑假实习如果摊到个recommendation system类的我就把这玩意儿做出来 (bgm38)

#25 - 2015-1-16 12:32

Ourfather

一般来说排行榜中6~8分的还是比较对口味的不要说我品味有问题

#26 - 2015-1-16 14:16

Citrate (万年拖延症。)

2.基本上按照bgm给的评分说明 (天雷、巨雷、雷、较雷、不过不失、还行、推荐、力荐、神作、超神作（请谨慎评价）)来打分, 根据个人体验 (就是LZ所说的"①体验。受评分人的阅历（人生经历与作品阅历）、个人喜好、对作品的预期、当时的生活/心理状态、观看/游玩习惯以及观看/游玩结束后经过的时间等大量因素影响；")会有出入
不过 (之前有个讨论中提到过这个问题), 因为在学校一直是60/100分算是合格, 所以一般不是太烂的作品不会打5分或以下...
所以我的评分范围大部分在6-8分左右呢_(:зゝ∠)_少数真的很喜欢 (或者很想卖安利) 的作品会有9-10分...
(顺说我有一次去翻自己看过的作品和评分, 把好几部自己一时鸡血打9分10分的作品分数改成了7分8分来着....

1.别人的打分在我来说有很大的参考作用, 特别是在决定要不要看一部完结番的时候, 我会去看看bgm上的柱状分布....
但是标准不是很严啦, (在已经觉得剧情&题材有点兴趣的情况下,) 如果打7分8分的比较多, 一般就会去看; 如果5分6分多, 很可能就不看了; 当然还有中间少两头多的奇葩番....看内容看心情吧_(:зゝ∠)_
因为是以这种看大多数人的评价的方法来判断, 所以就算有少数人打分偏激也不会造成太大影响...啊bgm应该没有很多刷分党吧...?

#27 - 2015-1-16 23:46

烧卖 (自嗨行进)

烂-1~4
无聊-5
一般般-6（一般都会给到及格分
不错-7
喜欢-8
超——喜欢-9
动画还没评过10((。
其实都是看心情

#28 - 2015-1-17 16:11

千门万户曈曈日 (死亡一样地离开这在别处活下去)

十分来分太烦了内心都是按豆瓣那种五星来分的然后再根据"好像离四颗星还差一点""没错就是四颗星""是三颗星的档次但还是好一点"来加加减减半颗星最后折合成十分来算
好处就是一下子分数分布分散了很多很多 2分到10分都有一定数量比原来只有678910分好多了

#29 - 2015-1-17 16:21

琴吹七瀨 (女儿是父亲上辈子的情人，不跟女儿H的都是异端 ... ... ...)

评分完全就是看心情吧。。。
反正我基本就是看心情。。。
看完觉得越爽越想再看
那给的分就越高
看完觉得不爽或者看着看着都不想看下去
那给得分就越低
至于看完想骂娘的，自然就是一分了
具体分数界限。。。
大概没有
比如我今天看和明天看，很可能就给不一样的分数
不过不会差太多就是了

哦还有就是抛弃的不给分，毕竟没看完，不好意思给分，虽然抛弃理由可能说的很偏激很不客观很难听

#30 - 2015-1-18 03:21

南条寺夢路 (reflexion, allegretto, you)

我懒得为根本没什么人看只有自己会去翻的东西写上个好几百字的评分标准
平均分是6分左右。8分及以上的作品让我看过的绝大多数作品对比来看也就5-6分的样子

#31 - 2015-1-18 06:43

一个虚弱的肾

套用下我在这个帖子里的回复

10：有很大的主观因素加成
9：神作，无限接近完美的作品（主观）
8：某些方面特别有亮点的作品，无论是设定，展开还是什么
7：观感好，跟着看很抓人，补番的话也能一口气从头看到尾那种
6：总体可看，所以是及格分，讲了一个完整的故事
5：剧情明显赶或者没讲清楚的，或者有中度作画崩坏的
4：剧情不合逻辑或者神棍以及作崩，看的时候往往提不起劲点开下一话
3：剧情或作画有致命伤，或者过于失望也会有打个3分或以下
2：看的时候过于痛苦，基本在弃番的临界值上
1：因为会打1分的都弃了所以到现在还没1分（

还是那句话，虽然可以从客观因素，诸如作画水平等方面来进行评估，但是最后冻鳗这东西，还是给人看的娱乐产品，既然是给人看的，那么每个人的个体差异，比如经历啊，情感状态啊，生活状态啊，三观啊等等，就是一个不可避免的主观因素，所以说我一直抱着bgm打分只能做参考的心态……

#32 - 2015-1-18 07:30

这要是在A岛一定会被嘲讽精神红名，不过我也是这样的人所以并不讨厌罢了。
对我目前的评分而言，拔作和普通作的评分标准是不同的。虽然都在一个站内，但拔作一个是评分人数比较少，一个是题材比较敏感，所以相对而言我打分比较极端化、情绪化。
不过拔作游戏很少给高分，本子倒是给了不少8分。

普通作的话(有18X元素但不以此为卖点的我也归入此类)，大部分Galgame没全通我就不评分直接标个放弃。全通且评价了的对照批评空间大概是这样的吧：
10分 95～100 对我生活有很大影响的作品《YU-NO》日语原动力，做到了任何作品都没做到的一点且其他方面也无可厚非的作品《车轮》的感动《Ever17》的震撼，让我久久不能忘怀的作品《CLANNAD》智代。
9分 85～94 出色流畅的剧本，向别人推荐最多的就是这个段的。
8分 84～75 有明显的过人之处，值得一玩，但也有有明显的短板让人觉得不完美。
7分 74～70 大部分是废萌、题材重口作，适合部分人玩，我个人玩了之后没什么感想，但玩的时候很顺畅没抛弃。
6分 69～60 多是同人作和拔作，普通商业作只有剧情很烂靠画师的作品我会给这个分数。
剩下的分数很少打了，基本都是直接抛弃，标了很多公认的1分雷想玩，不过补的时候优先级实在轮不到它们。
看了下我评4分以下的都是同人作，最低的1分只有一个，是在站内评价还行的《40日40夜之雨》，2分也只有一个，《冲绳奴隶岛》。
经常会过一段时间改分，有些是走在街上想剧情和人物越想越喜欢，有些是OST听了好几个月特地又去加了1分。游戏方面把分改低倒是很少，漫画改低过不少。

总的来说看游戏信息和评价还是批评空间去的多一点，不过标分都是在这，从没在批评空间评过分，想来日本的网站除了雅虎知惠袋答题和一些个人博客留言外，极少和别人说过话，nico用了七八年一条弹幕都没发过。
怎么说呢，日本网络上免费的高质量信息比中国少太多了，靠谱的基本都得花钱找顾问，很多顾问只是为人处事比较融洽，专业水平真不咋地。
嘛，扯远了，反正我就是这么评分，除了评分少的作品的极端评分和刷分外，其他的我都不怎么在意。毕竟这里主要以动画评价为主。

/ 返回靠谱人生茶话会小组

靠谱人生茶话会 » 讨论【再次变更标题】有关bgm现有评价体系的想法

靠谱人生茶话会 » 讨论
【再次变更标题】有关bgm现有评价体系的想法