评分与排名讨论会 » 讨论
评分网站的基因：评分分布曲线

#1 - 2022-3-26 18:51

君寻 (已淡出bgm38)

2018年，我发了一篇题为《不同网站评分之间的对应方法》的小组讨论，其中提到了“评分分布曲线”的概念，这是我自定义的一个概念，“评分分布曲线”是把一个网站的评分作品按评分从高到低排序，再把分数用散点图表示出来，拟合得到的一条分布曲线。

如今已经2022年了，无论是B站还是bgm用户群体都发生了很大变化，我想到如果将现在的bangumi和bilibili的评分数据和当时的数据作个对比，评分分布曲线是否会发生变化，变化程度是大还是小呢？于是我得到了下面两张分布图：

bangumi 2018-2022 评分分布曲线

bilibili 2018-2022 评分分布曲线

——————————————————————————————————————————
更新：
上面的图是对两组数据的坐标轴进行了微调后拟合的结果，表明评分曲线随时间的变化基本就是原曲线的伸缩，不会发生本质变化

如果将数据的坐标轴精准地归一化，即让两条曲线首位精准对齐，得到的结果如下：

bangumi 2018-2022 评分分布曲线

bilibili 2018-2022 评分分布曲线

如果把2018-2022新增的评分数据和原来的数据进行对比，得到的结果如下：

bangumi

bilibili

可以看到最近几年bangumi的评分整体呈下降趋势，这和我们关于业界药丸的认知也是相符的 (bgm38)

评分数据：https://www.aliyundrive.com/s/WQLvbpXATuJ ，有需要的可以下载（没有注册阿里云盘的请用我的邀请链接）
——————————————————————————————————————————

虽然之前我就猜测评分分布曲线的变化不会很大，但结果的高度一致性还是出乎我的意料。这说明网站的评分分布曲线具有很强的稳定性，一旦成型就很难改变，仿佛就像是评分网站的基因一般。

一般而言，我们会认为用户评分塑造和影响了网站的整体评分，但从数据的层面看，结果恰好相反，是网站的整体评分影响了用户评分，一定程度上可以说是决定了用户评分。

#2 - 2022-3-26 18:55

冉阿让 (现在我随时随地都会带着武器，说不定会再用得着)

支持

#3 - 2022-3-26 19:05

Randog

支持。
所以我才说小德是我动漫偶像，班固米评分利用率太低了，一眼望去全是七八分，一半的层次都被浪费了，明明10星有“谨慎提醒”而1星没有，明明4星的“较差”已经很委婉了。

#3-1 - 2022-3-26 19:12

rabbitohh

是不是可以根据排名直接把分数排布强行改为线性 (bgm38)

#3-2 - 2022-3-26 19:21

jerryatbangumi

10分太复杂，我手动改成10/8/6/4用（

#3-3 - 2022-3-26 19:32

OH_toothache

rabbitohh 说: 是不是可以根据排名直接把分数排布强行改为线性

完全没问题

#3-4 - 2022-3-26 19:53

Randog

rabbitohh 说: 是不是可以根据排名直接把分数排布强行改为线性

那不就信息失真了，班固米动画区200名和2000名只差了一分，“力荐”和“推荐”的区别。但这也是问题所在，我们无意中接受了一套“标准”，认为在班固米给个八九分是好评，七分则是保留意见。

#3-5 - 2022-3-26 22:10

君寻

rabbitohh 说: 是不是可以根据排名直接把分数排布强行改为线性

分数排布本来就应该是二项分布才对，线性分布太不科学了

#3-6 - 2022-3-26 22:12

默沨

rabbitohh 说: 是不是可以根据排名直接把分数排布强行改为线性

线性感觉不好，正态化为N(5, 1.5)如何 (bgm38)

#3-7 - 2022-3-26 22:18

麻麻麻花

Jerry@Bangumi 说: 10分太复杂，我手动改成10/8/6/4用（

完了我用的百分制

#3-8 - 2022-3-26 22:36

rabbitohh

君寻说: 分数排布本来就应该是二项分布才对，线性分布太不科学了

层主说的一半层次被浪费了，那也就只有线性化能保证所谓的利用率了（所以还是看排名比较好吧 (bgm38)

）

#3-9 - 2022-3-27 00:40

小笠原ユリ

突然在想，分数值太过于直观，加上星星的进度条也很直观，于是潜意识会以6分为分水岭，6分以下不及格才会用到，那如果改成SS，S+，S，A+，A，B+，B，C+，C，D+，D的方式，会怎么样呢。

#3-10 - 2022-3-27 04:38

山岚夜雨

有没有考虑一点，大部分人主动去看的片不太会是6分以下的，或者说素质真的在6以下的片子也不太会被人看（追番追完了除外）

#3-11 - 2022-3-27 08:17

Randog

山岚夜雨说: 有没有考虑一点，大部分人主动去看的片不太会是6分以下的，或者说素质真的在6以下的片子也不太会被人看（追番追完了除外）

不看6分以下是怎么来的？出于6分是默认及格线，还是因为本站已有用户普遍将6分及以下用作差评？这是一个相对的概念，B站评分可能是9.3分以下皆是烂片，B站视频引用班谷米评分时会强调班谷米评分普遍较低，而部分班谷米用户会觉得班谷米整体评分太高了

#3-12 - 2022-3-27 08:19

Randog

小笠原ユリ说: 突然在想，分数值太过于直观，加上星星的进度条也很直观，于是潜意识会以6分为分水岭，6分以下不及格才会用到，那如果改成SS，S+，S，A+，A，B+，B，C+，C，D+，D的方式，会怎么样呢。

我试过，最后结果是不断给喜欢的片子叠S，本命作到了“SSSSSS”，3S、4S和5S间有严格的划分，什么BCB+C+都不在意随便给了 (bgm38)

#3-13 - 2022-3-27 11:52

1ra

Randog 说: 我试过，最后结果是不断给喜欢的片子叠S，本命作到了“SSSSSS”，3S、4S和5S间有严格的划分，什么BCB+C+都不在意随便给了

战力崩坏

#3-14 - 2022-3-27 12:00

c933103

本來有自訂評分體系，但發現相對網站平均偏低，所以打分時經常加分補正…

#3-15 - 2022-3-27 16:31

山岚夜雨

Randog 说: 不看6分以下是怎么来的？出于6分是默认及格线，还是因为本站已有用户普遍将6分及以下用作差评？这是一个相对的概念，B站评分可能是9.3分以下皆是烂片，B站视频引用班谷米评分时会强调班谷米评分普遍较低，而...

6分这个只是我提出的一个说法，没有什么数据，我的意思是指代低分动画，大致有那么一个较差的区间，比如你想说利用率差的问题，2分，3分，4分，我说一句绝大部分人都不怎么经常给出这些分数问题不大吧？这可能跟大部分人去看动画的时候那些较烂的动画本身就被“避雷”了有关吧，除了荤素不忌和烂片爱好者（说这些都是少数人问题不大吧），既然烂片一开始就被避开的概率比较大，那么除去追番的情况这些分数利用率比较低的原因也能得到一部分解释了。所以说我的观点重点不是6分怎么样（这只是我个人的说法）。再进一步说，一个人要评分就是根据那部片素质打分对吧，如果按你说的，各个评分利用率要是正常，那就说明那个人什么素质的动画都看，但是仔细想这不太符合常识，因为口碑较差的动画真的会（经常）被某个人无感情的加入观看行列吗？在评分前动画就已经被筛选过了，低分可能性比起6/7/8就低得多

#3-16 - 2022-3-27 18:08

Randog

山岚夜雨说: 6分这个只是我提出的一个说法，没有什么数据，我的意思是指代低分动画，大致有那么一个较差的区间，比如你想说利用率差的问题，2分，3分，4分，我说一句绝大部分人都不怎么经常给出这些分数问题不大吧？这可能跟...

这个问题有意思的，关乎每个用户的评分分布，用netaba随便看几个人就会发现很难正态分布，几乎都是集中在高分段，这也是自然的，只是会导致网站评分分布也跟着集中。说到底，利用全部评分也只是我的一厢情愿而已，受到小德启发才有了这种想法。

#3-17 - 2022-3-28 12:38

狂犬榨汁姬艾莉丝

Randog 说: 这个问题有意思的，关乎每个用户的评分分布，用netaba随便看几个人就会发现很难正态分布，几乎都是集中在高分段，这也是自然的，只是会导致网站评分分布也跟着集中。说到底，利用全部评分也只是我的一厢情愿而...

随便看几个人几乎都是接近正态分布吧 (bgm38)

#3-18 - 2022-3-28 12:52

Randog

狂犬榨汁姬艾莉丝说: 随便看几个人几乎都是接近正态分布吧

是偏态分布吧b39，右高左低

#3-19 - 2022-3-28 14:14

狂犬榨汁姬艾莉丝

Randog 说: 是偏态分布吧b39，右高左低

差不多，不离谱
追求正态太难了 (bgm38)

#4 - 2022-3-26 19:31

小笠原ユリ (希望治安官大教育家屠魔勇者阴阳师拱火孤儿消停点 ... ...)

一般而言，我们会认为用户评分塑造和影响了网站的整体评分，但是网站的整体评分影响了用户评分，我觉得并不冲突。
(bgm38)

评分肯定是没办法杜绝所有影响做到绝对主客观的，我看到顺眼的人评分也会在我心中多少会贴近一点点印象分，看到讨厌的人评分也多少会反其道增减一点点印象分。

#4-1 - 2022-3-26 22:09

君寻

一般我们认为前者占主导地位，但其实后者才是 (bgm38)

#5 - 2022-3-26 20:48

未必说明网站有基因，因为可能2018年已经有了很大的评分基数，4年新增的评分也没有产生决定性的变化。

更有信息含量的是去把四年间的变化刻画出来，看看变化的方向是什么。这里需要对数据有效精度的拟合补充，比如B站在9.9到9.1之间因为离散化成几档导致数据比较难看出来连续趋势。

#5-1 - 2022-3-26 22:07

君寻

bilibili的评分基数从1515增长到了2530，增长67%
bangumi的评分基数从4490增长到了6865，增长53%
增长的幅度已经很大了

#5-2 - 2022-3-26 22:22

Cedar

君寻说: bilibili的评分基数从1515增长到了2530，增长67%
bangumi的评分基数从4490增长到了6865，增长53%
增长的幅度已经很大了

能不能把这4年新增的评分单独划分出来拟合成一条曲线来跟4年前的做对比？

#5-3 - 2022-3-26 23:50

君寻

Cedar 说: 能不能把这4年新增的评分单独划分出来拟合成一条曲线来跟4年前的做对比？

已更新
最近几年bangumi的评分整体呈下降趋势 (bgm39)

#5-4 - 2022-3-27 00:26

Cedar

君寻说: 已更新
最近几年bangumi的评分整体呈下降趋势

果然，我就觉得有变化才比较正常

#5-5 - 2022-3-27 00:51

君寻说: bilibili的评分基数从1515增长到了2530，增长67%
bangumi的评分基数从4490增长到了6865，增长53%
增长的幅度已经很大了

评分基数是评分次数，不是评分对象的数量，看新番的人也会给老番评分。又举例说，移动平均线总是比指标本身变化要平缓，因为它混合了所有历史信息。在评价基因之前需要先把客体定义弄清楚，是什么东西在变化或者没变化。

一个比较好的评价方法是把2018以前的评分与2018到2022的评分做对比，看它的变化的数量。现在的图片，看起来相近，也许只是画图比例的偶然原因，没有绝对意义。

E: 我看到新图了，关于基因，两者当然有很大的区别，有明显的特征可以区分，具体说就是两者有两个分布，以及各自分布的参数。问题还是基因这个比喻是关于某个物体内部一致性，那么各自分布的先验参数是不是有较小的变化，是判断基因这个特征存在性的依据。反之如果两者只是差别很大，而自身内部变化也很大，就要怀疑是否有基因了。

#5-6 - 2022-3-28 10:03

狂犬榨汁姬艾莉丝

君寻说: 已更新
最近几年bangumi的评分整体呈下降趋势

合理，证明海贼王的确是本站高分动画之耻 (bgm38)

#6 - 2022-3-26 21:12

Phaedo++ (你不觉得网络和梦境很像吗？)

支持

#7 - 2022-3-26 22:13

Another (追番日益，补番日损)

都是sai的大手罢了 (bgm38)

#8 - 2022-3-26 22:14

非常交易 (为什么有超神作这一评价……)

基数？

#8-1 - 2022-3-26 23:46

非常交易

或者应该说基底？

#8-2 - 2022-3-26 23:54

君寻

B站取全部有评分的动画
bgm只取排行榜数据，不是全部

#8-3 - 2022-3-27 00:31

非常交易

君寻说: B站取全部有评分的动画
bgm只取排行榜数据，不是全部

额，我觉得可能和你说的基因这个东西可能挺相像，但是又说不上来有没有区别，网站里动画的评分毕竟也是一点一点评出来的，不是网站一开始就带有的属性（吧） (bgm38)

#9 - 2022-3-26 22:17

麻麻麻花 (壮志饥餐女权肉笑谈渴饮战狼血)

可是自觉6分一下的动画本身就很难看完然后评价吧能看完往往不会觉得差到极致总有吸引自己的点吧也会导致平均分很高吧

#10 - 2022-3-26 23:49

aquarium (至少，还活着。)

感觉对于我而言确实是网站决定了我的评分 (bgm30)

，似乎我自己的评分和bgm评分的差距大多都在一分以内..

#11 - 2022-3-27 00:23

杂物囮

删除了回复

#11-1 - 2022-3-27 00:47

飛龍 🇺🇸🇯🇵🇹🇼🇺🇦

这可能不是没有，大话西游就是个例子。

#11-2 - 2022-3-27 04:45

山岚夜雨

你说的问题是不同的人对同一个（批）作品的评分趋势。楼主想说的应该是不同网站整体评分（习惯/氛围）对它们用户的影响。两个网站也都有新用户，这个图表想说明的是一批又一批新用户，结果并没有太偏离那个网站的评分“氛围”

#11-3 - 2022-3-27 10:16

杂物囮

山岚夜雨说: 你说的问题是不同的人对同一个（批）作品的评分趋势。楼主想说的应该是不同网站整体评分（习惯/氛围）对它们用户的影响。两个网站也都有新用户，这个图表想说明的是一批又一批新用户，结果并没有太偏离那个网站的评...

我的问题，文章没看完就评论了

#12 - 2022-3-27 01:04

飛龍 🇺🇸🇯🇵🇹🇼🇺🇦 (让我们远离冰冷的房间，亲自推动历史的进程。 ...)

我觉得楼主所说的【网站的整体评分影响了用户评分，甚至决定用户评分】是有道理的。
本质上就是先进带后进，草根阶层对文化精英内心还是有向往和崇拜的。而且相似的现象在15年之前的豆瓣已经印证过了。

2010年之前的豆瓣还是一个非常小众的文艺社区，当时的注册用户全部是国内的顶尖知识分子，平均学历硕士以上，是可以和清华水木北大未名扳手腕的。水平到什么程度呢？某建筑设计专业的用户随手一篇考据日志可以被人剽窃去当论文发表。任何小众论坛只要具备日后兴起的潜力，在建站之初一定是有相当水平的活跃用户在撑场的。更何况 BGM 建站的时候也在很多方面参考了豆瓣。

包括我自己也是，豆瓣条目的评分特别是好友评分是有重要参照意义的。也就是说最早创建条目或者给这个条目评分的人实际上给后来者带来很大影响。那么这些用户是什么人呢？对一些书籍来说，他可能是最早的翻译者，出版者，电影的话可能是最早的影展的策划者参加者，业内的导演编剧甚至评论家。音乐也是类似。尤其对于外来文化，基本都是最早有能力有门路接触这些舶来作品的人，这些人毫无疑问是文化精英。

当然在饭圈文化兴起之后就难说了，把无知当有趣的人太多了。

#13 - 2022-3-27 05:46

徒手开根号二 (nobody cares.)

差分应该更有意义一点+1；不过确实我现在只打6789，10分的区分度完全没被用上。
-
另一方面，新评分对已有评分的粘滞本来就是情理之中的事情；而当我再遇到大众给出7.5分作品时，我会打下7分还是8分这样的偏向几何才是更有信息量更有参考价值的东西吧。

#14 - 2022-3-27 08:51

笙歌看水 (一川yan草，满城风絮，梅子黄时雨。)

这结论过于显然。
在略微观察b站/你班的评分后，一个觉得作品a挺不错但没有特别喜欢的用户，给a4星/610分会占据评分行为总体多大比例，无需任何抽样估计偏差也很难超过5%。
主动适应评分网站的“评分习惯”，就和入乡随俗一样，是绝大多数人下意识会遵循的礼仪。或者说，常驻用户绝大部分会留下来的一个原因就是愿意遵循这个礼仪。
在具体打分实践上还会受锚定效应影响，锚就是已有评分本身，这个基本都知道，几年前小组里也有人讨论过，就不多讲了。

#14-1 - 2022-3-27 09:52

Clippers

#15 - 2022-3-27 08:54

随随便便 (只是一个看动画片的)

最近几年确实没啥好作品

#16 - 2022-3-27 09:27

1ra

网站的整体评分影响了用户评分，一定程度上可以说是决定了用户评分。

+1，这一点我深有体会。
以前做过一个小脚本，实时显示自己评分与MAL均分的相关系数。然后我发现，这个系数随着时间推移出现了明显的上升，又看了几个好友也是如此。这不禁让我有些害怕，大家嘴上都说凭自己喜好打分，可真正能做到随心所欲的又有几个？哪怕是在选番时瞄一眼平均分，自己的潜意识就会在不知不觉中被网站意志所操控 (bgm38)

所以我来到BGM后的第一件事就是屏蔽用户评分

#16-1 - 2022-3-27 10:27

年轮蛋糕

之前我也热衷于打分，在发现这个现象之后我把自己的打分全部删除了 (bgm38)

这叫屏蔽自己的评分

#17 - 2022-3-27 09:30

Sizer

删除了回复

#18 - 2022-3-27 11:45

银毛熊

我自己观察到的是很多老番都在默默升分

#19 - 2022-3-27 12:02

c933103 (請注意UID)

我自己評6分已經算是中上…

#20 - 2022-3-27 13:39

du_shule

虽然bgm给每个分数都做了简单的解释，但这终究只是参考。评价是一个主观的事物，人对字面的"评分标准"的理解总会因人而异，文字解释不可能完全定义评分的实际含义。真正定义某个评分意味着什么的只能是已有评价的总和，绝大部分用户评价时都会下意识往这个抽象的标准靠。

#21 - 2022-3-27 14:58

Konoha (小圣杯毕业，回归动漫生活)

整体给出的打分下降了？

#22 - 2022-3-27 16:39

川水 (Anime is a gag, and so are its dilettantes.)

如果评分趋势没有发生很大变化，是不是可以反过来再去考虑一下用户群体发生了很大变化的假设？

#23 - 2022-3-27 18:41

楓の海

事先看到评分再去看作品就会带上滤镜，对于想单纯欣赏作品的人来说没有好处

#24 - 2022-3-27 20:28

juniorant

虽然整体条目均分在下降，但是前排作品均分是逐渐上涨的，我个人的看法是bgm日益大众化导致评分逐渐分化

#24-1 - 2022-3-27 20:38

Michen

+1 看了几部21年的作品，感觉都有一点过高

#24-2 - 2022-3-27 22:33

Phaedo++

#25 - 2022-3-28 08:17

小鱿鱼

看了一部片，觉得比较烂，如果我自己盲打，可能会打五分。要是网站显示4分，我可能就会打3分，要是网站显示9分，我可能就会打7分
整体也是如此，网站平均分为7分，我就会围绕7分打，网站平均分9分，我也不会让我喜欢的吃亏这种感觉

#26 - 2022-3-28 08:24

镜子阁 (Dream a dream)

我觉得你可以不光是用这两个网站，国外的moe也可以测一测

#27 - 2022-3-28 09:56

OH_toothache (小圣杯邀请码: whyjxz14#576501)

能不能增加一个里番的。我体感大家打的里番分数明显变高了
[来自Bangumi for android] 获取

#28 - 2022-3-28 12:07

小T (愿意给我5分钟的编辑时间吗？)

新的吹逼素材get

留个印象有时莫名其妙直接能拿来用到哈哈。（虽然比较常是看到个b站评分9.X分如何评价的钓鱼...... (bgm38)

）

不过蛮有意思的是新增的评分曲线，虽然很受原始评分影响，但是也有一点自己的调性存在——嘛，bangumi应该很难再收割一大批新用户来冲击现有的评分就是了。

#29 - 2022-3-28 12:33

th3ta "Paradox" (Rigidity and Uncertainty~☆)

用户评价塑造网站评分 → 网站评价塑造用户评分
我觉得其中应该考虑网站本身作为信息来源对于用户的影响，比如用户可以看到已有的评分，那么最 trivial 的模型就是选择打分最多的那一档作为自己的评价，除此以外还有每话的讨论页面，以及作品相关的日志页面下面的讨论，这些都会造成评分的 diffusion，所以在有网络关系的情况下，群体形成的评价本身会对后来者的评价造成影响

#30 - 2022-3-28 12:36

honami (少说多看)

确实，个人习惯给分在7分左右，这两年几乎把之前评分都下调了一分到两分，我的好友评分基本比正常评分低个1-0.5 (bgm38)

/ 返回评分与排名讨论会小组

评分与排名讨论会 » 讨论评分网站的基因：评分分布曲线

评分与排名讨论会 » 讨论
评分网站的基因：评分分布曲线