#1 - 2022-3-26 18:51
君寻 (已淡出bgm38)
2018年,我发了一篇题为《不同网站评分之间的对应方法》的小组讨论,其中提到了“评分分布曲线”的概念,这是我自定义的一个概念,“评分分布曲线”是把一个网站的评分作品按评分从高到低排序,再把分数用散点图表示出来,拟合得到的一条分布曲线。
如今已经2022年了,无论是B站还是bgm用户群体都发生了很大变化,我想到如果将现在的bangumi和bilibili的评分数据和当时的数据作个对比,评分分布曲线是否会发生变化,变化程度是大还是小呢?于是我得到了下面两张分布图:
——————————————————————————————————————————
更新:
上面的图是对两组数据的坐标轴进行了微调后拟合的结果,表明评分曲线随时间的变化基本就是原曲线的伸缩,不会发生本质变化
如果将数据的坐标轴精准地归一化,即让两条曲线首位精准对齐,得到的结果如下:
如果把2018-2022新增的评分数据和原来的数据进行对比,得到的结果如下:
可以看到最近几年bangumi的评分整体呈下降趋势,这和我们关于业界药丸的认知也是相符的
评分数据:https://www.aliyundrive.com/s/WQLvbpXATuJ ,有需要的可以下载(没有注册阿里云盘的请用我的邀请链接)
——————————————————————————————————————————
虽然之前我就猜测评分分布曲线的变化不会很大,但结果的高度一致性还是出乎我的意料。这说明网站的评分分布曲线具有很强的稳定性,一旦成型就很难改变,仿佛就像是评分网站的基因一般。
一般而言,我们会认为用户评分塑造和影响了网站的整体评分,但从数据的层面看,结果恰好相反,是网站的整体评分影响了用户评分,一定程度上可以说是决定了用户评分。
如今已经2022年了,无论是B站还是bgm用户群体都发生了很大变化,我想到如果将现在的bangumi和bilibili的评分数据和当时的数据作个对比,评分分布曲线是否会发生变化,变化程度是大还是小呢?于是我得到了下面两张分布图:
bangumi 2018-2022 评分分布曲线
bilibili 2018-2022 评分分布曲线
——————————————————————————————————————————
更新:
上面的图是对两组数据的坐标轴进行了微调后拟合的结果,表明评分曲线随时间的变化基本就是原曲线的伸缩,不会发生本质变化
如果将数据的坐标轴精准地归一化,即让两条曲线首位精准对齐,得到的结果如下:
bangumi 2018-2022 评分分布曲线
bilibili 2018-2022 评分分布曲线
如果把2018-2022新增的评分数据和原来的数据进行对比,得到的结果如下:
bangumi
bilibili
可以看到最近几年bangumi的评分整体呈下降趋势,这和我们关于业界药丸的认知也是相符的
评分数据:https://www.aliyundrive.com/s/WQLvbpXATuJ ,有需要的可以下载(没有注册阿里云盘的请用我的邀请链接)
——————————————————————————————————————————
虽然之前我就猜测评分分布曲线的变化不会很大,但结果的高度一致性还是出乎我的意料。这说明网站的评分分布曲线具有很强的稳定性,一旦成型就很难改变,仿佛就像是评分网站的基因一般。
一般而言,我们会认为用户评分塑造和影响了网站的整体评分,但从数据的层面看,结果恰好相反,是网站的整体评分影响了用户评分,一定程度上可以说是决定了用户评分。
追求正态太难了
bangumi的评分基数从4490增长到了6865,增长53%
增长的幅度已经很大了
最近几年bangumi的评分整体呈下降趋势
一个比较好的评价方法是把2018以前的评分与2018到2022的评分做对比,看它的变化的数量。现在的图片,看起来相近,也许只是画图比例的偶然原因,没有绝对意义。
E: 我看到新图了,关于基因,两者当然有很大的区别,有明显的特征可以区分,具体说就是两者有两个分布,以及各自分布的参数。问题还是基因这个比喻是关于某个物体内部一致性,那么各自分布的先验参数是不是有较小的变化,是判断基因这个特征存在性的依据。反之如果两者只是差别很大,而自身内部变化也很大,就要怀疑是否有基因了。
bgm只取排行榜数据,不是全部
这叫屏蔽自己的评分