#1 - 2017-10-13 20:39
君寻 (已淡出bgm38)
1.数据来源与样本选择
数据来源:https://1drv.ms/x/s!Ar_1KpxGv0F-gjGSAj-Cjei8zi22,即之前在https://bgm.tv/group/topic/343962 中进行的B站评分统计,之后又加入了bgm和豆瓣的评分数据。
样本选择:因为开始是做B站评分统计,所以统计的基准是按B站有评分的作品进行统计,数据中B站评分为空的作品是因为B站评分人数不足,未有评分,所有统计的作品均在B站番组之中,B站番组之外的作品未纳入统计。
2.样本数据的分布特性
对评分数据按照四舍五入的原则进行分数归纳,得出豆瓣、bgm、bilibili 三者的评分数据分布特性如下图所示:
豆瓣的评分主要分布在6~9分,9分最多,其实9~10分的作品不少,但因为大多集中在9.0~9.5分之间,所以归入了9分;bgm的评分主要分布在6~9分,7分最多;bilibili的评分主要分布在6~10分,9分最多,而10分在三者中是最多的。
3.豆瓣、bgm、bilibili 评分的对比分布
研究两组随机变量之间的相关关系,可以使用相关系数来描述两组随机变量之间的线性相关程度,这里通过计算简单相关系数来分析两组评分之间的线性相关关系。
简单相关系数,又叫相关系数或线性相关系数,一般用字母r 表示,用来度量两个变量间的线性关系。
(1)bgm与bilibili的评分对比分布:
(2)豆瓣与bilibili的评分对比分布:
(3)豆瓣与bgm的评分对比分布:
相关系数r越接近于1,则说明两组变量的线性相关关系越显著,一般来说,r>0.9说明相关性高,r<0.8则相关性较低。可以看出豆瓣和bgm与bilibili的评分相关性都不是很高(低于0.9),而豆瓣与bgm的评分相关性是比较高的(高于0.9)
4.豆瓣、bgm、bilibili 评分关系的假设与检验
通过观察样本数据,豆瓣评分几乎都在bgm评分与bilibili评分之间,评分越高越接近bilibili评分,评分越低则越接近bgm评分。
(1)初步简单线性拟合
拟合评分=(豆瓣评分-6)*bilibili评分/4+(10-豆瓣评分)*bgm评分/4
下图是豆瓣评分与拟合评分的对比分布:
相关性非常高,基本可以确定存在线性关系
(2)关系函数假设
假设:豆瓣评分=α*bilibili评分+(1-α)*bgm评分,α为(0,1)之间的参数变量
得:α=(豆瓣评分-bgm评分)/(bilibili评分-bgm评分)
待续...
我认为,这个结果可能说明,豆瓣、bgm、bilibili 的评分群体具有某种内在的共同属性。豆瓣的群体可能是bgm与bilibili的融合,或者兼具两者的特性,或者是同一属性的群体在三个环境下的不同体现。
豆瓣、bgm、bilibili 评分之间的关系研究
1.数据来源与样本选择
数据来源:https://1drv.ms/x/s!Ar_1KpxGv0F-gjGSAj-Cjei8zi22,即之前在https://bgm.tv/group/topic/343962 中进行的B站评分统计,之后又加入了bgm和豆瓣的评分数据。
样本选择:因为开始是做B站评分统计,所以统计的基准是按B站有评分的作品进行统计,数据中B站评分为空的作品是因为B站评分人数不足,未有评分,所有统计的作品均在B站番组之中,B站番组之外的作品未纳入统计。
2.样本数据的分布特性
对评分数据按照四舍五入的原则进行分数归纳,得出豆瓣、bgm、bilibili 三者的评分数据分布特性如下图所示:
豆瓣的评分主要分布在6~9分,9分最多,其实9~10分的作品不少,但因为大多集中在9.0~9.5分之间,所以归入了9分;bgm的评分主要分布在6~9分,7分最多;bilibili的评分主要分布在6~10分,9分最多,而10分在三者中是最多的。
3.豆瓣、bgm、bilibili 评分的对比分布
研究两组随机变量之间的相关关系,可以使用相关系数来描述两组随机变量之间的线性相关程度,这里通过计算简单相关系数来分析两组评分之间的线性相关关系。
简单相关系数,又叫相关系数或线性相关系数,一般用字母r 表示,用来度量两个变量间的线性关系。
(1)bgm与bilibili的评分对比分布:
r=0.83
(2)豆瓣与bilibili的评分对比分布:
r=0.81
(3)豆瓣与bgm的评分对比分布:
r=0.91
相关系数r越接近于1,则说明两组变量的线性相关关系越显著,一般来说,r>0.9说明相关性高,r<0.8则相关性较低。可以看出豆瓣和bgm与bilibili的评分相关性都不是很高(低于0.9),而豆瓣与bgm的评分相关性是比较高的(高于0.9)
4.豆瓣、bgm、bilibili 评分关系的假设与检验
通过观察样本数据,豆瓣评分几乎都在bgm评分与bilibili评分之间,评分越高越接近bilibili评分,评分越低则越接近bgm评分。
(1)初步简单线性拟合
拟合评分=(豆瓣评分-6)*bilibili评分/4+(10-豆瓣评分)*bgm评分/4
下图是豆瓣评分与拟合评分的对比分布:
r=0.96
相关性非常高,基本可以确定存在线性关系
(2)关系函数假设
假设:豆瓣评分=α*bilibili评分+(1-α)*bgm评分,α为(0,1)之间的参数变量
得:α=(豆瓣评分-bgm评分)/(bilibili评分-bgm评分)
待续...
我认为,这个结果可能说明,豆瓣、bgm、bilibili 的评分群体具有某种内在的共同属性。豆瓣的群体可能是bgm与bilibili的融合,或者兼具两者的特性,或者是同一属性的群体在三个环境下的不同体现。
这里lz应该是取四舍五入的结果,即9.5~10分为10分分段,8.5~9.4分为9分分段……(条目分数显示小数点后一位)
当然,对于豆瓣和b站评分而言,本楼图表中的1分分段是多余的,因为五分制最低只能给1颗星,即2分
这些是B站番组里有的,其他的去豆瓣看就知道了
https://movie.douban.com/tag/#/? ... =%E5%8A%A8%E7%94%BB