【统计问题】如何判断一个数据分布是否正常？(i.e.评分是否有刷分) (讨论:銀魂°)

#1 - 2016-5-1 21:27

VMT

看这个提供的网页时候突然发现的。别的评分多是正态(?)分布，就只有銀魂° 的分布特别奇怪。

话说怎么判断一个数据被修改过了？拿这个数据和正态分布(?)做KSTest还是做卡方测试呢？还是有其他的方法？

没有学过(大概)统计诶，自学也不知道看什么好的书。有人可以推荐一些书目吗？如果有MOOC的网络课程就更好了！

#2 - 2016-5-2 00:03

Thunder (noblesse oblige)

对于情怀份量比较大的优秀作品，出现这种情况并不奇怪，10分（真爱）8分（客观上好评，但并不厨）总会比9分多一些
比如http://chii.in/subject/750、http://chii.in/subject/1270（水星领航员系列）

#3 - 2016-5-2 00:16

Thunder (noblesse oblige)

评分刷分一般看1分吧，因为多数作品刷10分效果远不如给其他作品刷一遍1分……不过很多排名前100的作品都被刷过1分 (bgm38)

均衡才是真理
如果遇上刷分的，还是冷门作品吃亏 (bgm38)

人工抓刷分也抓不完，不知道什么时候bgm能去掉极端值再算分

#4 - 2016-5-2 06:25

YRYR

按楼上解释，个人觉得或许可以理解为两个具有不同打分判定标准的群体的正态分布/泊松分布的叠加。

#5 - 2016-5-2 12:03

野生的蔬菜汁君 (喵星人派來的間諜)

1楼也不完全适用，翻下前20基本有两类，一种是10>9>8的那么一条往下走的曲线，然后还有一类是9分最多，10和8相近的 (bgm38)

。
仔细想了下，要单纯从评分的结果中判断是否分布不“正常”是挺困难的。。。关键是你很难从distribution的角度定义什么是“正常”。
真的要判断是否刷分，感觉要从user的角度，先有一个被认定是刷分号的data set，提炼出这类user的特征，然后就可以做判定了。。（类似于微博判定僵尸号的做法
（这个问题很有意思，适合做个research课题 (bgm38)

#5-1 - 2016-5-2 12:48

dhzy

所以说不要学统计，学cs

#5-2 - 2016-5-2 13:59

野生的蔬菜汁君

dhzy 说: 所以说不要学统计，学cs

in some sense, you are right[bgm38]

#5-3 - 2016-5-2 15:25

VMT

dhzy 说: 所以说不要学统计，学cs

啊，那么有什么书可以推荐的吗？不知道科班教材有什么诶。还有CS是什么？

#5-4 - 2016-5-2 17:09

竹竹火月口

另外两种不就符合科学了吗.....

#5-5 - 2016-5-3 02:17

dhzy

VMT 说: 啊，那么有什么书可以推荐的吗？不知道科班教材有什么诶。还有CS是什么？

computer science

#6 - 2016-5-2 16:12

重度可乐中毒症患者 (高帅富都是相似的，苦逼却各有各的苦逼 ... ... ... ... ...)

某种程度上来说情怀导致的加分和刷分也没啥不一样的吧...

#7 - 2016-5-2 17:44

Roulette☢roulette (><)

某种程度上来说哪有什么不是情怀导致的加分

#8 - 2016-5-2 21:22

miki

http://statweb.stanford.edu/~tibs/ElemStatLearn/
其实我还没看

#8-1 - 2016-5-2 21:24

VMT

Thx!

#8-2 - 2016-5-3 02:16

dhzy

VMT 说: Thx!

too difficult for a neophyte, absolutely not recommanded

#8-3 - 2016-5-3 02:54

Kane

这是ML的书，统计的分量轻了一点。书里和lz问题相关的顶多UL一章。。

#8-4 - 2016-5-3 09:29

miki

Kane 说: 这是ML的书，统计的分量轻了一点。书里和lz问题相关的顶多UL一章。。

我好像少加一句说明“其实我也是个找书入门的人”。。。

#9 - 2016-5-3 02:49

Kane (この勝利を、近所のおばさんに捧げる！)

正太假设可能太强了，要我的话更愿意接受诸如“大部分片子分布‘正常’”这样的假设，然后把问题reduce到anomaly detection

#10 - 2016-5-3 03:11

laike9m

这个真的有办法判定么？

#11 - 2016-5-3 03:23

ζ*'ヮ')ζ 讀者諸孃へ (愛讀者諸孃は御賛成下さいまし)

首先，没有任何理由支持正常的评分分布应当是正态分布；其次，bangumi的评分也不可能是正态分布，就算除开评分是离散的这点不论，那也最多是一个winsorized normal distribution（顺便，winsorize这个词中文译法对我来说一直是个谜……）

#11-1 - 2016-5-3 04:42

VMT

能推荐一下要看哪些书吗？

#11-2 - 2016-5-3 11:37

ζ*'ヮ')ζ 讀者諸孃へ

VMT 说: 能推荐一下要看哪些书吗？

要说推书，我还真的是没法推，因为自己本科就是学这个的，现在做的事情也离不开统计，所以真的是不清楚有哪本书可以一下子就能涵盖方方面面的。不过楼主提到的ks检验和卡方检验，说来其实都是非参数的方法啦，我一直觉得非参数统计本来就是统计学里最直观最富有趣味性的一类了，如果楼主有些基本的统计学基础，也许可以去找一本应用非参数统计的书来看看？我记得我当年的课外读物是这本：
https://book.douban.com/subject/26195029/
之所以说是课外读物是因为老师上课时根本不会讲这么浅的东西，全是大套的深奥理论……

#12 - 2017-11-20 23:53

當然用機器學習啦～

#13 - 2017-11-21 09:16

想到一類問題的算法：Graph Analysis 的 Spam detection
因為 User <=> Rating 可以看作 many to many 的關係，
那可以一定程度上認為存在一些 Spam rating 是由 Spam User （嗯？）產生的，而 Spam User 是那些經常打 Spam Rating 的人。
這是不是一個 recurrent definition 呢？取決於算法是否 converge 吧。
相關知識有 Markov Chain

以上很不成熟+零碎的想法

#14 - 2017-11-21 12:56

ydc

我觉得前几名全都不是正态 (bgm38)

光靠数据分布推断感觉很难
（把吐槽箱里的话拿出来做NLP吧！

#15 - 2017-11-21 18:07

事实是柿子 - ⭐️VIP3 (xD)

第一步：如何定义正常
好了卡住了 (bgm38)

#16 - 2017-11-22 03:58

ForsakenRei (A.T.Field)

理论上来说是正态以及各种左右长尾，但是你怎么考虑什么动画应该用什么样的分布呢233

#17 - 2022-8-25 01:04

SillySong

理论上来说可以找到所有动画评分的“平均分布”，i.e.，每部动画平均来说有多少比例的人给10分、多少9分、……。然后拿银魂的分布去和平均分布算KL divergence。

銀魂°