2013-10-19 12:16 /
用python写了个抓BGM评分+时间-->.xls的脚本,起因是开始追这个季度的番前,7月番因诸多原因普遍停在3话,直到前天终于补到了十月番,累感不爱。看十月各番第一话时就在想,放送初期的评分与放送完毕后稳定评分有多大差距,期间又是如何变化的。所以就写了这么个玩意。

我记得@upsuper曾经用rb写过一个统计评分分布的脚本。前段时间有念头自己写个抓看过条目数据(名称,评分,时间,各种监督,制作公司以及infobox里各种信息),因为我只会拼写Visual Basic和C++,所以当时考虑是速成rb,然后照猫画虎来个,还是用C++写(太麻烦了),或者干脆搞个别的。最后权衡了一下决定用python。目前没写完,也懒得写了。

想写这个时发现py基本全忘干净了,又拿之前写的看了遍,然后觉得应该只用程序抓数据然后用excel分析比较靠谱。所以写了这个抓评分+时间的脚本

脚本这里

注意:
1、我用的python2.7。
2、运行前请注意是否安装Module Beautifulsoup + xlwt
3、因为我不会写程序单线程处理,程序效率低下(一页一页读网页分析,1K评分就是快60页)研究完毕,已经简单改写成多线程(目前为4),但依然效率低下,只要一个线程没成功抓到网页就跪了呵呵呵。另外没有断点续传。
4、图表时间轴最小值均设定为开始放送时间,不考虑先行放送。初期样本数量少波动较大
5、没有抓番组开始放送时间,因为要多分析一个网页,我太懒了。所以手工再查一下吧。
6、列表ID不要有多余的空格和换行,不然会跪

特性:
1、读入目录下MAlist.txt中的条目ID批量抓取
2、同时抓取看过,再看,搁置,抛弃(统一数据)(有些人想看还打分是闹哪样),并统计当天评分人数
3、自动跳过未评分用户,评分时间以显示为准,不考虑中途修改过评分这种情况(视评分为理想状况,即每个人评分后不再改动。另外因为大多数人喜欢看完再评分,显然初期结果将会很不准确)
4、输出到db_Marks.xls,每个id一个sheet,已修改成输出id+title.xls,一个id一个文件)
内容包括:
第1行:日文名,平均分,有效评分人数
第2行:分数,时间(精确到分钟);时间(精确到天), 当天评分人数
第3行开始为第二行所述两组数据,其中C3为平均分计算式,(请手工在输入栏敲下回车,因为我太弱,输出公式老是出错,索性输出str了)
见图

5、Excel请手工处理


我选取了11年的一部分番进行了抓取制图,因为11年BGM人数已有一定积累,且距现在时间差不小(2年)。番组选取从以下几个方面考虑:
1,长度(季番,半年番)
2,原作(原创,轻改,漫改,Gal改)
3,类型(日常/剧情;少年/少女)
4,是否有前作(首季,二季)
5,大众向话题作

抓取时间 约为2013年10与18日晚至凌晨
选取列表及图表:

TV番组

评分人数>3000

Fate/Zero 8.3


あの日見た花の名前を僕達はまだ知らない。  8.3


ギルティクラウン  6.7


未来日記  7.6


花咲くいろは 7.6


魔法少女まどか☆マギカ 8.5


评分人数1000-3000

GOSICK -ゴシック-  7.2


僕は友達が少ない 7.2


IS〈インフィニット?ストラトス〉 6.6


THE iDOLM@STER  7.7


君と僕。 8.1


輪るピングドラム  8.2


ちはやふる  8.2


神のみぞ知るセカイII  7.5


WORKING’!!  7.8


君に届け 2ND SEASON  8.0


评分人数<1000

30歳の保健体育 10384 6.6


たまゆら?hitotose? 18605 7.4


ましろ色シンフォニー -The color of lovers- 12557 6.7


后来又追加了
進撃の巨人 8.1(样本密集)


けいおん! 7.8
けいおん!!7.7 (时间较久远,两季联动)


新世界より 8.1


映画
映画意义在于几乎不(应该)存在看到开头打个分,看到中间打个分,看到结尾再打个分这种情况

涼宮ハルヒの消失 8.6(映画,有效数据从2010-12-17有偷跑开始)


ヱヴァンゲリヲン新劇場版:Q 7.7


おおかみこどもの雨と雪 8.2


言の葉の庭 7.7


游戏

ダンガンロンパ 希望の学園と絶望の高校生


Fate/stay night


スーパーマリオブラザーズ


本人只提供数据,不作任何评论。仅供娱乐
#1 - 2013-10-19 12:55
(18年小结→bgm.tv/blog/286219)
某些某一天突然大幅度变动的是发生了什么……(bgm38)
#1-1 - 2013-10-19 12:57
.
比如放送结束
#1-2 - 2013-10-19 13:09
mizudiwood
. 说: 比如放送结束
花牌情缘和回转企鹅罐特别明显~
#1-3 - 2013-10-19 13:42
后圣域传说
mizudiwood 说: 花牌情缘和回转企鹅罐特别明显~
这种一般就是看完感觉神作结局之类的然后就提高了评分咯~
#1-4 - 2013-10-19 13:51
mizudiwood
后圣域传说 说: 这种一般就是看完感觉神作结局之类的然后就提高了评分咯~
我基本上都是等完结再评分呢~大概就是这种原因吧
#2 - 2013-10-19 12:57
(不要停!)
好玩
#3 - 2013-10-19 13:00
(意想不到的事情发生了)
好厉害~  可以从完结那天开始,求个斜率(bgm72)
#4 - 2013-10-19 13:04
(Dreamer of dreams)
果然花开伊吕波是典型的高开低走吗……
企鹅罐反过来的样子好有趣(bgm85)
#4-1 - 2013-10-19 19:35
.
高开低走还有我大GC
#5 - 2013-10-19 13:26
(Ruby ❤ Sapphire)
好像只有偶像大师是往上走的。。。
#5-1 - 2013-10-19 13:31
Killy
只因起评低...而且没过8分...
#5-2 - 2013-10-19 14:17
.
杀人歌牌也有微弱上升。我选了几个认为可能上升的,结果都是下降= =
#6 - 2013-10-19 13:31
(霍克prpr)
壮哉我大花牌
#7 - 2013-10-19 13:32
(霍克prpr)
求游戏的(´・ω・`)
#7-1 - 2013-10-19 14:17
.
什么游戏的?我不太玩游戏。。。
#7-2 - 2013-10-19 14:24
SuNNy
. 说: 什么游戏的?我不太玩游戏。。。
就是在排名里的的游戏都行w
#7-3 - 2013-10-19 19:32
.
SuNNy 说: 就是在排名里的的游戏都行w
スーパーマリオブラザーズ
#8 - 2013-10-19 13:42
(不知怎么的就下海了....)
意外的有喜感(bgm38)
#9 - 2013-10-19 14:08
(無駄無駄無駄喵~)
好有趣
#10 - 2013-10-19 14:19
(✨️VIP 8✨️)
最后涼宮消失的10.2是什么情况?
#10-1 - 2013-10-19 14:20
.
。。。我换下图,表格纵轴忘调了
#11 - 2013-10-19 14:20
(V1046-R MAHORO)
mark
#11-1 - 2013-10-19 14:47
#11-2 - 2013-10-19 15:01
H265
mark
#11-3 - 2013-10-20 06:15
烈之斩
H265 说: mark
mark自重……咦
#12 - 2013-10-19 15:57
(✨️VIP 8✨️)
怪不得最近总有人反应服务器很卡 (bgm38)
#12-1 - 2013-10-19 16:39
Venusxx
gj
#13 - 2013-10-20 22:56
(オトコのコはメイド服がお好き!)
不明觉屌
Q的前面感觉好崎岖啊……
#14 - 2013-10-20 23:16
提示下快速看图的各位,纵轴 not to scale
#15 - 2015-4-2 16:34
(动画爱好者,不是阿宅)
Q还真是坎坷不平啊(bgm38)