#1 - 2020-3-22 07:55
Oalvay
一直想整一个你班的评分数据。开始想用windrises的,但是这个一直还是18年的没更新;然后试图向小乖伸手,惨遭默拒。于是就试着用小乖的Bangumi Spider在我的腾讯云小水管上爬一下,结果如下:
脚本运行时间约为230个小时
发送请求143万余次,成功133余万次
爬到了980万余条收藏记录。
数据文件大小为570.5MB
稍微分析了一下,发现有评分的收藏记录里,没爬到的居然占了快五分之一。。。哭了
实在不想折腾scrapy重新爬一遍,于是就发个帖抛砖引玉,看能不能等一个大佬出手了
---------------------------------------------------
1. 数据地址
2. 两个链接地址速度可能会很慢或者打不开,翻墙可解决
脚本运行时间约为230个小时
发送请求143万余次,成功133余万次
爬到了980万余条收藏记录。
数据文件大小为570.5MB
稍微分析了一下,发现有评分的收藏记录里,没爬到的居然占了快五分之一。。。哭了
实在不想折腾scrapy重新爬一遍,于是就发个帖抛砖引玉,看能不能等一个大佬出手了
---------------------------------------------------
1. 数据地址
2. 两个链接地址速度可能会很慢或者打不开,翻墙可解决
#2 - 2020-3-22 08:19
随随便便
(只是一个看动画片的)
#3 - 2020-3-22 08:22
bennyli
(嗡嗡嗡)
#4 - 2020-3-22 08:31
逆淚
(19914)
#4-1 - 2020-3-22 08:46
Oalvay
api用过,貌似bangumi的api主要是给第三方app设计的,提供的数据不全,还是得爬网页。
#5 - 2020-3-22 09:05
FakeApollo
(皎洁的月光下 思绪会飞向何处)
#6 - 2020-3-22 09:08
Cedar
(。´-д-)
#6-1 - 2020-3-22 09:38
Oalvay
!不愧是Cedar,有这个可能。看来得换个方法分析
#6-2 - 2020-3-22 09:49
Cedar
什么"不愧是Cedar"啦我只是这么随口一说
#6-3 - 2020-3-22 11:08
弥御水Scyiki
你怎么把前面的!给漏了(
#6-4 - 2020-3-22 11:58
bangumi大西王
233
#7 - 2020-3-22 09:44
Donuts
#7-1 - 2020-3-22 11:58
Oalvay
错误的有10万次302、1万次502、200次503。咨询过小乖,没有简单的解决办法
#8 - 2020-3-22 11:12
若荼泱
(迷子でもいい、迷子でも進め。)
#8-1 - 2020-3-22 11:57
Oalvay
用腾讯云服务器爬的,爬好上传到了kaggle上
#9 - 2020-3-22 12:19
此间的少年x
#9-1 - 2020-3-22 13:41
Oalvay
有设置失败重爬,上限10次。不知道为啥还这样…
#10 - 2020-3-22 16:21
dhzy
#10-1 - 2021-2-7 01:30
dhzy
我竟然回过这个帖