#1 - 2015-2-8 20:59
Genius🌟小乖💯 (Enjoy your (real) life!)
我想接下来可能会有很多更新,为了不打扰大家就开了这个小组。

由于本人很忙,以后每次更新都只会在周末发布。而且也不一定能保证每个周末都会有更新。

本次更新的主要内容有:
调整了数学模型(但是计算同步率的思路没有改变。)这一调整的主要影响有:
很大程度上遏制了只有一两个收藏的用户进入前十名榜单;
较上一次相比,同步率有很大变化。
同时,增加了你在好友同步率中的排名。
显示用户名改为显示昵称。(对不起,我想这一改变可能会增加 Bangumi 服务器负担……)
可方便地获得适用于 Bangumi BBCode 的分享文本。

本次没有更新:
使得更多的活跃用户进入前十榜单;
数据仍然是2015年1月15日之前的数据。

最后,感谢 @Simon Chan @Doream @汐雨听潮 @Detao 对上一次算法的反馈。
感谢 @Donuts. @Venusxx 的建设性建议。

戳我

Enjoy.
#2 - 2015-2-8 21:09
(少年听雨歌楼上,红烛昏罗帐。)
我在 Chi 中找到的同步率最高的十位 BGMer 如下:
@苍朦の月 57.1%
@kAA 57.1%
@橙味芬达 57.03%
@F·寒龙 56.95%
@Tillfore 56.76%
@大星淡 56.67%
@EpicFail 56.6%
@847373423 56.44%
@夏子 56.4%
@kour 56.2%

看上去科学多了,不过这是删去了那些活跃度低的用户吧,我记得第一次查那几个冬眠的和我有60多的同步率
不过我还是想知道同步率是怎么计算的,比如说我和那位叫夏子的只有一个共同爱好(bgm38)
#3 - 2015-2-8 21:19
我,Donuts.,在 Chi 中找到的同步率最高的十位 BGMer 如下:
@summerday 60.39%
@moemura 58.7%
@Arsene 58.55%
@笨笨的荣 58.52%
@阿尔法水王 58.5%
@Silence 58.49%
@格力高丽様 58.47%
@Tachyon 58.36%
@莎萝蔓蛇 58.27%
@Minty 58.23%

结果感觉不错呢, 找到了一些有趣的同好, 虽然我在对方的同步率排名中不算高, 不过看了收藏之后感觉和对方确实有不少相同相近的口味
还意外的发现了一位名叫moemura的评分二值化(1/10)的史诗稀有用户
BTW, donuts甜甜圈和minty小忍果然是天生一对(bgm108)
#3-1 - 2015-2-9 00:27
Minty
喂,汝是痴汉吗。话说汝有点眼熟的样子(bgm34)
#3-2 - 2015-2-9 17:08
Donuts
Minty 说: 喂,汝是痴汉吗。话说汝有点眼熟的样子
旧Kissshot 哟, 居然忘记了你与我等的第一次相遇吗?(bgm48)

#4 - 2015-2-8 22:03
(这个镜头,本监督很不满意)
似乎由于自己收藏的条目偏少,这个版本比上个版本的反馈要差一些

我在 Chi 中找到的同步率最高的两位BGMer:
174243 59.65%
jiuyue25 59.1%

我和上述两位唯一的共同点是——
抛弃了斩服少女
最开始还没发现第二这位的弃番列表,因为其他项完全没有任何重合,所以还感到丝丝奇怪来着(bgm38)
#4-1 - 2015-2-9 07:04
Genius🌟小乖💯
有可能大家认为同步率更注重“共同喜欢”的概念,但是我认为“共同不喜欢”也是一种同步。实际上,抛弃在同步率算法中的权重很大。
其实这个系统也能计算出全站与你同步率最低的十位用户,他们可能与你看的条目有重合,但是评价完全相反。这时候抛弃就能显示出价值了。
#4-2 - 2015-2-9 10:10
出戏
Genius、小乖 说: 有可能大家认为同步率更注重“共同喜欢”的概念,但是我认为“共同不喜欢”也是一种同步。实际上,抛弃在同步率算法中的权重很大。
其实这个系统也能计算出全站与你同步率最低的十位用户,他们可能与你看的条目有重...
嗯 我并不怀疑“共同抛弃”的匹配价值
似乎是这里的表述偏离了重点。前一版本得出的同步率较高用户与我大概有5~10项共同喜好,并且这些用户的“想看”列表里存在相当数目我同样“想看”但尚未标记的番组。(所以我觉得这个体验相当好QuQ 虽然少但特别准
这个版本返回的第一名仅标记了一部作品,嗯,是共同抛弃。第二名的共同点一样。 = -
第三名向后很棒,尽管活跃用户不多,还是像上次一样找到了小小的惊喜。
感谢。
#5 - 2015-2-8 22:38
(夜海全书)
我这里的情况变得较好了
有些情况下同步率高,仅仅是某人标记了一个系列的作品,而自己也同样标记了这一系列的作品
比如,@black柴和我同步率最高,是因为他标记了一堆《空之境界》。
能不能再统计一项数据:自己在别人的前十排名中出现的次数呢?看一下自己的存在感……
#5-1 - 2015-2-9 06:57
Genius🌟小乖💯
这是一个有趣的问题。其实不需要。只要看第一名对你的排名就可以估计出这项数据了。可以证明,在度量空间条件下,全站所有用户对你的排名都不会超过第一名对你的排名。
但是由于这个系统为了遏制少数收藏者进入榜单做了某些调整,使得性质 2 不符合。但是这不影响这个结论,因为证明过程没有用到性质 2.
结论就是:全站没有用户的前十名榜单中会有你。
#5-2 - 2015-2-9 09:25
Doream
Genius、小乖 说: 这是一个有趣的问题。其实不需要。只要看第一名对你的排名就可以估计出这项数据了。可以证明,在度量空间条件下,全站所有用户对你的排名都不会超过第一名对你的排名。
但是由于这个系统为了遏制少数收藏者进入榜单...
仔细一想的确这样啊…so sad
#5-3 - 2015-2-9 13:04
iahaa
Genius、小乖 说: 这是一个有趣的问题。其实不需要。只要看第一名对你的排名就可以估计出这项数据了。可以证明,在度量空间条件下,全站所有用户对你的排名都不会超过第一名对你的排名。
但是由于这个系统为了遏制少数收藏者进入榜单...
第一名对我的排名是277,第八名对我的排名是52,不符合啊
是我理解的不对吗。。。
#5-4 - 2015-2-9 15:17
Genius🌟小乖💯
iahaa 说: 第一名对我的排名是277,第八名对我的排名是52,不符合啊
是我理解的不对吗。。。
是我证明有误,我证明的是另一个结论。对不起啊。
#6 - 2015-2-8 23:39

好像还是不科学,这货排第九,一共标记了三部,我们共同抛弃了一部
#6-1 - 2015-2-9 07:07
Genius🌟小乖💯
Don't worry, I will fix it. (A possible explanation is given in #4-1)
#7 - 2015-2-9 08:45
(追逐别人的背影,直到ta消失)
我,心臟停止,在 Chi 中找到的同步率最高的十位 BGMer 如下:
@大白鹿软君 59.51%
@不动心 58.16%
@Vermouth丶 57.99%
@蒹葭 57.89%
@斩白华 56.64%
@微笑在泛滥 56.51%
@koyokoi 56.41%
@由依 56.13%
@装叉柯南 55.81%
@shrinica 55.55%
让我看一眼
上次就因为弃了Rio Rainbow Gate,10位都是11年左右不动的
#7-1 - 2015-2-9 08:58
心臟停止
好吧
第一位,第七位还是弃了RRG,第八位第十位则是看过
第四位则是因为我弃了漆黑子弹
以上几位从bgm来看同步率为0
第九位同样弃RRG,12年就没来过了
第五位来一次性点了格子就没来过了
#8 - 2015-2-9 11:05
(No Music, No Life)
我,MainasuK,在 Chi 中找到的同步率最高的十位 BGMer 如下:
@九如 55.52%
@Toscam 54.91%
@四月四日 54.88%
@key.吴 54.71%
@messi 54.7%
@赵翔宇love 54.57%
@Railgun 54.53%
@Caiych 54.46%
@abrongonge 54.42%
@totony 54.37%

贴出来研究一下
#9 - 2015-2-9 12:33
(分道扬镳)
上次的结果神准,这次似乎不太准了。。
#10 - 2015-2-9 20:02
(null)
我,amazingOtaku,在 Chi 中找到的同步率最高的十位 BGMer 如下:
@折木奉太郎 60.48%【19部看过
@orient 59.85%【10部再看9部看过
@Deadeve 58.86%【只标记了游戏
@想草就草 58.76%【只有两部看过
@白金火大 58.2%【95部看过【终于!
@xuniana 58.04%【9部在看
@Magician_1A 57.95%【61部看过【也是!
@布赫特 57.78%【112部看过【wow!~
@Vindalfr 57.72%【4部在看
@nekoumi 57.58%【194部看过【yo~……
#10-1 - 2015-2-9 20:10
原来的头像呢
另,这里的同步率是怎么算出来的?
和点开的时光机页面不一样啊
#10-2 - 2015-2-9 20:40
Donuts
amazingOtaku 说: 另,这里的同步率是怎么算出来的?
和点开的时光机页面不一样啊
上一帖
同步率是如何计算的?
和 Bangumi 官方算法不同,这个算法利用了你的评分信息和收藏信息。没有评分的作品在一定程度上也会影响同步率。
算法很高级吗?
目前的算法是一个比较保守的、结果能符合大家直观感受的算法,也因此没有用机器学习中的更高级的算法。更前卫的算法就需要更长时间的研究。
#10-3 - 2015-2-9 20:42
原来的头像呢
Donuts. 说: 见上一帖同步率是如何计算的?
和 Bangumi 官方算法不同,这个算法利用了你的评分信息和收藏信息。没有评分的作品在一定程度上也会影响同步率。
算法很高级吗?
目前的算法是一个比较保守的、结果能符合...
果然我就是瞎(bgm38)
#10-4 - 2015-2-9 20:47
Donuts
你的结果中好多奇行种www而且好多只收藏了20个以内的..
那个sdascccc居然把qq密码写在介绍里....(跑题)
#10-5 - 2015-2-9 20:53
原来的头像呢
Donuts. 说: 你的结果中好多奇行种www而且好多只收藏了20个以内的..
那个sdascccc居然把qq密码写在介绍里....(跑题)
(bgm38)
这都是什么鬼
#11 - 2015-2-9 23:23
(この勝利を、近所のおばさんに捧げる!)
关于好友信息怎么个用法。。我倒是有另一个想法

其实可以把好友信息先剔除,对于最后的结果,用好友在前10中所占百分比作为一个客观的评价标准

这么说的原因是这本质上是个unsupervised learning问题,虽然从大家的主观感受可以收到一些反馈,但还是需要一个客观的evaluation metric。举个例子,如果想用一些有参数的算法,没有cross-validation就没法调参了吧(不知道类似的问题lz是不是已经遇到了)?更基本一点,换了个算法进行了一些改进,要怎么知道真的改进了呢?

当然好友百分比并一定完全说明问题,只是我暂时想不到别的更好的signal了。个人认为如何选择evaluation metric这样的问题可以在这个小组拿出来让大家讨论,不需要太多专业知识,但需要大家提供灵感和可能性。


顺便求问一下目前的算法详细。
#11-1 - 2015-2-10 02:57
Genius🌟小乖💯
我不信任好友信息,因为我加好友从来不是因为我们有共同喜好,而是在超展开碰到了说话有趣的人。而且别人加我好友我从来不拒绝——不管他/她看过什么或是否与我持有相近价值观。现实情况是复杂的,不能随便假设。
算法真的是最简单不过而且拍脑袋就能想出来的算法:每个人评分在其平均分上面一减,喜欢什么不喜欢什么就都出来了,然后归一化求余弦距离,完了!
#11-2 - 2015-2-10 03:04
Kane
Genius、小乖 说: 我不信任好友信息,因为我加好友从来不是因为我们有共同喜好,而是在超展开碰到了说话有趣的人。而且别人加我好友我从来不拒绝——不管他/她看过什么或是否与我持有相近价值观。现实情况是复杂的,不能随便假设。
...
现实是复杂的,不能随便假设
说的很对。但也有句stats的经典名言叫
all models are wrong, but some are useful.
:)

很高兴lz提到假设一词,其实我的假设并不是“每个人加好友都看共同喜好”,而是“有些人加好友看共同喜好”(至少我是),和“按照别的标准加好友的人,他们的筛选标准和共同喜好相对独立”。这是一个更弱的假设,但这个假设合理的话,好友信息还是可以用的。

最后,好友信息的确不一定合适,我只是抛砖引玉一下,觉得这个小组可以在这方面多讨论一些,提出更多的可能性来。从个人经验来看,一个实际的ML project难的往往不是核心用什么算法,而正是做出有效(而不仅仅是正确)的假设,以及系统地建立评价机制(e.g. training/validation/test)。
#11-3 - 2015-2-10 03:06
Kane
Genius、小乖 说: 我不信任好友信息,因为我加好友从来不是因为我们有共同喜好,而是在超展开碰到了说话有趣的人。而且别人加我好友我从来不拒绝——不管他/她看过什么或是否与我持有相近价值观。现实情况是复杂的,不能随便假设。
...
考虑过recommendation system里一些标准的方法吗,比如matrix low rank completion这样的?

顺便我是一个眼高手低的machine learning theorist(虽然我也自己写code),随口乱说,忽略实际的地方请随意鄙视。。

P.S. 刚看到这个
我也不知道,大概把 Mining Massive Datasets 上的算法都轮一遍吧。
所以recommendation system要到week 4吗(bgm38)(bgm38)(bgm38)
#11-4 - 2015-2-10 03:23
Genius🌟小乖💯
Kane 说: 现实是复杂的,不能随便假设说的很对。但也有句stats的经典名言叫
all models are wrong, but some are useful.
:)

很高兴lz提到假设一词,其实我的假设并...
说到模型,好的模型都是看数据看出来的(bgm38),但是我对大家的讨论还是抱有怀疑态度——特别是关于评分与排名的讨论。因为参与讨论的大都是超展开活跃人士,bgm 还有大量默默点格子的,还有只收藏了少数作品的,这些人很容易就会被忽略掉。
降维是个好方法,其实在 v0.1 里面我就用的降维,但是出来的结果令我百思不得其解,看来还是不能纸上谈兵啊。
#11-5 - 2015-2-10 03:27
Genius🌟小乖💯
Kane 说: 考虑过recommendation system里一些标准的方法吗,比如matrix low rank completion这样的?

顺便我是一个眼高手低的machine learning theo...
真正读书读得少的人是我啊(bgm38)
#11-6 - 2015-2-10 03:32
Kane
Genius、小乖 说: 说到模型,好的模型都是看数据看出来的,但是我对大家的讨论还是抱有怀疑态度——特别是关于评分与排名的讨论。因为参与讨论的大都是超展开活跃人士,bgm 还有大量默默点格子的,还有只收藏了少数作品的,这些人...
参与讨论的人本来就是全站的一个bias sample我就是得了只能不说人话的病(bgm38)(bgm38)(bgm38)
#11-7 - 2015-2-10 03:33
Kane
Genius、小乖 说: 说到模型,好的模型都是看数据看出来的,但是我对大家的讨论还是抱有怀疑态度——特别是关于评分与排名的讨论。因为参与讨论的大都是超展开活跃人士,bgm 还有大量默默点格子的,还有只收藏了少数作品的,这些人...
简单的降位有很强的线性假设的。。还有missing entry怎么处理也是门艺术技术
#11-8 - 2015-2-10 03:37
Genius🌟小乖💯
Kane 说: 简单的降位有很强的线性假设的。。还有missing entry怎么处理也是门艺术技术
所以现在就在考虑怎么映射到线性空间。目前想法是先按照评分分布聚类,然后再对每一类做非线性变换。
#12 - 2015-2-10 04:21
(你谁啊?我准许你套近乎了吗?)
我,lighthouse 不该,在 Chi 中找到的同步率最高的十位 BGMer 如下:
@Tammy 61.98%
@babie 61.76%
@achilleslin 60.04%
@零崎零崎 59.84%
@秋の云 59.82%
@啪噗噜酱 59.8%
@卓小机 59.68%
@不二冰茶 59.62%
@我叫GH 59.48%
@DeutziaScabra 59.39%
#12-1 - 2015-2-10 04:24
老大
全部都是僵尸用户(bgm38) 不过最高的倒是能有62%呢
#12-2 - 2015-8-15 18:12
我叫GH
lighthouse 不该 说: 全部都是僵尸用户 不过最高的倒是能有62%呢
_(:3 」∠)_
#12-3 - 2015-8-16 04:40
老大
我叫GH 说: _(:3 」∠)_
你看你隔了6个月才回复不是僵尸用户是什么(bgm38)
#13 - 2015-2-10 05:51
(今天是个去死的好日子)
我,‭Möbius,在 Chi 中找到的同步率最高的十位 BGMer 如下:
@HeilAsuka 58.67%
@約翰思密達 58.57%
@宛如梦幻 58.01%
@yangddd 57.95%
@胸口睡萝莉 57.73%
@Louise无双 57.61%
@VINCEの羽 57.38%
@挥舞着球与剑的少女们 57.28%
@Pigeon Zein 57.28%
@地狱魔炮 57.2%
#13-1 - 2015-2-10 05:55
‭Möbius
就两个活人。。。。
#13-2 - 2015-2-16 10:00
Pigeon Zein
‭Möbius 说: 就两个活人。。。。
唉……这是死亡预告吗
#14 - 2015-2-10 08:58
(神隐预定)
我,jujuo,在 Chi 中找到的同步率最高的十位 BGMer 如下:
@2bowen 58.34%
@早花月这子 57.31%
@minakamiyuki 57.0%
@nnmynnk 56.87%
@aplot 56.67%
@ScarletDream 56.6%
@蝉蝉 56.4%
@tapir 56.2%
@神尾观铃 56.2%
@某Bill 56.14%

第二位连头像也差不多诶~~
#14-1 - 2015-2-11 16:36
湊斗景明
咕嘿嘿
#14-2 - 2015-2-11 17:34
jujuo
minakamiyuki 说: 咕嘿嘿
握爪~~
#14-3 - 2015-2-11 17:46
湊斗景明
jujuo 说: 握爪~~
看了一下,你玩过的好多gal都是我想玩的呢ww
#14-4 - 2015-2-11 17:47
jujuo
minakamiyuki 说: 看了一下,你玩过的好多gal都是我想玩的呢ww
现在上班了就没怎么玩了,毕竟纪委办公室就在楼下。。。
#14-5 - 2015-2-11 17:52
湊斗景明
jujuo 说: 现在上班了就没怎么玩了,毕竟纪委办公室就在楼下。。。
大学狗表示还可以再战几年XD
#15 - 2015-3-1 00:33
(所过之处寸草不生)
我,地狱魔炮,在 Chi 中找到的同步率最高的十位 BGMer 如下:
@五尺唧唧 64.16%
@douz1 62.6%
@奏井夕雨 62.38%
@Mars 62.3%
@7450 61.6%
@mua 61.5%
@亲爱的芋头 61.16%
@netbug 60.98%
@麟镜禅 60.89%
@若汐 60.88%

我基本只用来记录动画和游戏的
今天突然发现被@了就看看
结果点了第一的基友之后。。。。
#16 - 2015-8-15 18:19
我,h82258652,在 Chi 中找到的动画条目同步率最高的十位一年内活跃的 BGMer 如下:
@游戏时间 68.77%
@Ayanami 67.5%
@QML 66.94%
@zimpha 66.08%
@悠姬L 65.65%
@JustGundam 65.46%
@single 65.32%
@吐槽不能 65.24%
@a_lulux 65.08%
@不愿透露姓名的Oisris 64.45%
#16-1 - 2015-8-15 18:20
h82258652
都是60+的同步率,看来我的追番还是比较大众的说(bgm38)