Chi: Bangumi 未来实验室 » 讨论
[Chi v0.2.1]同步率更新

#1 - 2015-2-8 20:59

Genius🌟小乖💯 (Enjoy your (real) life!)

我想接下来可能会有很多更新，为了不打扰大家就开了这个小组。

由于本人很忙，以后每次更新都只会在周末发布。而且也不一定能保证每个周末都会有更新。

本次更新的主要内容有：
调整了数学模型（但是计算同步率的思路没有改变。）这一调整的主要影响有：
很大程度上遏制了只有一两个收藏的用户进入前十名榜单；
较上一次相比，同步率有很大变化。
同时，增加了你在好友同步率中的排名。
显示用户名改为显示昵称。（对不起，我想这一改变可能会增加 Bangumi 服务器负担……）
可方便地获得适用于 Bangumi BBCode 的分享文本。

本次没有更新：
使得更多的活跃用户进入前十榜单；
数据仍然是2015年1月15日之前的数据。

最后，感谢 @Simon Chan @Doream @汐雨听潮 @Detao 对上一次算法的反馈。
感谢 @Donuts. @Venusxx 的建设性建议。

戳我

Enjoy.

#2 - 2015-2-8 21:09

潮汐听雨 (少年听雨歌楼上，红烛昏罗帐。)

我在 Chi 中找到的同步率最高的十位 BGMer 如下：
@苍朦の月 57.1%
@kAA 57.1%
@橙味芬达 57.03%
@F·寒龙 56.95%
@Tillfore 56.76%
@大星淡 56.67%
@EpicFail 56.6%
@847373423 56.44%
@夏子 56.4%
@kour 56.2%

看上去科学多了，不过这是删去了那些活跃度低的用户吧，我记得第一次查那几个冬眠的和我有60多的同步率
不过我还是想知道同步率是怎么计算的，比如说我和那位叫夏子的只有一个共同爱好 (bgm38)

#3 - 2015-2-8 21:19

Donuts

我，Donuts.，在 Chi 中找到的同步率最高的十位 BGMer 如下：
@summerday 60.39%
@moemura 58.7%
@Arsene 58.55%
@笨笨的荣 58.52%
@阿尔法水王 58.5%
@Silence 58.49%
@格力高丽様 58.47%
@Tachyon 58.36%
@莎萝蔓蛇 58.27%
@Minty 58.23%

结果感觉不错呢, 找到了一些有趣的同好, 虽然我在对方的同步率排名中不算高, 不过看了收藏之后感觉和对方确实有不少相同相近的口味
还意外的发现了一位名叫moemura的评分二值化(1/10)的史诗稀有用户
BTW, donuts甜甜圈和minty小忍果然是天生一对 (bgm108)

#3-1 - 2015-2-9 00:27

Minty

喂，汝是痴汉吗。话说汝有点眼熟的样子 (bgm34)

#3-2 - 2015-2-9 17:08

Donuts

Minty 说: 喂，汝是痴汉吗。话说汝有点眼熟的样子

旧Kissshot 哟, 居然忘记了你与我等的第一次相遇吗? (bgm48)

#4 - 2015-2-8 22:03

出戏 (这个镜头，本监督很不满意)

似乎由于自己收藏的条目偏少，这个版本比上个版本的反馈要差一些

我在 Chi 中找到的同步率最高的两位BGMer：
174243 59.65%
jiuyue25 59.1%

我和上述两位唯一的共同点是——
抛弃了斩服少女
最开始还没发现第二这位的弃番列表，因为其他项完全没有任何重合，所以还感到丝丝奇怪来着 (bgm38)

#4-1 - 2015-2-9 07:04

Genius🌟小乖💯

有可能大家认为同步率更注重“共同喜欢”的概念，但是我认为“共同不喜欢”也是一种同步。实际上，抛弃在同步率算法中的权重很大。
其实这个系统也能计算出全站与你同步率最低的十位用户，他们可能与你看的条目有重合，但是评价完全相反。这时候抛弃就能显示出价值了。

#4-2 - 2015-2-9 10:10

出戏

Genius、小乖说: 有可能大家认为同步率更注重“共同喜欢”的概念，但是我认为“共同不喜欢”也是一种同步。实际上，抛弃在同步率算法中的权重很大。
其实这个系统也能计算出全站与你同步率最低的十位用户，他们可能与你看的条目有重...

嗯我并不怀疑“共同抛弃”的匹配价值
似乎是这里的表述偏离了重点。前一版本得出的同步率较高用户与我大概有5~10项共同喜好，并且这些用户的“想看”列表里存在相当数目我同样“想看”但尚未标记的番组。（所以我觉得这个体验相当好QuQ 虽然少但特别准
这个版本返回的第一名仅标记了一部作品，嗯，是共同抛弃。第二名的共同点一样。 = -
第三名向后很棒，尽管活跃用户不多，还是像上次一样找到了小小的惊喜。
感谢。

#5 - 2015-2-8 22:38

Doream (夜海全书)

我这里的情况变得较好了
有些情况下同步率高，仅仅是某人标记了一个系列的作品，而自己也同样标记了这一系列的作品
比如，@black柴和我同步率最高，是因为他标记了一堆《空之境界》。
能不能再统计一项数据：自己在别人的前十排名中出现的次数呢？看一下自己的存在感……

#5-1 - 2015-2-9 06:57

Genius🌟小乖💯

这是一个有趣的问题。其实不需要。只要看第一名对你的排名就可以估计出这项数据了。可以证明，在度量空间条件下，全站所有用户对你的排名都不会超过第一名对你的排名。
但是由于这个系统为了遏制少数收藏者进入榜单做了某些调整，使得性质 2 不符合。但是这不影响这个结论，因为证明过程没有用到性质 2.
结论就是：全站没有用户的前十名榜单中会有你。

#5-2 - 2015-2-9 09:25

Doream

Genius、小乖说: 这是一个有趣的问题。其实不需要。只要看第一名对你的排名就可以估计出这项数据了。可以证明，在度量空间条件下，全站所有用户对你的排名都不会超过第一名对你的排名。
但是由于这个系统为了遏制少数收藏者进入榜单...

仔细一想的确这样啊…so sad

#5-3 - 2015-2-9 13:04

iahaa

第一名对我的排名是277，第八名对我的排名是52，不符合啊
是我理解的不对吗。。。

#5-4 - 2015-2-9 15:17

Genius🌟小乖💯

iahaa 说: 第一名对我的排名是277，第八名对我的排名是52，不符合啊
是我理解的不对吗。。。

是我证明有误，我证明的是另一个结论。对不起啊。

#6 - 2015-2-8 23:39

Simon Chan

好像还是不科学，这货排第九，一共标记了三部，我们共同抛弃了一部

#6-1 - 2015-2-9 07:07

Genius🌟小乖💯

Don't worry, I will fix it. (A possible explanation is given in #4-1)

#7 - 2015-2-9 08:45

心臟停止 (追逐别人的背影，直到ta消失)

我，心臟停止，在 Chi 中找到的同步率最高的十位 BGMer 如下：
@大白鹿软君 59.51%
@不动心 58.16%
@Vermouth丶 57.99%
@蒹葭 57.89%
@斩白华 56.64%
@微笑在泛滥 56.51%
@koyokoi 56.41%
@由依 56.13%
@装叉柯南 55.81%
@shrinica 55.55%
让我看一眼
上次就因为弃了Rio Rainbow Gate,10位都是11年左右不动的

#7-1 - 2015-2-9 08:58

心臟停止

好吧
第一位，第七位还是弃了RRG，第八位第十位则是看过
第四位则是因为我弃了漆黑子弹
以上几位从bgm来看同步率为0
第九位同样弃RRG,12年就没来过了
第五位来一次性点了格子就没来过了

#8 - 2015-2-9 11:05

CMK (No Music, No Life)

我，MainasuK，在 Chi 中找到的同步率最高的十位 BGMer 如下：
@九如 55.52%
@Toscam 54.91%
@四月四日 54.88%
@key.吴 54.71%
@messi 54.7%
@赵翔宇love 54.57%
@Railgun 54.53%
@Caiych 54.46%
@abrongonge 54.42%
@totony 54.37%

贴出来研究一下

#9 - 2015-2-9 12:33

途寄 (分道扬镳)

上次的结果神准，这次似乎不太准了。。

#10 - 2015-2-9 20:02

原来的头像呢 (null)

我，amazingOtaku，在 Chi 中找到的同步率最高的十位 BGMer 如下：
@折木奉太郎 60.48%【19部看过
@orient 59.85%【10部再看9部看过
@Deadeve 58.86%【只标记了游戏
@想草就草 58.76%【只有两部看过
@白金火大 58.2%【95部看过【终于！
@xuniana 58.04%【9部在看
@Magician_1A 57.95%【61部看过【也是！
@布赫特 57.78%【112部看过【wow!~
@Vindalfr 57.72%【4部在看
@nekoumi 57.58%【194部看过【yo~……

#10-1 - 2015-2-9 20:10

原来的头像呢

另，这里的同步率是怎么算出来的？
和点开的时光机页面不一样啊

#10-2 - 2015-2-9 20:40

Donuts

amazingOtaku 说: 另，这里的同步率是怎么算出来的？
和点开的时光机页面不一样啊

见上一帖

同步率是如何计算的？
和 Bangumi 官方算法不同，这个算法利用了你的评分信息和收藏信息。没有评分的作品在一定程度上也会影响同步率。
算法很高级吗？
目前的算法是一个比较保守的、结果能符合大家直观感受的算法，也因此没有用机器学习中的更高级的算法。更前卫的算法就需要更长时间的研究。

#10-3 - 2015-2-9 20:42

原来的头像呢

Donuts. 说: 见上一帖同步率是如何计算的？
和 Bangumi 官方算法不同，这个算法利用了你的评分信息和收藏信息。没有评分的作品在一定程度上也会影响同步率。
算法很高级吗？
目前的算法是一个比较保守的、结果能符合...

果然我就是瞎

#10-4 - 2015-2-9 20:47

Donuts

你的结果中好多奇行种www而且好多只收藏了20个以内的..
那个sdascccc居然把qq密码写在介绍里....(跑题)

#10-5 - 2015-2-9 20:53

原来的头像呢

Donuts. 说: 你的结果中好多奇行种www而且好多只收藏了20个以内的..
那个sdascccc居然把qq密码写在介绍里....(跑题)

这都是什么鬼

#11 - 2015-2-9 23:23

Kane (この勝利を、近所のおばさんに捧げる！)

关于好友信息怎么个用法。。我倒是有另一个想法

其实可以把好友信息先剔除，对于最后的结果，用好友在前10中所占百分比作为一个客观的评价标准

这么说的原因是这本质上是个unsupervised learning问题，虽然从大家的主观感受可以收到一些反馈，但还是需要一个客观的evaluation metric。举个例子，如果想用一些有参数的算法，没有cross-validation就没法调参了吧（不知道类似的问题lz是不是已经遇到了）？更基本一点，换了个算法进行了一些改进，要怎么知道真的改进了呢？

当然好友百分比并一定完全说明问题，只是我暂时想不到别的更好的signal了。个人认为如何选择evaluation metric这样的问题可以在这个小组拿出来让大家讨论，不需要太多专业知识，但需要大家提供灵感和可能性。

顺便求问一下目前的算法详细。

#11-1 - 2015-2-10 02:57

Genius🌟小乖💯

我不信任好友信息，因为我加好友从来不是因为我们有共同喜好，而是在超展开碰到了说话有趣的人。而且别人加我好友我从来不拒绝——不管他/她看过什么或是否与我持有相近价值观。现实情况是复杂的，不能随便假设。
算法真的是最简单不过而且拍脑袋就能想出来的算法：每个人评分在其平均分上面一减，喜欢什么不喜欢什么就都出来了，然后归一化求余弦距离，完了！

#11-2 - 2015-2-10 03:04

Kane

Genius、小乖说: 我不信任好友信息，因为我加好友从来不是因为我们有共同喜好，而是在超展开碰到了说话有趣的人。而且别人加我好友我从来不拒绝——不管他/她看过什么或是否与我持有相近价值观。现实情况是复杂的，不能随便假设。
...

现实是复杂的，不能随便假设

说的很对。但也有句stats的经典名言叫
all models are wrong, but some are useful.
:)

很高兴lz提到假设一词，其实我的假设并不是“每个人加好友都看共同喜好”，而是“有些人加好友看共同喜好”（至少我是），和“按照别的标准加好友的人，他们的筛选标准和共同喜好相对独立”。这是一个更弱的假设，但这个假设合理的话，好友信息还是可以用的。

最后，好友信息的确不一定合适，我只是抛砖引玉一下，觉得这个小组可以在这方面多讨论一些，提出更多的可能性来。从个人经验来看，一个实际的ML project难的往往不是核心用什么算法，而正是做出有效（而不仅仅是正确）的假设，以及系统地建立评价机制（e.g. training/validation/test）。

#11-3 - 2015-2-10 03:06

Kane

考虑过recommendation system里一些标准的方法吗，比如matrix low rank completion这样的？

顺便我是一个眼高手低的machine learning theorist（虽然我也自己写code），随口乱说，忽略实际的地方请随意鄙视。。

P.S. 刚看到这个

我也不知道，大概把 Mining Massive Datasets 上的算法都轮一遍吧。

所以recommendation system要到week 4吗 (bgm38)

#11-4 - 2015-2-10 03:23

Genius🌟小乖💯

Kane 说: 现实是复杂的，不能随便假设说的很对。但也有句stats的经典名言叫
all models are wrong, but some are useful.
:)

很高兴lz提到假设一词，其实我的假设并...

说到模型，好的模型都是看数据看出来的 (bgm38)

，但是我对大家的讨论还是抱有怀疑态度——特别是关于评分与排名的讨论。因为参与讨论的大都是超展开活跃人士，bgm 还有大量默默点格子的，还有只收藏了少数作品的，这些人很容易就会被忽略掉。
降维是个好方法，其实在 v0.1 里面我就用的降维，但是出来的结果令我百思不得其解，看来还是不能纸上谈兵啊。

#11-5 - 2015-2-10 03:27

Genius🌟小乖💯

Kane 说: 考虑过recommendation system里一些标准的方法吗，比如matrix low rank completion这样的？

顺便我是一个眼高手低的machine learning theo...

真正读书读得少的人是我啊 (bgm38)

#11-6 - 2015-2-10 03:32

Kane

Genius、小乖说: 说到模型，好的模型都是看数据看出来的，但是我对大家的讨论还是抱有怀疑态度——特别是关于评分与排名的讨论。因为参与讨论的大都是超展开活跃人士，bgm 还有大量默默点格子的，还有只收藏了少数作品的，这些人...

参与讨论的人本来就是全站的一个bias sample我就是得了只能不说人话的病 (bgm38)

#11-7 - 2015-2-10 03:33

Kane

简单的降位有很强的线性假设的。。还有missing entry怎么处理也是门艺术技术

#11-8 - 2015-2-10 03:37

Genius🌟小乖💯

Kane 说: 简单的降位有很强的线性假设的。。还有missing entry怎么处理也是门艺术技术

所以现在就在考虑怎么映射到线性空间。目前想法是先按照评分分布聚类，然后再对每一类做非线性变换。

#12 - 2015-2-10 04:21

老大 (你谁啊？我准许你套近乎了吗？)

我，lighthouse 不该，在 Chi 中找到的同步率最高的十位 BGMer 如下：
@Tammy 61.98%
@babie 61.76%
@achilleslin 60.04%
@零崎零崎 59.84%
@秋の云 59.82%
@啪噗噜酱 59.8%
@卓小机 59.68%
@不二冰茶 59.62%
@我叫GH 59.48%
@DeutziaScabra 59.39%

#12-1 - 2015-2-10 04:24

老大

全部都是僵尸用户

不过最高的倒是能有62%呢

#12-2 - 2015-8-15 18:12

我叫GH

lighthouse 不该说: 全部都是僵尸用户不过最高的倒是能有62%呢

_(:3 」∠)_

#12-3 - 2015-8-16 04:40

老大

我叫GH 说: _(:3 」∠)_

你看你隔了6个月才回复不是僵尸用户是什么 (bgm38)

#13 - 2015-2-10 05:51

‭Möbius (今天是个去死的好日子)

我，‭Möbius，在 Chi 中找到的同步率最高的十位 BGMer 如下：
@HeilAsuka 58.67%
@約翰思密達 58.57%
@宛如梦幻 58.01%
@yangddd 57.95%
@胸口睡萝莉 57.73%
@Louise无双 57.61%
@VINCEの羽 57.38%
@挥舞着球与剑的少女们 57.28%
@Pigeon Zein 57.28%
@地狱魔炮 57.2%

#13-1 - 2015-2-10 05:55

‭Möbius

就两个活人。。。。

#13-2 - 2015-2-16 10:00

Pigeon Zein

‭Möbius 说: 就两个活人。。。。

唉……这是死亡预告吗

#14 - 2015-2-10 08:58

jujuo (神隐预定)

我，jujuo，在 Chi 中找到的同步率最高的十位 BGMer 如下：
@2bowen 58.34%
@早花月这子 57.31%
@minakamiyuki 57.0%
@nnmynnk 56.87%
@aplot 56.67%
@ScarletDream 56.6%
@蝉蝉 56.4%
@tapir 56.2%
@神尾观铃 56.2%
@某Bill 56.14%

第二位连头像也差不多诶~~

#14-1 - 2015-2-11 16:36

湊斗景明

咕嘿嘿

#14-2 - 2015-2-11 17:34

jujuo

minakamiyuki 说: 咕嘿嘿

握爪~~

#14-3 - 2015-2-11 17:46

湊斗景明

jujuo 说: 握爪~~

看了一下，你玩过的好多gal都是我想玩的呢ww

#14-4 - 2015-2-11 17:47

jujuo

minakamiyuki 说: 看了一下，你玩过的好多gal都是我想玩的呢ww

现在上班了就没怎么玩了，毕竟纪委办公室就在楼下。。。

#14-5 - 2015-2-11 17:52

湊斗景明

jujuo 说: 现在上班了就没怎么玩了，毕竟纪委办公室就在楼下。。。

大学狗表示还可以再战几年XD

#15 - 2015-3-1 00:33

地狱魔炮 (所过之处寸草不生)

我，地狱魔炮，在 Chi 中找到的同步率最高的十位 BGMer 如下：
@五尺唧唧 64.16%
@douz1 62.6%
@奏井夕雨 62.38%
@Mars 62.3%
@7450 61.6%
@mua 61.5%
@亲爱的芋头 61.16%
@netbug 60.98%
@麟镜禅 60.89%
@若汐 60.88%

我基本只用来记录动画和游戏的
今天突然发现被@了就看看
结果点了第一的基友之后。。。。

#16 - 2015-8-15 18:19

h82258652

我，h82258652，在 Chi 中找到的动画条目同步率最高的十位一年内活跃的 BGMer 如下：
@游戏时间 68.77%
@Ayanami 67.5%
@QML 66.94%
@zimpha 66.08%
@悠姬L 65.65%
@JustGundam 65.46%
@single 65.32%
@吐槽不能 65.24%
@a_lulux 65.08%
@不愿透露姓名的Oisris 64.45%

#16-1 - 2015-8-15 18:20

h82258652

都是60+的同步率，看来我的追番还是比较大众的说 (bgm38)

/ 返回Chi: Bangumi 未来实验室小组

Chi: Bangumi 未来实验室 » 讨论[Chi v0.2.1]同步率更新

Chi: Bangumi 未来实验室 » 讨论
[Chi v0.2.1]同步率更新