#1 - 2010-3-28 15:47
‌aligo
采取和Mio Techpreview 2相同的算法

不同之处在于解决了评分数据少而产生的问题
解决手段是根据现有的用户打分数据,进行一次云线性预测,基于打分次数较多的用户的模型给打分数据较少的项目进行预测性的打分,补足数据

最大化的打分数据是让每个用户给每个项目打分,但由此得来的数据实在太多,而且可能会产生出新的垃圾(预测出的数据是原有数据的1000倍以上,这样会对预测出的数据的准确性大打折扣)

目前设置的预测打分阀值如下:
对被打分次数30次以下的项目进行模拟打分,补足至30条
模拟打分的模型来自于打分次数超过100次的用户

测试数据:
Bangumi的subject_interests表
生成日期:2010 年 03 月 26 日 21:57
打分数据:140,766条,6.8 MB
有效项目:3,531条

测试条件:
CentOS 32bit
Xeon 3.06GHz * 1
256MB RAM
MySQL 5.1.41
PHP 5.3.1,使用PDO_SQL方式连接,使用foreach遍历数据


结果对比:
学习计算复杂度:
Mio Techpreview 2:每项目0.1~2.1s*3,531条,共花费约17分钟完成记忆库学习
Mio Techpreview 2 + Cloud(RAM从256M调整为512M):每项目1.1~2.4s*3,531条,共花费约50分钟完成记忆库学习
学习空间复杂度:
Mio Techpreview 2:为一个{mediumint,mediumint,float,smallint}的双索引记忆库,共2,879,974条,35.7 MB
Mio Techpreview 2 + Cloud:为一个{mediumint,mediumint,float,smallint}的双索引记忆库,共10,469,290条,129.8 MB
#2 - 2010-3-28 15:53
结果举例:
A.在过滤掉冷数据(共同评分用户较少)之后,与id=1424:K-ON关联前十的为:
id=1463:Cagayake!GIRLS
id=276:幸运星
id=1464:Don’t say“lazy”
id=1671:化物语
id=2585:科学超电磁炮
id=247:银魂
id=891:续夏目友人账
id=812:空之境界 第二章 杀人考察(前)
id=909:龙与虎
id=51:CLANNAD -クラナド-
#3 - 2010-3-28 15:57
B.在过滤掉冷数据(共同评分用户较少)之后,与id=3477:空之音关联前十的为:
id=1372:凉宫春日酱的忧郁
id=2790:好想告诉你
id=3241:吸血鬼同盟
id=2463:无头骑士异闻录
id=3444:神隐之狼
id=1606:凉宫春日的忧郁 2009
id=1424:K-ON
id=490:灼眼的夏娜
id=3326:笨蛋,测验,召唤兽
id=909:龙与虎
#4 - 2010-3-28 16:05
C.在过滤掉冷数据(共同评分用户较少)之后,与id=2667:机动战士Z高达关联前十的为:
id=770:天元突破
id=1015:机动战士高达0080口袋里的战争
id=1266:交响诗篇
id=265:EVA
id=334:全金属狂潮
id=338:全金属狂潮 校园篇
id=337:全金属狂潮 The Second Raid
id=808:旋风管家
id=515:机动战舰
id=292:黑之契约者
id=804:机动战士高达0083:星尘的回忆
#5 - 2010-3-28 16:11
D.在过滤掉冷数据(共同评分用户较少)之后,与id=2683:的生活大爆炸S3关联前十的为:
id=1390:生活大爆炸S2
id=1648:生活大爆炸S1
id=265:EVA
id=1608:灌篮高手
id=276:Lucky Star
id=247:银魂
id=1671:化物语
id=1424:K-ON
id=1377:海猫鸣泣之时
id=1952:迦南
#6 - 2010-3-28 16:18
+Cloud之后某种程度上解决了数据稀缺的问题
虽然学习复杂度变大,但是还是带来不错的回报的
不过根本的解决方案还是大家多打分,打分尽可能在仔细考虑之后进行
这样是对推荐准确性有更大帮助

目前Mio算法只与打出来的分数作为标准,如果发展下去可能会把用户'想看''看过''搁置''抛弃'之类还有用户的吐槽、评论、对项目的贡献度也看做是一种隐式打分

不过在这之前准备先做出基于tag的推荐算法的Techpreview,基于tag是大部分群众还有sai比较看好的囧
#7 - 2010-3-28 20:24
之前实验用的数据最后发现其实是2010年1月18号的,对于B项目这种1月新番来说得出的结果不够准确
算法不变同时继续延续云模型预测

B项目3477空之音的前十关联为:
3848花丸幼稚园
3471刀语
3889光の旋律 空之音 OP
1427旋风管家 第二季
2790好想告诉你
2476信蜂
1424K-ON
3446管家后宫学园
3444神隐之狼
2585科学超电磁炮