Tag: 聚类

找有相似游戏爱好的用户

上一篇讲了聚类算法中常用的一个k均值算法,接下来举一个用到实际中的例子。

我们的数据中有一项是希望用户选择几个自己喜欢的游戏,然后我们根据他的喜好,推荐跟他类似喜好的玩家。比如我们给定几个游戏或游戏类型,(A, B, C, D, E, F, G),然后用户甲选择时,选择了自己喜欢A, D, E, G,然后用户乙选择了B, D,E,用户丙选择了B, C, D, G ,等等等等,假设我们已经有了100个用户的喜好数据,然后当一个新用户进来并从中选择完自己喜欢的游戏类型后,如何迅速推荐给他和他相似游戏爱好的人,并告诉他相同游戏爱好的一个交集信息?

Read more… »

k均值

k均值(k-means)是聚类算法的一种,聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。组内的相似性越大,组间差别越大,聚类就越好。

举个例子,在二维平面上有几百个点,在笛卡儿坐标系中有(x,y)坐标,把它们点到纸上,问题是如何把它们分成不同组,每个组里点彼此之前都比较相近,而离其它组的成员又比较远。下面介绍的k均值就能干这种事。

Read more… »