焦大自媒体——互联网创业及qg111钱柜娱乐平台营销媒体!
qg111钱柜娱乐平台排名

文章推荐系统的核心思想

时间:2015-05-18 08:49 来源:qg111钱柜娱乐平台投稿 作者:博客虫
或许一谈到数据挖掘中的推荐系统,大家第一反应就是协同过滤,要么就是基于内容推荐等等。但实际在生产环境中往往没有想象中这么复杂,但另一方面又没有想象中这么简单,确实很矛盾的存在。 文章推荐 (1)推荐系统的本质 我不敢说我说的一定就是对的,这里只是个人见解,如果有出入,欢迎指正。我这里说的推荐系统主要针对的是文章类的推荐。 推荐系统的用户价值在于为用户提供一个更好的阅读体现(文章博客类),即在用户阅读一篇文章的同时,你如何能够为他推荐出他会去继续浏览的文章,为网站创造更大的价值量,也就是PV。 其实核心本质思想就一条:想办法让用户点击更多的文章,创造更大的PV价值。  
(2)其实没有这么复杂 推荐系统看起来很玄奥,其实最常用的方式就是个性化推荐,所谓个性化推荐说白了就是如何结合用户的喜好为用户推荐内容。让用户看到用户想看到的东西,这样用户就会继续点击,从而提高了网站的流量。 正如文章开头所说的,很多人第一反应就是随之而来的协同过滤啊等等推荐算法,但在现实生产环境中,使用这些推荐算法的也有,但往往很多计算模型都不算太复杂。关键在于计算阅读文章的热度,如何计算热度? 计算模型其实千变万化,但其核心在于几个关键指数:浏览量、顶、踩、时间等。基于这些元素、再结合用户的兴趣标签(这里对用户的兴趣模型建设就不做描述了),进行文章推荐。有人会用成型的推荐模型,正如之前所说的协同过滤等,也有人会自己构建相关模型,说简单点就是构建不同元素的权重比,为预推荐的文章打分,然后形成推荐列表,就这么简单。  
(3)其实没有这么简单 依靠文章的关键指标:入浏览量、顶踩等,那么就需要大量的用户互动信息,如果这是一篇新的文章,哪怕它很优秀,但它也很难进入推荐榜,而那些比较热的文章则由于推荐的原因会越来越热。 这些都不是很符合实际情况的。我们希望给用户推荐的是比较优秀,并且符合用户口味的文章,让他有急需浏览下去的欲望。如果用户反反复复看到的都是那几篇文章,这种效果显然不是我们想要的。 所以,实际上的推荐没有这么简单! (1)如何解决那些新文章的问题? 依靠外界信息的评判,判断一篇文章不能单纯的从浏览量、顶踩数来判断,或者确切地说,不能单纯依赖自身得这些指标来评判。我们可以通过分析的途径,将外界获取到的优秀文章进行分析,然后对自身文章跟外源优秀文章进行相似度匹配,若相似度高,我们就可以隐性的认为,这篇文章同样属于一篇优秀的文章,虽然它的顶踩数、浏览数从目前看还不高。 (2)如何解决热文章长期占据推荐榜的问题? 这个问题相对来说好解决,那就是引入时间的指标,我们只需要在计算模型中引入时间,随着时间的推移,之前上榜的文章权重降低,这样就达到了时时把比较热,并且比较新的文章推荐出去。至于具体的计算模型那就需要进一步的设计以及效果调试了。
当然,以上说的这些都是一些思想,具体的算法模型还需要设计,但是通常来讲,并不是越复杂的模型越好,而是越能实际解决问题的模型越好,这就得看具体的业务需求了~~
围观: 次 | 责任编辑:焦大
回到顶部