深圳易捷网络科技注册咨询网-jiujiuya.com.cn 返回首页

基于KNN的相关内容推荐

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2025-6-20

如果做网站的内容运营,相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息,从而提升网站内容浏览的流畅性,进而提升网站的价值转化。相关内容推荐最常见的两块就是关联推荐和相关内容推荐,关联推荐就是我们常说的购物篮分析,即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系,之前有相关的文章介绍——向上营销、交叉营销与关联推荐;关联推荐是基于用户行为分析的推荐,而相关内容推荐是基于内容固有特征的推荐,只与内容本身有关,与用户的行为完全无关,所以相关内容推荐的模型是一种冷启动的算法,不需要任何历史浏览访问数据的支持。

内容固有属性

相关内容推荐因为完全不借助用户浏览行为的数据,所以底层数据不依赖于网站的点击流日志,唯一的基础数据就是内容的固有属性及完整信息。我们以豆瓣网的几大块内容为例来看看对于这些内容一般包含哪些固有属性:书籍-书名、作者、出版时间、出版社、分类、标签音乐-专辑名、歌手、发行时间、发行方、风格流派、标签电影-电影名称、导演、演员、上映时间、制片方、类型、标签豆瓣很多地方都使用了标签这个词,用贴标签的形式来完成内容的分类和标识,但其实标签又分为很多种,有些标签是在内容生成时就被贴上的,有些可能是后续用户贴上去的,而且豆瓣一般为内容和标签定义了原始分类,如书籍分为文学、流行、文化……既然分类和标签内容源生就带有,那同样可以作为内容的固有属性。还需要说明的是,这里不涉及文本挖掘和字符切分模糊匹配等问题,因此内容的标题、简介和全文不参与文本相似度的分析,虽然这些可能在构建完整的相关内容模型中不可缺少,但这里只考虑一些固有属性是否相同实现简单应用。基于上述豆瓣几类内容的属性特征,选择和整理适合分析的内容属性如下:作者就是指内容的创造者,来源指内容的发布方或获取渠道,分类为内容归属的类别,标签可以包含对内容的各类描述信息和关键词等。这里为了能够尽可能清晰地描述整个分析模型和思路只选取了大部分内容都包含的一些属性,如果要构建更加高效的相关内容分析模型,需要更完整的内容属性,可以根据自身内容的特征进行属性的定义和选取。


KNN算法及应用;相关内容模型

有了基础数据和算法的支持,我们就可以创建数据模型了。先看下基础数据的类型,作者、分类、来源和标签都是字符型,其中作者、分类、来源基本可以当做是单个值的属性,标签一般包含多个值。首先由于都是字符可以确定属性之间相似性的判定只能通过是否相同,无法体现数值上的差异,所以对于作者、分类、来源这几个单值属性而言,比较的结果就是一个布尔型的度量,相同或者不相同;对于标签这个多值属性可以考虑使用Jaccard相关系数,但因为每个内容标签的个数存在较大差异,使用验证后的结果并不理想,所以不考虑使用(当然,如果内容的标签个数比较固定,Jaccard相关系数是有效的)。因此,直接创建加权相似度模型如下,首先是标签的相似度分值设定:再结合作者、分类和来源,通过加权设定总体的相似度分值:将所有属性加权相似度分值的结果相加应该分布在[0,100],分值越高说明内容间的相似度越高。

对于这种简单的加权相似度评分模型,估计又有很多人要问权重是怎么确定的,确实,这里的权重并没有通过任何定量分析模型的方法去计算,只是简单的经验估计,但估计的过程经过反复地调整和优化,也就是不断地尝试调整各属性的权重系数并输出结果,抽样检验结果是否符合预期、是否有提升优化的空间。
基于上述内容间相似度的计算结果,套用KNN的原理实现相关内容推荐就异常简单了,只要根据每个内容与之比较的所有内容的相似度分值降序排列取前K 个内容作为该内容的最相关内容推荐给用户就可以了。当然中间可能会涉及相同相似度分值的内容如何排序的问题(因为模型的关系分值分布可能不会很离散),建议如果相似度分值相同使用随机排序,以保证推荐结果有一定的变化,均匀内容的曝光。

好了,所有的分析流程介绍完了,好像跟前一篇的距离和相似度度量完全没有关系,其实距离和相似度度量是KNN的基础算法,因为KNN的个体相似度或邻近的距离都会选择距离度量和相似度度量中的某种方法进行计算,但这里考虑到了现实的数据情况和应用环境,并不是KNN就一定要硬套欧氏距离,其实换一种简单的方法可能反而更加适合整个模型,而且模型的最终效果可能会更理想。所以一切的数据挖掘算法的选择和使用都是基于数据模型的有效性和输出结果的效果来决定的,并不是简单的算法效果就一定不好,而高级复杂的算法一定更加有效。对了,如果你已经做了相关内容推荐,那么优化相关内容推荐这篇文章里面介绍的一些方法将是检验推荐效果的一个很好的参考。

相关行业资讯

1、SEM推广|如何正确的筛选竞品词
2、网站优化:网站栏目及网站图片的优化技巧
3、如何成为一名合格的英文网站优化站长
4、SEO如何突破网站排名的困境?
5、建设网站不可不知的五大原则
6、深圳龙华网页设计公司谈做网站建设的重要性
7、运用好5个优化技巧,让网站更受蜘蛛喜爱
8、专注和准确的定位是个人网站发展的生存之
9、宜宾网站建设哪些地方可以发百度外链
10、网站优化首先需要分析竞争对手
11、高质量软文点取5大要求
12、你需要知道什么才能成为一个网络推广员
13、如何最有效最快的制作一个网站
14、如何判断网站原创文章质量
15、网站的营销推广的流量导入千万别单一化
16、从优化咖啡机行业站—浅析数据分析对网站推广优化具有何作用
17、如何优化404页面和Robots文件设置?
18、网站建设的五大注意事项
19、看互联网大佬们的微信对战网站优化如何面对竞争对手
20、深圳网站开发如何注意网站排版
21、如何有效的选择网页设计的风格
22、一个小站长的艰难建站之路
23、高级指令site不准确了
24、bluehost主域名改成godaddy域名过程
25、SEO网站优化怎么提高网站排名
26、厉害的SEO手段:链接诱饵的制作
27、重视5个小细节让你的网站更受用户喜爱
28、企业做网站如何选择网站建设公司
29、手机网站建设促销应用
30、优质营销型网站建设对企业的影响力
31、网站主关键词优化效果怎么样?
32、交互功能运用的要遵循哪些基本原则
33、利用百度快照合理布局网站关键词
34、网站做得怎么样流量转化是关键!
35、淘客站备案中3个不得不注意的小细节
36、网站可扩展性的性能测试和压力测试
37、如何成为在论坛发锚文本外链的高手
38、如何选择自己网站所需的关键词?
39、网站建设分析怎么去提高网站转化率
40、SEO优化网络推广有什么好处和特点呢?
41、关键词优化软件如何使用
42、从众心理的推广优化效果不会好
43、设计请假了,程序员你做个图顶一下
44、企业网站设计记忆性
45、关键词的获取渠道及其选择策略
46、上海虹口网站建设为什么需要持续更新内容
47、SEO优化如何提升排名以及稳定在首页?
48、网站不收录到底是什么原因导致的
49、更好的选择关键词对网站有哪些帮助
50、看看这些做SEO优化的小技巧!

相关视频推荐

自动化行业网站制作焊锡机/点胶机/螺丝机网站
企业网站制作新模式全部仅需800元/年
如何提高企叫网站打开速度
公司网站到期了该怎小续费
企业为什么必须要做一网站
企业网站的导航栏一般要规划哪些栏目
国际物流FBA物流网站建设深圳易捷网站公司公司
银制品金银器网站建设深圳易捷网站公司
包装印刷行业网站设计
膜结构公司网站设计
工商财务公司网站设计
购买一个域名需要多少钱
企业网站建设云虚拟主机需要多少钱
财务公言的网站怎么做才能显示在搜索引擎的首页
网站建设一站式服务
深圳网站建设公司网站排行榜
深圳市易捷网络科技有限公司版权所有    粤ICP备2022153140号