深圳易捷网络科技注册咨询网-jiujiuya.com.cn 返回首页

网站更懂读者:戳中开发者痛点的文章推荐算法

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2018-6-20 14:08:10
深圳市络远工业技术有限公司网站制作首页设计效果图
深圳市络远工业技术有限公司网站制作首页设计效果图
在很多网站中我们看到有文章推荐功能,有的网站中还使用的无觅插件或百度的脚本挂件,然而推荐出来的文章却存在两个问题:相关性不大,不能引起读者兴趣。那么,有没有一种方法,提高相关文章的推荐吻合度呢?答案是有的。我还见过很多博客中放出的根据标签来推荐相关文章的代码,这种方法应该是比较好的,但是问题是,很多博主对标签的选择非常不专业,标签的选取常常是 随意的,即便两篇文章都含有百度这个标签,可能一篇文章是讲百度搜索规则的变化,而另一篇讲百度年营收,两篇文章根本没有非常明显的相关性。


1.期待谷歌更加强大的推荐挂件

在这个方面,虽然我们对百度寄予了厚望,但是实际上我更相信谷歌的技术。原理很简单:通过不同用户的不同搜索词进入不同文章,而这些搜索词在其他用户而言又是意思相近的。理解起来有点难,我们只能通过例子来说明:有A、B、C三个用户。有a、b、c三篇文章。A搜索w点击进入了a文章,B搜索m点击进入了b 文章,C搜索p进入c文章时,谷歌发现w、m、p这三个词组意思非常相近,所以判断a、b、c三篇文章是相关文章,因此在三篇文章下方返回了一个相关 文章列表(使用javascript来调用)。通过历史记录来判断某些文章相关,很多用户点击进入某篇文章后,同时进入另外一篇文章,说明文章相关性强。如果非得靠谷歌搜索的关键词,就显得太傻了,通过谷歌统计代码,从历史浏览记录来进行深入判断。当A进入a文章之后,发现下方有一个随机的推荐列 表,如果发现有自己需要的或者感兴趣的文章b,就会点击进去,这些行为被记录在谷歌的大数据中,当从a进入b被无数人实践过后,甚至可以统计b出现在a页 面的哪个位置更容易被点击,第几次进入的时候是否不愿意再点击b文章了,而谷歌完全有能力做到这种分析,最终当B、C首次进入a文章的时候,b文章的链接 就会非常合理的出现在该出现的位置。而实际上,如果无数用户从a进入,最后到了c这篇文章,那么为什么不直接把c文章链接放在a页面呢?这多少有点大数据 的意思。


2.统计和聚类:数据库爬虫

人工智能希望计算机有理解能力,但实际上目前我们只能通过统计和聚类来更加只能的判断相关性和可能性。100个人买了尿不湿的时候买了啤酒,这不能说明什么,但是有1万亿人次都这样做了呢?通过设计一个爬虫程序,到数据库中的文章表中去抓取,对文章标题、内容、摘要、关键词、标签等进行分词统计。最原始的方案是最长匹配词数量越多,文章相关性越强。爬虫要做的就是匹配词组,因此最开始应该有一个词典。但是词典需要人为手工建立,略显麻烦。解决方案也很简单,用一篇典型文章作为原始案例,让爬虫 去爬,反复的爬,通过分词建立原始词典。利用这个原始词典再去爬其他的文章,遇到新词的时候就加入到词典中。这种方法能够保证新词只会在后面去爬的文章中 出现。在爬的过程中,一方面可以发现新词加入词典,另一方面又把词频统计出来,按照词组的长度降序排,找到最长词。通过对文章最长词的对比,确定文章的相 关性。但是这种方法必须面临两个问题,一个是效率问题,一个是干扰问题。搜索引擎中最核心的问题之一就是效率,主要是两个方面的效率,一个是爬取,另一个是检索。对应到推荐系统中,一方面是如何确定文章的相关性(爬的效率),另一方面是如何更快的根据爬的结果返回相关文章列表(取的效率)。干扰问题则是指 部分文章的词频无法反应这个问题的核心主旨,例如一篇含有100行代码的文章,介绍性的文字可能只有20-30行,这种情况下很难防止统计结果与文章核心 主旨不符(而其他文章的统计结果又相对比较准确)。为了提高效率,你可以鼓动你的读者来为你提供词典,比如说读者读完文章后,你要求他输入认为可以概括本文的关键词,这样可以让爬虫更加确定自己是否应该省去某些词,而重视某些词。

3.最有可行性:标签、搜索和浏览记录

上面说到的两种方案都是离我们比较远的,普通程序员很难在自己的网站中实现。回归现实,我们希望真正可以在网站中实现的一种方案(即使可能相关性结果稍微弱一点)。标签是最合理的一种方案。给不同的文章贴上3个以上的标签,因为标签是人工撰写的,所以最好有一个自己的标签列表,防止把 同一个意思写成了不同的标签,例如自行车单车脚踏车。把标签统一起来,意思相近的,全部统归为一个词,下次再打算贴标签的时候,就只用这个 词。3个以上的标签基本上能反映出该文章大概要讲什么内容。在使用程序去挑选相关文章的时候,尽可能的匹配所有标签,假如两篇文章有3个以上的标签,那应 该是有相同主题的内容的吧。我见过只要有一个标签相同就推荐出来,我认为这种方法不好,文章开头已经举过了例子。但标签的方法毕竟是人工来弄,思考和统归过程是很累的。一个网站中相关性比标签还要强的,应该是站内搜索结果。我是指那些具备稍微强大的搜索模块的站内搜索,仅仅用LIKE去匹 配一下数据库的情况,个人认为搜索结果参考价值比较低,特别是只用一个搜索词的情况下。但是大部分网站的搜索模块还是比较差的,因此,我的建议是,规定用 户必须使用两个以上的词进行搜索,这样可以保证搜索结果相对准确。


4.但是如何将搜索应用到文章推荐中呢?

搜索的出发点是关键词,因此你得找到和这篇文章相关的关键词。怎么找呢?一种是直接使用标签,把这篇文章的标签作为关键词 (上面说了,3个标签以上),利用网站的搜索模块,搜索出文章,返回到当前文章的页面,列出链接列表即可。另一种比较复杂,通过浏览记录来获取关键词。 (这里需要提一下,面对普通的网站,分词的想法被我放弃了。)浏览记录里面记录了一些关键词,包括站外搜索引擎关键词、站内搜索关键词和浏览过的文章的标 签。浏览记录里面需要通过社会网络方法,找出与当前文章相关的关键词,再通过网站的搜索模块,搜索出相关文章,把链接列表显示出来。当A通过w搜索进入网站的时候,记录下w(如何获取搜索引擎过来的关键词的文章网上一大堆),并且标记它跟a文章相关(例如记录到a的一个 字段里,或者另外建立一个表记录对应关系)。当B和A发生了同样的情况的时候,增加相关次数n。当n的值大到一个区间的时候,那么w肯定和a相关。同样的 方法,m、p也跟a相关,可见w、m、p这三个词组和a都相关。拿w、m、p到网站的搜索模块中检索,返回的结果可能就是用户最需要的。站内搜索的道理一样,通过记录不同的用户搜索的词和点击进入的结果的一个n值,最终找到某些文章最相关的关键词,用这些词去搜索,返回的结果应该是比较相关的。历史浏览记录主要是指用户都阅读了网站内的哪些文章,在这个用户的浏览器中用cookie记录下来,为了防止cookie被清除,还可以通过用户注 册、社交账号绑定、IP记录等把该用户的行为记录到网站数据库中。不单单要记录读了哪些文章,还要记录其阅读的顺序和页面停留的时间,高级一点还可以记录 每一个页面都在哪些位置进行了点击,哪些位置花了更多的时间来研究阅读。总之,这些都可以通过javascript来实现。只有通过按顺序点击链接次数在 5次以内的访问有参考价值,而且这里假设了用户不是因为图片上有个美女而被吸引去点击的。只要符合这种情况,就可以把用户阅读过的这些文章的标签收集起 来,进行词频统计,挑出词频最大的几个,再使用搜索模块搜索文章。下一次有新用户访问上面5次访问内的文章的时候,都可以尝试把这些搜索到的文章作为推荐 文章推荐给用户。

相关行业资讯

1、企业网站设计滚动发布技术
2、如何策划你的网站才能让用户有参与感
3、如何利用长尾词给网站带来流量
4、如何构架Web服务器
5、当心网站模板行业中的陷阱
6、看看网络营销的最大极限
7、常用企业网站的页面设计需要注意哪些问题
8、SEO优化网络推广有什么好处和特点呢?
9、企业制作网站哪些情况让人发窘
10、成功德阳网站建设需要具备哪些标准
11、网站优化过程中对内容如何进行优化
12、企业做网站建设可以让网站建设不再复杂
13、揭秘站长们各抒已见的seo优化细节观点
14、如何设计一个简约风格的企业网站
15、搜索引擎的投票原理与实践操作
16、个人如何进行网站制作
17、更新文章对网站优化的作用有多大
18、网站SEO优化需要一定时间的原因是什么?
19、为什么网络推广越来越难做
20、网站外链怎么发才能更有效
21、关键词密度会对seo优化过程有哪些影响?
22、推广关键词排名不上左侧怎么办
23、关于UI设计和UX设计之间差异介绍(一)
24、网站建设开发通过6点提高网站流量
25、怎样把网站标题做到最佳?
26、新时期如何做好学校网站建设工作
27、进行深圳网站制作要选择什么组合
28、什么样的用户体验是百度喜欢的
29、SEO优化中,怎么才能让新网站提升索引量?
30、如何让一个企业网站易于搜索引擎推广
31、网站标题个性化优化
32、提升博客人气的3大营销方法分享
33、如何做好品牌网站建设
34、好的心态和积累才能建设好的网站
35、企业建网站分辨率
36、[网页设计技巧]饿了么网页设计师界面视觉设计5要素
37、做网站后内容更新频率与数量如何衡量
38、地产型企业网站
39、深圳网站建设中的四要四不要
40、签约:邦迪工程网站建设项目由卓越迈创公司完成
41、做企业网站建设的基本原则
42、上海虹口网站建设为什么需要持续更新内容
43、网站后期发展如何规划?
44、企业网站建设和品牌网站建设的区别
45、网站建设对企业影响有多大
46、如何优化seo文章内关键字链接、标题、图片?
47、提高网站公信力的十种方法
48、如何选择做网站的虚拟主机
49、网站建设中,如何优化视觉效果
50、网络推广为什么同行不同利?

相关视频推荐

自动化行业网站制作焊锡机/点胶机/螺丝机网站
企业网站制作新模式全部仅需800元/年
如何提高企叫网站打开速度
公司网站到期了该怎小续费
企业为什么必须要做一网站
企业网站的导航栏一般要规划哪些栏目
国际物流FBA物流网站建设深圳易捷网站公司公司
银制品金银器网站建设深圳易捷网站公司
包装印刷行业网站设计
膜结构公司网站设计
工商财务公司网站设计
购买一个域名需要多少钱
企业网站建设云虚拟主机需要多少钱
财务公言的网站怎么做才能显示在搜索引擎的首页
网站建设一站式服务
深圳网站建设公司网站排行榜
深圳市易捷网络科技有限公司版权所有     粤ICP备2022153140号
best smoke alarms australia |  vape detectors |  三和基金会 |  灰鲸智能 |  sitemap |  sitemap |