昨日,《人民日报》刊载了一篇题为《新闻莫被算法“绑架”》的文章。文章中指出,一些痴迷于技术算法的新闻客户端愈发“简单粗暴”。点开某篇文章之后,就会迅速被大量相似内容刷屏,并且无法拒绝。《人民日报》认为,媒体被算法、流量和点击量绑架,而削弱了对新闻真实、全面、独立等准则的坚守。
随着人工智能的发展,算法推荐越来越成为了科技界乃至媒体圈推崇的技术手段。从长远角度来看,算法推荐是技术与时代发展到一定程度所出现的必然现象。算法推荐在全球范围内都已成为一种不可阻挡的趋势,并且随着时代的发展,算法推荐必然会成为未来内容领域的主流之一。
当然,在算法推荐发展的过程中,也不可避免地出现了一些问题。在《人民日报》的文章中,指出了算法推荐中存在的简单粗暴、低质量等一系列缺陷。这些问题是确实存在的,也不应回避。虽然目前算法推荐非常火爆,但还需要更加理智和人性化。如果能提升技术水平和树立正确的态度,相信在未来,这些问题也是可以被克服的。
一、算法推荐种类颇多,应用领域愈发广泛
算法推荐,就是利用用户的一些行为,通过数学算法,推测出用户可能喜欢的东西。推荐算法大致可以分为基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法。
基于内容的推荐算法,是根据用户的喜好和关注过的条目(Item)而进行推荐的。比如你看了《死神来了》第一部,那么基于内容的推荐算法就会发现这个电影的后四部和你之前观看的内容有很大的联系,并加以推荐。
这种方法有效地避免了Item冷启动的问题。所谓冷启动,就是如果Item未被关注过,那么其他推荐算法就很少会去推荐。但基于内容的推荐算法则不然,它可以分析Item间的关系,从而实现推荐行为。
不过,这种方法也有弊端,就是Item有很大程度上的重复可能。比如你看了一则关于马航的新闻,那么很多推荐就可能是你浏览过的,甚至是内容一致的新闻。此外,基于内容的推荐算法很难提取到如音乐、电影等多媒体内容的特征,因此很难进行推荐。而目前的解决办法是给这些Item人工打标签,耗费成本较大,不太划算。
协同过滤算法的原理是推荐兴趣相似的用户喜欢过的内容。比如你的朋友喜欢《死神来了》,那么也会推荐给你,这即是最简单的基于用户的协同过滤算法。另外还有一种是基于Item的协同过滤算法。二者都是将用户的全部数据读入到内存中进行运算的。此方法训练过程较长,但训练完成后推荐过程快。
基于知识的推荐算法是通过构建领域本体或建立一定的规则进行推荐,也有将此方法归为基于内容推荐中去的。
还有一种方法是混合推荐算法,即以加权或者串联、并联等方式对上述方法进行融合。
基于多种多样的算法推荐,全球范围内的新闻媒体开始逐渐使用这种方法向用户推送新闻。
在这方面最早的应该是Facebook。2012年,Facebook在广告领域开始应用定制化受众功能,“受众发现”这一概念得到了大规模应用。一年前,Facebook宣布新的动态消息演算机制。这一计划来自于对上千位用户的调查,依据结果对算法进行改善。对此,Facebook发言人表示,阅读时间比点赞更能反映兴趣。
Facebook通过该项调查发现,以点赞、留言和分享为基础的算法,并不足以代表哪些文章对使用者更有意义,比如人们不爱对严肃新闻或朋友的悲伤消息进行点赞或留言。因此,将文章浏览时间纳入贴文排名机制中,以推测使用者感兴趣的文章类型。
在目前国内许多的资讯类网站中,也应用到算法推荐,揣度用户感兴趣的内容并向其进行推送。算法推荐不仅可以被应用于新闻资讯方面,还可以应用于其他方面。
比如亚马逊所使用的主流推荐算法,就是基于物品相似性和用户浏览、喜欢、购买等数据的协同过滤推荐,即用户纬度和商品纬度。
由于不依赖用户而基于商品的相似性,所以不会有冷启动问题。但也因为不依赖用户,所以比较死板,缺乏个性化推荐。这一算法广为人知,但越是简单的算法要达到好的效果就越难,特别是这种转化率极低的算法。在国内,也有许多电商平台在应用这种算法。比如“猜你喜欢”、“相似推荐”等功能,就是这种算法的具体体现。
随着互联网的持续发展,我们正处于一个信息爆炸的时代。与以往信息匮乏的状况相比,面对现阶段的海量数据,对信息的筛选和过滤成为了衡量系统好坏的重要指标。具有良好用户体验的系统,必然会先对海量信息进行筛选和过滤,剔除无用的低效的部分,展现在用户面前的必然是高效的或用户感兴趣的部分。
这不仅能够大幅提升系统的工作效率,也能节省用户筛选信息的时间。此前,搜索引擎的出现在某种程度上解决了信息筛选层面的问题,但还远远不够,因为搜索引擎也毕竟需要用户主动提供关键词来进行筛选工作。一旦用户无法准确描述自己的需求,搜索引擎的筛选效果就将大打折扣。
事实上,受诸多因素的限制,用户要将自身需求精准地标签化难度也非常大,这催生了推荐系统的出现,这一系统很好地解决了上述问题,成为用户和信息之间联系的重要桥梁。一方面,用户能够更迅速地发现对自身有价值的信息。另一方面,信息能够展现在对其感兴趣的受众面前,从而实现商家与用户的“双赢”局面。
然而,在算法推荐崛起的过程中,也委实出现了许多问题。
二、算法推荐简单粗暴,未来需趋向于人性化及智能化
当下,人工智能成为了科技界的热门词汇,许多技术都想和“人工智能”挨边,算法推荐也不例外。但实际情况很可能是,当前许多平台使用的算法根本就和“智能”没有太大的关系,而只是一种简单粗暴的线性技术。
先说目前许多资讯类平台常用的推荐方式。就是一旦用户点开了某个内容,后续就会连续不断地推荐相关的内容。这会导致用户阅读面越来越窄。此外,用户完全无法通过排版来确认重点和非重点内容,让人有些无法忍受。
实际上,目前普遍用到的算法并不是真正意义上的智能,而是一种类似于金融资本的方法。就像财务投资人并不需要去理解公司本身,只要关注是否增值即可。迁移到算法方面,即不用在乎实质内容是什么,只管是否能够数字化、是否能分类集合、是否能优化反馈即可。这就是当前算法处理海量信息的本质,它与资本一样,既能提升效率,也会与个体产生矛盾。
从本质上来看,目前通过算法推荐内容的新闻资讯平台只是表面现象,实际上起到的是用户行为数据收集器和分析器的作用。可以将每一篇资讯都看作一道对用户的测试题,而用户的每一次点击与评论都是一种回答,都会被系统记录,并与阅读时间、标签、关键词等一道构成多维数据矩阵,从而刻画出这个读者的特征。
当然,以资讯面貌呈现出的测试题是相当粗糙的。不过用户多是在无意识中完成“测试”的,答案较为真实。这其实也就是此类平台技术和商业模式的核心。
从本质来看,资讯类的算法推荐无非是将内容推荐给用户。这主要会对两类人产生影响:生产者(媒体)和消费者(用户)。
对生产者或者说媒体人而言,这是一个不错的消息,因为不必再担心渠道问题,并且可以更加高效广泛而又有针对性地使自己的产品达到传播效果。因为只要是优质的内容,这类平台还是很乐意给予流量并推荐给用户的。当然,这也能培养媒体人对用户需求的敏感度,更深层次地去思考什么是用户眼中的“好内容”。
对于用户而言,算法推荐极大地缩减了搜索的成本,提升了阅读效率,有利于获得更为全面的资讯与知识。此外,由于这类资讯平台的反向推动力,能使得媒体人更在意用户需求。这有利于在一定程度上形成对权威的解构,使用户获得更合适他们的内容。
但问题在于,目前的算法推荐也确实存在着内容单一、格局狭窄等一些问题。其实质问题在于,算法推荐还尚未实现真正的“智能化”。真正优质的内容应该是原创,有观点的碰撞,更有话语的创新。可惜的是,由于技术等条件的限制,目前的算法尚未学会这些。如果资讯和新闻缺少了精神风格和主心骨,那就无法称之为真正的优质。对于资讯平台而言,其表象与算法机器的矛盾依然存在。
总的来说,以算法为主的资讯平台不应仅仅以商业模式压制一切,同时也应该兼顾理想和精神层面的内容。随着深度学习等技术的发展,人工智能应该会更加深入地与算法推荐相结合,技术会更为理智和人性化,进一步克服当前存在的缺陷,从而生产出真正优质的内容。