最后更新:2020-06-08 10:07:06 手机定位技术交流文章
引言:一句话概括了推荐算法的原理。
作者:穆阳
资料来源:华章电脑(id: hzbook _ jsj)

推荐系统是为用户推荐所需商品的软件工具和技术。通过各种决策过程为用户提供建议,例如购买什么商品、听什么歌曲或阅读什么新闻。推荐系统的价值在于帮助用户解决信息过载问题,做出更好的选择。它也是互联网领域最强大和最流行的信息发现工具之一。
今天,我想和你谈谈为什么推荐的算法如此“聪明”,为什么它“失败”?
为什么推荐的算法如此“聪明”?
要回答这个问题,我们必须首先清楚地解释什么是推荐算法的原理。
我们知道互联网最大的特点是有大量的信息。然而,仅仅拥有大量的人是没有任何意义的。为了创造价值,信息需要真正发挥作用。因此,如何充分发挥信息的价值一直是互联网发展的主轴。为此,我们想出了许多办法。
在“算法推荐系统”出现之前,我们的方法是寻找信息,这就是搜索引擎。搜索引擎非常有用,但限制也很明显,留下了许多问题。回想一下,我们需要使用搜索引擎来查找信息,而不是直接得到想要的结果,而是首先拿出一个“关键词”并输入,然后我们就可以看到命中的结果。
这个过程被称为信息检索,也就是说,你必须首先知道你感兴趣的信息和线索,然后才能通过搜索引擎检索信息。然而,有一个问题。互联网太大,人们的认知圈太小。这就产生了大量本该有价值的信息,因为人们看不到这些信息,而只是静静地躺在角落里浪费掉了。
这个问题乍一看无法解决。毕竟,根据常识,我们必须先知道信息,然后才能判断我们是否对它感兴趣。不应该为了寻找我们不知道但感兴趣的信息而颠倒这个过程。但是推荐算法做到了。它改变了搜索引擎的方式,不是寻找信息,而是寻找兴趣。
推荐算法如何引起兴趣?这听起来很神秘,但原理远没有想象的复杂。我可以用一句话来概括它——也就是说,它取决于人和事物之间的关系,并且至少需要三种联系来发现兴趣和提出建议。
这不是很生动。让我给你举个例子。
我喜欢喝快乐水,经常去我家旁边的便利店买快乐水。当然,经理很快就会知道我对快乐水感兴趣。这是我第一次和快乐水联系在一起。然后,当经理收完钱后,他想起另一个顾客也对快乐水感兴趣。他的名字叫边肖。边肖也经常去商店买快乐水。这是第二个协会——边肖快乐水协会。这个边肖和我一样,对快乐水也有同样的痴迷,但有点不同:除了在商店里买快乐水,边肖还经常买另外一样东西——薯片,这是第三个协会——与边肖相关的薯片。想到这,经理想:既然我们都喜欢喝快乐水,也许你们都喜欢吃薯片?因此,经理向我推荐了薯片。这是一个基于兴趣的推荐算法,大数据分析的一个常见例子——啤酒尿布——就是上述原理。

我最近读了很多文章,说推荐算法比女朋友更了解你。局外人看到它时会觉得很神奇。事实上,当他们理解推荐算法的原理时,他们应该知道这是一个自然的学习过程。除非你的女朋友碰巧是一家商店的经理,否则技术领域是有专长的。
当然,推荐算法的原理并不复杂,但是为了在实践中发挥良好的作用,需要根据应用场景进行许多调整。推荐算法的重点是寻找人们之间的共同点,但是有许多不同的方法来划分共同点。
以我们常见的推荐为例,不仅有基于视频节目的推荐,如“看过该视频的观众也看过”,还有基于地理位置的推荐,如“同一城市的观众正在观看”。
早期的推荐非常简单,并且基于点击次数。然而,人们很快发现,基于点击次数的推荐无法找到不同的兴趣。因此,为了实现一套易于使用的推荐算法,通常需要考虑所有方面,而不仅仅是一两点。
为什么推荐算法“失败”?
推荐算法平时没有问题,但是一旦出现极端情况,比如大规模疫情爆发,就会出现我们之前看到的推荐算法“失败”的问题。大量的建议都是具有相同疫情的信息,其他信息将会丢失。
但说实话,推荐的算法有这样的结果是“合理的”。想想看:在疫情期间,你的朋友、家人、同学或同事,包括你自己,最关心的是什么?是流行病。
至于推荐算法,我们已经反复强调过,推荐算法需要做的是发现你对疫情的兴趣,这正是你对疫情“兴趣”的正确发现。因此,推荐算法只能给你提供大量与疫情相关的信息。如果我们不得不说这是一个问题,恐怕首先是一个社会学问题。
然而,如果你深入思考,你会发现这个问题并不那么简单。互联网经济在过去很长一段时间里一直在推动一种理论,称为长尾理论,这可能意味着人类社会中存在大量的少数群体需求。如果你卖的东西不正常,你会得到真爱的支持。互联网是沟通少数民族需求的桥梁。
推荐算法在很大程度上也受这一理论的影响,所以有一种说法认为推荐算法的最终目的是一个一个地找到小圈,并把小圈的信息推荐给圈里的人。
但现实是另一回事。近年来,人们更多地谈论另一种互联网现象。如果你曾经运行过一个公共号码或者是万国邮联的所有者,你应该对这个现象印象深刻。这是头部效应。
大多数甚至绝大多数的互联网流量实际上被少数“头”信息生产者吸收,留下绝大多数信息生产者静静地呆在角落里被遗忘。

本应打破这一现象的推荐算法反而加剧了这一现象。因为它占据了头部,所以很容易被推荐,因为它很容易被推荐,所以它继续占据头部。推荐算法导致的上升螺旋使头部效果更加明显。如果疫情被视为一个新的头,也许我们可以更好地理解为什么推荐算法在疫情中失败。
那么,这个问题应该如何解决呢?这个问题容易回答,也不容易回答。从技术角度来看,解决这个问题的思路非常清晰,用了四个字:去极化。
理论研究往往不同于现实环境。理论研究都喜欢简化环境条件的假设,智能算法也不例外。通常,假设各种情况的概率是均匀分布的,每个人都应该公平竞争,没有人能阻止任何人。然后,在这种假设下构造各种算法逻辑。
然而,事实上,在现实环境中,脱颖而出也许是最常见的情况。其他所谓的竞争者要么是躲在角落里瑟瑟发抖的孟新,要么是在桌子上互相啄食的菜鸡。根据该算法,实际情况和假设情况之间的差异太大太极端,所以奇怪的结果会出现也就不足为奇了。
我们应该怎么做才能让算法恢复正常?只要极端情况变得不那么极端,许多依靠评委打分的比赛通常会选择去掉最高分和最低分,以避免受到极端情况的影响,这是一个类似的想法。
然而,技术本身是中性的,但它是邪恶的。这取决于使用它的人,就像菜刀一样。决定是切蔬菜还是切人不是菜刀的事。现在讨论的许多问题似乎是技术性的,但它们仍然是人类的。例如,人工智能,当谈到自动驾驶时,我们喜欢讨论一个话题,即算法应该如何处理有轨电车问题。
但事实上,算法本身不会产生值。毕竟,算法的价值是人的价值。如何更改推荐算法取决于用户如何定义值。
我认为推荐算法最终肯定会满足“推荐有价值的信息”的要求,但对谁来说“有价值”在这里是有价值的,那是另一个问题。
作者简介:莫凡,娱乐学习机器解说员,《机器学习算法与Python实现的数学分析》作者,前沿技术发展观察家,擅长高温冷却技术的“白菜”解说员,微信公众号“睡前机器学习”,个人号智虎“牧阳”。

“机器学习算法的数学分析和Python实现”的扩展阅读
建议:如果你以前不太了解机器学习,现在你想了解机器学习的主流算法和原理,希望快速清晰地建立机器学习的“大图景”,但又担心被各种困难的数学公式“打败”,那么这本书就是你想要的。
本文由 在线网速测试 整理编辑,转载请注明出处。