AI产品经理必修——揭开算法的面纱(1)

      最后更新:2020-05-22 12:12:00 手机定位技术交流文章

      自从我开始做人工智能产品经理以来,我在网上搜索了很多学习资料,但是我一直知道云不知道为什么是云,所以算法一定是模糊的吗?

      众所周知,人工智能产品由三部分组成:数据、计算力和算法。作为传统行业的产品经理,人们可以通过文字了解一件关于数据和计算能力的事情,但是这种高等级的算法让人们绞尽脑汁。自从我开始做人工智能产品经理以来,我在网上搜索了很多学习资料,但是我一直知道云不知道为什么是云,所以算法一定是模糊的吗?

      我想说,不!让我们揭开算法的神秘。

      什么是算法?

      算法是对问题解决方案的准确而完整的描述,是解决问题的一系列清晰的说明。该算法代表了描述解决问题的策略机制的系统方法。换句话说,对于某个标准输入,可以在有限的时间内获得所需的输出。

      简单了解一下,算法和红烧鲫鱼的处理流程非常相似,如下图:

      计算机算法是用计算机解决问题的方法和步骤。解决不同的问题需要不同的算法。

      为了准确理解什么是算法,一个非常典型的例子,排序是一个非常经典的算法。这些数字杂乱无章地堆积在一起。我们必须从大到小排列它们。然后,我们将指定一个过程,让这个字符串的数据,然后从大到小,这是一个算法。

      我们能做什么?

      有无数种方法。最简单的方法是将每个数据从左到右与附近的数据进行比较。每次你遇到比自己大的东西,你就把它向右移动一格。当你遇到比自己更糟糕的事情时,你不会动。这样,较小的一个将继续被比较,这样最小的一个将沉到底,然后剩余的数将被处理并来回循环,这样较小的一个可以出来。

      当然,我们可以发明无数的过程来实现这一点,比如插入方法、堆排序等等。然而,在所有条件相同的情况下,这是一个可以自动实现的过程。每一步都遵循一定的规则,以获得想要的结果。我们可以看到,该算法自动化了人类的逻辑过程。

      本文介绍了信息检索中最常用的算法——TF-IDF。

      在信息检索中,词频反文档频率是一种统计方法,用来评估一个词在文档集或语料库中的重要性。它通常被用作信息检索、文本挖掘和用户模型的加权因子。tf-idf的值将随着文档中出现的单词数而增加,随着语料库中出现的单词数而减少。TF-IDF是当今最流行的词频加权方案之一。

      当给定用户查询时,各种改进版本的TF-IDF通常被搜索引擎用作对文档的相关性进行评分和排序的主要工具。TF-IDF可成功用于各种主题领域的停用词过滤,包括文本摘要和分类。

      典型的应用场景:如何找到与查询最相关的网页?

      (1)什么是TF?

      关键词的数量需要根据网页的长度进行归一化,即关键词的数量除以网页中的单词总数。我们称这个商为“关键词频率”或“单一文本频率”(TF:术语频率)。

      短语“原子能的应用”可以分为三个关键词:原子能、原子能和原子能。

      例如,一个网页上总共有1000个单词,其中“原子能”、“de”和“应用”分别出现两次、35次和5次,它们的词频分别为0.002、0.035和0.005。将这三个数字相加,0.042的总和就是相应网页的“单一文本频率”和查询“原子能的应用”。

      (2)什么是IDF?

      假设关键字W出现在数据仓库网页中,数据仓库越大,W的权重越小,反之亦然。在信息检索中,这个权重被称为“反向文本频率索引”(IDF:反向文档频率)。

      这种可能性可以用一种更普遍的方式来解释:

      一个单词预测一个主题的能力越强,它的权重就越大;相反,它的重量越小。Stopword的权重为零。例如,假设中文网页的数量是10亿。Stopword的“德”出现在所有网页中,即DW = 10亿,那么它的IDF = LOG(10亿/10亿)= LOG(1)= 0;如果“原子能”出现在200万个网页中,即dw = 200万,那么它的IDF = log(200万/10亿)= log(500)= 8.96;如果常用词“应用”出现在5亿个网页中,即dw = 5亿,那么它的IDF = log (5亿/10亿)=log(2)=1。0.01792。

      (3)什么是TF-IDF?

      上述相关性的计算公式从词频的简单和变为加权和,即TF1 IDF1+TF2 IDF2+……+TFn IDFn

      从上面的计算公式可以看出,特定文件中的高频词和整个文件集中的低频词可以产生高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常用词并保留重要的词。

      在上面的例子中,这个网页和“原子能的应用”之间的相关性是0.0161,其中“原子能”贡献0.0126,而“应用”只贡献0.0035。这个比例与我们的直觉非常一致。

      通过对大量网页的计算,我们可以将最相关的网页作为检索结果呈现给用户,这是最直接的评分和排名应用。

      怎么,很简单吗?是不是很神奇?

      后续行动

      如果你们都明白,那么我们可以再谈一次。

      隐马尔可夫模型最大熵模型动态规划维特比算法期望最大值算法等。这篇论文最初由@CARRIE发表,每个人都是产品经理。未经允许禁止复制。

      主题图来自Unsplash,基于CC0协议。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/7288.html

          热门文章

          文章分类