语音机器人究竟能做些什么?

      最后更新:2020-04-17 09:52:51 手机定位技术交流文章

      作者|亚历山大·昆泽内斯特罗夫

      译者|弯月,责任|夕颜

      生产| CSDN(身份证:中国国家新闻网)

      机器人比人类更适合简单的劳动密集型任务,所以我们可以积极使用机器人来处理日常操作。自动化被广泛使用,包括通过电话与客户交谈。

      在这篇文章中,让我们来讨论一下如何通过语音识别来区分来电者的性别,以及如何处理谈话的技术和细节。

      首先,我们将讨论一个商业案例,然后我们将详细讨论技术。

      我想介绍一个最有趣的商业案例:引入语音机器人来代替呼叫中心的员工。机器人的功能不是执行日常任务(例如确认送货地址),而是找出为什么一些顾客不经常访问公司网站。

      这项技术是基于一个全功能的神经网络,而不仅仅是一个脚本。神经网络帮助机器人解决一些通常难以理解的问题。这里,我的意思是对话者给出了这样的回答:“呃,我不知道,也许,也许不是”,或者“呃,也许,也许不是”人类常用的一些表达方式将成为机器人无法逾越的障碍。

      经过训练,机器人可以理解不同短语和可能答案的含义。机器人可以发出各种声音,包括男性和女性的声音。我们的主要任务是让机器人更像一个活生生的人。与它交谈的人不会测试机器本身的功能,而是会在目标场景的背景下交谈。

      下面是结果的一个例子。

      http://sound cloud . com/daniil-dymshits/sets/neuro net-kupivip-black-Friday

      机器人可以倾听对话者的声音,并给出有意义的答案。此对话脚本的不同分支总数超过1000。

      这个机器人的主要目的是了解公司网站上客户活动减少的原因,并为客户提供有意义的报价。这是该公司首次尝试自动化呼叫中心。

      新机器人的效果有了显著的提高。

      接下来,让我们谈谈基本技术。

      确保机器人性能的三项关键技术是:

      通过人类与语音识别对话者的性别和年龄识别管理之间的对话,我们开发了这一功能,以便使用机器人进行问卷调查。过去,问卷都是要求人们填写的问题。例如,调查问卷上必须注明对话者的性别。显然,人类面试官不需要问他们正在交谈的人是男是女。在99%的情况下,没有错误。然而,对于机器人来说,情况会有所不同。为了让机器人学会准确识别声音,开发人员必须解决许多问题。这项工作没有白费。如今的技术可以根据性别设置个性化的语音提示。

      重要的一点是,女性的声音是普遍的,适合处理最广泛的产品,尤其是女性产品。根据各种研究,任何观众听到女人的声音都会感到舒服,所以把它转换成女人的声音效果更好。例外的是宣传男性产品的运动,男性的声音更好。

      这个机器人是如何实现的?首先,根据持续20毫秒的语音记录和分段处理来执行主数据处理。所有收集的语音分段都使用VAD(语音活动检测)组件进行预处理。这一步是非常必要的,通过这一步我们可以把语音和噪音分开。删除了所有不必要的元素,从而提高了模型的准确性。

      然后,使用一阶/二阶微分的倒谱系数空来识别声音。GMM(高斯混合模型)方法是这种方法的基础。

      因此,我们使用10–20毫秒的间隔来计算当前功率谱,然后使用逆傅立叶变换来搜索谱的对数并找到必要的系数。

      我们的GMM模型可以分别用男性和女性的声音训练,也可以用来区分成人和儿童的声音。当然,训练系统不能一无所有。你需要有标记的录音。

      为了提高系统的效率,我们使用音色声音模型的系数:

      音色清晰、音色温暖、音色明亮、音色深沉、音色稳定、音色增长、音色不均匀、音色回声我们需要使用音色模型来正确识别儿童的声音,因为其他模型将儿童的声音视为女性。此外,你需要区分低女性声音(例如,老年女性吸烟的声音)和高男性声音。顺便说一句,如果一个人说“你好”,然后咳嗽,所有以前没有声音过滤器的型号都会把这种声音当作男性。

      该系统的主要组成部分是基于MLP多层感知器的数据分类模块。它可以接收来自男性和女性声音模型的数据以及来自音色模型的数据。该系统接收一系列预先分类的值作为输入,然后输出性别歧视的结果。

      这种技术可用于在线(根据客户的第一句话)和离线分类模式(对话后)。性别识别的准确率约为95%。值得一提的是,在线工作的延迟不会超过120-150毫秒,只有这样机器人才能更像人类。通常,机器人和人之间的停顿可以长达几秒钟。人类会对这种行为感到奇怪,并能立即判断对方使用的是数字系统。

      开发人员也在增加文本处理能力。如果对话者提到他是女性,那么对话者必须是女性。在不久的将来,我们将改进这项技术,并将其集成到身份识别系统中。

      确定对话者的年龄

      这项技术的主要目的是防止向未成年人提供各种产品和服务。此外,了解年龄对于按年龄类别进行个性化报价非常有用。

      我们使用了和以前完全一样的技术。该系统的准确率约为90%。

      构建对话

      接下来,让我们讨论最有趣的部分:构建对话的原则。

      这项技术的主要目的是有效地取代人类。机器人必须能够处理线性和非线性对话场景。第一种情况是指问卷调查等。第二种可能是呼叫中心、技术支持服务等之间的交互。和用户。

      工作原理:我们使用基于语义分析的NLU引擎来接收来自ASR系统的文本。然后,定义在构建对话流的逻辑中使用的标识对象,例如实体和意图。

      举例说明这些技术的使用。

      我们从语音识别系统(ASR)收到以下文本:

      “总的来说,我对你的推荐很感兴趣,但我希望价格能便宜一些。我现在有点忙。明天六点你能再打电话给我吗?”

      装满NLU发动机的物体:

      意图:

      确认=真正的异议=昂贵的问题=回电=真正的错误时间=真正的实体:

      日期= 2019年1月2日(假设调用日期为2019年1月1日)时间= 18: 00数量= 6在此示例中,填充对象的方法如下:

      意图:

      “我对你的推荐感兴趣”转换为“确认”意向,值为“真”。“但我希望价格能更便宜”改为“反对”,意思是“昂贵”。“我现在有点忙”被转换为“错误的时间”,值为“真”。"明天六点你能再打电话给我吗?"转换为值为“真”的“回叫”用户没有问任何问题,因此“问题”的目的是空。实体:

      文本“明天”将自动转换为实体“2019年1月2日”,计算公式为:当前日期+1(假设通话日期为2019年1月1日)。文本“六点钟”被自动转换为值为“下午6:00”的“时间”实体。文本“六点钟”被转换为值为“6”的“数量”实体。因为存在具有更高优先级的实体,所以在这个逻辑中可以忽略它。既然所有的意图和实体都被赋予了特定的价值,让我们建立一个对话过程。

      首先,让我们看看NLU引擎支持的算法。该系统包括两个层次。

      第一层使用相对较小的数据样本,包含大约600到1,000条记录。采用机器学习算法,识别准确率达到90%-95%。

      项目启动后,积累了100多万条记录的大量数据,进行了二级转换。这里使用的是DL算法。识别准确率为95%-98%。

      该解决方案与以下两个子系统一起使用:

      文本数据分类子系统对话设计子系统这两个子系统并行工作。分类和分类系统根据与用户的语音呼叫接收识别的文本,并通过实体和值参数构造回复。

      基于神经网络构建非线性场景的对话构建子系统。系统接收基于与用户的语音呼叫的识别文本,并决定下一时刻应该播放哪些录音。

      非线性方案适用于不知道谁在打电话、用户对哪些产品感兴趣以及可能会问哪些问题的机器人。此时,通话的进度取决于客户的反应。

      然而,线性解决方案是打电话时的最佳解决方案。本文开头给出了一个例子。线性场景的另一个例子与调查有关,在这种情况下,客户的答案是不相关的,因为我们将逐步分析客户的答案。但是,指导客户回答调查问卷上的所有问题非常重要。

      总的来说,我们想强调语音机器人不会取代人类。今天,机器人有能力打电话提问、听、录和/或分析答案。希望这将使呼叫中心和技术支持操作员从日常工作中解脱出来,让他们能够集中精力解决真正有趣的问题和重要任务。

      原始链接:

      https://hackernoon . com/the-future-is-now-how-voice-robots-work-and-what-what-their-do-8y2b 3y 8j

      这篇文章是CSDN的翻译。请注明转载来源。

      在人工智能时代,为什么程序员很贵?

      “生命游戏之父”死于新皇冠肺炎,回顾数学流氓的生活

      天啊,你还在用最后一击

      北京四环路交通拥堵引发智能交通的伟大构想

      您公司的虚拟机仍处于闲置状态吗?看看基于Jenkins和Kubernetes的持续集成测试实践吧!

      从网络1.0到网络3.0:近年来互联网发展及未来方向的详细分析

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/4593.html

          热门文章

          文章分类