最后更新:2020-03-12 09:58:20 手机定位技术交流文章

制作,虎嗅科技集团
作者,石
编辑,余多田
图片|副媒体
上午9点,刘基的20+手下坐在他们的台式电脑前,一眨不眨地盯着屏幕没有任何交流要不是鼠标和屏幕的点击来回移动,外人会认为这些人都处于“JPG模式”他们的屏幕上满是文字。如果你仔细看,它们都是用户给电子商务平台的信息:
“我的货还没到”,“我什么时候可以送货”,“我星期二可以送货吗”...
数据注释器巧妙地用各种标签来标记出现在这些语句中的“语素”,包括情感、词性和用户需求他们一天要处理2000多个这样的句子。
只有通过像这样“学习”大量的标签数据,所谓的“人工智能客户服务”才能真正理解人类想要表达什么并做出相应的反应
事实上,无论我们听到多么酷的人工智能技术,我们都无法掩盖这样一个事实:它的认知水平不如一个5岁的孩子。
在现阶段,人工智能提高认识世界能力的最有效方法仍然是监督学习,而刘基团队正在做的数据标注是其中最基本的部分。
就像教孩子一样。数据注释器将数据处理成人工智能可以通过标注理解的特征这些特征将指向一个结果,然后通过模型训练人工智能可以将这些特征与结果相匹配,从而完成对某种事物的认知——
实际上是人类眼睛中一个非常简单的分类过程
以自动驾驶为例。贴标机对图像进行帧处理,以选择汽车和行人等物体的轮廓。只有当这些轮廓标签反馈到人工智能训练模型后,无人驾驶汽车才有能力辨别周围的物体
< BR >

图像来源:视觉中国
为了让人工智能达到人类认知的水平,它至少需要数十亿甚至数百亿的喂食样本这些示例只能通过手动绘制框架和标点符号来获得是的,智力的背后是大量的人力
像刘基这样的团队在莫比希基上仍然拥有30万个数据众包平台它们都是注册公司,平均有20-25个数据标注员,是分布在贵州、河南、山西等地的小型数据工厂。据中国科学院自动化研究所研究员王金桥估计,全国从事这项工作的人数已达1000万。
这些数据注释器有一个内部人士默认的昵称:人工智能农民工
他们大多数人受教育程度低。在所有省份的贫困县,单调的框架和标点符号重复出现,就像机器每天高速运转8-15小时。在他们看来,这与在野外和建筑工地工作的最大区别是能够安全地在办公室里筑巢——更像是网吧而不是办公室。他们机械地忙碌着,工资微薄(每月不到3000元),完全没有意识到自己参与了价值数千万美元的高科技项目。

Vice,一家美国青年文化媒体,于2018年前往中国农村的一个小城镇采访住在那里的
名年轻数据记录者。如今,除了互联网和人工智能初创公司,越来越多的政府和学术机构也在快速投资人工智能。根据IDC和浪潮的报告,2023年中国的人工智能基础设施市场将超过80亿美元,未来五年的复合增长率为33.8%。
但是,由于市场分散,有需求的甲方很难找到经济实惠的解决方案,在效率、质量和成本之间进行选择是不可避免的。
,大大小小的乙方拓展客户资源并不容易在服务顾客的过程中,依靠自己的能力来考虑团队的生产能力、任务期限、价格、交付质量等环节无疑是一个更大的挑战。
硅谷公司Scale AI此前曾被彭博等国外知名媒体报道过,该公司正通过人机合作解决这些棘手问题。
比例尺开发的软件可以实现图像等数据的自动标注,标注人员在此基础上审核修改后可以给出结果。
该软件实现了Scale CEO王提高数据标注效率的愿景,“以前需要几个小时的任务现在只需要几分钟”
在Scale的启发下,mobihiko、Graviti等众包平台也开始探索智能方式来提高数据标注的效率和质量他们正在将部分数据注释、任务分配、结果管理、激励机制和其他链接交给人工智能来完成。
去年,Scale完成了1亿美元的融资,销售额近1亿美元,在成立后短短三年内就跻身独角兽之列。这不禁让人期待中国数据服务巨头的崛起。
效率和质量之痛
互联网、人工智能公司、政府、学术和其他机构的数据需求难以自给自足
2 017年,中国安防巨头合康微视全年售出9800多万台摄像机如果这些相机一年产生的数据总量超过1500万PB,那么中国所有的数据中心加起来也容纳不了这么多数据。
的非结构化数据呈爆炸式增长,当然需要大量的手动处理。“
博客”的创始人刘端阳告诉胡晓,字节跳动在全国共有5万多名员工,其中4万人是数据标注员,分布在济南、天津和武汉。但是字节跳动毕竟只是一个例子
如果所有的企业或机构都设立数百人甚至数千人或数万人的数据标注部门,人工成本将会非常高。而一旦需求被切断,如何安排这些闲置人员也是一个大问题。
因此,越来越多的公司选择成为甲方,并将通过外包解决数据需求。一方面,它可以移交给能够控制整个过程的数据工厂,例如Testin cloud measurement,它管理着5000名标签员工;另一方面,
可以通过众包平台,如百度众包、JD.com众包等,转移给分散的从业者

360buy.com公共情报数据标签平台
但问题随之而来
虽然前者可以统一控制和交付结果,但成本仍然很高,规模仍然有限,只能在一定时期内满足部分需求。
后者将大任务分成几个小任务进行分配的方法当然是可行的,但是由于供应商或兼职标签人员的素质不同,数据标签的完整性和准确性受到很大的考验。崔云凯,
前优步自动驾驶工程师,回家后在第一家公司受了重伤。
2-018年下半年,他们将培训模型的任务交给了12家国内数据标签供应商。在了解需求后,只有两个人说他们有能力接受订单。崔云凯选择了一个更便宜的。
没想起来。该公司不了解数据的最终要求,甚至没有基本的标签工具。取而代之的是,它使用Photoshop来框住图片。然而,业内人士都知道人工智能只能接受CSV、XML、JSON和其他特定格式的数据。
“人工智能可以使用这种(在PS中)输出格式吗?”他吐在老虎身上。甲方到底想要什么?乙方也在暗中猜测
随着人工智能应用程序的加速登陆,数据工厂已经清楚地意识到低报价和提交的注释结果的数量不再那么重要。准确率能否超过95%,达到97%,甚至99%,是自身生存的命脉。
也就是说,甲方对数据质量和效率的要求已经超过成本。
从这个角度来看,这个行业的差距还是很大的刘端阳创立莫比·希基是因为他看到了这样一个机会。
“中国的市场规模大约是每年300到400亿元然而,从数据收集和标记的角度来看,国内公司实际上并没有做得特别好。原本想继续做人工智能应用创业的崔云凯,也决定切入机器学习的基础服务市场,建立人工智能数据服务平台“格乌蒂智能技术”
“只有通过解决这些棘手问题并以更自动化的方式提供数据服务,才能为人工智能企业家提供更好的基础设施。””他说
小玩家难以自救,一个以人工智能反馈数据为标志的平台应运而生灵感来自今日头条
由于行业不同,自动驾驶、医疗人工智能和新零售公司的数据标注任务要求也大不相同。在众包平台的另一端,各方都有自己的优势。要求他们找到合适的人就像大海捞针。
的另一个后果是很难保证数据注释的质量,因为接收者为了生存需要而承担任务。
如果这个匹配过程是智能的,那么今天标题中的内容推荐系统就是一个很好的参考——它总是在判断你想看什么,而且似乎越来越准确。
这也是刘端阳关于移动互联网向智能众包平台演进的愿景的第一步:构建智能任务推荐系统
因此,在莫比希推出的早期,刘端阳使用公共任务对每个进入的数据标注团队进行测试,并根据测试结果,从专业领域、标注速度和完成质量三个维度对每个数据标注团队成员的能力进行抽取和评估。在
的另一端,刘端阳也相应地标记了任务:任务的内容是图像、音频或文本,标记是脸、对象或动作...在
之后,具有相同或相似标签的任务方与接收者的匹配可以通过某种算法来实现。并且随着平台客户端和接收端数量的增加,该算法将更加精确地迭代。去年8月
开始搭建人工智能数据服务平台Graviti时,崔也发现了标签人员之间的巨大差异:
”有些男生特别喜欢玩游戏,他们的手速极快。当他贴标签时,他可能比另一个人快五倍,而且质量极高。通过算法自动分配任务,最好的任务可以分配给最好的人。“
这种任务推荐系统彼此也很友好
他们为挖掘客户节省了自己的一些人力和时间成本,可以将更多精力投入到任务本身。接到任务后,公司的老板将不再需要亲自把工作一个一个地分配给员工,因为系统会直接定位人员。刘端阳,
,称此模式为众包2.0-
。经过智能匹配,甲方的需求能够得到更好的满足。他愿意为此付出代价并支付平台佣金。乙方也可以在平台上更积极地获得物有所值的订单。
现在,刘基不再担心每天醒来时谈论顾客,而是打开莫比·希基的后台,看看团队今天要处理多少任务。

,但匹配只是整个链的第一个环节
即使任务分配非常精确,平台也很难避免各种意外情况,如接收方延迟。虽然甲方有权减少甚至不支付报酬,但平台很难保证这些问题不会再次发生。
因此,奖惩机制的动态变化在接单过程中也是非常必要的。
在Graviti平台上,崔除了掌握接收机的初始性能外,还通过该模型连续监测接收机在实际任务中的性能
例如,Graviti使用类似于Bing和Didi的奖励模式,为在线时间长、工作质量高的收件人提供额外奖励。在
的理想状态下,这将是一个良性循环——接收方的良好表现将导致更高的报酬,更高的报酬将鼓励他继续在平台上接收订单。如果平台利用这一点来留住高质量的承包商,平台还可以获得更多的粘性客户。
但是与需要一定时间来积累奖惩的引力相比,莫比的方法更直接。奖惩直接反映在任务分配过程中-
如果平台上一个项目有5000万张图片需要标记,系统会自动将它分成5万个任务组,并在匹配平台图片后将任务推荐给合格的接收者。收到订单的人可以拒绝
,但一旦收到订单,必须在15分钟内完成10张图片(莫比·希基包装的最小单位)的试贴;如果没有完成,任务将直接自动推荐给下一个公司。对于正式的标签流程
,MobiHeKe还将使用极其严格的截止日期要求来接收一个订单:一个任务包,最大延迟为10±15分钟,即2.5小时。如果没有完成,任务将被重新分配。接收方不仅将一无所获,还将面临信用降级,这将影响未来订单。
将“人工智能农民工”
替换为人工智能。然而,我们需要提醒每个人,即使流程发展到智能化,以“数据标签员工”为核心的数据标签行业仍将受制于人力的上限。
毕竟与人工智能相比,人工输出的结果不能完全统一,而且计算能力也非常有限一旦
智能数据标注可以代替手工工作,这意味着数据量和质量指标水平将会提高,算法将会更快成熟,这将是数据服务行业乃至整个人工智能行业的一个伟大里程碑。
也正因为如此,开发一款能够实现自动数据标注的工具才是这些玩家真正的比赛场地。
如今,MobiHeKe使用人工智能技术对一些不复杂的常见图像任务进行预标记,然后将它们分配给收件人进行审核、完善并交付结果。
因此,平台上的数据流速度大大提高
“还有2000张医学图像(有标记),我们可以在半天内传送,一般平台可能需要一周时间,”刘端阳告诉胡晓。据刘端阳统计,平台效率的提高可以为客户节省20%的成本。
目前,莫比高科的客户包括腾讯、华为、三宝、HKUST迅飞等。其业务涵盖自动驾驶、医学成像、人脸识别和新零售等多个领域。在
的高峰期,Mobihiko每天接收超过260,000个图像标记任务,平均每天约7000-8000万个图像任务。去年全年,平台运行水量达到2亿元。一年后进入香港的崔云凯也在加紧人工智能标注模型的培训。

Graviti官方网站
< BR >
与其他外包形式相比,他表示Graviti目前可以提高效率5倍以上。
”的理论上限可增加150倍然而,他承认人工智能仍然不能达到和手工工作一样的准确度,算法仍然需要在准确度和召回率之间取得平衡。去年4月,当独角兽
上路时,
创立了格莱维蒂,崔云凯在红杉、房地产、云起、丰河获得了一千万美元的投资,并提出了几个改善数据标签行业的好主意。一年前,美华风险投资的大投资者和创始合伙人吴世春签约了莫比·赫克的天使之轮。虽然
的投资领袖在这一领域没有采取多少行动,但调查似乎揭示了趋势的到来。
事实上,在人工智能爆炸式增长的年代,作为基本服务之一的数据标注市场规模迅速增长。目前,中国80亿美元的人工智能基础设施市场和33.8%的年复合增长率极具吸引力。
和近两年前推出的莫比高科技,刘端阳也从客户方面感受到了这种市场紧张。
“一些a轮左右的初创公司每年的预算差额不超过2030万元,而d轮的预算差额超过1000万元去年,腾讯用于审查微信公众号文章的预算只有26亿元。“
这个快速增长的市场吸引了互联网巨头的注意力。在这条轨道上,不乏百度众包和JD.com众包。
大型工厂的这种经营方式不仅能满足内部需求,还能创造对外收入。它还可以在数据标签市场获得立足点。大风过后,它也可以凭借自身的资源优势迅速扩张。算盘打得很响。
但是与大的和所有的相比,后来者有他们自己独特的技能。
BieHeke从医学人工智能起步,在电脑断层片、病理细胞图像和病例文本方面形成先发优势。受崔云凯基因影响,重力平台擅长自动驾驶领域。
与行业之间的紧密联系是初创公司深化客户其他需求的开端。
"当我们为甲方服务时,我们也将做大量的咨询工作,包括参与他们的系统架构设计与普通公司相比,我们与甲方之间自然有着更强的信任关系,因为我们自己也说着同样的语言。”崔允凯告诉老虎闻
美国数据标注的竞争格局形成早于中国。除了新的独角兽Scalai,优步对强大人工智能的收购,亚马逊的自动标签服务和像Hive和Alegion这样的初创公司也想分一杯羹。
著名风投公司Accel和彼得·泰尔的创始人基金更看好Scale AI,因为他们认为Scale的工具更先进,可以更快、更便宜地标记数据。正因为如此,Scale的软件去年销售了近1亿元。

比例尺人工智能创始人亚历山大·王
据此,不难推测,如果国内数据服务公司能够在这场智能竞争中率先引入高精度数据标注人工智能,真正实现交付效率和质量的飞跃,将会脱颖而出。
毕竟这是标注和标注数据的过程,而标注是缩放的前提。
如今,鲜为人知的数据标签市场已经在美国悄然孕育出一只独角兽,但中国市场仍是一片朦胧。但在数千万员工和数千亿市场的召唤下,中国独角兽也应该破土而出。
本文由 在线网速测试 整理编辑,转载请注明出处。