如何创建计算机视觉场景训练数据

      最后更新:2020-03-27 13:50:23 手机定位技术交流文章

      作者|刘明宽

      美国阿彭数据科学部主任

      前易趣首席研究科学家(数据科学主任)

      对于一些精度或复杂性要求较低的计算机视觉应用场景,我们还可以通过使用一些现有的开源数据集(如ImageNet/Coco)来训练满足基本要求的机器学习模型。然而,对于更复杂的计算机视觉应用,如何获得大量高质量的训练数据来支持创建精确的机器学习解决方案?在本文中,美国加利福尼亚州阿彭数据科学部主管刘明宽先生详细说明了如何快速创建(包括收集、标记、质量检查)各种高质量计算机视觉场景所需的培训数据集,并将其应用于视频理解、自动驾驶、安全监控系统、医学图像诊断等领域。

      对于部署在大规模实际应用中的任何计算机视觉应用,成功的关键在于训练相关机器学习模型所需的训练数据集的质量和数量。

      如何为机器学习项目创建合适的培训数据集?

      不同类型的机器学习建模方法可以使用不同类型的训练数据。本文中讨论的数据类型之间的主要区别在于它们被标记的程度。在实际应用场景中,通常有以下四种不同的机器学习建模方法:

      监督学习:模型是在有标签的数据集上训练的。

      半监督学习是指在少量有标签的数据集加上大量无标签的数据集上训练模型。

      无监督学习:聚类分析用于对未标记的数据进行分组。聚类分析不响应反馈,而是识别数据中的共性,并根据每个新数据中是否存在这种共性进行响应。

      强化学习:该模型可以通过自身行为和经验的反馈,在交互环境中通过重复实验进行学习和改进。

      目前,在实际大规模工业应用中最成功的计算机视觉系统通常采用监督学习方法,即使用大量高质量的标注数据进行训练,如深度学习方法。针对您的项目,选择哪种学习模式在很大程度上取决于您的实际项目需求和可用资源,如预算和人员配备。

      尽管一些现有的开源数据集(如ImageNet、Cityscapes或Coco等。)也可用于训练良好的计算机视觉模型,以满足类似于这些数据集的简历应用要求。然而,通常情况下,这些开源数据集无法满足您特定的计算机视觉应用场景需求,无论是特定的应用领域,还是数据分布空的样本,或者注释的精细度等。

      为了在计算机视觉应用的实际应用部署中获得令人满意的应用结果,一个关键点是用于训练相应的机器学习模型的训练数据集必须符合实际应用场景中的数据分布,并且尽可能无偏见和遗漏地覆盖实际应用中的所有可能情况。否则,很可能是“垃圾入”和“垃圾出”。

      您需要为您的计算机视觉应用场景从实际应用场景中收集足够的真实图像或视频数据,并对这些数据进行高质量的精细标注,以满足您的特定应用需求。根据解决方案的复杂性或安全性要求,这可能意味着需要收集和标记数百万的图像数据。

      如果您的计算机视觉应用场景是常见的,并且不需要非常定制的精细注释,那么您可以从一些数据供应商处购买一些现成的常见场景的通用注释数据集。

      如果这些现成的数据集不符合您的特定应用场景,大多数公司通常会选择与培训数据提供商合作来收集和标记所需的培训数据集。例如,阿彭有一个由项目经理组成的全球团队,他们拥有20多年的行业经验,在数据收集和标签方面有多达数百人。这些项目经理可以根据您的具体应用场景需求,针对数据收集、标签、质量检查、交付和其他满足您特定需求的链接制定指导文件,并将这些任务和指导文件分发给阿彭全球数百万众包员工。因此,可以帮助您在相对较短的时间内开发大量高质量的培训数据集,以满足您特定应用场景的需求。

      大量多样的训练数据集将使您的机器学习模型在确定细节和避免误报方面更加健壮和成功。这对于自动驾驶培训数据等解决方案尤为重要。在这些解决方案中,机器学习模型必须准确识别在街上玩耍的孩子和在风中跳舞的购物袋之间的区别。在这种情况下,如果您的系统培训不足,可能会受到背景光线、颜色、大小和形状相似性等因素的影响,从而导致系统识别混乱。

      如何提高培训数据的质量?

      准确的图像注释对于广泛的计算机视觉应用至关重要,包括机器人视觉、人脸识别和其他依靠机器学习来解释图像的解决方案。为了训练这些解决方案,必须将标识符、标题或关键字形式的元数据分配给图片。在大多数情况下,手动处理对于正确识别复杂图像(如交通摄像头报告和拥挤的城市街道照片)中可能经常出现的细微差异和模糊情况至关重要。

      阿彭的图像标注工具利用人工智能的力量显著提高了图像标注工作者的工作效率。人工智能辅助的图像注释工具将首先勾画出物体的轮廓。例如,如果标注任务是标注图片中的所有汽车,阿彭的3D点云图像标注工具将自动在汽车周围形成3D边界框。如果汽车形状没有完全对齐,只需要手动调整边界框的几个点。这比从头开始手动绘制3D边界框要快得多,效率也更高。

      人们总是会犯错,即使是受过长期专业培训的众包员工。如何防止训练数据集的质量由于人工注释者的疏忽而恶化?

      阿彭从两个方面对人工数据采集和标注过程进行了质量控制。首先,我们使用人工智能方法自动验证贴标人员的贴标结果,并向贴标人员提供实时质量检查反馈,使贴标人员能够快速熟悉当前的贴标任务,进而快速提高贴标质量。此外,阿彭还建立了一套严格符合ISO-9001国际标准质量控制认证的数据收集、标签和交付流程。在整个过程的每一个环节,我们都有独立的质量检查员对每个贴标人员的交货结果进行实时的自始至终的质量检查抽查。不符合质量标准的贴标机及其贴标结果将被符合质量标准的新标签替换和重新贴标。这样,我们可以确保提供给客户的培训数据集完全满足您的高质量要求,并有效确保客户在实际部署中培训的机器学习模型的成功。

      提高训练数据集的质量还意味着您必须确保您的训练数据集覆盖您可能遇到的所有真实场景,从而确保您的计算机视觉系统能够适应真实环境。有一些方法可以非常简单地丰富图像数据。例如,帮助训练机器学习模型处理现实中细微差异的常用方法包括旋转或裁剪图片,以及改变颜色和曝光值。实践证明,这种数据处理方法是提高计算机视觉系统性能的一种简单有效的措施。

      如何避免训练图像数据中的标签偏差?

      可能影响机器学习模型准确性的一个问题是训练数据的偏差。当训练机器学习模型时,你的团队应该注意几个可能的偏差原因。

      显著偏差是监督学习项目中常见的问题。当模型训练中使用的数据集不能准确地反映模型将要运行的情况时,就会出现这个问题。在收集培训数据集样本时,不仅要考虑与您的特定项目需求相关的场景,而且要在实际部署应用程序时尽可能多地考虑现实世界的多样性,这一点非常重要。换句话说,训练数据的分布应该与真实数据的分布相匹配。

      因此,当在训练数据中部署实际的机器学习模型时,考虑数据分布因素是很重要的,例如季节和趋势信号,以及数据源的地理分布等。如果不考虑这些因素,可能会产生有偏差的数据,从而影响机器学习模型在现实世界中的性能。

      阿彭如何标注数据?

      阿彭为客户提供了一个ISO-9001质量控制认证和全面管理的全包数据收集和标签计划。我们将机器学习和众包结合起来。在任何给定的时间,全世界成千上万的专业标签工作人员一起工作,以便能够在短时间内高质量地收集、标记、检查和交付大量数据。

      为了使CV项目及时面向市场,阿彭还采用了人工智能和机器学习辅助的高效数据收集、标注、验证和质量检验方法以及项目管理流程,从而大大提高了标注人员的效率和质量。

      此外,阿彭还提供培训数据透视报告和数据增强服务,以确保您的计算机视觉项目拥有最佳培训数据,如图片或视频注释。阿彭的解决方案有几个关键流程组件来确保最高水平的数据质量:数据聚合/分布分析和可视化、数据异常检测、数据偏差消除策略、数据自动扩展策略、数据注释描述建议,以及全面且易于实施的数据注释和项目管理服务。目前,阿彭中国已经提供了一个端到端的一站式数据服务平台,该平台集成了APPEN 20多年的世界领先的数据服务经验和先进的8字形技术,可以快速为您的简历解决方案的准确性提供基础。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/3017.html

          热门文章

          文章分类