这家自动驾驶公司共标记了2亿英里的行驶数据，他们希望业内能数据共享

2018-08-15 10:54

总部位于旧金山的Scale公司是向自动驾驶车辆制造商提供传感器融合标注API（Sensor Fusion Annotation API）的供应商，近日他们拿到了千万美元的B轮投资，Lyft、通用汽车（General Motors）、Zoox、Voyage、nuTonomy和 Embark 都是他们的客户，Scale的系统目前一共已经标记了200，000，000英里的自动驾驶车辆的行驶数据，而他们希望将数据开源。

随着机器视觉、人脸识别、语言处理与大数据分析等技术的日臻成熟，出行生态不断智能化。计算机视觉为自动驾驶汽车点亮了眼睛，通过视觉感知，无人车可以标注并识别出车辆、车道线以及行人动物等。当一台计算机学习而不标记的训练数据，它被称为无监督学习。计算机通过无人监督的学习得到正确的答案，但它需要很长时间需要训练大量的数据才能达到识别的效果。而当计算机用标记的训练数据学习时，被称为监督学习，比如标记数据是猫的图像，同时会将单词“cat”作为元数据附加到其图像上，这种方法极大地加速了学习过程。

创建标记的训练数据的过程已经成为一个重要且成本高昂的业务，国内外也有很多创业公司在做相关的服务，但这些标记数据集来自哪里？

今天的大多数标注数据都是人类注释的，成千上万的图像都是由人工标记的，这是一个非常缓慢而低效的过程。它需要人坐在计算机屏幕前操作注释器，点击图像，逐个标记它们。并且，随着图像数量的增加，这个过程会变得更加昂贵且容易出错。

总部位于旧金山的Scale公司正是向自动驾驶车辆制造商提供传感器融合标注API（Sensor Fusion Annotation API）的供应商，以加速数据标记处理。该公司由麻省理工学院（MIT）的21岁计算机科学家Alexandr Wang于2016年创立。

Scale的最初目标是扩展标记训练数据的过程。解决这个问题共分为两个部分：一个是编组成千上万人工标记数据的任务；第二个是创建一套复杂的工具，使这些贴标机的效率和准确度提高了10倍。Alexandr 和他的团队在创办两年来，组建了一支由工程师和技术人员组成的世界级技术团队，正在改变这一领域。当地时间8月7日，Scale宣布其融得了由Index Ventures、Accel和Y Combinator领投的1800万美金。

Scale结合使用了人工数据标记员和机器学习算法，对来自Lyft、通用汽车（General Motors）、Zoox、Voyage、nuTonomy和 Embark 等客户的原始、未标记的数据进行分类，然后以可扩展数据集的方式返还。该公司的员工负责审查来自汽车的图像、雷达、激光雷达数据（以及其他传感器数据），确保自动驾驶车辆能够正确识别道路上的行人、骑自行车车手以及其他物体，并且根据需要进行修正。Scale的系统目前一共已经标记了200，000，000英里的自动驾驶车辆的行驶数据，并且最近将其工作扩展道路机器人、无人机、虚拟助手以及严重依赖AI的“其他解决方案”。

Scale API如何训练自主车辆

这家初创公司开发了自动化系统，可以从自动驾驶汽车看到的内容中获取数据并对其进行检查来标记必要的实物。创建标签的过程有助于自动驾驶汽车内的软件学会识别特定场景，以便更好地为未来做好准备。

Scale 针对图像推出一系列注释类型，其发布的传感器融合标注API（Sensor Fusion Annotation API），能够支持所有主流传感器的高级3D感知，包括激光雷达（30米内稠密3D场景理解）、相机（70米内图像目标识别）和Radar（150米内稀疏场景理解），以帮助汽车制造商和自动驾驶汽车公司加速感知算法的开发。

在Scale中，提供图像注释服务之一是Cuboid Annotation，它使用包围汽车，卡车，行人，交通锥等物体的长方体投影来注释二维图像。通过一些附加信息，可以将这些二维框注释转换为完整的三维框，包括高度，宽度，深度，旋转和相对定位信息。

目前其社区推出的标签类型主要有：

像素方式语义分割

多边形注释

点注释

行注释

像素方式语义分割

多边形注释

线注释

另外，Scale API还提供用于OCR和图像转录、分类、比较和数据收集的API。

RADAR在150米范围内探测场景的屏幕截图

借助传感器融合标注API，用户可以上传未标记的相机、激光雷达和Radar数据，生成可用于训练3D感知模型的标注数据。激光雷达和Radar标注是指，采用长方体包围特定对象的3D点云，并得到这些框的位置和大小。该API支持所有用于3D感知的主流传感器，为自动驾驶技术提供数据支持。

手动立方体注释

除了注释二维图像，Scale公司也同通过手工注释立方体。通过手动立方体调整，缩放器只需绘制一个2D框，表示长方体的一侧和长方体的另一侧：

这通常不是一个“真正的”长方体，因为它在数学上是不精确的。“真正的”长方体的正面可能不是一个完美的90度矩形，特别是如果它没有正面朝向相机。通过调整，给定上面的长方体注释，以及一些附加信息（即相机参数和方向），会自动生成更准确的注释：

正面不再是完美的矩形，而是梯形，左边缘略小，更好地反映了汽车相机的相对方向。右侧的顶部／底部边缘现在会聚合到地平线上的一个点。从3D空间中的这八个点可以很容易地推断出所得长方体的位置，尺寸和方向。通过这些属性，人们可以训练模型，从单个图像中预测类似长方体的物体的3d坐标。通过这种方式，可以创建一个系统，仅需要使用Scale API生成的摄像机图像和注释来识别世界上汽车的位置。

Scale倡导数据共享

显然，标记是Scale API的重要业务组成部分。正如Wired指出的那样，错误地将行人标记为车辆可能会使自动驾驶汽车的软件混淆到不断出错的程度，甚至可能导致事故。Scale已经将标签作为开发自动驾驶汽车的必要和不可或缺的一部分。不幸的是，标签不会彼此共享。Scale的客户群包括Cruise，Nuro，Lyft，Zoox，Nutonomy，Starsky Robotics和Embark都将数据发送到Scale这里。但是，这些数据并没有相互分享，这是一种资源的浪费。自动驾驶汽车需要使用更多真实的标记数据集测试来保证不稳定的情况。所以，Scale希望数据能够共享，构建更广泛的数据集。

21岁的创始人兼首席执行官Alexandr Wang 认为“现在，每家公司都在自己的道路上并且保密自己的数据，实际上，这些边缘情况可能需要在整个行业中共享或标准化。”