谷歌如何捕获街景中的门牌号码

本文由 极客范 - SarahCla 翻译自 technologyreview。欢迎加入极客翻译小组,同我们一道翻译与分享。转载请参见文章末尾处的要求。

谷歌可以在一小时内识别并翻译所有的法国街景中的道路号码,这得益于他们开发的神经网络系统。 现在,让谷歌的工程师来告诉你,他们是如何做到的。
Streetview
谷歌街景已经成为在线地图体验中很重要的一部分。它允许用户定位到街道,看到当地的实景照片。

当然这些也是谷歌拥有的非常有用的资源。可以从这些照片中读取门牌号,并把它们和所在的地理位置进行比对。这样就可以在数据库中记录下每栋建筑物的地理位置。

类似日本、韩国等国家,他们的街道号一般都不是按照地理位置来排列的,街道常常是按照铺设时间先后等方式来排列,这就给人们定位、找路带来了很多的麻烦。在这些场景下,谷歌的路牌,门牌识别就特别有用了。

但是,要标记并识别这些号码是相当耗时的。谷歌的街景照相机已经记录了数以亿计的全景图像,其中包含了上千万的门牌号码。检索这些图片、识别号码,任务繁重,不是凭人力能轻松完成的。

因此,很自然的,谷歌会用自动化的方式来解决问题。今天,公司的 Ian Goodfellow 和 pals 向我们揭示了他们是如何做的。他们的方法就是,使用11层神经元的神经网络,神经元被训练负责从图片中读取号码。

为了容易上手,Goodfellow和他的小伙伴们为这项任务设置了一些限制,让任务尽量简化。 例如,他们假设图片上建筑的编号已经被圈出并剪裁好,号码图像至少占了图片上的三分之一宽度。他们也假设号码不会超过5位,这对世界上大部分的地区来说都是合理的假设。

但是,和其他的团队做的不同,他们并没有把这些门牌号分割成单个的数字。 他们的做法是在裁剪图像中定位整个号码,并一气呵成地唯一确定它,这些都是通过一个神经网络来完成。

他们用被称为街景门牌号数据集的开放的号码图片数据集的图片来训练神经网络的神经元。集合包含了大约 200,000 张谷歌街景照相机拍摄的照片,已被公之于众。他们说,这个训练花了6天时间才完成。

Goodfellow的队员说,如果一个自动化系统的效果不能匹敌或超过人工处理(通常,人有 98% 的概率能精确的圈出号码),哪使用它就毫无意义了。因此,这才是他们团队的目标。

然而,这并不意味着是正确的在所有的图片中圈出98%的号码。而是说,在所有图片的子集中圈出 98% 的号码也是可以接受的,这个子集覆盖到了总集合的 95% 。

即便这样,已经比其他团队的效果好很多了。他说,“世界范围内,我们可以自动检测并解码接近一亿的街道门牌号,并且可以达到人类检测的精度” ,并认为,这是一个“空前的成功”。

并且他们能在合理的时间内完成这项任务。 “我们可以在一小时内,用谷歌的基础设施,解码所有法国的带街道号的街景” ,是的,你没有看错,确实只需要一小时。

有一个有趣的问题,这项技术,有没有可能用于抽取其他的号码,例如名片上的电话号码,甚至车票号码。

然而开发人员对这项技术却并不乐观。他们说,该技术的成功非常依赖于号码不超过5位长的假设。“对更长的号码,我们的方法的扩展性不好” 。

虽然系统现在还需完善,其中2%的未辨识号码仍然是团队们的眼中钉。但是,谷歌可以放心的说,他们已经在文字抽取和识别上迈出了重要的一步:用单一神经网络来定位和识别数字。

其实,我们最想知道的是,下一步谷歌要做什么。Goodfellow 的团队透露了一点信息: “使用单一神经网络作为完整的端到端的系统的这种方法可以适用于解决其它的问题,如一般的文本解码或语音识别。” 什么意思?你懂的。



原文链接: technologyreview 翻译: 极客范 - SarahCla

译文链接: http://www.geekfan.net/5254/

[ 转载请保留原文出处、译者和译文链接。]

新浪微博:@SarahCla

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">