Facebook使用AI改进视障人士的照片描述

摘要在 Facebook 和其他社交媒体平台上共享的最常见的内容类型之一是照片。虽然大多数社交媒体用户可以查看图像并了解其代表的含义，但对于盲

在 Facebook 和其他社交媒体平台上共享的最常见的内容类型之一是照片。虽然大多数社交媒体用户可以查看图像并了解其代表的含义，但对于盲人或视障人士而言，这并不容易。Facebook 表示，屏幕阅读器可以使用合成语音来描述这些图像的内容，让盲人或视障用户能够理解 Facebook 提要中的图像。

然而，许多照片在没有替代文本的情况下发布，导致 Facebook 在 2016 年引入了自动替代文本 (AAT)。该技术使用对象识别为盲人或视障用户按需生成照片描述。自 2016 年以来，Facebook 一直致力于改进 AAT，并于最近推出了下一代技术。

最新进展通过扩展数量的概念改善了用户的照片体验，AAT 可以可靠地检测和识别照片中的十倍以上。这意味着没有描述的照片更少，提供的描述更详细。AAT 可以提供能够识别活动、地标、动物类型等的描述。

AAT 现在会给出诸如“可能是两个人的自拍，在户外，比萨斜塔”之类的描述。Facebook 还表示，能够在照片中包含有关元素的潜在位置和相对大小的信息是行业首创。它不是简单地说，“可能是五个人的图像”，它可以指定照片中央有两个人，另外三个分散在边缘。

Facebook 表示，这些进步有助于盲人或视障用户更好地了解家人和朋友发布的照片中的内容。最新版本的 AAT 使用了一个在弱监督数据上训练的模型，这些数据以数十亿张公开的 Instagram 图像和主题标签的形式存在。培训产生的模型更准确，在文化和人口方面更具包容性。改进后的 AAT 可以可靠地识别 1200 多个概念。

相关文章