深度学习算法不适应网络视觉化,难以提供真知灼见

社交媒体和整个网络正变得越来越视觉化。现在,我们更多的已不是通过语言来分享我们周围的世界,而是让别人通过我们自己的眼睛以图像、音频剪辑和视频的形式看到它。这个视觉丰富的世界为人们提供了前所未有的机会来体验世界各地的生活,通过参与者的视角来见证重大事件的发生。与此同时,随着网络从其文本根源发展到视觉第一的世界,我们依赖的深度学习和数据挖掘算法越来越难以理解它。

即使是当今最强大的计算机视觉算法也只能理解图像的最基本含义。最常见的生产深度学习功能是使用预定义的主题关键字库标记照片。图像基本上是根据主题库和分配的每个相关关键字进行测试的。在最基本的层面上,它们通常可以告诉你一幅图像中有一群人,也许它们会给它贴上“抗议”的标签,甚至可能会记录下背景中有一辆警车和一场火灾。与几年前的极限相比,这是惊人的。然而,它仍然没有告诉我们关于这幅图像的宝贵信息。

最强大的生产工具拥有更大的词汇表,可以使用更丰富的主题标记库添加额外的上下文,但最终它们仍然只是为图像分配元数据标记。从很多方面来说,我们又回到了人类编目员为照片“停尸房”中的每张照片添加一些基本主题标签的时代。

许多工具可以识别标识,这对于企业品牌监控非常有用。还有一些工具可以识别位置、人脸、文本等。研究级别和一些生产工具可以制作有趣但仍然非常基础的标题,这些标题为平淡无奇的元数据标签列表增添了流畅的气氛。

然而,归根结底,即使是当今最优秀的工具,也只相当于刚上学的孩子,无法从纷繁复杂的意象中提供有用的洞见。这些意象正越来越多地占据着社交领域。

即便是最基本的图像识别算法,其计算成本也高得惊人,这意味着很少有社交媒体分析公司能在整个社交媒体图像中大规模地使用这些算法。有些公司会进行基本的分析,比如标识识别或一组预定义的主题,但很少有公司会在整个 Twitter 消息流图像中运行带有数万或数十万个标签的识别模型。

事实上,绝大多数的社交媒体分析研究主要依赖于标签和相关的标题文本,而不是图像本身的实际内容。

相比之下,文本分析构成了我们今天从社交媒体中获得的大部分真实见解的基础。从简单的单词计数算法到先进的深度学习方法,文本构成了我们看待社交媒体的镜头。我们计算主题标签,计算单词和短语直方图,测量文本情绪,标记品牌提及度,计算跟随者和转发图,测量模因速度等等。所有这些都基于文本或结构特征。

甚至 Twitter 自己的首页趋势列表也是基于文本,而不是视觉分析。趋势图像只能在仅有一个独特的标签来描述它的情况下才会出现,而不是基于大量的标签来捕捉共享它的人对它的不同的解释、语境和语言。

看看大多数主流社交媒体分析公司的功能列表,你会发现它们几乎都是文本或结构化的。极少数提供图像分析的公司通常只提供几个基本的镜头来分析内容,比如标识和少量的主题。

任何一家社交分析公司都可以告诉你,在过去一个月里,每天有多少条推文在推文文本或标签中提到了你的公司。几乎所有的推特都会给你一个时间轴,列出这些推特每天的平均“基调”,以及关于你的品牌,谁是最积极和最消极的推特用户。一些人甚至可以告诉你,有多少推特图片的某个地方包含了你的品牌标识。

然而,很少有人能拍下所有这些带有你的品牌标识的图片,然后告诉你它们是正面还是负面地描绘了你的品牌。有些人会说照片中的所有人都面带微笑,并没有描绘暴力或大量警察,这可能是一个积极的形象,但仅此而已。

当然,视觉环境是非常难以评估的。图像不是捕捉现实,而是构建现实。无数的因素,从框架到灯光,可以对一个图像的情感基调有巨大的影响,更不用说它所描绘的主题。

还有一种非视觉环境,不能直接从图像本身推断出来。一个带着微笑的人从大楼里走出来,手里拿着一个名牌公文包,乍一看可能对这个公文包的设计师来说是一个正面的形象。然而,如果这个人是一名被指控的强奸贯犯和连环杀人犯,他们的案件在技术细节上被推翻后正兴高采烈地走出法庭,那该怎么办?突然之间,品牌联想可能就没那么有利了。

相反,在签署结束种族灭绝的和平协议后,美国总统走出堆满垃圾的装货码头,走向等候在那里的车队,看上去疲惫不堪。他被警察包围,手里拿着同一个公文包,可能是一个梦幻般的认可,尽管有垃圾和重型警察存在。

就像人类需要额外的非视觉环境来评估图像的“色调”一样,机器也是如此,尽管目前的深度学习方法在很大程度上无法将这些外部世界的知识融入到它们的评估中。

最终的结果是,如今对社交媒体图像的计算机视觉分析,在每天从社交媒体生成的分析数据中所占的比例并不大。即使是那些大力鼓吹深度学习图像分析能力的公司,也仍然把大部分精力和输出集中在文本分析上。

为什么这很重要?因为随着社交媒体变得越来越可视化,我们越来越多地通过视觉形式来表达自己。我们分享一张没有文字说明的晴空万里的照片来表达美好的一天,我们分享一顿美餐的照片,我们直播一场音乐会,我们分享我们的孩子说第一句话的视频。每一个瞬间都作为一个自解释的自包含的可视对象被共享,不需要文本或主题标签来让我们的机器算法访问它。对于大多数社交分析公司来说,这些可视化内容是完全不可访问的。然而,即使是那些提供基本视觉分析功能的公司,它们从视觉内容中辨别意义的能力,也只有文本分析所能做到的的一小部分。

简而言之,随着社交媒体变得更加视觉化,我们的数据挖掘算法越来越难以访问它。反过来,随着社交媒体的数据可采性越来越低,我们理解它的能力也越来越弱。鉴于视觉表达倾向于许多品牌最感兴趣的更年轻、更有影响力的群体,这种转变尤其不利于他们从社交媒体中获取有用见解的能力。

大多数社交平台都提供某种形式的可访问性特性,比如图像的 ALT 文本或视频的字幕。然而,很少有用户费心使用这些工具来访问他们的内容。如果更多的用户关心的是让他们的文章对所有人都是可访问的,比如为他们所有的图片添加丰富的描述性 ALT 文本,那么这种视觉上的转变对社会分析的破坏性也会小一些。

把所有这些放在一起,随着网络,尤其是社交媒体变得越来越可视化,内容将越来越难以被主导现代社会分析的文本至上的格局所理解。虽然有少数公司提供基本的图像分析,但它们的数量很少,而且与文本分析相比,它们显得苍白无力。与此同时,很少有社交分析的消费者能够完全理解这种转变以及他们所接受的社会洞察中迅速增加的漏洞。

最后,随着社交平台奔向视觉第一的世界,社交分析越来越不能代表我们真正在谈论的东西。

【数字叙事 原作:Kalev Leetaru;编译:小即】

有问题和想法?与数字诗人讨论、交流,以获得更多的信息、意见。

赞赏
小即
小即
继续
本文系数字叙事原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

订阅

受欢迎的

相关文章
Related