技术文章和通讯

创造能够分析艺术作品的计算机视觉和机器学习算法

作者:Ahmed Elgammal,罗格斯大学


当你研究一幅画时,你很有可能对它做出几个推论。例如,除了理解主题之外,你还可以根据时期、风格和艺术家对其进行分类。计算机算法能“理解”一幅画,并像人类一样轻松地完成这些分类任务吗?

我和罗格斯大学艺术与人工智能实验室的同事们用MATLAB探索了这个问题®,统计和机器学习工具箱™,以及过去六个世纪的数千幅绘画的数据库。我们还讨论了另外两个关于人工智能算法的能力和局限性的有趣问题:它们是否能够识别哪些画作对后来的艺术家产生了最大的影响,以及它们是否能够仅使用视觉特征来衡量一幅画作的创造力。

提取图像的视觉特征进行分类

我们希望开发能够根据风格(例如,立体主义、印象派、抽象表现主义或巴洛克)、流派(例如,风景、肖像或静物)和艺术家对大组绘画进行分类的算法。这种分类的一个要求是能够识别颜色、构图、纹理、透视、主题和其他视觉特征。第二种能力是选择那些最能表明绘画相似性的视觉特征的能力。

利用MATLAB和图像处理工具箱™,我们开发了算法来提取绘画的视觉特征。特征提取算法是计算机视觉中比较常见的一种算法,实现简单。更有挑战性的任务是找到最好的机器学习技术。我们首先在统计学和机器学习工具箱中测试支万博1manbetx持向量机(svm)和其他分类算法,以识别风格分类中有用的视觉特征。在MATLAB中,我们应用距离度量学习技术来衡量特征,从而提高算法对绘画分类的能力。

我们开发的算法对数据库中的绘画风格进行分类的准确率为60%,而随机表现的准确率约为2%。虽然艺术历史学家可以以超过60%的准确率完成这项任务,但该算法的表现要好于典型的非专业人士。

使用机器学习揭示艺术影响

一旦我们有了算法,能够可靠地识别两幅画之间的相似之处,我们就准备好应对下一个挑战:使用机器学习来揭示艺术影响。我们的假设是,对风格分类(有监督学习问题)有用的视觉特征也可以用来确定影响(无监督问题)。

艺术历史学家根据艺术家的工作、旅行或与同时代人一起训练的方式发展艺术影响的理论。我们基于MATLAB的机器学习算法只使用了视觉元素和合成日期。我们假设,考虑到绘画中的物体和符号的算法比依赖于颜色和纹理等低级特征的算法更有效。考虑到这一点,我们使用在谷歌图像上训练的分类算法来识别特定的目标。

我们在超过1700幅画作上测试了算法,这些画作来自66位不同的艺术家,创作时间跨度550年。算法很容易识别出迭戈·委拉斯奎兹的《英诺森十世教皇画像》对弗朗西斯·培根的《对委拉斯奎兹的英诺森十世教皇画像的研究》(图1)的影响。

图1所示。左图:迭戈Velázquez的《教皇英诺森x画像》右图:弗朗西斯培根的《在Velázquez的教皇英诺森x画像之后的研究》

这两幅画在构图和题材上的相似之处,即使是门外汉也很容易发现,但算法产生的结果也让我们合作的艺术历史学家感到惊讶。例如,我们的算法识别出“Bazille’s Studio;这幅画是法国印象派画家弗雷德里克·巴齐耶于1870年创作的,他认为这幅画可能对诺曼·洛克威尔的《沙佛尔顿的理发店》产生了影响,完成80年之后(图2)。尽管画作可能不类似乍一看,仔细观察发现相似的成分和主题,包括每个工作的加热器在右下方,群三个人中间,左下角的椅子和三角形的空间。

图2。左:弗雷德里克·巴齐耶的《巴齐耶的工作室》;孔达米纳街九号。”右图:诺曼·洛克威尔的《沙佛顿的理发店》黄圈表示相似的对象,红线表示相似的组成,蓝色矩形表示相似的结构元素。

在我们的数据集中,算法正确识别了艺术历史学家识别的55种影响中的60%,这表明视觉相似性本身就为算法(可能也为人类)确定许多影响提供了足够的信息。

通过解决网络中心性问题来衡量创造力

最近,我们的研究集中在开发算法来衡量艺术的创造力。我们基于一个广泛使用的定义,即如果一个物体既新颖又有影响力,那么它就是有创意的。在这些术语中,一幅创造性的画将不同于它之前的画(新颖),但类似于那些它之后的画(有影响力)。

在解决这个问题的过程中,我们再次看到了应用MATLAB算法识别绘画相似性的机会。在MATLAB中,我们创建了一个网络,其中顶点是绘画,每条边代表了两幅画在其顶点上的相似性。通过对该网络的一系列变换,我们看到,从这样一个图中推断创造力是一个网络中心性问题,可以用MATLAB有效地解决。

我们在两个包含62,000多幅画的数据集上测试了我们的创造力算法。算法给一些被艺术史学家认为既新颖又有影响力的作品打了高分,包括图3中所示的一些作品。比毕加索的《阿维尼翁的少女》(1907年)还要高的是马列维奇的几幅作品。这个结果一开始让我很惊讶,因为我对马列维奇的作品知之甚少。后来我了解到他是至上主义运动的创始人,这是抽象艺术最早的发展之一。

图3。计算创造力分数(y轴)绘画从1400到2000 (x轴),显示选定的最高得分的绘画为个别时期。

为了对我们的算法进行基本验证,我们改变了特定艺术作品的日期,有效地让它们在时间上向前或向后移动。在这些“时间机器”实验中,我们看到,回到17世纪后,印象派艺术的创造力得分显著上升,而巴洛克绘画的创造力得分显著下降,一直到20世纪。算法正确地认识到,300年前有创造力的东西今天已经没有创造力了,而现在有创造力的东西如果在很久以前被引入,可能会更有创造力。

一个可扩展的框架,用于正在进行的艺术研究

人类天生具有对艺术进行分类的感知技能,他们擅长在成对的画作中识别相似之处,但他们缺乏时间和耐心将这些技能客观地应用到成千上万幅或数百万幅画作中。处理这种规模的任务是计算机发挥作用的地方。通过开发具有类似人类感知能力的机器学习算法,我们的目标是为艺术历史学家提供工具,以导航庞大的图像数据库。

我们在MATLAB中开发的识别相似性和衡量创造力的框架并不局限于艺术。它可以应用于文学、音乐或几乎任何其他创造性领域,只要个人作品能够以一种算法可以访问的方式进行编码。

然而,就目前而言,我们的重点仍然是视觉艺术。我们感兴趣的不仅是确保机器学习算法产生良好的结果,还包括它们如何得到这些结果。在这方面,MATLAB也是一个巨大的优势,因为它提供了许多方法来快速和容易地可视化结果。这些可视化使我们能够理解结果,并使用它们来为正在进行的人工智能研究提供信息。

文章刊登在MathWorks新闻和笔记

关于作者

Ahmed Elgammal博士是新泽西州罗格斯州立大学计算机科学系副教授。他的研究兴趣包括计算机视觉、视觉学习、数据科学、数字人文和人体运动分析。

发布于2016 - 92967v00

查看相关功能的文章