技术文章及通讯

创建可以分析艺术作品的计算机视觉和机器学习算法

作者:Ahmed Elgammal,罗格斯大学


当你研究一幅画时,很可能你可以对它做出几个推论。例如,除了理解主题之外,您还可以根据时期、风格和艺术家对其进行分类。计算机算法能很好地“理解”一幅画,像人类一样轻松地执行这些分类任务吗?

我和罗格斯大学艺术与人工智能实验室的同事们用MATLAB研究了这个问题®统计和机器学习工具箱™,以及过去六个世纪数千幅画作的数据库。我们还讨论了关于人工智能算法的能力和局限性的另外两个有趣的问题:它们是否能够识别哪些画作对后来的艺术家产生了最大的影响,以及它们是否可以仅通过视觉特征来衡量一幅画的创造力。

绘画分类中视觉特征的提取

我们希望开发能够根据风格(例如,立体派、印象派、抽象表现主义或巴洛克)、流派(例如,风景、肖像或静物)和艺术家对大型绘画组进行分类的算法。这种分类的一个要求是能够识别颜色、构图、纹理、透视、主题和其他视觉特征。第二个是选择那些最能表明画作之间相似性的视觉特征的能力。

使用MATLAB和图像处理工具箱,我们开发了提取绘画视觉特征的算法。特征提取算法在计算机视觉中很常见,实现简单。更有挑战性的任务是找到最好的机器学习技术。我们首先在统计和机器学习工具箱中测试支持万博1manbetx向量机(svm)和其他分类算法,以识别在风格分类中有用的视觉特征。然后在MATLAB中,我们应用距离度量学习技术来衡量特征,从而提高算法对绘画分类的能力。

我们开发的算法对数据库中的绘画风格进行分类的准确率为60%,而概率表现约为2%。虽然艺术史学家执行这项任务的准确率远远超过60%,但该算法的表现优于典型的非专业人类。

使用机器学习来揭示艺术的影响

一旦我们有了能够可靠地识别画作之间相似性的算法,我们就准备好迎接下一个挑战:使用机器学习来揭示艺术影响。我们的假设是,对风格分类有用的视觉特征(有监督学习问题)也可以用来确定影响(无监督问题)。

艺术历史学家根据艺术家如何工作、旅行或与同时代人一起接受培训来发展艺术影响力的理论。我们基于MATLAB的机器学习算法只使用了视觉元素和合成日期。我们假设,考虑到绘画中的物体和符号的算法比依赖于颜色和纹理等低级特征的算法更有效。考虑到这一点,我们使用了在谷歌图像上训练的分类算法来识别特定的对象。

我们在550年的时间里,对66位不同艺术家的1700多幅画作进行了算法测试。算法很容易识别出迭戈·委拉斯开兹的《英诺森十世教皇肖像》对弗朗西斯·培根的《委拉斯开兹的英诺森十世教皇肖像之后的研究》(图1)的影响。

图1。左:迭戈Velázquez的《英诺森十世教皇肖像》右:弗朗西斯培根的《Velázquez英诺森十世教皇肖像后的研究》
图1。左:迭戈Velázquez的《英诺森十世教皇肖像》右:弗朗西斯培根的《Velázquez英诺森十世教皇肖像后的研究》

这两幅画在构图和主题上的相似之处,即使是外行也很容易发现,但算法得出的结果也让我们合作的艺术历史学家感到惊讶。例如,我们的算法识别了“Bazille 's Studio;法国印象派画家弗雷德里克·巴齐耶(Frederic Bazille)于1870年创作的《孔达明街9号》(rue de la Condamine),这幅画可能影响了诺曼·洛克威尔(Norman Rockwell) 80年后完成的《沙弗尔顿的理发店》(Shuffleton’s Barbershop)(图2)。虽然这两幅画乍一看可能不太相似,但仔细观察会发现它们在构图和主题上有相似之处,包括每幅作品右下方的暖气、中间的三人组以及左下方的椅子和三角形空间。

图2。左:弗雷德里克·巴齐耶(Frederic Bazille)的“巴齐耶工作室”;孔达明街9号。”右图:诺曼·洛克威尔的《沙弗顿的理发店》。黄色圆圈表示相似的对象,红线表示相似的组成,蓝色矩形表示相似的结构元素。

图2。左:弗雷德里克·巴齐耶(Frederic Bazille)的“巴齐耶工作室”;孔达明街9号。”右图:诺曼·洛克威尔的《沙弗顿的理发店》。黄色圆圈表示相似的对象,红线表示相似的组成,蓝色矩形表示相似的结构元素。

在我们的数据集中,算法正确识别了艺术历史学家识别的55种影响中的60%,这表明视觉相似性本身就为算法(可能也为人类)确定许多影响提供了足够的信息。

通过解决网络中心问题来衡量创造力

最近,我们的研究集中在开发算法来衡量艺术的创造力。我们基于一个广泛使用的定义,即如果一个对象既新颖又有影响力,那么它就具有创造性。在这些方面,一幅创造性的绘画将不同于它之前的绘画(新颖),但类似于它之后的绘画(有影响力)。

在解决这个问题时,我们再次看到了应用MATLAB算法识别画作之间相似性的机会。在MATLAB中,我们创建了一个网络,其中顶点是画作,每条边代表两幅画作在其顶点处的相似性。通过在这个网络上的一系列变换,我们发现从这样一个图中推断创造力是一个网络中心问题,这个问题可以用MATLAB有效解决。

我们在两个包含62000多幅画作的数据集上测试了我们的创造力算法。该算法给几幅被艺术历史学家认为既新颖又有影响力的作品打了高分,其中包括图3所示的一些作品。在同一时期,卡兹米尔·马列维奇(Kazimir Malevich)的几幅画甚至比巴勃罗·毕加索(Pablo Picasso)的《阿维尼翁少女》(Young Ladies of Avignon, 1907)还要高。这个结果一开始让我很惊讶,因为我对马列维奇的研究知之甚少。后来我才知道,他是抽象艺术最早发展之一的至上主义运动的创始人。

图3。从1400年到2000年(x轴)画作的创造力得分(y轴),显示了各个时期得分最高的画作。

图3。从1400年到2000年(x轴)画作的创造力得分(y轴),显示了各个时期得分最高的画作。

为了对我们的算法进行基本验证,我们更改了特定艺术作品的日期,有效地将它们向后或向前移动。在这些“时间机器”实验中,我们看到印象派艺术的创造力得分显著上升,回到了17世纪,而巴洛克绘画的创造力得分显著下降,回到了20世纪。这些算法正确地认识到,300年前的创意在今天已经没有创意了,而现在有创意的东西如果在很久以前被引入的话,可能会更有创意。

一个可扩展和可扩展的框架,为正在进行的艺术研究

人类拥有天生的对艺术进行分类的感知技能,他们擅长识别成对画作的相似之处,但他们缺乏时间和耐心,将这些技能客观地应用于成千上万幅或数百万幅画作。处理这种规模的任务正是计算机发挥作用的地方。通过开发具有类似人类感知能力的机器学习算法,我们的目标是为艺术历史学家提供工具来浏览庞大的图像数据库。

我们在MATLAB中开发的用于识别相似性和衡量创造力的框架并不局限于艺术。它可以应用于文学、音乐或几乎任何其他创作领域,只要单个作品可以以算法可访问的方式进行编码。

然而,目前我们的重点仍然是视觉艺术。我们不仅对确保机器学习算法产生良好结果感兴趣,而且对它们如何得到这些结果感兴趣。在这个领域,MATLAB也是一个巨大的优势,因为它提供了许多方法来快速和轻松地可视化结果。这些可视化使我们能够理解结果,并使用它们为正在进行的人工智能研究提供信息。

作者简介

Ahmed Elgammal博士是新泽西州立大学罗格斯大学计算机科学系的副教授。他的研究兴趣包括计算机视觉、视觉学习、数据科学、数字人文和人体运动分析。

发布2016年- 92967v00

查看相关功能的文章