‘新京葡萄京’深度|让AI学会思考，可能要先教会它画画

发布时间：2024-08-03 人气：

本文摘要：今年4月，Google发售 AutoDraw 绘图功能，让AI协助人类画画，只需几笔就能创作出有艺术家等级的线条画。这个有意思的AI应用于一下让业界随之激动。虽然从目前流入的成果来看，AI的笔画还有些陌生，但这压根不阻碍Google对其背后的AI系统向大众展开高调科普，比如公布了一些科普偏向的Paper等。背后的AI系统取名为SketchRNN，是Google新的另设的Magenta 项目的一部分，以测试 AI 能否用来做到艺术。

新京葡萄京

今年4月，Google发售 AutoDraw 绘图功能，让AI协助人类画画，只需几笔就能创作出有艺术家等级的线条画。这个有意思的AI应用于一下让业界随之激动。

虽然从目前流入的成果来看，AI的笔画还有些陌生，但这压根不阻碍Google对其背后的AI系统向大众展开高调科普，比如公布了一些科普偏向的Paper等。背后的AI系统取名为SketchRNN，是Google新的另设的Magenta 项目的一部分，以测试 AI 能否用来做到艺术。为更佳地理解这一项目及其背后的故事，theatlantic大西洋杂志专访了 Magenta 项目的负责人Doug Eck。对专访内容做到了编译器。

Eck 是蒙特利尔大学（被视作人工智能的温床）的一名教授，同时也供职于Google。他此前曾负责管理Google Music，现转自Google Brian里工作。2000年在印第安纳大学获得计算机科学学士学位后，Eck在音乐和机器学习方面都具有非常丰富的从业经验。

关于SketchRNN这一AI系统，如果大家想要更为形象地解读它，可从以下三幅画来看：当人类被拒绝画一只小猪和一辆卡车时，可能会是这样的画风：但是，当被拒绝画一只“猪车”时，你可能会直观混合二者的明显特征而所画出这样↓虽然画笔看上去依然很陌生，但是这一混合后的产物只不过就跟利用人工智能系统SketchRNN输入后的成果有点相近。正如Eck和他在Google的合作者David Ha的讲解，SketchRNN的工作原理可以解读为“以类似于人类的方式总结抽象概念”。以前文的例子来解释，即Google并想创立画“猪”的机器，而是由此创立的机器能辨识和勾勒出有“猪”的概念或特征。

一言以蔽之，即人类在画一个物体时，不会在脑中存储关于这一物体的概念和明显特征，并让“如何画”和“存储特征”之间产生联系。而SketchRNN的意义就在于让机器学习到人类的这种“综合能力”。为此，Google创建了一个取名为“Quick, Draw!”的游戏，像人类玩游戏的方式一样，Google为该游戏制作了大量人造图形数据库。

训练资料则还包括 75 种物品，看起来猫头鹰、蚊子、花园或是斧头，每种资料所含最少 7 万笔个别范例。依赖“Quick, Draw!”取得的绘画数据，Google研发了 SketchRNN 的AI系统。当人类在草绘时，丰富多彩的喧闹世界不能传输在铅笔的几个线条里。

这些非常简单的笔画就是SketchRNN的数据集。每一类物体的绘画，如猫、瑜伽姿势、雨等，都可以用于Google的TensorFlow开源平台软件库来训练某个特定类型的神经网络。当机器以梵高或完整DeepDream的风格呈现出一张照片时，人类总感觉有点儿古怪，因为机器对物体的概念或明显特征并无法融合的那么灵活性或了无痕迹。这些项目能以谜样而又主观的方式来感觉人类，但是有意思的在于，它们对真实世界的感官与人类相近但又不完全相同。

不过，SketchRNN 的输入结果却没什么古怪感觉。Eck说道：“我想说道它的方式“十分人类”，但是它的感官比那些像素分解的图片看上去像那么回事多了。”这也是Eck领导的 Magenta 团队的核心洞察力。

“人类理解世界的方式并不同于像素，而是以研发抽象概念来替换我们所看见的事物”，Eck和Ha在他们的论文中作如是阐释，“从小时候起，我们就研发了通过绘画来向他人交流我们所看见的东西的能力。”所以，如果人类能做这一点，Google坚信机器某种程度可以做。去年，Google的CEO Sundar Pichai就宣告了AI First”的未来发展战略。对于该公司而言，AI是其完整愿景的大自然伸延，“的组织世界的信息，让其显得标准化和简单”。

所以，Google于是以尝试用于AI的方式的组织信息，让人们可以采访并和用于这些信息。而 Magenta 项目正是Google在该愿景下的一次尝试。机器学习是Google近年来常用的方式，其中，一种特定的机器学习方式就是用于大体基于人类大脑相连系统建模的神经网络。

而多层次的神经网络在解决问题棘手问题时尤其有效地，特别是在是在翻译成和图像识别方面。Google早已在这些新的架构上修复了很多核心服务。拿Google翻译成举例，它虽然早已是一个修建了10年以上的简单系统，但是Google最后通过深度自学花上了9个月的时间对该系统已完成了修复。

所以在这种情况下，神经网络的用于和类型在近几年构建了爆炸式快速增长。基于神经网络的基础，SketchRNN用于了一种分解迭代神经网络。根据Google在论文中讲解，该种类型的神经网络可分解非常简单物体的草图，目的是训练一个能绘画和总结抽象概念的机器，并且它的思维方式与人类类似于。

叙述训练的最简单的方式，就是将其作为一种编码方式。在输出数据（草图）后，该神经网络尝试在所处置的数据中总结出有一些概括性的规则。这些概括性的规则就是数据的模型，不会被存储在叙述网络中神经元特性的数学中。这种过程被称作潜在空间或“Z”（zed）。

它能汲取在整个训练过程中学到的东西，如一只猪、一辆卡车或一个瑜伽姿势的特性等都会存储其中，“Z”再对它们展开取样。那么，SketchRNN 能教给什么？以下就是一个拒绝接受消防车训练的网络神经分解新的消防车的例子。在该模型中，有一个“温度”的变量，研究人员可以下调或上调输入的随机性。在下列图像中，稍蓝色的回应“温度”较低，稍红色的则回应“温度”较高。

或者你不会更加想要看见猫头鹰：或者最差的例子——瑜伽姿势：从以上这些案例来看，SketchRNN输入的成果早已和人类的风格十分相近，但是它们本身并非人类所画。或者说，它们于是以对人类可能会绘画某种事物的方式展开修复。当然，其中有些修复的十分好，有些则不尽然。

同时，SketchRNN也能以人造图像的形式拒绝接受输出。当人类运送一些内容进来，SketchRNN不会尝试摸明白它。以下就是一个正在拒绝接受猫的数据训练的模型，在这只三眼猫的图像中你不会找到哪些变化？从上图可以显现出，从左往右的各种输入中，第三只眼睛被去除了。因为模型告诉，猫有三角形的耳朵，胡子，圆形的脸，且只有两只眼睛。

当然，模型并不知道耳朵究竟是什么，或者脸是什么样的。它对这些草图右图的世界一无所知。但它显然告诉人类是如何刻画猫、猪或帆船的。

Eck说道到，“当开始分解帆船图时，模型不会输出入数百个其他型号的帆船，这些帆船有可能来自该图。这对我们来说是有意义的，因为模型早已从所有这些训练数据中分解了理想的帆船。“训练一个可以画雨点的网络，然后输出一个云的草图，它不会这样做到：雨滴不会从输出模型中的云那落下来。

新京葡萄京

那是因为很多人画雨滴时，不会再行所画云，然后画落下来的雨。所以如果神经网络看见一个云，它不会让雨落在该形状的底部。（有意思的是，如果先画雨，模型会产生云。

）这是一项有意思的工作，但是在对人类思维展开偏移工程中，这种项目有什么意义呢？Eck对述用笔感兴趣，是因为它们内涵非常丰富但包括的信息很少。画一个笑脸只有几个笔画，甚至就是一些像素子集，但任何3岁以上的人都可以发现是一张脸，甚至区分是快乐或哀伤的脸。

Eck指出这是一种传输，是SketchRNN可以解码的编码，甚至可以新的编码。OpenAI的研究员Andrej Karpathy也对SketchRNN的工作很感兴趣。OpenAI也是人工智能研究的一个中心。

但他也认为，这个项目要符合很多前提条件，这意味著它对企业研发人工智能会有过于大的协助。“我们研发的分解模式一般来说不会尽量地与数据集的细节牵涉到，无论你输出什么数据，都应当能用，还包括图像、音频、文本或其他任何东西。除了图像，其它都不是由笔画构成的。

”Eck和Ha正在研发的，更加相似于能玩游戏国际象棋的AI，而不是一个可以玩游戏任何游戏的AI。所以对Karpathy来说，他们目前工作的范围或许受限。但有一些理由指出，线条图是人类思维方式的基础。

Google员工并不是唯一被草图的力量所更有的研究者。早在2012年，乔治亚理工学院的James Hays与慕尼黑理工大学Mathias Eitz以及Marc Alexa，就合作创立了一个草图数据集，以及一个用作辨识它们的机器学习系统。

对于他们来说，草图是一种“标准化交流”形式，所有具备标准理解功能的人都可以做这一点。他们指出，自史前时代以来，人类早已以素描岩画或洞穴绘画的方式来叙述世界了，这种象形文字比语言的经常出现早于了几十万年，如今绘制和辨识草图的能力早已是基本了。多伦多大学神经科学家Dirk Walther在一篇论文中认为，非常简单抽象化的草图不会以与现实性刺激类似于的方式，转录我们的大脑。

Walther的假设是，线条图代表了我们大自然世界的本质，因为在像素的基础上，一些猫的线条怎么看都会看起来一只猫。草图有可能是一种协助我们掌控存储对象概念层次的方式，即我们说道的“本质”。

也就是说，他们可能会告诉他我们，在过去10万年的时间里，当我们的祖先渐渐现代化时，人类如何开始思维的。草图、洞穴壁画，有可能描绘出我们怎么从日常经验南北抽象化的。

大多数现代生活都有这种改变：语言，金钱，数学，以及计算出来本身。因此，如果草图确认能在建构最重要的人工智能方面充分发挥最重要起到，也是合情合理的。

当然，对于人类来说，草图是对现实事物的刻画。我们可以很更容易地解读抽象化线条与实际事物之间的关系。这个概念对我们来说意义根本性。

对于SketchRNN，草图就是笔画序列，形状是通过时间构成的。机器的任务是萃取出有图纸中刻画的东西的本质，并尝试用它们来理解世界。

SketchRNN团队正在许多方面展开探寻。他们可能会创建一个系统，企图通过人类对系统来获得更佳的结果。他们可以用多种草图来训练模型。

或许，他们不会寻找一种方式，来想到他们的模型否可以推展到细致的图像。但他们自己否认SketchRNN是第一步，有很多要自学的东西。人类艺术的历史不是技术时代能比起的。而对Eck来说，他们更好的是想要理解人类如何思维的基础，在他显然，艺术的一个核心部分是，它代表了基本人性。

要解读深度自学，也必须解读人类生活的基本机制，即我们如何看到世界，如何聊天，如何了解面孔，如何将单词包含故事，如何编曲。它看上去没与任何一个特定人类有关，但却代表了抽象化的人类。最后，如果你想要更佳地理解SketchRNN这一AI系统，(公众号：)兹赐给小福利→_→可砍此链接获得Google官方Paper。

本文关键词：‘,新京,葡萄,京,’,深度,让,学会,思考,可能,新京葡萄京

本文来源：新京葡萄京-www.agentangkasnet303.com