GAN 及其各种变体
2016 年,Yann LeCun 曾称 GAN 是深度学习领域最重要的突破之一,而我们在2016 年也看到了 GAN 变体衍生的苗头,比如 Energy-based GAN 和最小二乘网络 GAN.到了 2017 年初,我们就看到了各种 GAN 变体如雨后春笋般出现,其中一篇名为 WGAN 的论文在年后不久引发了业界极大的讨论,有人称之「令人拍案叫绝」.
从 2014 年 Ian Goodfellow 提出 GAN 以来,它就存在着训练困难、生成器和判别器的 loss 无法指示训练进程、生成样本缺乏多样性等问题.虽然后续的变体都在尝试解决这些问题,但效果不尽人意.而 Wasserstein GAN 成功做到了以下几点:
彻底解决 GAN 训练不稳定的问题,不再需要小心平衡生成器和判别器的训练程度
基本解决了 collapse mode 的问题,确保了生成样本的多样性
训练过程中终于有一个像交叉熵、准确率这样的数值来指示训练的进程,这个数值越小代表 GAN 训练得越好,代表生成器产生的图像质量越高.达内
以上一切好处不需要精心设计的网络架构,最简单的多层全连接网络就可以做到
然而到了年底,谷歌大脑的一篇论文对目前火热的GAN研究敲响警钟.在一篇名为《Are GANs Created Equal?A Large-Scale Study》的论文中, 研究人员对 Wasserstein GAN 等 GAN 目前的六种变体进行了详尽的测试,得出了"没有找到任何证据证明任何一个算法优于原版算法"的结论.或许我们应该更多地把目光转向到新架构上了.
深度神经网络碰上语音合成
近年来,随着深度神经网络的应用,计算机理解自然语音的能力有了彻底革新,例如深度神经网络在语音识别、机器翻译中的应用.但是,使用计算机生成语音(语音合成(speech synthesis)或文本转语音(TTS))仍在很大程度上基于所谓的拼接 TTS(concatenative TTS).而这种传统的方法所合成语音的自然度、舒适度都有很大的缺陷.深度神经网络,能否像促进语音识别的发展一样推进语音合成的进步,也成为了人工智能领域研究的课题之一.
2016 年,DeepMind 提出了 WaveNet,在业内引起了极大的关注.WaveNet 可以直接生成原始音频波形,能够在文本转语音和常规的音频生成上得到出色的结果.但就实际应用而言,它存在的一个问题就是计算量很大,没办法直接用到产品上面.因此,这个研究课题还有非常大的提升空间.达内
2017 年,我们见证了深度学习语音合成方法从实验室走向产品.我们简单梳理出了如下研究:
谷歌:Tacotron、WaveNet(应用于谷歌助手)
百度:Deep Voice、Deep Voice 2(NIPS 2017)、Deep Voice 3(提交 ICLR 2018)
苹果:hybrid unit selection TTS system (应用于Siri)
大批量数据并行训练 ImageNet
深度学习随着大型神经网络和大型数据集的出现而蓬勃发展.然而,大型神经网络和大型数据集往往需要更长的训练时间,而这正好阻碍研究和开发进程.分布式同步 SGD 通过将小批量 SGD(SGD minibatches)分发到一组平行工作站而提供了一种很具潜力的解决方案.然而要使这个解决方案变得高效,每一个工作站的工作负载必须足够大,这意味着 SGD 批量大小会有很大的增长(nontrivial growth).今年 6 月,Facebook 介绍了一项研究成果--一种将批量大小提高的分布式同步 SGD 训练方法,引发了一场「快速训练 ImageNet」的竞赛.随着参与研究的机构越来越多,截至 11 月,UC Berkeley 的研究人员已将 ResNet-50 在 ImageNet 上的训练时间缩短到了 48 分钟.达内
革新深度学习:Geoffrey Hinton 与 Capsule
众所周知,最近一波人工智能行业浪潮是由深度学习及其发展引发的.然而,这一方法是否能够将人类带向通用人工智能?作为深度学习领军人物,关键机制反向传播提出者之一的 Geoffrey Hinton 率先提出抛弃反向传播,革新深度学习.他的创新方法就是 Capsule.
Capsule 是由深度学习先驱 Geoffrey Hinton 等人提出的新一代神经网络形式,旨在修正反向传播机制.在 Dynamic Routing Between Capsules 论文中,Geoffrey Hinton 这样介绍 Capsule:「Capsule 是一组神经元,其输入输出向量表示特定实体类型的实例化参数(即特定物体、概念实体等出现的概率与某些属性).我们使用输入输出向量的长度表征实体存在的概率,向量的方向表示实例化参数(即实体的某些图形属性).同一层级的 capsule 通过变换矩阵对更高级别的 capsule 的实例化参数进行预测.当多个预测一致时(本论文使用动态路由使预测一致),更高级别的 capsule 将变得活跃.」达内
Capsule 中神经元的激活情况表示了图像中存在的特定实体的各种性质.这些性质可以包含多种不同的参数,例如姿势(位置、大小、方向)、变形、速度、反射率、色彩、纹理等.而输入输出向量的长度表示了某个实体出现的概率,所以它的值必须在 0 到 1 之间.
10 月 Hinton 公开的论文,这篇论文的亮点在于 Capsule 层的输入与输出都是向量,构建向量的过程可以认为是 PrimaryCaps 层利用 8 个标准的 Conv2D 操作产生一个长度为 8 个元素的向量,因此每一个 Capsule 单元就相当于 8 个卷积单元的组合.此外,在 Capsule 层中,Hinton 等人还使用了动态路由机制,这种更新耦合系数(coupling coef?cient)的方法并不需要使用反向传播机制.
除了 Hinton 等人公布的 Capsule 论文以外,还有一篇《MATRIX CAPSULES WITH EM ROUTING》论文,该论文采用 EM Routing 修正原论文的 dynamic routing 从而实现更好的效果.达内
超越神经网络?Vicarious 提出全新概率生成模型
代表字母 A 的四层递归皮质网络结构
尽管曾受到 Yann LeCun 等人的质疑,但知名创业公司 Vicarious 提出的生成视觉模型论文仍然发表到了 Science 上.这种全新的概率生成模型(又名递归皮质网络)能在多种计算机视觉任务中实现强大的性能和高数据效率,具有识别、分割和推理能力,在困难的场景文字识别等基准任务上超过了深度神经网络.研究人员称,这种方法或许会将我们带向通用人工智能.
该模型表现出优秀的泛化和遮挡推理(occlusion-reasoning)能力,且更具有 300 倍的训练数据使用效率(data efficient)优势.此外,该模型还突破了基于文本的全自动区分计算机和人类的图灵测试 CAPTCHA,即在没有具体验证码的启发式方法下分割目标.
「我认为 CAPTCHA 是一个『完全的 AI 问题』.如果你完全地解决了这种类型的问题,那你就得到了通用人工智能.」Vicarious CTO George 讲到,为了能彻底识别 CAPTCHA,模型必须能识别任何文本.不只是验证码,即使有人在纸上随便写什么形式的字体(就像 PPT 里的艺术字一样),模型也需要识别出来.
递归皮质网络不只是用来攻破 CAPTCHA,它还将被应用在控制、推理、机器人技术上.近两年,Vicarious AI 已经在实验室里研究如何将技术应用到工业机器人上.工业机器人是目前 Vicarious AI 技术落地的方式,但并不意味着 Vicarious AI 会就此止步.Vicarious AI 希望在 2040 年前后实现高等智能的 A.I..达内
从 TPU 到 NPU:席卷所有设备的神经网络处理器
人工智能的最近一次浪潮起源于 2011 年前后深度学习引起的大发展.从语音识别到训练虚拟助理进行自然交流,从探测车道线到让汽车完全自动驾驶,数据科学家们在技术的发展过程中正一步步攀登人工智能的新高度.而解决这些日益复杂的问题则需要日益复杂的深度学习模型.而在其背后,快速发展的 GPU 技术功不可没,硬件计算能力突破是这次深度学习大发展背后的原因.
近年来,人们逐渐认识到计算芯片对于人工智能的重要性,围绕 AI 任务进行专有加速的芯片越来越多,2017 年也成为了深度学习计算专用芯片不断投入商用的一年.无论是 AlphaGo 背后的谷歌 TPU ,还是加入了全新 Tensor Core 结构的英伟达 Tesla V100,为服务器端设计的深度学习专用芯片已经获得了大规模应用,成为了云服务基础设施必不可少的一部分.而在移动端,对于机器学习任务加速的 SoC 也随着苹果 A11(Neural Engine)与华为麒麟 970(NPU)的推出而来到了用户的手中.今天,一些神经网络已经可以塞进智能手机中,为多种APP 提供判断能力,而科技巨头的服务器正以前所未有的高效率处理无数有关机器学习的任务请求,我们所设想的人工智能生态体系正在逐渐成型.
本篇文章是有青岛达内培训为您呈现,希望给您带来更多更好的文章
更多青岛IT培训相关资讯,请扫描下方二维码