返回首页
当前位置: > 2015注册送白菜论坛 >

深刻浅出:GAN道理与利用入门先容注册白菜三度论坛

时间:2017-10-04 17:29
  深入浅出:GAN原理与应用入门介绍

原题目:深刻浅出:GAN道理与运用入门先容

选自StatsBot

作者:Anton Karazeev

机器之心编译

参加:干树、黄小天

生成对抗网络(GAN)是一类在无监督学习中使用的神经网络,其有助于处理按文本生成图像、提高图片分辩率、药物婚配、检索特定形式的图片等义务。Statsbot 小组约请数据迷信家 Anton Karazeev 经过日常生涯实例深入浅出地介绍 GAN 原理及其应用。


生成对抗网络由 Ian Goodfellow 于 2014 年提出。GAN 不是神经网络应用在无监督学习中的唯一道路,还有玻尔兹曼机(Geoffrey Hinton 和 Terry Sejnowski,1985)和主动解码器(Dana H. Ballard,1987)。三者皆努力于经过学习恒等函数 f(x)= x 从数据中提取特征,且都依附马尔可夫链来训练或生成样本。


GAN 设计之初志就是防止应用马尔可夫链,由于后者的盘算本钱很高。相对玻尔兹曼机的另一个长处是 GAN 的限度要少得多(只要多少个概率分布实用于马尔可夫链抽样)。


在本文中,我们将讲述 GAN 的根本原理及最风行的事实应用。


GAN 原理


让我们用一个比方说明 GAN 的原理吧。




假设你想买块好表。但是从未买过表的你很可能难辨虚实;买表的教训可以免被市侩诱骗。当你开始将年夜少数手表标记为假表(当然是上当之后),卖家将开端「出产」更逼真的盗窟表。这个例子抽象地解释了 GAN 的基础原理:判别器网络(腕表买家)和生成器网络(生产假表的卖家)。


两个网络彼此博弈。GAN 容许生成真切的物体(例如图像)。生成器出于压力自愿生成看似真实的样本,判别器学习辨别生成样本和真实样本。




判别算法和生成算法有何分歧?简略地说:判别算法学习类之间的鸿沟(如判断器做的那样),而生成算法学习类的分布(如生成器做的那样)。


假如你筹备深入懂得 GAN


想要进修天生器的散布,应当界说数据 x 的参数 p_g,以及输出噪声变量 p_z(z)的分布。而后 G(z,θ_g)将 z 从潜在空间 Z 映射到数据空间,D(x,θ_d)输入单个标量--一个 x 来自实在数据而不是 p_g 的概率。


训练判别器以最大化准确标注实践数据和生成样本的概率。训练生成器用于最小化 log(1-D(G(z)))。换句话说,尽量增加判别器得出正确谜底的概率。


可以将如许的训练任务看作具有值函数 V(G,D)的极大极小博弈:




换句话说,生成器尽力生成判别器难以识别的图像,三度论坛,判别器也更加聪慧,三度论坛,免得被生成器诈骗。


「对抗训练是继切单方面包之后最酷的事件。」- Yann LeCun


当判别器不克不及辨别 p_g 和 p_data,即 D(x,三度论坛,θ_d)= 1/2 时,训练过程结束。告竣生成器与判别器之间断定误差的均衡。


汗青档案图像检索


一个风趣的 GAN 应用实例是在「Prize Papers」中检索类似标记,Prize Papers 是大陆史上最具价值的档案之一。反抗网络使得处置这些具备历史意思的文件愈加轻易,这些文件还包括海上拘留船只能否正当的信息。




每个查问到的记载都包含商家标记的样例--商家眷性的独一标识,相似于象形文字的草图样符号。


我们应该失掉每个标志的特点表现,然而应用惯例机械学习和深度学习办法(包含卷积神经收集)存在一些成绩:

  • 它们须要大批标注图像;

  • 商标不标注;

  • 标记无奈从数据集宰割出去。

这种新方法显示了若何使用 GAN 从商标的图像中提取和学习特征。在学习每个标记的表征之后,就可以在扫描文档上按图形搜寻。


将文本翻译成图像


其余研讨职员标明,使用天然言语的描写属性生成响应的图像是可行的。文本转换成图像的方式可以阐明生成模子模仿真实数据样本的机能。




图片生成的重要成绩在于图像分布是多模态的。例如,有太多的例子完善符合文本描述的内容。GAN 有助于处理这一成绩。




我们来斟酌以下任务:将蓝色输出点映射到绿色输入点(绿点可能是蓝点的输入)。这个白色箭头表示预测的误差,也象征着经过一段时光后,蓝点将被映射到绿点的均匀值--这一精确映射将会含混我们试图预测的图像。


GAN 不直接使用输出和输入对。相反,它们学习如何给输出和输入配对。


上面是从文本描述中生成图像的示例:




用于训练 GAN 的数据集:

  • Caltech-UCSD-200-2011 是一个存在 200 种鸟类照片、总数为 11,788 的图像数据集。

  • Oxford-102 花数据集由 102 个花的类别构成,每个种别包含 40 到 258 张图片不等。

药物婚配


当其它研究员应用 GAN 处理图片和视频时,Insilico Medicine 的研究人员提出了一种应用 GAN 停止药物婚配的方法。


我们的目的是训练生成器,以尽可能准确地从一个药物数据库中对现有药物停止按病取药的操作。




经由训练后,能够使用生成器取得一种以前不成治愈的疾病的药方,并使用判别器断定生成的药方能否治愈了特定疾病。


肿瘤分子生物学的利用


Insilico Medicine 另一个研究标明,发生一组按参数定义的新抗癌分子的管道。其目标是预测拥有抗癌感化的药物反映和化合物。


研究人员提出了一个基于现有生化数据的用于辨认和生成新化合物的对抗自编码器(AAE)模型。




「据我们所知,这是 GAN 技巧在发掘癌症药物范畴的首个应用。」- 研究人员说。


数据库中有很多可用的生物化学数据,如癌细胞系百科全书(CCLE)、肿瘤药物敏感基因学(GDSC)和 NCI-60 癌细胞系。一切这些都包括针对癌症的不同药物试验的挑选数据。




抗衡自编码器以药物浓度跟指纹作为输出并使用成长克制率数据停止练习(GI,显示医治后癌细胞的数目增加情形)。


分子指纹在计算机中有一个固定的位数表示,每一位代表某些特征的保存状况。




暗藏层由 5 个神经元组成,此中一个担任 GI(癌细胞抑制率),别的 4 个由正态分布判别。因而,一个回归项被增加到编码器价格函数中。此外,编码器只能将相同的指纹映射到雷同的潜在向量,这一进程自力于经过额定的流形代价集中输出。




经过训练,网络可以从冀望的分布中生成分子,并使用 GI 神经元作为输入化合物的微调器。


这项任务的结果如下:已训练 AAE 模型猜测失掉的化合物已被证实是抗癌药物,和需接收抗癌活性化合物实验验证的新药物。


「我们的研究成果标明,本文提出的 AAE 模型使用深度生成模型明显进步了特定抗癌才能和新分子的开辟效力。」


论断


无监视学习是人工智能的下一个蓝海,咱们正朝着这一标的目的迈进。


生成对抗网络可以应用于许多领域,从生成图像到预测药物,所以不要惧怕掉败。我们信任 GAN 有助于树立一个更好的机器学习的将来。


原文链接:https://blog.statsbot.co/generative-adversarial-networks-gans-engine-and-applications-f96291965b47

本文为机器之心编译,转载请接洽本大众号获得受权。

?------------------------------------------------

最新文章