当前位置: 首页 > 科技 > 人工智能 > 生成模型和判定模型的内部指南_腾讯新闻

生成模型和判定模型的内部指南_腾讯新闻

天乐
2020-10-22 03:41:32 第一视角

翻译:AI研习社(季一帆)

在本文中,我们将讨论生成模型和判别模型之间的差异、形成原因及相关内容。

判别式机器学习在可能的输出选择中确定输出。该过程根据给定的数据进行训练,从而学习模型参数,以最大化联合概率P(X,Y)。

分类有时被称为判别模型,这有一定道理,毕竟分类模型就是要到输入实例的类别进行判断。

无监督模型一般会对输入变量的分布进行学习,并能够根据输入分布创建或生成新的实例,类似这样的模型称为生成式模型。

对于变量分布已知的情况,如高斯分布。

由于生成模型能够总结数据分布,因此可以根据输入变量分布生成新变量。

在这种情况下,生成模型可能非常适合,而使用判别模型的化则会使问题复杂化,反之亦然。

例如对于条件预测任务,判别模型表现显著优于生成模型,同时具有更好的正则性。

看这样一个例子:有Tony和Mark两个小朋友,他们要在宠物商店中分辨出小猫和小狗。对于宠物,我们假定它们包含颜色、大小、眼睛颜色、毛发长短和叫声等特征。

给Mark两张照片,一张是猫,一张是狗,Mark要做出判断。他想到可以根以下条件进行判断:如果叫声是“喵喵”、眼睛是蓝色或绿色、具有褐色或黑色的条纹,则大概率会是猫。根据这样的简单规则,Mark可以容易的识别出猫或狗。

Tony的任务可没这么简单。不是要他判断图片中是猫还是狗,而是要在两张白纸上画出猫和狗的样子。Tony能够画出猫和狗的样子,那么给他展示图片,他也很容易的区分出图中是猫还是狗。可以看到,相比Mark的方法,Tony的方法更加耗时。

假设只有猫狗两种宠物。如果一张图片上是蓝眼睛、棕色条纹的狗,那么Mark可能会将其标记为猫,但Tony可以判断出图片中一定是狗。

如果Tony对猫和狗的特征了解的更多,他能够绘制出更详细准确的图画。但是,如果提供足够多的猫狗数据集,那么Mark会表现得更好。

Mark的判断方法就是认真的观察,总结能够区分的特征,但过多的复杂特征会导致过拟合,但Tony不会遇到这种情况。

如果在访问宠物商店之前,他们没有任何信息呢?也就是说只提供未标注的数据。这种情况下,Mark完全不知道该怎么做,Tony也判别不出什么(因为他不知道“猫”“狗”这两个类别),但至少Tony可以根据看到的猫和狗去画图,这难道不是巨大的优势吗?半监督就是如此。

在上述例子中,Mark就是判别式方法,而Tony代表生成式方法。

再看另一个例子,将语音分类为语言模型。

判别式方法重点在区别语言模型间的差异。无需学习语言就可实现语音分类。而生成式方法需要学习每种语言,根据学习到的知识进行分类。

数学上的区别

判别式机器学习训练模型在可能的输出选项中选择正确输出,通过训练学习使条件概率P(Y | X)最大化的模型参数。

生成式机器学习则是通过训练学习使联合概率P(X,Y)最大化的模型参数。通常可以由P(Y)和P(X | Y)得到联合概率,当前前提是P(Y)和P(X | Y)条件独立。

判别式模型

逻辑回归

随机森林

支持向量机

经典神经网络

最近邻

生成式模型

隐马尔科夫模型

朴素贝叶斯

贝叶斯网络

混合高斯模型

为更好的理解,试着以下几个问题:(1 判别式;2 生成式)

哪种模型需要较少的训练数据?1

哪种模型能够生成数据?2

什么时候使用某类模型?

哪种模型对异常值更敏感?2

哪种模型容易过拟合?1

哪种模型训练时间短?1

哪种模型直接学习条件概率?1

在不确定情况下,哪种模型更好?2

当特征存在关联时,哪种模型更好?2

哪种模型具有更好的可解释性?2

分类问题中,哪种模型准确率高?1

对于未标注数据使用哪种模型?2

如果是标注数据哪种模型更好?1

哪种模型简单,训练速度更快?1

GAN

生成对抗网络(GAN)同时训练生成器和判别器,具体而言,生成器生成一批样本,这些样本与真实数据集一起提供给判别器进行分类。

判别式分类器的缺陷

它缺乏先验性,结构性和不确定性

黑盒子,变量之间的关系无法观测

结论

机器学习模型一般分为生成式和判别式两类,其中,生成式模型主要涉及建模操作,判别式模型一般用于分类问题。一般而言,生成式模型更具有解释力。

模型并不是越大越好、参数越多越好。更新更多参数意味着更长的训练时间、内存和计算量。一般而言,判别式模型有更好的正则性。

生成式模型所需的数据一般要比判别式模型更少。

参考文献

· Yogatama, D., Dyer, C., Ling, W., and Blunsom, P., 2017. Generative and discriminative text classification with recurrent neural networks. arXiv preprint arXiv:1703.01898.

· Lasserre, J.A., Bishop, C.M. and Minka, T.P., 2006, June. Principled hybrids of generative and discriminative models. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06) (Vol. 1, pp. 87–94). IEEE.

· Wang, K., Zong, C., and Su, K.Y., 2012. Integrating generative and discriminative character-based models for Chinese word segmentation. ACM Transactions on Asian Language Information Processing (TALIP), 11(2), pp.1–41.

· Prasad, A., Niculescu-Mizil, A., and Ravikumar, P.K., 2017. On separability of loss functions, and revisiting discriminative vs. generative models. In Advances in Neural Information Processing Systems (pp. 7050–7059).

提示:支持键盘“← →”键翻页
为你推荐
加载更多
意见反馈
返回顶部