深度学习走向学科素养学习体会 (深度学习的五个基本特征)

计算方法其实很简单。

在任务当中估计大家会想出来几种不同的方法，先说好看哪种方法合适。

·第一种方法，比如a是一个实践项链，二号也是一个实际的项量。现在直接一点上一个二内计算之后必然等于一个值，一点二等于一个值，一点三就是一个球内接，它也会等一个值，两个值。在做south max是不是也能得到一个权重？这种方法可以的。

也就是之间当中现在说的是一个大的层面，就是隔图当中加瓦特审。但是加尔特审有多少种方法？就这方面论文可以说是层出不穷，一大片一大片的。

先看什么？先看一看最原始的就是第一个哥们，人家是怎么去做的。第一个哥们说这样，他说现在有这个一号的特征，还有这算一和二，还有这个二号的二号点特征。首先对一号和二号，这是一号和二号分别来进行特征映射。

比如一开始可能是一个五围的向量，接下来映射八号桌数一数，一、二、三、四、五、五、六、七、八，它是乘上一个五乘八的矩阵，现在就变成一个八维项量，w十一和w十二都映射成一个八维的项量。等我写，这一块也是点一个八维的项量。

深度学习电脑配置,深度学习

接下来干什么？大家来讲，最终得到的结果肯定是一个值，权重值零点三、零点四、零点八肯定是一个值。这个值一方面可以通过内键去做计算，另一方面这件事能不能也加入一个可训练、可学习的权重参数矩阵？

再来看这一块，比如现在构建的一个限量维度是一个十六，就是一共就是它。首先它俩做拼接，每一个都是芭比一个项链拼到一起了。接下来再乘上一个十六乘一的矩阵，再乘十六、一乘一列矩阵，最后一定得到的是一个值，这没问题吧？

大家想，现在把w十一还有w十二两个项链首尾相连拼到一起拼成十六位项链。接下来构建一个可训练、可学习的参数，就这个w、a经过w、a移性上完之后，这是w、a矩阵的维度。精神完之后就最终得到了一个值，这个值就把它当做是权重是不就可以了。

深度学习电脑配置,深度学习

所以在任务当中第一件事是先看了看现在拿到手了两个项链、两个特征之后可以怎么样去算权重？两种方法。

·第一种给大家比较熟悉，就是直接不用什么可训练参数了，因为项链已经训练好的，是直接算内机。

·另外一种就是把它拼在一起，再拿一个可炫的参数去做一个映射，最终我说得到值就完事了。

得到这个值之后一般情况下希望保留更多为正值，因为权重大部分情况下都为正的，正因为负的数其实没用的，因为负的数经过south max之后肯定是就比较小的，所以原始论文当中加上一个软鹿加上这样就有函数。

深度学习电脑配置,深度学习

最后对所有的边做上一个sort max做一个规矩化，让权重值是所有的，就是对每一个点来说所有的权重值在求和加起来等于一就完事了。这就是寡妇的特点当中基本的两种交代方式，是不是都很简单？

再来看看本质，本质其实做些什么事？本质来说这件事更简单了，来想就是现在做了这样一个像加权的感觉，其实对谁做加权？其实加权这件事放哪？放到特征上还是放到临街矩阵当中？其实这件事无非是干什么？对临街矩阵做了一个重构。

大家这么理解tens实际上对谁做重构是对数据做的吗？我觉得对数据做好像有点抽象了，其实对谁是不就对临街矩阵什么意思？比如现在临街矩阵当中是一开始是这个一，然后这些位置都是一，不管了，一什么意思？就是每个点对权重是一样的。

深度学习电脑配置,深度学习

如果现在换一种临街矩阵，临街矩阵这一块对角线都是一不管了，这一块是个零点八，这一块是零点二，这什么意思？这不就是注意力机制吗？比如现在一号跟自己的关系是一，一号跟二号之间的关系犬柱零点八，一号跟三号之间的关系犬柱零点二。

所以做这个容错相当于什么？就是对连接矩阵多加了一步处理。所以看一下直观的展示，首先这块有连接矩阵，是一个五乘五的。接下来刚才经过了这些操作，就是首先wh和whj做一个拼接，然后通过一个可训练可学习的权重参数，得到了一个它们之间权重，把权重少哪，把权重乘到临街矩阵当中。

再来看，这是最终得到权重值，把权重值干什么？再加到临街矩阵当中，直接对临街矩阵做变换，这一步是不是相当于临街矩阵数值发生变化了以后，每个点会利用多少，这件事就可以定了。

深度学习电脑配置,深度学习

所以这回就是重构完理解举证之后就相于什么？就相当于在任务当中不是都是一了，之前列举站表示一，输入它们之间建立一条边，现在不用一，而是用一些实际的数值，就表示的是这些个点之间的边，不仅是连上了，描述了一下它们之间的重要程度，加上了一个权重值。

·然后大家来看这一块，这个方法叫做mask喷审。什么叫做mask？马斯尔这是这样，就是权重值对谁去做？权重值只是对应的位置，比如一跟二的，一跟二的要对谁对这个位置，对其他位置又不改变，所以要做mask，只改变自己的位置。

深度学习电脑配置,深度学习

·一跟三，比如这一块算一跟三，只去改变这样一个值，每个位置改变对应的值就好了。

·现在可以做一个整合，就是把这一大块都给框到一起，这一部分就是首先对连接矩阵做了一个变换，得到了一个加权后连接矩阵，其他都会变吗？

·来看输入特征变了吗？没变，还是这样一个矩阵，一组可训练可学，拳头参数变了吗？没变，还是最后得到的结果变了吗？没变，维修都一样，只不过得到数值可能发生了一些变化。

·由于一开始连接矩阵做出改变，随着连接矩阵跟特征在做组合，在做一个聚合操作的时候，最终得到了哪个点比较好的一些特征。

这块给大家说了一下，就是jn，就是graffer tension这件事要去做什么？其实这件事很简单，来简单看看工作流程，这个流程估计大家也比较熟悉了。

·首先来看一号，一号只跟三个有关系，一跟一有关系，一跟二有关系，一跟三有关系，所以现在要把这三个销量分为拿到手h1、h2、h3。

深度学习电脑配置,深度学习

·这是现在先拿出来了它们三个之间的关系，拿到手三个之间的关系之后，大家来看，接下来乘上一组全球参数矩阵，得到变换后的结果，变换后结果还怎么样？再乘上刚才不是说了吗？每一个编要得到它的权重值，得到的项量，再乘上权重值，就是等于最终的结果，所以最终结果把它当做是加权平均就完事了。

所以这就是graffer tension，做起来非常简单，就是多了一个权重。现在大部分神经网络在大部分土网络、土球当中，这是推荐机制，其实用的非常非常多了。

今天谁给大家说一种最简单的，可以通过一组训练参数得到这样一个权重值，其实在不同任务当中通过内机去算，通过各种特征。据和外接口去算都可以，只要把权重算出来就完事了。

这就是基本的一个寡妇 tension，图当中怎么样对边做一个加权的计算。