计算方法其实很简单。
在任务当中估计大家会想出来几种不同的方法,先说好看哪种方法合适。
·第一种方法,比如a是一个实践项链,二号也是一个实际的项量。现在直接一点上一个二内计算之后必然等于一个值,一点二等于一个值,一点三就是一个球内接,它也会等一个值,两个值。在做south max是不是也能得到一个权重?这种方法可以的。
也就是之间当中现在说的是一个大的层面,就是隔图当中加瓦特审。但是加尔特审有多少种方法?就这方面论文可以说是层出不穷,一大片一大片的。
先看什么?先看一看最原始的就是第一个哥们,人家是怎么去做的。第一个哥们说这样,他说现在有这个一号的特征,还有这算一和二,还有这个二号的二号点特征。首先对一号和二号,这是一号和二号分别来进行特征映射。
比如一开始可能是一个五围的向量,接下来映射八号桌数一数,一、二、三、四、五、五、六、七、八,它是乘上一个五乘八的矩阵,现在就变成一个八维项量,w十一和w十二都映射成一个八维的项量。等我写,这一块也是点一个八维的项量。

接下来干什么?大家来讲,最终得到的结果肯定是一个值,权重值零点三、零点四、零点八肯定是一个值。这个值一方面可以通过内键去做计算,另一方面这件事能不能也加入一个可训练、可学习的权重参数矩阵?
再来看这一块,比如现在构建的一个限量维度是一个十六,就是一共就是它。首先它俩做拼接,每一个都是芭比一个项链拼到一起了。接下来再乘上一个十六乘一的矩阵,再乘十六、一乘一列矩阵,最后一定得到的是一个值,这没问题吧?
大家想,现在把w十一还有w十二两个项链首尾相连拼到一起拼成十六位项链。接下来构建一个可训练、可学习的参数,就这个w、a经过w、a移性上完之后,这是w、a矩阵的维度。精神完之后就最终得到了一个值,这个值就把它当做是权重是不就可以了。

所以在任务当中第一件事是先看了看现在拿到手了两个项链、两个特征之后可以怎么样去算权重?两种方法。
·第一种给大家比较熟悉,就是直接不用什么可训练参数了,因为项链已经训练好的,是直接算内机。
·另外一种就是把它拼在一起,再拿一个可炫的参数去做一个映射,最终我说得到值就完事了。
得到这个值之后一般情况下希望保留更多为正值,因为权重大部分情况下都为正的,正因为负的数其实没用的,因为负的数经过south max之后肯定是就比较小的,所以原始论文当中加上一个软鹿加上这样就有函数。

最后对所有的边做上一个sort max做一个规矩化,让权重值是所有的,就是对每一个点来说所有的权重值在求和加起来等于一就完事了。这就是寡妇的特点当中基本的两种交代方式,是不是都很简单?
再来看看本质,本质其实做些什么事?本质来说这件事更简单了,来想就是现在做了这样一个像加权的感觉,其实对谁做加权?其实加权这件事放哪?放到特征上还是放到临街矩阵当中?其实这件事无非是干什么?对临街矩阵做了一个重构。
大家这么理解tens实际上对谁做重构是对数据做的吗?我觉得对数据做好像有点抽象了,其实对谁是不就对临街矩阵什么意思?比如现在临街矩阵当中是一开始是这个一,然后这些位置都是一,不管了,一什么意思?就是每个点对权重是一样的。

如果现在换一种临街矩阵,临街矩阵这一块对角线都是一不管了,这一块是个零点八,这一块是零点二,这什么意思?这不就是注意力机制吗?比如现在一号跟自己的关系是一,一号跟二号之间的关系犬柱零点八,一号跟三号之间的关系犬柱零点二。
所以做这个容错相当于什么?就是对连接矩阵多加了一步处理。所以看一下直观的展示,首先这块有连接矩阵,是一个五乘五的。接下来刚才经过了这些操作,就是首先wh和whj做一个拼接,然后通过一个可训练可学习的权重参数,得到了一个它们之间权重,把权重少哪,把权重乘到临街矩阵当中。
再来看,这是最终得到权重值,把权重值干什么?再加到临街矩阵当中,直接对临街矩阵做变换,这一步是不是相当于临街矩阵数值发生变化了以后,每个点会利用多少,这件事就可以定了。

所以这回就是重构完理解举证之后就相于什么?就相当于在任务当中不是都是一了,之前列举站表示一,输入它们之间建立一条边,现在不用一,而是用一些实际的数值,就表示的是这些个点之间的边,不仅是连上了,描述了一下它们之间的重要程度,加上了一个权重值。
·然后大家来看这一块,这个方法叫做mask喷审。什么叫做mask?马斯尔这是这样,就是权重值对谁去做?权重值只是对应的位置,比如一跟二的,一跟二的要对谁对这个位置,对其他位置又不改变,所以要做mask,只改变自己的位置。

·一跟三,比如这一块算一跟三,只去改变这样一个值,每个位置改变对应的值就好了。
·现在可以做一个整合,就是把这一大块都给框到一起,这一部分就是首先对连接矩阵做了一个变换,得到了一个加权后连接矩阵,其他都会变吗?
·来看输入特征变了吗?没变,还是这样一个矩阵,一组可训练可学,拳头参数变了吗?没变,还是最后得到的结果变了吗?没变,维修都一样,只不过得到数值可能发生了一些变化。
·由于一开始连接矩阵做出改变,随着连接矩阵跟特征在做组合,在做一个聚合操作的时候,最终得到了哪个点比较好的一些特征。
这块给大家说了一下,就是jn,就是graffer tension这件事要去做什么?其实这件事很简单,来简单看看工作流程,这个流程估计大家也比较熟悉了。
·首先来看一号,一号只跟三个有关系,一跟一有关系,一跟二有关系,一跟三有关系,所以现在要把这三个销量分为拿到手h1、h2、h3。

·这是现在先拿出来了它们三个之间的关系,拿到手三个之间的关系之后,大家来看,接下来乘上一组全球参数矩阵,得到变换后的结果,变换后结果还怎么样?再乘上刚才不是说了吗?每一个编要得到它的权重值,得到的项量,再乘上权重值,就是等于最终的结果,所以最终结果把它当做是加权平均就完事了。
所以这就是graffer tension,做起来非常简单,就是多了一个权重。现在大部分神经网络在大部分土网络、土球当中,这是推荐机制,其实用的非常非常多了。
今天谁给大家说一种最简单的,可以通过一组训练参数得到这样一个权重值,其实在不同任务当中通过内机去算,通过各种特征。据和外接口去算都可以,只要把权重算出来就完事了。
这就是基本的一个寡妇 tension,图当中怎么样对边做一个加权的计算。