可用性测试中一种满意度度量建模方法研究

来源：BanTech智库

作者： 中国银行软件中心（深圳）郭少敏

可用性测试中一种满意度度量建模方法研究

可用性测试就是通过观察用户使用产品完成典型任务，发现产品中存在的效率与满意度相关问题的方法，而用户满意度的度量是一个很关键的问题，本文试图依托微表情识别技术，利用自动获取的用户情绪变化数据，找到一种自动度量满意度的模型。

一、用户情绪的重要性

做用户研究时，行为、态度往往最容易测量，而测量情绪反应很难。我们的很多研究方法都依赖于用户的自我报告，但是人们往往对自己的情绪反应缺乏清晰的认知。尤其是对于视觉设计，如果我们想知道某种视觉风格究竟唤起了用户怎样的认知和情绪，直接询问用户很难得到可靠的结果。

可用性测试中，用户在完成某一任务后会反馈操作过程顺利，没有问题，但通过观察用户的表情和行为会发现，用户在操作过程中出现 “皱眉”或发出“啧”“嘶”等声音，且鼠标路径也是经过尝试才找到准确的入口，这些行为表明用户在任务操作中的某些地方可能会存在困惑，并不是他想象的那样一帆风顺。因此，作为主持人或观察员，观察用户操作中的情绪反应、识别情绪变化，有助于发现产品存在的问题。

所以，评估用户在产品使用中的情绪，对于我们的测试结果的分析很重要，需要我们对用户在产品使用过程中的情绪进行测量，以便进行分析，同时通过情绪的变化情况也可以窥见用户的满意度状况，怎么实现对用户情绪的识别，我们可以采用微表情识别技术。

二、在可用性测试中应用微表情识别的方法获取用户情绪变化

表情是情绪的主观体验的外部表现模式，分为生理表情（真实心理状态）、情绪表情（真实心理状态+伪装决策）和社交表情（理性决策和控制）等。美国Paul Ekman教授将人类的面部表情分为六类：高兴、惊讶、悲伤、愤怒、厌恶、恐惧。其中，心理学家和神经学家发现，欺骗者会通过情绪欺骗试图压抑某些反映真实情绪的信号，但却无法完全压抑，导致其真实情绪信号泄露，这便出现了微弱且快速的面部动作，即微表情。 微表情 则特指人类试图压抑或隐藏真实情感时泄露的非常短暂且不能自主控制的面部表情。

1.微表情的主要特点

微表情是一种特殊的面部表情，与普通的表情相比，微表情主要有以下特点：

（1）持续时间短，通常只有1/25s~1/3s。

（2）动作强度低，难以察觉。

（3）在无意识状态下产生，通常难以掩饰或伪装。

（4）对微表情的分析通常需要在视频中，而普通表情在图像中就可以分析。

由于微表情在无意识状态下自发产生，难以掩饰或伪装，通常与真实情感直接相关，所以微表情在情感分析中较为可靠。微表情识别是指给定一个已经分割好的微表情片断，通过某种算法，识别该微表情的情绪种类（例如厌恶、悲伤、惊讶、愤怒、恐惧、快乐等）。如同三维动态表情识别一样，其处理的对象是视频片断，而不只是单幅图像。对其处理过程中，不仅要考虑空间上的模式，还要考虑时间上的模式。

根据上述描述，我们能够了解到用户情绪在产品评估时的重要性，也能够对面部情绪识别有一个简单的认识，接下来要讨论的就是如何将这两个方向连接在一起。

2.可用性测试方法及其优势

可用性测试 就是通过观察用户使用产品完成典型任务，发现产品中存在的效率与满意度相关问题的方法。

将微表情识别技术融入到可用性测试的过程当中，用来捕捉用户在测试中的真实情绪反应作为用户对产品满意度的依据。

这种方法的优势如下：

（1）可以捕捉到用户微小的情绪差异，尤其是在视觉设计、微小的操作设计层面。这些操对用户体验的影响微小、一般的用户自己也不会注意到他们的差别与真实感受，这种情况在表情识别的机器下就可以被捕捉、识别出来。

（2）后期复盘环节，通过当时的情绪分析和记录的片段给到用户，辅助用户回忆起当时的情况。

（3）对于一些明确的情绪状态，例如烦躁、惊讶等情况的出现，设计师找出相对应的操作记录，就可以很快得知产品的缺陷，这样的测试方法能过找寻到尽可能多的bug。

（4）对用户行为习惯做分析、为以后的设计积累经验，例如，通过这种方法设计师可以分析出等待时间多久会让用户不耐烦、记录下用户对哪一类信息更为感兴趣等。

（5）省去多余的人工操作，观察者可以更关注用户操作情况、把大部分记录的工作交给准确性更高的机器。

三、情绪度量和满意度建模

通过微表情识别技术我们获得了用户的情绪变化，怎样通过这些情绪变化来直观地体现用户对测试产品的满意程度，就需要我们对情绪进行度量并在此基础上对满意度进行直观的可视化建模。

1.情绪度量

可以把情绪分为正向情绪还是负向情绪，同时将不同情绪变化赋予不同的权重作为情绪变化强度的度量，该值各应用者可以根据侧重方向和关注度加以调整，然后从用户情绪变化的频次和强度来对用户使用产品情绪的变化进行度量。情绪权重清单示例见表1。

其中：正向频次=∑正向情绪发生次数，正向强度 =∑正向情绪权重，负向强度=∑负向情绪权重，负向频次=∑负向情绪发生次数。

表1 情绪权重清单示例

可用性测试中一种满意度度量建模方法研究

2.满意度建模

整个可用性测试过程中用户微表情变化所代表的情绪变化，我们可以认为是对体验测试满意度的一个相对客观的体现，通过下述方法将这种客观体现以数字化的方法建立可视化的满意度模型：

一是依据情绪度量的方法获得情绪的强度指标和频度指标。

二是通过计算把这两种指标映射到值域在-1到1之间的坐标系中根据分界点来划分出不同区域，给各区域赋予不同的满意度标示，就完成了直观的用户体验满意度的度量。

三是模型指标：

正向频次=∑正向情绪发生

正向强度=∑正向情绪权重

负向强度=∑负向情绪权重

负向频次=∑负向情绪发生

总频次 = 正向频次+负向频次

总强度 = 正向强度+负向强度

F频次指标=(正向频次-负向频次)/总频次

Q强度指标=(正向强度-负向强度)/总强度

我们根据把这些指标可以再合成客户的满意度度量指标

我们把满意度度量分成5级，分别是：非常满意、满意、一般、不满意、非常不满意。

其中：

M：满意度指标

Pn：满意度分级的参数（-1到1之间的小数）。如：P5就是满意度5级的分级参数，取值0.5。P1为满意度为1级，取值-0.5。

因为二、四象限不全部满足满意和不满意的是典型的条件，根据在强度和频次上的优先级考虑会有以下两种模型：

（1）满意度模型1（强度优先）

第二、四象限先以强度指标划分，第二象限强度大于等于4级的算作4级，第四象限强度小于等于2级的算作2级不管频次指标，然后再依据频次指标划出第二象限的2级区域（频次指标小于等于2级参数）和第四象限的4级区域（频次指标大于等于4级参数）。

一是非常满意： (Q≥P5) and (F≥P5) M=5，第一象限深绿色区域，强度指标和频次指标均大于等于5级参数，满意度指标为5。

二是满意： （P5>Q≥P4 and P5>F≥P4）or（Q≥P4 and F≤0）or（0≥Q>P2 and F≥P4）M=4，第一、二、四象限浅绿色区域，其中第一象限频度和强度指标均小于5级参数但是大于等于4级参数，第二象限强度大于等于4级参数，第四象限强度指标大于2级参数，频次指标大于等于4级参数，满意度为4。

三是一般： (P4>Q>P2 and P4>F>P2) M=3，第一、二、三、四象限浅蓝色区域，强度指标和频次指标小于P4大于P2，满意度为3。

四是不满意： （P2>Q≥P1 and P2>F≥P1）or（Q≤P2 and F≥0）or（0<=Q<=P4 and F≤P2）M=2，第二、三、四象限浅红色区域，其中第三象限频度和强度指标均小等于于2级参数但是大于1级参数，第四象限强度大等于2级参数，第二象限强度指标小4级参数，频次指标小于等于2级参数，满意度为2。

五是非常不满意： (Q≤P1) and (F≤P1) M=1，第三象限深红色区域，强度指标和频次指标均小于等于1级参数，满意度为1。

满意度模型1（强度优先）如图1所示：

可用性测试中一种满意度度量建模方法研究

图1 满意度模型1（强度优先）示意

（2）满意度模型2（频度优先）：

第二、四象限先以频度指标划分，第二象限频度小于等于2级的算作2级，第四象限频度大于等于4级的算作4级不管强度指标，然后再依据强度指标划出第二象限的4级区域（强度次指标大于等于4级参数）和第四象限的2级区域（强度指标小于等于2级参数）。

一是非常满意： (Q≥P5) and (F≥P5) M=5，第一象限深绿色区域，强度指标和频次指标均大于等于5级参数，满意度指标为5。

二是满意： （P5>Q≥P4 and P5>F≥P4）or（Q≥P4 and F<=0）or（0≥Q>P2 and F≥P4）M=4，第一、二、四象限浅绿色区域，其中第一象限频度和强度指标均小于5级参数但是大于等于4级参数，第二象限频度度指标大于2级参数，强度大等于4级参数，第四象限频次指标大于等于4级指标，满意度为4。

三是一般: (P4>Q>P2 and P4>F>P2) M=3，第二、三、四象限浅蓝色区域，强度指标和频次指标小于P4大于P2，满意度为3。

四是不满意： （P2>Q≥P1 and P2>F≥P1）or（Q≤P2 and F≥0）or（0≤Q≤P4 and F≤P2） M=2，第二、三、四象限浅红色区域，其中第三象限频度和强度指标均小等于2级参数但是大于1级参数，第四象限频次指标小4级参数，强度大等于2级参数，第二象限频次指标小于等于2级指标，满意度为2。

五是非常不满意： (Q<=P1) and (F<=P1) M=1，第三象限深红色区域，强度指标和频次指标均小于等于1级参数，满意度为1。

满意度模型2（频度优先）如图2所示：

可用性测试中一种满意度度量建模方法研究

图2 满意度模型2（频度优先）示意

四、总结：

可用性测试中应用微表情自动识别技术，提供在测试过程中自动识别并记录用户的表情变化，标注操作过程中用户遇到问题或出现情绪波动的时间戳和用户反应，并把识别到的用户情绪变动为输入，将情绪赋予权重实现量化，然后根据情绪频次和强度自动计算用户的满意度值。

因为在整个测试过程中使用自动采集用户微表情并对表情进行识别，没有影响测试用户，用户整个测试过程中的下意识体现的微表情作为满意度衡量的依据，这是一个相对客观的、合适的参照，建立采用情绪量化方法使用频次和强度指标进行度量自动计算满意度的模型是一种有益和可行的尝试。

-END-

这是科技创新最好的时代，这是属于我们每个人最好的时代，关注“BanTech智库”，专注银行科技发展，探索*界无**金融生态！