Lec-4 评估的基础知识

November 25, 2024

背景

评估是设计过程的组成部分

评估

评估是系统化的数据搜集过程
用户在与原型、应用程序等交互时收集关于用户体验方面的信息，从而改进其设计
评估侧重系统的可用性和用户体验
目的不是设法理解用户，而是评估特定用户在一个特定的环境背景中如何使用一个系统来执行一个特定的任务

评估的四 W

Why：肯定是要设计一个好的交互系统呀
What：交互系统的可用性和用户体验
Where：取决于评估的对象
When：取决于产品类型。可以在研发前，也可以在完成产品后。

评估原则

评估应当依赖产品的用户
评估与设计应当结合进行
评估应该在用户的实际工作任务和操作环境下进行
评估要选择有广泛代表性的用户

评估范型

“范型”与“技术”：

范型与具体学科相关，对如何评估有很大影响：可用性测试是一种评估范型
每种范型有特定的技术：可用性测试的技术有观察、问卷调查、访谈等

快速评估

设计人员非正式地向用户或顾问了解反馈信息，以证实设计构思是否符合用户需要。

基本特征：快速

可在任何阶段进行
强调 “快速了解”，而非仔细记录研究发现
得到的数据通常是非正式、叙述性的
是设计网站时常用的方法

可用性测试

基本特征：在评估人员的密切控制之下实行

评测典型用户执行典型任务时的情况。并进行量化
缺点：测试用户的数量通常较少、不适合进行细致的统计分析

实地研究

理解用户的实际工作情形以及技术对他们的影响。

基本特征：在自然工作环境中进行

探索新技术的应用契机
确定产品的需求
促进技术的引入
评估技术的应用

难点：

如何不对受试者造成影响
控制权在用户，很难预测即将发生和出现的情况

预测性评估

研究人员通过想象或对界面的使用过程进行建模。

基本特征：用户可以不在场；快速成本低

专家们根据自己对典型用户的了解预测可用性问题的可用性评估
逐步通过场景或基于问题回答的走查法
用于比较相同应用不同界面的原型法，如使用Fitts定律预测使用设备定位目标的时间

评估技术

似乎今年 PPT 上没有。但是这肯定很重要，毕竟下列评估方法就是后面几节讲的内容。

内容

观察用户
询问用户意见、专家意见
用户测试
基于模型和理论评估

区分评估技术的因素

评估在周期中的位置：设计早期阶段的评估更快速、便宜
评估的形式：实验室环境 or 工作环境
技术的主客观程度
1. 技术越主观，受评估人员知识的影响越大，如认知走查等
测量的类型：与技术的主客观性有关
1. 主观技术：定性数据
2. 客观技术：定量数据
提供的信息
1. 低层信息：这个图标是可理解的吗？
2. 高层信息：这个系统是可用的吗？
响应的及时性
1. 边做边说法可及时记录用户行为
2. 任务后的走查取决于对事件的回忆
干扰程度：直接响应测量可能会影响用户表现
所需资源：设备、时间、资金、参与者、评估人员的专业技术及环境等

评估方法组合

评估方法的组合取决于项目待评估的具体特性。

常用组合
1. 启发式评估+边做边说等用户测试技术
  1. 专家可通过启发性评估排除显而易见的可用性问题
  2. 重新设计后，经用户测试，反复检查设计的效果
2. 访谈+问卷调查
  1. 先对小部分用户进行访谈，确定问卷中的具体问题
启发式评估 vs.用户测试
1. 前者不需要用户参与
2. 二者发现的可用性问题不同，可以互补

人机交互的实证研究方法

研究假设

假设是一种可以通过实证研究直接检验的精确问题陈述
一个具体的研究假设奠定了一个实验以及统计学显著性检验的基础

零假设：不同的实验条件不会产生差异备择假设：与零假设相反

目标是找到统计学证据来反驳或否定零假设，以支持备择假设。

好的假设：

用精确而清晰的语言提出
专注于一个可以在单次实验中检验的问题
明确说明实验的对照组或实验条件
- 包括研究的自变量和因变量（必须明确定义）

自变量：研究者感兴趣的因素或因变量变化的可能“原因” 因变量：研究者感兴趣的结果或效果

实验构成

实验条件：自变量的取值、其他需要确定的因素
实验单位：应用实验条件的对象。通常是有指定特征的人类受试者
分配方式：将实验单位分配到不同实验条件的方式。一般采取随机化的方式。

举例：

假设：传统QWERTY键盘比DVORAK键盘的打字速度快
实验条件：键盘的类型（两种）
实验单位：无两种键盘使用经验的受试者
分配：抛硬币

实验设计

真正的实验具有如下特点：

以至少一个可检验的研究假设为基础，并旨在验证它
通常至少有两种条件（实验条件和对照条件）或组（实验组和对照组）
因变量通常使用定量测量
通过各种统计显著性检验对结果进行分析
以消除潜在偏差为目标来设计和进行
具备不同的参与者样本，在不同的时间，不同的地点，由不同的参与者进行复现

组间设计和组内设计

组间设计：
- 每个参与者只暴露在一种实验条件下
- 参与组的数量直接对应于实验条件的数量。
- 避免了学习效应和疲劳问题
- 但同时在参与者总数不变的前提下也减少了采样的数量。
- 适合简单的任务、个体差异小的任务和受学习效果影响较大的任务。此外，某些实验必须采用组间设计，如实验条件为新手用户和老手用户的实验等。
组内设计：
- 每个参与者暴露在所有实验条件下，只有一个参与组。
- 它可以充分利用每个参与者来获取更多的信息
- 学习效应和疲劳问题。
- 适合个体差异较大、学习效果不太容易受到影响的任务、或目标参与者群体很小的任务。

多个自变量的实验

当一个实验调查一个以上的自变量或因素时，广泛采用析因分析。

可以同时调查所有自变量的影响以及多个变量之间的交互影响
析因设计中条件的数量由自变量的总数和每个自变量的取值决定

说白了，就是将每个自变量的取值进行排列组合。对于结果，进行列联分析就行。

使用组内设计和组件设计均可，难点在于平衡实验中的顺序和条件。

如果同时使用组内设计和组间设计，称之为裂区设计。