Lec-6 评估技术-询问用户与专家

December 22, 2024

背景

了解用户的需要和对产品的意见和建议
- 观察用户
- 询问用户
  - 适用于客观上较难度量的、与用户主观满意度和可能的忧虑心情相关的问题
  - 访谈和问卷调查
    - 在研究用户如何使用系统，以及哪些系统功能是用户非常喜欢或不喜欢的方面也非常有效
不知道该怎么做或者对预期的结果没有把握
- 请专家帮忙
- 不能帮助大家成为可用性专家
- 但有助于更好地去评估自己和他人的工作

询问用户-访谈

有目的的对话过程。

分类

开放式（或非结构化）访谈
- 问题是开放式的，不限定内容和格式
- 受访人自行选择详细回答还是简要回答
- 访问人应确保能够搜集到重要问题的回答
结构化访谈
- 根据预先确定的一组问题进行访谈
- 问题通常是“封闭式”的，它要求准确的回答
半结构化访谈
- 开放式问题+封闭式问题
集体访谈
- 基本思想：个别成员的看法是在应用的上下文中通过与其他用户的交流而形成的
- “焦点小组”是集体访谈的一种形式

原则

避免过长的问题
避免使用复合句
避免使用可能让用户感觉尴尬的术语或他们无法理解的语言
避免使用有诱导性的问题
尽可能保证问题是中性的

焦点小组

非正式的评估方法
- 在界面设计之前和经过一段使用之后评估用户的需要和感受
- 是市场、政治和社会科学研究经常使用的方法
- 人数限制：由大约6到9个典型用户组成
- 如在评估大学的网站时，可考虑由行政人员、教师和学生们组成3个分别的焦点小组
主持人工作
- 事先列出一张讨论问题和数据收集目标的清单
- 保持所谈论的内容不离题
- 保证小组的每个成员都积极参与谈论
- 讨论结果的分析报告
焦点小组存在风险

询问用户-问卷调查

问卷调查是用于搜集统计数据和用户意见的常用方法。

问卷设计原则

问题明确，具体
在可能时，采用封闭式问题并提供充分的答案选项
对于征求用户意见的问题，应提供一个“无看法”的答案选项
注意提问次序，先提出一般化问题，再提出具体问题
避免使用复杂的多重问题
在使用等级标度时，应设定适当的等级范围，并确保它们不重叠
避免使用术语
明确说明如何完成问卷
既要做到紧凑，也应适当留空

问题类型

常规问题
- 年龄、性别、职业、居住地、应用计算机的经验等
自由回答问题
量化分级问题
多选题

用户满意度调查表 QUIS

QUIS: questionnaire for user interaction satisfaction

使用9级标度

内容：

界面细节（如符号的易读性和屏幕显示的布局设计）
界面对象（如具有象征意义的图标）
界面行为（如为用户经常使用的操作设置的快捷方式）
任务表达（如适当的术语和屏幕显示顺序）

问卷组织

问卷调查中的两个关键问题
- 如何寻找有代表性的用户
- 如何达到合理的回复率

有助于提高回复率的措施：

精心设计问卷，避免用户因为厌烦而拒绝回复
参照QUIS，提供简要描述，说明用户若没有时间完成整份问卷，可以只完成简短的部分
提供一个带有回复地址并粘好了邮票的信封
解释为什么要进行这些问卷调查，并说明将为参与者保密
在发出问卷之后，通过后续邮件、电话或电子邮件联系参与者
采取一些激励措施（如有偿调查等）
进行小规模测验

询问专家-认知走查

逐步检查使用系统执行任务的过程，从中找出可用性问题。
无需用户参与
主要目标是确定使一个系统如何易于学习
试图想象出人们在第一次使用某个产品时的想法以及所采取的动作，它的大作流程是怎样的
评估的具体过程就是把用户在完成这个功能时所做的所有动作讲述成一个令人可以信服的故事

步骤

标识并记录典型用户的特性
基于评估重点，设计样本任务
制作界面原型（或界面描述），明确用户执行任务的具体步骤
由设计人员和专家级评估人员（一位或多位）共同进行分析
评估人员结合应用的上下文，逐步检查每项任务的操作步骤
1. 正确的操作对于用户是否足够明显？（可预见）
2. 用户能否注意到正确的操作？（可理解）
3. 能否正确解释操作的响应？（可解释）
在完成逐步检查之后，汇总关键信息
修改设计，更正发现的问题

优缺点

优点：

不需要用户参与
不需要可运行的原型
能找出非常具体的用户问题缺点：
工作量大，非常费时
关注面有限，只适合于评估易学习性

询问专家-启发式评估

一种灵活而又相当廉价的评估方式。由可用性专家完成。

步骤

彻底检查界面
将界面与启发式规则进行对比
列举可用性问题
应用启发式规则，对每个问题进行解释与确认

严重性分类

决定严重性的因素

频率
影响
持续时间

严重性等级

不严重就不修复，严重就修复。

优缺点

优点
- 不涉及用户，限制少
- 成本低、快捷
缺点
- 专家少
- 专家不完美。可能会有虚假警报

友情提醒

邀请多个评估专家，3-5 个为宜
使用用户测试代替启发式评估
- 用户测试才是可用性的Gold Standard
观察人员可以帮助评估专家