译 小样本的统计分析问题 统计分析最小样本量


有人认为,对于小样本,你就无法使用统计的。但,这是一个误解,一个常见的误解。 对于小样本,我们也有适当的统计方法。 一个研究者的“小样本”,在另一个研究者看来则可能意味着“大样本”。本文中,小样本主要是指样本量在5-30个用户(可用性研究中常见的样本量,进一步阅读:http://www.measuringusability.com/blog/actual-users.php)。 值得注意的是,用户研究并不是出现小样本的唯一领域。其他具有较高操作成本的研究也会出现这个现象,比如fMRis和动物实验等。尽管我们有相应的方式来处理小样本研究数据,但我们应该清晰地知道小样本的局限性:你很难看到很大的差异,很明显的效果。这就像使用双筒望远镜进行天文观测一样:使用双筒望远镜,你可能无法看到行星、恒星、月亮和偶尔出现的彗星。但这并不以为着你就不能进行天文观测了。事实上,伽利略就是使用望远镜(与今天相当的双筒望远镜相当)发现了木星的卫星。 统计也是一样。仅仅因为你的样本不够大,并不能判断你能不能使用统计。再次强调,小样本的关键限制是,你难以发现设计或措施的效果是否有差异。 幸运的是,在用户体验研究中,我们往往关心的是不同用户可能发现的不同问题:比如:导航的结构变化,搜索结果页面的改进等等。下面是我们在小样本用户研究中的常见统计分析方法。
比较compare如果您需要对比两个独立组别的完成率、完成时间,问卷评分等。有两种大样本或者小样的方法可以采用。具体适用与哪种方法,取决于数据的特征:连续的还是离散的。比较均值:如果你的数据是连续的(不是二进制),比如任务完成时间、问卷评分等,你可以采用独立样本t检验。实践证明,它对于小样本也是适用的。
二分变量比较:如果你的数据是二进制的(成功/失败,是/否),你可以采用N-1的卡方检验。当期望数目小于1时,使用Fisher精确检验往往有更好的表现。

置信区间ConfidenceIntervals

当你想从样本数据来推测整个用户群,你会想到生成一个置信区间(译者注:关于置信区间,可参阅:http://baike.baidu.com/view/409226.htm)。尽管小样本的置信区会相当宽(通常为20-30个百分点),但是建立这样的区间总是有益的。例如:你想知道,用户在安装打印机前是否会去阅读“Readthis first”文档。而测试中,8名用户中有6名用户没有去阅读。这时候我们可以推知:至少40%的用户很可能会这么做——这是一个相当大的比例。 置信区间的计算方法有三种,这取决于你数据是否是二进制、时间或者连续的。基于平均值的置信区间Confidence interval around a mean:如果你的数据是连续的(非二进制),如评定量表、以美元计算的订单金额,页面访问数等。那么,置信区间的计算可以基于t分布进行计算(当然,这需要考虑到样本量)。
基于任务时间的置信区间Confidence interval around task-time:任务时间的理论最小值为0秒(不多见),一些用户的任务时间可能是其他用户的10-20倍。对于这种不对称性,我们需要进行数据转换(log-transformed),然后基于转换后的数据进行计算。待报告时再转换回来。
基于二进制的置信区间Confidenceinterval around a binary measure:二进制的数据比如完成率或yes/no。这类置信区间的计算,可以采用校正后沃尔德检验法(Adjusted Wald interval)计算(这种方法对于所有样本规模均适用)。

点估计(均值)PointEstimates (The Best Averages)


任何研究报告中,何为"最好"的平均时间或平均完成率的估计,应当取决于研究的目标。请记住:即使是“最好”的均值估计,也依然不代表实际的平均值。所以对于未知总体均值的估计而言,置信区间是更好的展示方法。在可用性研究中,小样本的均值计算,比较适宜的有两个:任务时间和完成率。不同样本规模中更常见的则是量表评分(SUS评分等)。
完成率:小样本的完成率,通常可能只有几个数值(译者注:可用性测试中,这一数字可能为5)。例如:有五个用户进行任务操作,其任务完成率只可能是:0%,20%,40%,60%,80%和100%几个数字中的某一个(100%也并不罕见)。基于小样本得出一个完美的成功率,可能并不恰当——因为它可能并不能揭示真实情况(测试结果优于真实情况)。我们(指作者)对自己的小样本可用性测试数据,利用拉普拉斯估计(theLaPlaceestimator)和简单比例(一般称为,最大似然估计,the MaximumLikelihoodEstimator)进行了均值估计(参见:http://www.upassoc.org/upa_publications/jus/2006_may/lewis_small_sample_estimates.pdf)。
【译】小样本的统计分析问题 统计分析最小样本量
评定量表的均值问题:量表是一个有趣的度量类型,它们大多是有限的区间(如:1-5,1-10等)除非你是Spinal Tap(译者注:因翻译期间,该链接视频未能打开。故未译成中文)。我们发现,在小型或大型的样本中,均值最好是在中位数上(参阅:http://drjim.0catch.com/1993_MultipointScales_MeanAndMedianDifferencesAndObservedSignificanceLevels.pdf)。当然,我们有许多方式来报道评定量表的分数,比如top-two boxes(直观理解,可参照NPS的计算规则)。 具体如何报告取决于你的灵敏度需要和组织要求。任务时间均值:一个较长的任务时间可能让算术平均值产生扭曲,这时候中位数则是用来描述平均水平的更恰当的指标。样本数在25以上的,中位数对均值具有良好的代表性(进一步阅读:http://www.measurin gusability.com/average-times.php)。不幸的是,中位数往往不够准确,在样本数小于25的情况下,比平均值更加不准确。这时候,几何平均值往往具有更好的衡量意义(译者注:几何平均值受极端值的影响更小)。
【工具箱】小样本计算器:http://www.measuringusability.com/wald.htm任务时间置信区间计算:http://www.measuringusability.com/time_intervals.php二分变量差异检验:http://www.measuringusability.com/ab-calc.phptop-twoboxes:https://www.measuringusability.com/blog/top-box.php
几何平均数计算器:http://www.ab126.com/goju/1710.html数字帝国-统计计算器:http://zh.numberempire.com/statisticscalculator.php——————————————————————————————本文作者:JeffSauro(MeasuringUsability LLC的主要创立人,著有“Quantifyingthe User Experience: Practical Statistics for User Research”“Excel& R Companion to Quantifying the UserExperience”“APractical Guide to the System Usability Scale”“APractical Guide to Measuring Usability”四本书)
【译后记】译罢此文,深深感触:对于结果直接提供算术平均数就是耍流氓!而多数报告也确实只提供了算术平均数一种。本文对于更严谨科学地分析和解读研究发现,具有重要的启发意义。 因时间和精力限制,译文难免存在谬误,欢迎批评指正。
【版权申明】本文不做任何商业用途,转载请注明出处。相关知识产权归原作者,擅自商用带来的一切风险和责任自付,与本人无关。

  

爱华网本文地址 » http://www.aihuau.com/a/25101016/296061.html

更多阅读

影响青年就业难的因素分析 影响因素分析

影响青年就业难的因素分析杨碧绿摘要:近年来,社会出现两种颇为矛盾的现象,一方面是刘易斯拐点的出现,“人口红利”已近终结,“用工荒”频显;另一方面,失业人数居高不下,尤其是初次就业的青年。相互冲突的现象背后,究竟存在着怎样的问题、青

经典的统计套利-配对交易 python 统计套利

经典的统计套利-配对交易经典的统计套利-配对交易。配对交易(PairsTrading)是经典统计套利策略之一。它的基本思想是:在同一行业中寻找两只股价具备均衡关系的股票,当它们的价格走势偏离正常值时,做多近期相对弱势股,做空近期相对强势

对台湾问题最透彻的经典分析 最透彻的财务分析

图文网络收集整理 高德旺对台湾问题最透彻的经典分析老田:台湾问题上的“统独之争”是伪问题——――兼谈台湾是如何成为一个必须优先解决的问题的?作者:老田台湾曾经作为东亚新月型反华包围圈中最积极的一环,存在有数十年之久。即便如

各国承认双重国籍状况的最新分析统计 中国承认双重国籍吗

文/陈树庆作者有关国籍问题的系列文章已经说明在承认多重国籍(包括双重国籍)的情况下既能充分尊重和保护人权,可以运用国际私法规则有效解决国籍的积极冲突问题,也同样能够尊重所在国的主权、遵守其法律并维护其国家利益。其中《从比

如何为幻灯片制作漂亮的统计图 如何制作曲线统计图

本文摘要:统计图在展示数据方面有其独特的优势,尤其是在PPT中,通过统计图替代统计表,可以更直观的表达数据,给人留下更为深刻的印象。PPT统计图制作(上)PPT统计图制作(下)在我们日常生活中有好多地方都要用到统计图,在展示数据方面有其独特的

声明:《译 小样本的统计分析问题 统计分析最小样本量》为网友裁三寸春风分享!如侵犯到您的合法权益请联系我们删除