《读心“测”略》　第1章　心灵的尺子：心理测验　心理测量与心-爱华网

本书将经常出现两个词“心理测量”与“心理测验”，这二者含义是相同的吗？如果不同，它们之间的关系或区别何在？事实上，这是两个含义有别、容易混淆，而又密切相关的概念。

人们对测量并不陌生。比如我们平时经常会借助尺子来测量身高，用秒表来测量运动员长短跑的成绩，用磅秤来测量体重。这些测量，是对长度、时间、重量等物理现象进行的测量，这样的测量我们称之为物理测量；对人体的各种生理机能，如血脂、血糖、血压、血型、脉搏、肝功能、肺活量等的测量称为生理测量；人口普查以及调查研究个人的年龄、性别、职业、社会地位、信仰等属性被称为社会测量；而智力测量、人格测量、兴趣测量、能力测量等都是以研究个体为主旨，属于心理测量范畴。有很多人会提出疑问，心理能够测量吗？美国心理学家和教育家桑代克（Edward Thorndike，1874—1949）曾说过，任何现象，只要是存在的，总有一种数量；美国教育测验学家麦柯尔（W.A.MacCall ）也说过，凡有数量的必能测量。这两句名言也成了心理测量的存在基础。心理现象存在差异是不可争辩的事实，这种差异意味着数量的存在，因而应该能够根据某种规则进行测量。

在心理学上，一般将心理测量定义为：依据一定的心理学理论，使用一定的操作程序来对人的能力、人格、心理现象、心理特征、兴趣、专长等进行的测量，并使用科学的手段对测量的结果进行一定的量化。它已经是心理学范畴的一门重要分支学科。

从广义上说，任何对人的心理所进行的研究都涉及对心理的测量。如心理物理法是对人的心理量与物理量关系的测量，观察法、调查法、访谈法等都是进行心理测量的方法。但我们更渴望一种标准化的工具，就像制作尺子测量长度一样，大家都可以按照相应的方法来利用这一工具。测量的工具也称为量表。心理测量过程中，在被测者看来，他所接触到的仅仅是一系列需要通过思考来回答（回答形式包括语言、书面、动作等）的题目；而对于主持测量的人来说，还包括合适的测量对象、标准化的测量环境、计分方式、解释分数的方法，等等。心理测验就是符合这种要求的一种量表。我们日常见到的小测验比比皆是，正如我们在本书中所列举的一些趣味测验一样，从严格意义上来说，它们包含了更多娱乐成分，不是真正的心理测验。虽然心理测量不仅仅限于用心理测验进行，也可以使用其他各种方式来获得关于个体心理特征的数据，但我们在心理测量这门学科中所说的测量主要是指用心理测验进行的测量。

通俗地说，心理测验是以测题方式来完成心理测量的一种具体手段。观察法、访谈法、问卷法、实验法、心理物理法等虽然也是心理测量的常用方法，但心理测量作为一门学科，是以研究和编制心理测验的理论与实践为主。

在心理测量科学中，如果用专业术语来描述的话，心理测验最为流行，并且得到公认的定义来自美国心理测量学家安娜斯塔西（Anne Anastasi，1908—2001），她将心理测验定义为“对行为样本客观的和标准化的测量”。在这个定义中，规定了一个测验所具备的五个最重要的基本特征。

（1）行为样本。这个概念来源于统计学：我们研究某类事物（或称对象）的全部称为“总体”，组成总体的每个对象称为“个体”，而从“总体”中抽取的部分个体就组成“样本”。几乎在所有的情况下，对总体的研究都是透过对样本的研究来进行的。心理测验在测量个体差异时，往往也只能对少数行为进行观察，从而推测被测验者的心理特征。例如，要想知道一个人的性格是内向还是外向的，可以通过询问对方在面临某种社会情境时他是怎么做的。比如，在见到陌生人时，是否会主动和对方交流？是否愿意表达自己内心的真实想法？我们就从这些问题的回答中对对方的性格做出一个大致判断。因为一个人的性格在生活的各种情境中都会有所表现，如果要完全透彻地理解一个人，当然是对生活中各个方面都有所了解才好。但是这样做显然不现实。所以我们常常选择那些最能够展现人们性格的情境，编制成问题，让人们做出回答，借此来推知他们的性格。为了做出可靠的推断，我们需要一整套有代表性的题目，这些题目提供给我们足够有用的信息，能充分反映被测者的性格特征。这样的一套有代表性的题目所引发的行为就称为行为样本。

（2）标准化。指测验的编制、施测、计分和对测验分数的解释必须保持一致。对所有被测者来说，进行测量的条件和环境必须都相同，得出的分数才有可比性。这一标准化过程并不是我们想象的那样简单。事实上，从编制测验开始，直到施测过程都存在着标准化的问题。首先，要有专门的测验编制者按照科学的程序来编制测验，这本身就已经是一个极其复杂的过程；其次，在测验实施过程中，要对所有被测者都使用相同的指导语和计分程序。也就是说，在测验实施过程中，对所有被试的条件都要相同。这一步骤说起来容易但做起来却很难。比如指导语的控制，是否完全一致的话语就算是标准化呢？一般来说是这样的，但是有些时候却并非如此。比如说，一个母语不是英语和母语是英语的人同时进行测验，那么他们在指导语的理解上就可能会有差别，可能会引起不同的行为，带来不同的测量结果，我们这时就不应再局限于语句上的一致，而应该尽量让两人都真正理解让他们做什么，怎么做。这一问题也存在于对中国各地持有不同方言的被试进行测验的过程中。完全的平等是很难做到的，因此在实施中需要有经验的主试来努力地控制，从而尽量减少误差。我们与其追求表面词句的相同，不如追求指导语在功能上的一致。

作为一个测验的标准化内容，还有一个更重要的部分是制订“常模”。我们如何比较个体差异呢？需要有一个固定的点，就像尺子有一个零点（或原点）一样，一个长度有多长，是根据它相对原点的距离而言的，如果没有一个固定的原点，就不能够进行比较。现代心理和教育测量的知识已告诉我们，人类行为几乎没有绝对测度的事实。在个体差异的研究中，人们早已不再追求绝对测度了，而是以全体可能适测对象的平均数作为参照点，而将个体差异的标准差作为量表单位的基础。我们通过看一个人的测验分数在全体平均数之上或之下有多远来解释其测验分数，这个平均数也就是常模。换句话说，常模就是一个心理量表的原点，或者说是平均水平。就智力测验来说，如果他在平均数（常模）之上很远的位置，就说这个人很聪明，智力水平较高，在平均数（常模）之下很远的位置，就只能说此人很愚笨，智力落后。比如，一套题目，所有10岁儿童的平均数可能是70分，而所有成年人的平均数可能是90分，所以只知道一个人在该测验的成绩是80分时，我们无法断定他的智力水平，而要将他的分数与他的年龄相对应的常模分数进行比较。如果这是个10岁的儿童，就可以知道，他的分数是比较高的，而如果是个成年人，他的分数是低于平均水平的。

常模是怎样确定的呢？因为要测量总体中所有人在某一测验上的成绩是不可能的，所以我们在确定常模时往往是通过选取一组被试来代表总体，这样他们的平均成绩就可以代表总体的平均成绩了。每一个人的成绩可以通过与常模的比较而得知其在总体中的位置。例如，一组正常10岁儿童能完成某一数学测验100道题中的30道题，30道题的分数就是一般10岁儿童在这一测验上的常模。常模是否可靠，关键在于是否有一个代表性的被试样本，使其基本上能代表全体被试。那么，如何才能建立一个有代表性的样本呢？这就要求不但要有合适的数量，而且还是根据随机抽样或分层抽样方法挑选出来的。

随机抽样也被称为概率抽样，就是从总体中完全随机地抽取调查单位。在随机抽样中，每个样本单位被抽中的概率是相等的，样本的每个单位完全独立，彼此间不存在关联性。例如，考察一个班级学生的情况时，由于条件限制，只能在整个班级的60人中抽取10名，那么就可以通过学号来抽取，把每个号码写在一张小纸条上，折起来放在一起，然后随机从中抽取10个小纸条。或者根据随机数表，从任一位置开始，连续获取10个数字，就把这些学号的学生作为样本。

分层抽样也叫类型抽样，就是将总体单位按某一重要特征分成几个类型或层，然后在每层中随机抽取样本单位。这种方法适用于总体情况复杂，各层次之间差异较大，层次较多的情况。例如考察民众对政府某项决策的意见时，就应该按比例在工人、农民、学生、知识分子中，在不同民族、不同年龄和性别的人群中都抽取一些人来做被试样本。

指导语

心理学中的指导语是指：心理测验中测验者对被测者所说的有关测验任务、测验内容的话。

对指导语应该有这样的要求：

内容要明确而清晰，不能让被测者产生歧义；

内容要完全，对于测验过程中所出现的各种可能要有充分的估计；

内容简明扼要，不能拖泥带水含糊不清，不能似是而非，不能模棱两可；

内容要标准，要考虑到被测者的理解能力，如听力因素、方言、对文化或道德的理解、母语差异等。

（3）客观性。心理测验的客观性是指测验的整个过程都是客观的，不受任何主观因素的影响，尤其是测验主持人的主观判断、支配等影响。不仅如此，在测验题目的难易选择、难易程度编排等方面也必须体现出测验的客观性。对于比较专业的测验来说，这些都是需要经过科学的、严谨的计算和分析才能进行的。事实上，这也是心理测量的一个很高的追求，是很难完全做到的。在很多测验中，特别是人格投射测验中，整个测验的实施和解释过程都具有较强的主观性，在很大程度上依赖于主持测验者的经验。

（4）信度。通俗地说，信度当然是测验的可信程度了，包括测验结果的可靠性、稳定性、真实性等。那么，对于一个已知的测验来说，我们如何来评价它是否为一个很好的测验呢？一般来说，用来评价一个测验的指标有两个，即信度和效度。信度是指一个测验结果的一致性。它既包括在时间上的一致性，也包括内容上的一致性和不同评分者间的一致性。如果一个儿童测得智商为100，几天后再次以同样的测验测得的智商却为80，那么应该说这个测验肯定是不可靠的。如果同一儿童针对同一测验给出的答案，一个评分者给出的分数是80，另一个评分者给出的分数是120，那么这一测验也是不可信的。如果两道测题宣称都测量同一个心理特征，那么受测者在这两个测量上应该具有一致的反应。如果一个人在这一题上答“是”，另一题上答“否”，那么又该如何判断受测者的这个心理特征呢？这样的测验也是不可信的。所以一个真正的测验，必须提供信度指标，测验的使用者要考虑选择合适的信度资料，做出对测验结果比较恰当的预测和解释。

（5）效度。效度是指测量结果的有效性和正确性。我们说一个测验有效，就是说它测验到了它所要测量的东西。效度是心理测验中最重要的一个问题。如果一个测验没有效度的证明，就不知道它测量到了什么东西，因此我们也就不能从测验成绩中获得任何有用的信息或做出正确的解释。正如你要测量一个学生的身高，如果用尺子测量就是有效的；但是如果使用磅秤去称重，尽管说结果是可信的，但可以说这一工具是无效的，因为它没有测量到我们所要测量的东西。测验的效度也可以用不同的指标来表示。例如，人们认为智力可以预测学业成绩，那么一个智力测验是否有效，就可以看一个人在智力测验上的得分与他的学业成绩是否相关。如果能够预测，就可以认为这个智力测验具有一定的效度。也有一些测验不是被用来进行预测的，而是用来测量人的内部心理结构。例如，现代的大五人格理论（five-factor model，big-five model）认为人格有五个维度，那么根据大五人格理论编制的测验，就应该能够区分出人格的这五个基本特征。一般会用五个分测验分别测量这五个维度的人格特征。人们对这五个基本维度上的得分进行计算，如果它们之间是相互独立的，就可以认为存在这五个维度，否则我们很难相信这个测验是有效的。

尽管心理学家为心理测验制定了五个标准，希望心理测量能够像物理测量那样准确可靠，但是，毕竟心理测量不会像物理测量那样直观、准确和易于驾驭。因为心理测量不可能像物理测量那样，在肉眼监督下直接进行，并且能对误差进行一定限度内的控制，而只能是间接测量。我们只能根据被测者对测验题目的反应来推测他的心理品质。而且在进行推测的过程中，很大程度上要依赖于我们对于心理现象的认识。然而，关于心理现象的理论并不像物理学理论那样精确、严谨、严格和深入。更加值得一提的是，由于地理、文化、伦理、传统、语言、教育等多方面的影响，不同的学者对于同样的心理现象可能持有完全不同的观点、解释及测量方法。但无论如何，他们的一个共同追求是提高测量的精确程度。那么，我们的心理测量能精确到什么程度呢？

心理测验并不等同于学生的考试。对于学生的各种考试来说，几乎都是分为好坏或分数高低，几乎所有的情况都是分数高的学生成绩好，而分数低的学生学习成绩差。多数心理测验的目的则与此截然不同。例如，喜欢红色的人可能热情而奔放，喜欢蓝色的人可能温柔而稳重，你能说哪个更好，哪个不好？从小讨厌音乐而喜欢体育的人可能会成为体育明星，从小讨厌体育而喜欢音乐的人可能会成为音乐家，你能说哪个好一些，哪个不好一些？况且，我们也很难要求一个人既是体育明星又是音乐家。

心理测验涉及很多方面。绝大多数心理测验的题目、计分及答案（甚或没有标准答案）、对答案的理解都与传统考试有所不同。这在前面的两个例子中都已经看到。

正因为如此，在制定量表的时候，由于将要测量的内容不同，制订量表的单位和参照点不同，所以不同量表的精确度可能会有所不同。有些量表可能只是为了把不同类型的人进行区分，有些是要对同一类型的人进行排序，更多的量表，还期望着除了了解被测者的前后顺序，进一步知道他们在这一心理特征上相差的程度有多远。据此我们可以把测量分为四种水平，从低级到高级排列，分别是名称量表、顺序量表、等距量表和比例量表，高级量表除了包括低级量表的功能外，还具有自身的独特之处。

（1）名称量表。这是最简单、最低水平的一种测量量表，它只是用数字代表事物或者给事物分类，但没有任何数量上的意义，只具有区分的功能，不意味着大小、多少或顺序。例如，学生的学号就是一种名称量表，它仅仅是作为一个符号来表示对应的学生而已，使用学号来管理学生是因为学生的姓名可能会重名。有时亦以某一数值表示相应的属性，例如用1来代表男性，用0来代表女性。名称量表不能做数量化分析，既不能比较大小，又没有顺序上的意义，更不能做加减乘除等运算。

（2）顺序量表。它比名称量表要精确一些，其中的数字不仅指明了类别，同时指明不同类别的大小或具有某种属性的程度。这种顺序不能表明各种类别之间的距离，它只是按照某种规则对被研究对像排序而已（所以又称等级量表）。例如，体育比赛中的名次就是顺序量表。第一名比第二名的名次少1，第二名比第三名的名次也少1。但同样相差1，并不表示其距离相同，更不能说明各名次之间的差距是多少，而且这之间的差异可能是各种度量方式，例如，对于短跑或长跑，度量方式是时间；对于跳远或跳高，度量方式是长度（高度）；对于举重，度量方式是重量；等等。还要注意的是，虽然使用了数字，但不能确定数字大小与好坏的关系，就是说不意味着数字越小越好，当然在名次上是这样的，而在许多专业技能技巧分级方面，往往级别越高越好，例如，英语考级得到的级别越高越好（六级比四级水平高）。

（3）等距量表。它不仅表示大小关系，而且有相等的单位。例如温度计就是一个等距量表。60度与40度的差异等于30度与10度之间的差异。智力测验中的IQ分数也可以看做是一种等距量表。等距量表能够进行加减运算，可以用多种统计方法来处理等距量表中的数据，如平均数、标准差、积差相关等。但是等距量表没有约定的零点，也不存在倍数关系。例如，我们不能说智商120的人智力水平是智商60的人的两倍。更能说明这一点的是，你能说摄氏25℃是摄氏零下5℃的多少倍吗？

（4）比例量表。这是最高级和最精确的测量水平，也是科学家们心中的理想量表，又称等比量表。它既有等距的单位，又有绝对零点。用比例量表进行的测量，不仅知道事物在某种特征上相差多少，还可以知道它们之间的倍数关系。例如身高（长度）测量、体重（重量）测量就是比例量表。我们完全可以说2米是1米的2倍，100公斤是40公斤的2.5倍。

心理测量所研究的正是如何编制测验的理论与实践的学科。至此，相信读者对心理测验已经有了一些初步的了解。那么你能否再来思考一下，我们在生活中遇到的各种各样的所谓心理小测验，它们是不是标准化的心理测验呢？

记忆力测验

下面为成人读者提供14个问题，给你40分钟的时间。每答上1题可得1分，答不上的得0分。

1.小学六年级（或小学的最后一年）班主任的名字？

2.小学六年级（或小学的最后一年）时，班级一位男同学、一位女同学的名字？

3.初中时代读过的印象很深的一本小说？

4.现在的好朋友中，结识最早的是谁？哪一年结识的？

5.最近的一次应酬中，同桌吃饭的人的名字？

6.你最早喜欢唱的一首歌曲是什么？在哪一年？

7.你能记住10位朋友或同事的手机号码吗？

8.你的初恋是在哪年？初恋情人的名字？

9.你踏入社会的第一个工作单位的领导名字？

10.昨天你回家休息前，最后看到的熟人是谁？

11.昨天晚饭吃的菜都还记得吗？

12.记得你前天穿的外衣吗？

13.最近一次体育活动（打牌或打球等）的伙伴都是谁？

14.能说出两位亲人（父母、兄弟、姐妹或子女）的生日吗？

这个测验改编自早期一本趣味测验书籍。如果你能够得到12～14分，说明你记忆力很惊人，情感丰富，亦有较高情商；如果你得10～11分，说明你记忆力很好，并且恋旧；得8～9分，记忆力一般；得6～7分，记忆力很一般，或者可能不愿留恋和回味过去的事情；5分或以下者，你的记忆力很成问题了，或者整天无所事事、大脑混沌。

爱华网本文地址 » http://www.aihuau.com/a/9101032201/48570.html

《读心“测”略》　第1章　心灵的尺子：心理测验　心理测量与心

更多阅读

《情迷六月花》美国第1部NC17电影 2015美国nc17电影

深秋思念》之第四章白来的奉茶宫女(古装言情连载小说) 奉茶宫女马尔泰若曦

如何制定决策课后测试《管理行为（珍藏版）》　第1章　决策制定和管理型组织　评论与

测绘实习报告前言《读心“测”略》　前言