人才测评的几个基本问题

人才测评的几个基本问题
人才测评已经成为企业快速评价人才的工具和手段。在美国,1/3的小企业和2/3的大公司都在它们的管理过程使用人才测评;在英国,有85%的公司在招聘新员工时使用人才测评,不少在职经理也被要求经常参加各种人才测评。在我国,人才测评虽然还处于起步阶段,但是已经有越来越多的外资、民营企业和咨询公司认识到了人才测评的重要性,并开始在其工作中使用人才测评。但是在实际的使用过程,经常出现这样那样的问题,究其原因就是对人才测评的基本问题,包括测评的信度、效度和标准化等,并没有引起足够的重视。

一、信度
信度是测验结果的可靠性或一致性,也就是测评所得到的分数的稳定、一致性程度。它既包括时间上的一致性,也包括内容和不同评分者之间的一致性。

采用测评对人进行评价,都需要对人进行定量评价(也就是给人打分),这样我们才能根据所有被评价者的得分情况,确定究竟录用谁不录用谁。在这里我们有一个潜在的假设,也就是对一个的评价结果就是他的实际情况。比如,如果我们对某一个人进行评价,其基本能力得分为80,则我们认为他的基本能力就是80。其实,我们永远不可能完全准确地知道被评价者在某一特征上的真实情况,也就是其真实水平(可以称为真分数)。我们只能借助一定的工具对其进行评价,然后得到这个人在这个特征上的分数(可以称之为测验分数)。理想的结果是,真分数和测验分数完全一致,即真分数=测验分数。实际上,这种结果是很难得到了。举例来说,如果一个人的身高是165厘米(真实分数),也许由同一个人用同一把尺子来量,昨天得到的结果是166厘米(测验分数),今天得到的结果是164厘米(分数),而明天可能又会得到另外一个结果……。

从上面这个例子,我们可以看出:真分数≠测验分数。这就让我们不得不去考虑,究竟我们在多大程度上可以相信使用测评工具所得到的结果?在上面的例子,也就是在多大程度我们可以相信这把尺子


的测量结果。要回答这一问题,我们就必须计算“真分数”与“测验分数”之间的一致性(从统计的角度来讲,就是两者“相关”),这就是“信度”。上面的例子中,其“真分数”是165厘米,两次测量分数分别166厘米,164厘米。如果采用这把尺子进行多次测量,得到的结果都在165厘米附近,则我们所用的这把尺子的一致性比较高,也就是“信度”比较高;而如果进行多次测量,每次测量的结果与真分数相比很大,最后计算出来的“真分数”与“测验分数”的相关很低,则我们可以说这把尺子的信度比较低,采用这把尺子所得到的结果不一致。

信度对于人才测评来说有着极为重要的意义,如果一个测评工具的信度比较低,而我们采用这一工具来对人才进行评价,则极有可能今天得到的是一个结果,明天得到的是另外一个结果,使得我们的人才任用决策结果极不准确。然而对于这一点,很多企业并没有足够重要,在购买外部的人才测评工具时,并没有重视测评工具的“信度”指标;在内部的评价过程中,并没有重视“信度”这一指标,常见的问题就是出现不同评价者对同一被评价者会有极为不同的评价。根据美国人才测评专业委会员的建议,一个好的评价工具、技术或者过程其信度指数应该至少达到0.70以上,其测评结果才是一致的,可靠的。在实践操作过程中,企业可以以这以指标作为准绳来检验自己所采用的工具、技术和评价过程,并采用各种方式和手段来提高测评的信度,比如购买信度较高的测评工具,对评价者进行相关的培训等。

二、测评的效度
效度是指测评工具的准确性,有效性程度,也就是一种测评工具能够测量出其所需要测评的特征的程度。比如,当我们需要评价一个人的计划能力时,如果我们采用某个测评工具测评的是被评价者的计划能力,则可以说这个测评工具有较高的效度;而如果我们采用该测评工具测评的并不是被评价者的计划能力,而只是被评价者关于计划的知识,或者其他的内容,则可以认为这项工具的效度比较低。采用


效度低的测评工具最终得到的肯定是荒唐的结果,就象采用“尺子”来量“体重”(尺子量体重,效度接近0)得到的也是荒唐的结果一样。遗憾的是,在现实的人才测评中,人们对测评工具或者手段的效度并没有引起足够的重视,在对人才进行评价时所采用的测评工具或者手段的效度往往非常低。比如,很多公司在招聘秘书时,开始都希望能找着真正工作出色的秘书,但是到了最后都难以避免会掉进 “以貌取人”的陷进,而采用“以貌取人”来判断一个人的“能力高低”其效度是非常低的。一般来说,在人才测评中人们经常关注是以下两种效度:

内容效度。测评工具所包括的题本能否真正代表所需要测评的内容。比如,在结构化面试的时候,为了对候选人的计划能力、组织能力、应变能力等进行评价,我们设计了一套结构化面试的题目。如果这套题目能涵括所需要评价的能力,包括计划能力、组织能力和应变能力,则可以所这套题目的内容效度比较高;而如果不能涵括所需要评价的能力,则其内部效度比较低。在实际的工作中,企业一定要购买、设计和使用内容效度比较高的测评工具。为了确保测评工具的内容效度,有条件的企业最好购买国内比较权威机构研制的测评工具,或者聘请相关方面的专家对所编制测评工具的内容效度进行评价。在这一方面,国内很多企业并没有引起高度重视,在对候选人进行评价时,公司并没有提供统一、规范和内容效度比较高的测评工具,而由招聘人员根据他们自身的经验对候选人进行提问。殊不知而很多招聘人员由于经验的不足,或者专业训练的不够,提出的问题并没有真正代表所需要评价的内容。就象前面我们提到,本来想评价候选人的“计划能力”,最后变成了评价候选人关于“计划的知识”,使得整个评价“牛头不对马嘴”。在这一方面,企业还需要注意的一点就是,在评价之前,一定要真正分析所需要评价的内容,也就是说一定要进行职位分析(Job Analysis),或者建立胜任特征模型(Competency Model


),这样才能根据所确定需要评价的内容,并根据需要测评的内容采用内容效度高的测评工具。而如果在确定需要评价的内容时发生了错误,比如确定所需要评价的内容不是真正所需要的内容,确定需要评价的内容过多,或者确定需要评价的过少,则不管我们采用什么样的评价工具,最后的内容效度都会比较低。

效标关联效度。内容效度是指测评工具所包括的题本能否真正代表所需要测评的内容;效标关联效度则是指测评的结果与被预测的内容关联程度,这里我们把需要预测的内容称为“效标”。比如,如果我们采用某一测评工具对候选人的计划能力进行评价,结果发现在测评中得分比较高的候选人计划能力强,而得分比较低的候选人计划能力差,则我们所使用的测评工具的效标关联效度比较高;反之,如果在测评中得分比较高的计划能力并不一定强,得分比较低的计划能力并不一定差,则我们所使用的测评工具的效标关联效度比较低。

根据所使用的效标的不同,可以把效标关联效度分为两种:预测效度和同时效度。预测效度是指先采用测评对研究对象进行测评,等过一段时间之后再对研究对象的“效标”进行测评,然后计算两者之间的关系。比如,公司在招聘销售人员的时候,先采用某一测评工具对所有候选人进行了测评,这样每名候选人员都有一个得分(测验分数)。等这些候选人在公司工作了一段时间之后,搜集这些人员的效标数据(这里为实际业绩)。然后,计算测验分数和实际业绩之间的相关。如果测验分数和实际业绩之间的相关很高,则所使用的测评工具的预测效度很高,公司在今后招聘销售人员时可以继续使用这一测评工具;反之,如果两者之间的相关很低,则所使用的测评工具的预测效度很低,公司在今后招聘销售人员时应该放弃使用这一测评工具。

由于预测效度需要的时间长,所以很多时候我们都采用同时效度。比如,公司需要考察某一测评工具的预测效度(即采用这一工具来招聘新的员工是否合适),可以先采用该工具对公司内部人员进行测评,


然后获取公司内部人员的效标数据(这里一般为实际业绩),然后计算测评结果与实际业绩之间的相关(同时效度)。同时效度在获取上相对来说更为容易,但是因为同时效度受到会受到参加测评人员的工作经验的影响,因而从预测准确性的角度来看要略低于预测效度。


国外的研究表明,在各种测评方法中,评价中心的效标关联效度最高,面试(行为事件访谈)其次,而最低的就是人们所相信而又经常使用的面试(非行为性的)。各种测评方法的效标关联效度如下表所示:


三、测评的标准化:
谈到标准化大家自然就会想到“单项选择题”,“多项选择题”,诚然“单项选择题”和“多项选择题”都是标准化的一种形式,但是并不代表标准化的全部内涵。所谓标准化是指测评题本的编制、测评的实施、记分和测评结果的解释必须遵循严格的、统一的科学程序,保证对所有被测评者来说,测评的内容、条件、记分过程、解释系统都相同。

只有采用标准化的测评工具和过程,才能对不同人的测评结果进行比较,才能得到比较客观公正的结果。然而在实际工作,我们经常采用的是非标准化的测评工具和过程,而又拿着测评结果来对不同的人员进行比较。比如,很多招聘工作者在招聘时,碰到这个人采用一套评价流程,碰到那个人采用另外一套评价流程;碰到这个人问这样的问题,碰到那个人问那样的问题;碰到这个人时面试的时间为20分钟,碰到另外一个人时面试的时间为1个半小时……诸如此类已经成为招聘人员司空见惯的操作方式。也正是这种操作方式,使得招聘过程的准确性大打折扣,使得我们的招聘出现这样那样的问题。企业要提高招聘的有效性,必须引进标准化的测评工具,采用标准化的测评过程,并对所有招聘工作者的测评技术进行培训,也只有这样才能做到真正对人才进行科学、客观的评价。