编者按
近年来,随着中国公益慈善行业的发展,影响评估受到越来越多的重视,三一基金会曾与许多合作伙伴在评估理论、方法和实践方面开展合作。
为进一步促进公益从业者形成评估思维,5月,三一会客厅连续举办3场专题讨论,从不同角度探讨评估对公益慈善的价值和意义。
第一场《慈善的测度:影响评估与中国经验》邀请到了《影响评估手册》编写团队、开展过影响评估的公益组织及行业专家共同探讨影响评估对中国公益领域的作用。
本期对谈嘉宾
主持人:
三一基金会能力支持总监 王龙玺
嘉宾(以发言顺序排列):
陕西师范大学教育实验经济研究所 岳爱
陕西师范大学教育实验经济研究所 聂景春
西安市光源助学公益慈善中心理事长 张耀华
南都公益基金会 冯元
王龙玺
《评估社会》作者达雷尔拉森曾说:“在这个时代,反对评估非常困难,一个人最多只能要求评估可以晚一点进行,或者是采用一种不同的设计。”
对公益慈善领域的伙伴来说,“评估”是一个让大家又爱又恨的东西。当一个组织达到了一定的规模,当项目做到了一定的深度,我们必然会开始思考这些工作的结果是什么?它的变化体现在哪?我们如何才能准确地把工作效果测量出来?
但也有伙伴深受评估的困扰:评估会占用的大量的精力;评估的结果是否能有效推动工作;为了回应资方对于效果的质疑,评估更像是一个合法性身份的取得。有了评估,我们好像才能更好地去做倡导、拿到更多的资源。
无论是从资方、学术研究,还是从执行者的角度,都有过很多关于评估的讨论。本次,我们请来了4位来自不同领域的嘉宾,来跟我们分享不同视角下的评估,以及我们该如何做好项目评估。
影响评估对公益的意义价值和应用情况
岳爱
公益领域里,为什么要做影响评估?
我想用三一集团梁稳根先生的话作为分享的开场:“公益是爱的事业,但好的公益行动,不光需要美好的初心,也需要建立在科学的理论、途径和方法之上。”
曾经有一个很经典的女童奖学金项目,是在一些女童辍学率很高的地区资助女童上学,提高入学率。项目方在资助后做了一次入学率测评,发现数据是92%,于是就召开了一个大型发布会,没想到却引来了很多质疑。于是他们又去测了没有获得奖学金的女童的入学率(84%),依然有人质疑这还是不能证明这是个好项目。
那是不是同时收集干预前(基线)和干预后(评估)干预组和对照组的数据,就能让我们做最严谨的影响评估呢?其实也不全然是。
比如干预前的干预组和对照组还必须拥有相同的起点,某些特征差异可能会导致不同组对干预有不同的反应。所以女童奖学金这个例子充分证明了影响评估需要建立在众多基础之上,影响评估非常的复杂。

但是在公益领域里,仍旧有很多项目在开展影响评估,主要有以下四个原因:
1. 从方法到问题:
影响评估不仅是方法,更是一种理念,它强调培养真问题意识,发现社会中亟待解决的现实问题。
2. 从初心到效益:
好心就一定能办好事吗?心怀善意就能达成预期的结果吗?持续的投入是否能获得持续的回报?很多时候,我们不得不承认,有的公益项目效果微小、没有效果,甚至有好心办坏事的情况。
2010年,我们基于推测低收入地区高中生入学率低是经济原因,设计了一个随机实验项目:初中生事先资助承诺项目。我们在每个班选出4名最贫困学生,根据他们的基础特征找了反事实对照组,然后随机给每对中的一名学生签了合同:只要学生考上高中或职高,就给他/她为期三年,每年1500元的奖励。
这个项目有很好的发心,但最终的测评却发现普高和职高的录取率没有显著影响。后来换了不同群体、不同干预时长等等都得到一致结论:这个项目不仅不能改善成绩,也没有提高录取率。那么,这样的项目就是不适宜推广的,不能进行资源的浪费。

还有国际上非常出名的非洲儿童饮水项目也是如此,投入另外大量的资金、广告,却发现完全不能达到预期效果。
3. 从过程到结果
以前公益组织的评估往往是看过程,看它的产出,比如项目覆盖了几万人、参加次数多少、发了多少鸡蛋绘本等等物资。而不是去想一想孩子吃了鸡蛋对他的健康有什么影响,学校收到捐赠的图书是否就意味着能够提高学生的学业表现?这些影响都是需要过程监测的。
影响评估主要回答三个问题:
1.识别真影响(项目是否有效、影响是什么);
2.影响的途径(项目的因果链是什么,怎么改进我的项目);
3.资源的有效利用(检验项目的实施效率,在有限的资源下发挥最大价值)。

我们推荐在条件允许的情况下做影响做评估,因为它可以作为投资的决策依据,如何使用有限的资源,不造成资源浪费。
其次,它可以帮你检验这个项目是否有意要进一步推广,为政策决策提供参考。而且,它也能够帮助完善现有项目,及时发现因果链的断点,马上修补调整。最后,它可以为设计新项目提供思路。
这就是影响评估的重要性所在和它在公益领域的价值。
什么是影响评估?
那么什么是影响评估呢?我们来看这张图:

首先图上开始时干预组和对照组必须是可比的,其次剔除掉本身对照组可能的发展,看B减D的影响。
做影响评估要用随机实验的方法,分三步:基线调查、干预实验、随机分配干预组和对照组进行评估调查。

影响评估强调在所有的强弱证据里,找到最高等级的证据:随机干预实验方法。
影响评估在国内外的应用
在国际上,麻省理工大学反贫困行动实验室(J-PAL)的三位研究者获得了2019年诺贝尔经济学奖,表彰他们使用随机干预实验的方法解决贫困和方法问题。
十几年来,J-PAL和IPA在全球83个国家开展了1200多项影响评估研究,将影响评估广泛应用于南亚、非洲和拉丁美洲的发展中国家政府的教育决策中。
影响评估成为了政策制定的一个重要环节。
在国内,2006年有研究所做了第一个严格的随机干预实验,2014年申请到国内第一个“实验经济学”二级学科,2021年,华东师范大学成立了“教育经济研究实验室”。现在越来越多人在做影响评估的研究。
我们主要做过四个领域的影响评估研究,现在都处于大范围推广阶段:
1. 农村婴幼儿早期发展
我们用影响评估找到了解决贫困农村地区儿童早期发展的方法。
2. 健康与人力资本(视力健康)
从问题的发现,到干预方式、干预结果,很多地方、县级开始建设视光中心,提供持续的视力健康服务。
3.教师培育与发展
设置教师增值性评价,提高学生平均成绩,促使老师平等对待所有学生,探索了可行、有效的教师绩效工资实施方案。
4.信息技术在农村教育中的应用
识别出计算机辅助学习对农村地区学生学业表现和自信、自尊与学习兴趣的影响及作用机制。
希望大家可以时常想起最开始时想要推动和改善的社会问题,围绕最初的问题,以影响评估的思维去探索和构建最科学有效的项目方案,最终实现“真问题”的解决。

《影响评估手册》的介绍与发布
聂景春
《影响评估手册》这本书主要写了对项目进行影响评估的基本方法和步骤。前两章介绍了影响评估的核心和方法:归因问题。即,你的目标对象的改变有多大程度上可以归因为这个项目?
接下来它告诉你要怎么设计一个影响评估方案,帮助你在项目开始前理清项目目标和因果链。
然后用随机干预实验来介绍影响评估的基本设计方法,第五部分是数据收集。最后是具体案例和政策倡导的经验。

这本书有三个主要特色:
1. 是影响评估不是项目评估
项目评估是会看项目的目标是不是完成了,而影响评估要看目标是否实现,问题是否解决。
2. 以实验方法为重点
从操作性上讲,随机干预实验不会像准实验等方法一样涉及复杂的计算,它很简单,但也非常准确,所以被认为是影响评估的黄金准则。
3. 注重应用,强调可操作性
这本书不只面向研究人员,也是给项目人员看的,它具有项目的应用性和可操作性。从前期准备到评估设计,到数据收集,均有涉及,也提供了一些具体案例的测量表和软件。
这本书是我们研究所团队一起合作撰写的书,也是基于我们多年经验总结的结果,希望它对提升公益项目的科学性和有效性有所帮助。
你我伙伴性教育课程的评估实践
张耀华
今天,我想作为一个公益慈善项目代表跟大家分享一下,我们机构或者说你我伙伴性教育项目在评估的各个阶段是怎么做的,以及一些经验总结。
我们机构是专门为6到18岁儿童和青少年提供优质性教育服务的公益组织,我们最知名的项目品牌叫:你我伙伴。
你我伙伴由四个部分构成:1.它提供小学和中学阶段的性教育课程;2.给合作伙伴的教师和志愿者提供教学工具包;3.为老师提供教师指南、大学生读本等等教辅材料;4.培训志愿者在全国3800多所学校开课。
你我伙伴的评估经历了三个阶段:
第一个阶段是课程迭代试点阶段,我们希望知道项目在一所学校干预的结果是怎样的。当时项目规模还比较小,只有10所学校,评估往往来自于项目设计的既定环节或资助方的要求。我们通过满意度问卷(主要来自于服务对象主观感受)、知识信息问卷(把核心教学目标设计成题目,在课程前后测试考察正确率)、师生访谈(一对一和焦点小组访谈)这三种方式进行评测。
这种方式有三个特点:
1.评估方法不够严谨,侧重项目干预前后的对比,不涉及对照;
2.评估专业性不强,一般由项目人员就能设计完成;
3.成本较低,主要是问卷印刷费用。

到了第二阶段,我们的需求发生了比较大的变化,我们的项目开始在全国范围内进行复制和推广。这时我们自己对课程的有效性提出了质疑,同时资方也希望我们拿出证明专业性的证据,证明学生在性教育上的发展是因为课程的缘故,而非随着年龄的自然增长。
因此,我们发现这已经不是原有的简单评估可以解决的了,它需要严谨的评估方案,包含评估的方法指标、流程、伦理、质量控制和样本抽样等一系列操作。为了尽可能消除主观因素的影响,我们就这样从简单评估开始转向强证据的随机对照试验。
随机对照试验必须由专业的研究机构和研究人员才能完成,而且它的耗时比较长,一般都要两到三年。它的成本也比较高,大约上百万左右,这也是大部分公益机构不愿意做随机对照实验的现实原因。

在2018年到2020年,我们跟清华大学公共卫生学院合作,对你我伙伴性教育课程项目做了国内第一个性教育领域的实验,用随机对照实验的方法评估你我伙伴的课程对于学生的性与生理健康知识、态度、行为的短期以及中长期的影响。
2018年我们先在甘肃招募了6所学校作为预实验的样本,2019年在广州和云南分别招募了总共29所学校进行正式实验,每所学校选100个学生,在得到学校、学生和家长的知情同意后,我们把学生随机分成了对照组和干预组,干预组在4-6周的时间里接受你我伙伴提供的性教育课程,对照组则不做任何干预。
入组的学生分别在干预前、后进行问卷和随访,最后发现:1.你我伙伴课程在人口、家庭、学习和生活习惯等因素之外,能够有效增长学生的性与生理健康知识,调查评估预实验的学生问卷正确率增长了近100%,与对照组的学生相比有显著差距。2.性与生理健康态度弱于知识的影响,但是强于人口、家庭、学习和生活因素。3.在行为指标方面,干预组的学生发生*行为性**的比例降低,但是显著性不够强。

评估结果让我们开始思考自身的课程定位,基础普及性的课程对学生的影响主要集中在知识和态度方面,如果要对行为有比较大的影响,可能需要满足两个因素:第一,我们选取的样本要处在性活跃时期(有可能发生*行为性**时期);第二,对行为的影响要有一段非常长的观测。该实验证明了你我伙伴课程是具有一定有效性的,所以接下来我们顺利地进行了大规模推广。
在大规模推广之后,我们收到了众多合作伙伴和老师的需求,他们希望可以得到自己授课效果的数据,看看自己的教学究竟有怎样的效果。因此评估的第三阶段更多是围绕课程质量实施的监测评估。
由于老师选课具有自主性,且授课的时间和地域非常分散,我们没有办法提供给所有老师一个统一的评估方案。对此我们根据课程核心信息建立了一个庞大的题库,老师可以根据自己的授课情况和需要来随机抽题,系统会自动生成专属于他的授课情况的问卷,提供学生填写。系统出具实时报告,为这个老师提供他的教学情况和全国平均情况的对比分析,数据采集和分析非常便捷、快速。
我们的年均服务规模达到接近60万人次,用质量评估系统可以从全国合作伙伴和老师那儿获得大规模数据,帮助我们做趋势判断,例如哪个地方或者哪个教师的授课质量是更好的,分析原因,并推广好的教学模式,或者分析城乡、东西部差距等等,指导我们在对于合作伙伴和教师支持的工作模式设计上不断做出改进。

以上就是你我伙伴三个阶段评估的经验分享。最后有一个体会就是很多机构可能会觉得花那么多钱最后就出来一份评估报告很不值得,但其实我们可以尽可能将自己机构的评估跟高校老师的课题或博士生的毕业论文结合起来,不仅可以节省成本还能够使大家在共同目标的基础上事半功倍。
从资助者角度看评估
冯元
面对众多的公益项目,资助工作者应该如何选择?捐赠者会为什么样的项目捐款?这都需要公益项目伙伴去讲清楚、去证明自身项目是真正解决了问题。
作为一个资助工作者,主要的工作就是“花好钱”,去看这个公益项目是否满足了受益对象的需求、真正解决了他的问题。从更长远的角度来看,项目是否推动了社会变革。
由于社会资源有限,基金会也只能基于自身使命在有限的资源里去选择合适的公益项目。我作为一个资助工作者,在选项目时不仅要对公益项目有一定的理解,要去做需求分析,更核心的是搞清楚项目设计、看清项目要解决的社会问题、它的预期目标,以及如何衡量项目是否取得了成功。
这个过程不仅要求伙伴逻辑清晰、工作思路明确、有执行力,还要做好监测。也就是说,在做项目时就要把监测评估设计进去,在项目管理的过程中也要考虑监测评估。资助工作者不仅要和伙伴一起理解项目逻辑、项目流程,也要看到服务对象。
其次,作为一个资助工作者,也要正视评估的困难和挑战。评估报告是我们资助参考的一个方面,但不是考虑的唯一因素。毕竟对大多数公益机构来说,项目评估确实有困难。
所以基于现实情况,如果有些公益项目是已经被科学实验验证有效的方法或者模式,那我们就会主要看项目团队的执行力。
如果是一个初创型的公益组织,我们会关注他的项目团队或项目领导人,领导人是否有担当,组织是否规范,还要跟伙伴一起理清项目的逻辑,研究因果链是否能走通。通过这种自评估,促进团队的学习和成长。而当项目发展到一定阶段,要实现规模化和影响力,要推动变革、影响政策时,就需要考虑影响评估了。一般来讲这时候项目方也有一定的资金来做评估。
对于南都基金会,我们通常基于自身的发展目标来设定项目资助的考量维度,比如伙伴的服务增长、议题领导力、可持续性等等。我们的核心是要看伙伴自身的需求、它的现有能力和资源情况,不会强制他做哪种类型的评估,但我认为自评估、自我监测还是很有必要的。
快问快答
Q1
创造和验证的优先级?
公益行业既缺能够验证因果关系的手段和方法,又缺能够创造有效性的设计。那么创造有效性更重要还是验证有效性更重要?
▼
张: 我觉得创造优先。创造不是一拍脑袋凭空瞎造,而是通过大量调研,了解一线用户情况,服务对象的需要,这是有效性的前提。第二,我们要认识到有效的模式和方法不是一蹴而就的,它需要不断打磨优化、迭代改进。不是说验证后发现有漏洞就没救了,也不是说一定要设计到完美才能去验证。
冯: 公益项目最开始就面临着项目设计,在设计的过程中就要考虑验证的问题,所以我觉得这是一个并列的关系。在执行的过程中考虑验证的有效性,在验证的过程中又要逐步迭代创造的方法,这是一种螺旋型的关系。
聂: 我觉得创造更优先一些。创造是有一定支持的创造,不管是有理论依据还是经验的借鉴。但也有一些项目没有商业性的解决方法或是没有政府性投入是因为它瞄准的是新问题,需要找到新的解决方法。所以我对公益的理解一方面在于公平,一方面在于探路。所以总体上来讲,创造更优先。但对于一些复制类型的公益组织,验证可能就是一个更优先的选项。
岳: 我觉得验证是优先的。创造都是基于国际上已有的模式的变化,是在验证的基础上的创造。创造和验证是共生的,但出发点是验证。
Q2
效用与权力的平衡?
很多教育项目的评估一般最后都会和成绩挂钩,但营养、给近视的孩子配镜不是他们应该获得的权利吗?和成绩这种主流社会认可的标准挂钩才能证明项目的效果吗?我们到底应该如何看待影响评估?推行影响评估的过程会不会在某种程度上对孩子的权利造成上海?如何看待效用和权利的平衡?
▼
聂: 总的资源是有限的,在有限资源的条件下,如果在项目直接带来的好处之外,还有其他的优势,就能引导更多资源的引入,被赋予优先级。
关: 我其实很想补充一个关于大家对视力项目的误解。视力项目并不是只是关注学生的学业表现,人的健康与发展都是我们关注的。实际上,我们既评估了配戴眼镜对视力健康的影响,也评估了对成绩的影响,以及对心理健康的影响等等。那对应这个问题,孩子有看得清的权利,也有不因为视力而影响学业选择的权利 (实际上我们也发现了因为看不清,就学不进,然后成绩下降,不得不辍学,损失了更大的权利 ——受教育的权利),所以从这角度,我们也是在找一个更有效率实现权利的可能。
张: 我有两点体会,第一来自于我们项目实践的过程。在评估的时候我们发现学校更关注的是当下最为紧迫的问题能不能通过性教育项目被解决,比如是否能减少少女意外怀孕、减少艾滋病的传播、减少校园霸凌、推迟发生性关系的时间、在发生性关系时会不会采取安全措施等等。如果有这种直接的证据的话,我们的项目就更容易被认可或者被推广。但其实性教育不只包含这些功用性的目标,它还有很多关于人的关系、自我的认知的监测指标。
我们还发现,如果告诉老师上性教育课可以他更受学生欢迎,跟学生关系更好,并且他教授的该科目的学科成绩也能提升的话,就更能激发老师上性教育课的意愿和动力,即使这跟学生本身的改变不直接相关。
第二个体会是,如果看性教育的短期结果,要花的时间精力成本各方面都比较低,但如果要看性教育对人长期发展的影响,可能需要十年以上。也就是说关于权益权利的考察往往要放在比较长的时间维度上才能体现出来,所以现实情况通常大家更倾向于选择当下功用性的结果。
Q3
推动影响评估的第一步应该从哪儿开始?
聂: 最重要的一点是在项目设计之初就考虑到影响评估的需求,而不是做完了项目再做影响评估。
岳: 最重要的是行动起来。小的行动组织和做过影响评估的组织联合起来一起行动,这样公益行业的影响评估能往前更进一步。
冯: 如果项目已经成型,我觉得核心是帮他理清项目逻辑和因果链,分析和拆解项目,在过程中逐步设计评估目标。先做起来,逐步搜集证据,总结完善,到了一定阶段要推动影响力规模化时,再做影响评估。
张: 要帮助大部分机构搞清楚自己当前所处的阶段适合哪种评估方法,在这个基础上弄清楚评估的核心目标。资助者也可以对有评估必要阶段的机构给更多的支持。