自从学术界将“国家带回来”之后，我们对经验现象的解释越来越离不开众多与国家相关的概念。其中最为重要、应用得最为广泛的莫过于国家能力这一概念了。在政治学研究中最激动人心的议题里——如我们对政治稳定、民主化、经济发展、战争与和平的研究，国家能力都是其因果链条中不可回避的一环。

然而，在国家能力这一概念广泛应用的背后，是学术界在国家能力测量上的严重分歧。同样是探讨国家能力和国家内部*力暴**之间的关系，Lange和Balian认为两者之间没有显著的相关关系，而Fearon和Latin却认为国家能力的不足是国内冲突爆发的主要原因。之所以对同一问题的实证研究产生了不同的结果，就是因为学者们对国家能力的测量方式有很大差异，而且这种操作化手段的差异已经足以对研究结论产生方向性影响。学者们对于国家能力测量方式上的多重选择不是凭空出现的，这背后反映了对国家能力理论的不同阐述。围绕国家能力的界定，目前学界主要存在三种理论取向。第一种理论取向主要基于韦伯的国家观，将国家能力处理为理性官僚体系的组织化能力。第二种理论取向则主要基于迈克尔·曼国家基础性能力的概念，在国家与社会关系的基础上看待国家能力。第三种理论取向认为国家能力很难笼统地去看待，应根据现代国家的多重职能对其进行分解。除了概念理解上的分歧外，在数据选择上出现了采用单一指标还是多重指标、采用调查数据还是客观数据的分歧。下面我们将对国家能力测量的诸多手段及其背后的理论与实证依据进行梳理。

作为官僚组织能力的国家能力

将国家能力视为“执行政府规划的组织化和官僚能力”是一种经典的韦伯主义的国家能力观。这种国家能力观把国家能力和国家绩效（state performance）区别开来。他们认为国家能力不会自动转化为国家绩效，在这之间的是政治过程。国家可能会同时追求多个政策目标，比如经济增长、财富的再分配。但政治过程左右着国家行动的议程设置，并支配着不同目标下的资源调配。持这一国家能力观的学者认为，如果针对国家不同领域的绩效来测量国家能力往往会受到政治过程因素的干扰。相对于政府绩效在不同领域的不同表现，国家能力是一个相对稳定的变量。把国家能力界定为国家机构有效执行其官方目标的能力不仅规避了在规范意义上对于国家能力的讨论，而且将在测量上将国家与社会的互动、国家政治机关的结构与运转都纳入到政治过程领域，这让我们能够在一个更加清晰的边界中使用国家能力这一概念。

基于将国家能力与政治过程相区分的主张，一些学者直接通过对官僚组织本身结构与特征的测量来体现国家能力。Evans以社会调查的方式测量一个国家在多大程度上能够接近韦伯意义上的理性官僚结构，形成了“韦伯指数"（Weberianness Scale）来表现国家能力。但该数据集仅仅覆盖了35个发展中国家1970-1990年的数据，数据规模较小，之后的应用并不广泛。在对官僚组织的测量上，一个应用得更为广泛的指标就是国际风险指南（ICRG）数据库中的政府质量（Bureaucracy Quality）。该数据集涵盖了1984年至2015年世界一百四十多个国家和地区的相关数据。这一指标用一个0-6的量表来测量官僚体系的制度能力、质量和专业程度。世界治理指数（WGI）中的政府有效性（Government effectiveness）指标也常被用来测量国家能力。政府有效性主要体现了政府提供公共服务的质量，公务员素质以及政府独立于政治压力进行政策制定和实施的能力，还包括政府做出政策承诺的可信度。这两项指标都通过对专家的问卷调查来测量，这种直接测量官僚体系特征的方式虽然与我们所关注的问题贴合度较高，但其结果可能受到该国发展绩效和政治宣传的影响。

在这一理论下，通过间接方式测量国家能力的最好做法就是对国家汲取能力的测量。虽然这一国家能力理论主张区分对待国家绩效和国家能力。但税收是国家运转最为重要，也最不可或缺的环节。任何政府都需要充分的税收来支撑其行为，政府对税收的需求很少受政治过程的干扰，而政府想要汲取充分的税收离不开组织严密的官僚体系。这一思路下，最简单的测量方式就是看国家税收占国内生产总值的比重。出于对国内生产总值测量失准的担忧，目前常常用灯光亮度数据替代官方发布的GDP来反映国家的经济发展状况。但不同类型的税收对国家能力的要求是有较大差异的。如对关税、矿产资源开采征收则征税也不需要很强的执行能力。而对收入、财产和消费税的征收要求一个更加复杂、透明的官僚队伍。

为了应对这样的批判，一个重要的调整就是只采用政府直接税占GDP比重来反映国家能力。另一种更加流行的做法是用国家的实际税收和一个国家的预期税收的比率来测量国家的汲取能力。国家预期税收根据国家的人均GDP，矿产，出口等要素来测定。这些做法都尽可能的排除税收种类和国家自身禀赋对国家税收能力的干扰，从而尽可能的还原税收绩效对官僚行政能力的反映。但是这种测量方式仍然难以排除国家汲取意愿的影响。那些实行福利政策的国家往往追求更高的税率，而一些主张不应对经济活动进行太多干预的国家往往不会尽其所能的汲取税收。

这种国家能力理论由于过于强调国家的主导性作用和绝对意义上的国家能力而遭受批评。正如米格代尔所说“国家能力是一个相对意义上的概念”。有学者根据对秘鲁的研究也发现，该国政治精英虽然一直致力于发展国家能力，但这种努力被非国家行动者能力的增长所抵消了(Dargent et al. 2017)。这种专注于官僚体系执行能力的国家能力理论虽然规避了政治过程所造成的理论和测量上的麻烦，但无法规避社会行动者对国家能力的影响。但考虑到社会行动者的反作用实际上难以捕捉，所以这种以官僚行动能力为核心，以汲取能力为基础的国家能力测量方式实际上是目前应用最为广泛的。

作为国家基础性权力的国家能力

相比于韦伯意义上的国家能力理论对官僚执行力的一味强调，第二种国家能力理论则更强调国家与社会之间的互动。这类理论中最负盛名的莫过于迈克尔·曼的国家基础性权力理论。根据曼的定义，基础性权力即“国家能实际穿透市民社会，并依靠后勤支持在其统治的疆域内实施其政治决策的能力”。作为一种集体性权力，国家基础性权力强调国家与社会之间的合作。学者们在曼的基础上所发展的“嵌入性自主” 、“治理性互赖”等概念都是对国家能力中国家与社会互动因素的强调。因此国家基础性能力与官僚体系的职业化、理性化虽然有重叠部分，但并不相同。Soifer一直致力于将国家基础性权力的操作化，他把国家基础性权力也分解为三重维度，第一重维度是国家所能调用的物质资源，即物质维度。第二重维度关注国家如何被非国家行动者所限制和塑造，即合法性维度。也正是在这个意义上，国家基础性能力才被喻为“一个国家与社会的双向车道”。第三重维度关注基础性权力在国家所宣称统治的空间上的不均衡分布，即空间维度。可以看到，与官僚职业主义的国家能力理论不同，国家基础性权力具有了价值上的规范性和空间上的差异性。

Fortin-Rittberger用五项指标来测量国家基础性能力，包括基础设施改善进程，腐败水平，产权保护水平、契约密集型货币（CIM）和基于国家税收占GDP比重的汲取能力，并将这五项指标指数化。但这种测量方式无法体现出国家能力在次国家层面上的变化，也就无法测量国家基础性能力在社会上的不均匀分布。为了呈现国家基础性权力的空间纬度，Soifer在对拉美的研究中把国家能力操作化为国家公职人员和机构的存在。国家在某一地区人员和机构越密集，说明该地区的国家基础性能力越强。延续这一思路，Garfias认为，任何国家动员资源、执行政策都要依靠政府官员在基层的存在。他在对大萧条时期墨西哥的研究中，用各地区每千人中的官员数量表示政治精英对于国家能力发展的投入。因为此时的墨西哥刚刚经过大革命的洗礼，基层政权很不完善，因此可以认为精英在基层政权相对更完善的地方发展国家能力的意愿也更强、国家能力真正被发展起来的可能性也更高。与之类似，Acemoglu等人在对19世纪哥伦比亚的研究中，也是通过对地方公职人员数量的测量来表现国家能力在其领土范围内分布的不均衡性。Herbst在他对非洲国家能力的研究中使用道路密度作为反映国家能力的指标。这一指标也反映了国家基础性权力的空间性。但以上几个指标的应用都有着鲜明的区域和国别背景，离开这个情境去应用则很可能会出现问题。而且这些指标大部分还是依赖对官僚体系的度量来反映国家能力，虽然由于区域国别的限制对其他变量有所控制，但在整体上仍然把社会放在了一个较为被动的位置。此外用人员和机构的数量来反映国家能力的方式也难以分辨出人员素质和机构运转状况对基础性能力的影响。

尽管许多学者在研究中都声明自己是在“国家基础性权力”的概念上使用国家能力，但是其在具体操作化上常常还有在理论立场、数据可得性、测量简洁性上寻得一个平衡。这说明想要找到一个或几个能够完整呈现国家基础性能力的指标仍然有很大难度。因此许多操作化手段仍然聚焦于政府的官僚体系的结构与能力，或是具有很强的情境性，只是根据求异法来寻求最为简洁的测量方式。但简洁的代价是对概念的过度剪裁，提升研究可操作性的同时，也在一定程度上牺牲了测量的有效性和应用上的普遍性。

作为综合性能力的国家能力

随着现代国家职能的扩张，国家所需要做的事情越来越多。因此有学者认为，国家能力实际上是现代国家核心职能能力的集合，只有对不同类型的国家能力有准确的认识才能对国家的整体能力有一个评估。甚至有很多学者干脆放弃了对国家整体能力的评估，专门探讨不同类型国家能力的形成与作用。国家能力作为一个复杂概念，任何一种理论都可以将国家能力分解为多重维度，即便是最为简洁的韦伯主义的国家能力观也可以从不同角度来测量官僚体系的能力。但和前面对国家能力的测量是基于何为国家能力（capacity is）不同，这类学者的理论出发点是国家能力的目的（capacity for），其测量也主要基于国家行为的绩效（output）。

学者们从现代国家的核心职能出发对国家能力进行分解以期得到对概念最简洁、根本和有效的测量。Hanson和Sigman通过对国家能力研究的梳理，认为行政能力、汲取能力和强制能力是国家能力的三个核心维度。行政能力对应公共服务供给，汲取能力对应税收汲取，强制能力对应国家的垄断合法使用*力暴**的方式的能力。Savoia和Sen通过对国家能力文献的回顾认为国家能力除了包括行政能力、汲取能力和强制能力，还有反映国家对其领土控制能力的基础性能力纳入，他们还加入了代表政府保护产权能力的法治能力。除了这几种能力类型外，近来对国家的信息能力或认证能力也有更加充分的讨论。基于综合能力立场对国家能力的测量基本离不开上述这几个方面。下面我们将对综合性国家能力理论中这几种国家能力类型的测量方式做一个简单的回顾。

一般而言，公共物品的提供情况很好的反映了一个国家行政部门的绩效。因此有学者用婴儿死亡率、疫苗接种率等指标来测量国家的行政能力。但这类测量方式实际上受经济发展水平和制度特征的影响较大。因此也有研究结合了基于绩效的测量方式和基于官僚体系特征的测量方式以增强自身研究的稳健性。税收是现代国家最重要的、最核心的职能之一。当学者们把汲取能力和行政能力相提并论时，汲取能力不再成为官僚体系能力的反映，而是国家汲取绩效的体现。对国家汲取能力的测量主要也还是基于上文所述的几种方法。

法治*力主能**要涉及国家的产权保护水平。Acemoglu所提出的包容性制度理论也包含财产权保护的内容，这是支撑国家政治、经济发展的重要因素。Fearon用参与政府合同被掠夺或被拒绝偿付的风险来测量国家在这方面的能力。Bratton和Chang通过社会调查的方法来测量非洲国家执行法律的能力。在这方面可资利用的客观数据主要是对契约密集型货币的测量。一般认为一个国家对产权的保护越好，那么民众就会更倾向于使用契约密集型货币（如支票）进行交易，其测量方式是非现金的货币供应和总的货币供应量之比。

所谓的强制能力即国家在其领土上垄断*力暴**合法使用的方式的能力，对国家强制能力的测量主要应用于内战和冲突的研究中，其测量方式也主要依靠世界银行、COW 和斯德哥尔摩国际和平研究所所提供的军费、军人数量和安全部队的数量等指标。对这种测量方式的主要批评是那些国家安全与秩序经常遭受威胁的国家反而会倾向于维持更大规模的强制力量。如果一个国家总是能够事先发现叛乱的苗头，那么就不需要维持过于庞大的强制力量了。因此，国家对其人口的监控能力在维持稳定上要比国家的强制能力更重要。这也引发了大量学者对于国家信息能力的探讨。

信息能力则主要涉及“国家对其公民及其活动情况掌握的深度与广度”。Soifer根据国家统计资料的完善程度对国家信息能力的强弱，将国家信息能力处理为二分变量。这也就意味着在强和弱之间没有任何中间类别，而且也很难区分不同质量的统计。一个更加巧妙的做法是利用人口学的方法测量国家的信息能力。国民的出生年份是所有国家都要收集的信息，因为这与国家的义务教育、刑罚判定、兵员征募等重要活动息息相关。因此，通过比对国家国民出生年份在统计上的分布和人口学上一个国家国民年龄的正常分布（拟合曲线较为平滑）的差别，我们就可以量化国家的信息能力（Lee & Zhang 2017)。对信息能力的有效测量也能成为对理性官僚执行力的很好反映。

作为综合性能力的国家能力理论虽然细化了我们对于国家能力的理解，但在应用和测量上仍然有它的缺陷。不同类型国家能力之间的关系可能非常复杂，如何通过不同维度的测量在整体上反映国家能力也是一个难题。而且如何区分真正的国家能力和政治议程对国家行为的影响，也是这种国家能力观在进行多维测量时所面临的挑战。此外，将国家能力这一概念分成多个部分并且分别进行测量的做法虽然在方*论法**上更为保险，但也在一定程度上消解了国家能力作为一个分析工具和重要概念的意义。

国家能力测量：实证分析

国家能力在测量上的不同做法不仅仅反映了理论分歧，更为直观的则是实证方法上的分析。几乎所有的经验研究在测量上都面临着采用单一指标还是多重指标、采用调查数据还是客观数据的问题。这种争论也存在于对国家能力的测量上，并且结合国家能力的理论分歧、数据可得性和应用情境而变得更加复杂。

单一指标与多重指标

在国家能力测量上，既有很多学者使用简洁直接的单一指标，也有很多学者使用更为全面的多重指标。在单一指标方面，最为知名的方法就是通过对税收能力的测量来间接反映国家能力。其他单一指标，还有上文提到的官僚质量、地方公务员数量、道路密度等。但这些指标的应用往往有较强的情境性，脱离研究的具体情境往往难以成立。Lange用英国殖民统治时期间接统治的程度（0-100的量表）来测量各个殖民地的国家基础性权力，这一指标在没有殖民历史的国家面前则完全没有应用的可能。总体而言，这些单一指标都是通过对国家能力中最核心、或最容易在研究对象中造成变异的部分的测量来体现总体。相比于多重指标，单一指标的不足之处在于几乎很难全面反映国家能力，在有些情况下甚至会被其他因素扭曲以至于无法反映真实的国家能力（例如税收政策偏好对汲取能力的扭曲），而多重指标因为集成的因素较多很难被系统性的歪曲，而且将不同维度的测量分开使用可以在研究中达到相互印证的效果。不过单一指标能够最大程度上避免多重共线性和反向因果等问题，且易于收集数据，从多重角度收集数据往往要在时间和空间覆盖面做妥协，不同数据库变量包括的起止年份和涵盖国家可能所差甚远，对多种变量进行集成还可能要面对更为严重的缺失值问题。

多重指标主要指那些对国家能力的多重维度进行测量并整理成一个指数的测量方式。通过大型的社会调查形成的数据集以及学者们对不同数据库相关指标拼接形成的测量指数都属于多重指标。相比于单一型指标，多重指标力求反映国家能力的全貌，其在应用上更少受情境的限制，因此较容易在大规模的跨国比较分析中应用。力求普遍性所难以避免的弊端就是多重指标的内容往往过于宽泛，以致于使用时难以避免内生性问题。例如，多重指标经常涉及到的制度质量的测量和经济发展之间存在严重的内生性问题，这是比较经济发展研究中一个始终存在的问题。多重指标所复合的几个维度可能存在着比较复杂的关系，如果各个维度间关系较弱或者将有负相关关系的指标整合到一块，所得出的结果可能是完全不可信的。不过有学者通过聚类分析或因子分析的方式将多种国家能力的测量方式聚类整合为几种。Hanson和Sigman就通过潜变量分析的方式将24个分别测量国家行政、汲取和强制能力的变量构造为6个取值为0-1之间的指数。但目前对国家能力的复合型指标基本上没有考虑各个维度的权重问题。总体而言将众多测量指标整合成一个国家能力指数仍然风险性较高，对研究者的量化能力也提出了较高的要求。

调查数据与客观数据

基于大型社会调查形成的数据集和对经验现象记录而成的客观数据集是研究所需数据的两大重要来源。对国家能力的测量数据要么是来自调查数据要么属于客观数据。调查数据往往能够紧贴研究者的研究目的，但在国家能力这种议题上，进行跨国的大规模社会调查往往需要巨大的成本。在这方面有所作为的也主要是大型的国际组织或社会组织。在国家能力测量上被广泛应用的政府质量和政府有效性这两项指标都出自于大型的国际组织或大公司（政治风险服务组织和世界银行），但这两项指标的调查都是通过对相关专家寄送问卷得出的估测数据。这种根据调查问卷得分衡量国家能力的估测方式在赋值上存在着较大的主观性。专家对于政府能力的主观感知往往会受到该国政治、经济绩效的影响，或是受国家宣传的影响，这就背离了学者们使用这类数据的初衷，这样测量出的数据在分析问题时也会带来较为严重的内生性问题。例如在政府质量这一取值为0-4的指标中，中国近年来的得分仅仅达到2分，甚至不如西非国家加纳，这严重背离了人们的日常经验。在对腐败的测量上，专家们往往认为民主会降低腐败，因此在腐败这一项上会给民主国家过好的估计。如果拿这样的数据去探究国家能力和政体之间的关系，那么我们的分析就会面临严重的反向因果问题。但学者仍然能够通过对问卷的设计来尽量避免这些主观性问题。Luna和Soifer通过以下三个问题来测量拉美地区的国家能力：1、如果你报警了，警察多久会来到你的家（1-5分）这个问题与犯罪率的相关性很低，这说明它能很好的反应国家能力（reach of state) ；2、你在地方商店购物要小票的频率（4分的量表）测量税收能力；3、产权保障能力：a 受访者是否拥有他们的住房，b 那些拥有住房的人是否有房产证 c 他们是否有租赁合同。这些指标不仅能够较好的避免和我们所最关注问题（如内战、经济发展、政权变迁）的反向因果，而且能够很好的避免回答的主观性问题。唯一的问题就是所有社会调查所不可避免的通病，那就是成本太高以及时间跨度太短，或者根本就是截面数据。

相比于调查数据，客观数据能在很大程度上能够规避主观性造成的非随机性偏误，但如何能找到一个数据可得性、时空覆盖面、与研究目的的贴合程度都很理想的指标仍然很难。前文提到的税收、道路密度、公务员数量，这些都属于客观数据。同类型的客观数据，可能在不同情境下反映的问题完全不同。有学者可以通过地方上的公务人员和机构数量来表示国家精英建设国家能力的意愿，但在一些情境下，政府人员、机构和费用的膨胀可能反映了政治庇护主义。例如畸高的军费支出不一定意味着强大的军事实力，也有可能反映了政府对*队军**的拉拢或*队军**对国家的捕获。如果说应用客观数据的情境限制还可以通过研究者仔细甄别选择来避免。那么客观数据难以逃避的问题就是，官方数据本身可能存在严重的非随机性偏误。首先，信息收集本身就要求一定程度上的国家能力，长期处于冲突和近似于无政府状态的脆弱国家很难提供令人信服的数据。其次，诸如识字率、疫苗接种率、婴儿死亡率等因素很可能出于政治动机而被篡改。即便是世界银行这样的国际组织所提供的数据在很大程度上也是建立在各国政府提供的官方数据基础之上，因此即便使用国际组织的数据也不一定能够避免这种非随机性偏误。这也是为什么学者们开始用灯光亮度的数据来对统计技术不可靠地区的GDP统计数字进行纠偏。

结语

在国家能力测量方面，并没有一个完美的指标。任何指标都有其不足，还有一些测量上的缺陷是整个学界都需要面对的，这也是未来亟待创新的地方。最重要的是，我们要清楚各个指标在应用上的优势和不足，并根据我们研究的问题和情境去合理地选择我们对国家能力的测量方式。在众多测量方式各有优缺点的情况下，根据研究议题和研究对象合理选择指标是一方面，通过替换变量的方式进行有效性检验也很必要。

全文注释和参考文献略

撰文：赵德昊

如何测量国家面积 (如何测量国旗杆)

作为官僚组织能力的国家能力

作为国家基础性权力的国家能力

作为综合性能力的国家能力

国家能力测量：实证分析

结语