文章

在分歧中寻找共识——中国低生育水平下的人口政策研究与演进

发稿时间：2019-06-14 14:10:20
来源：“ 社会学研究杂志”微信公众号作者：王军刘军强

　　一、引言

　　习近平总书记在谈及人口形势时指出：“当前，我国人口结果呈现明显的高龄少子特征，适龄人口生育意愿明显降低，妇女总和生育率明显低于更替水平”(习近平，2015)。中国日趋严峻的少子化和老龄化形势会影响到劳动力与整体竞争力、社会保障体系的可持续性，甚至威胁到国家安全。

　　纵向来看，1992年起中国就已经进入了低生育水平(郭志刚，2004a;中国国家统计局、美国东西方中心编，2007;翟振武、陈卫，2007)。当年中国生育率抽样调查(即“38万人调查”)得到的总和生育率为1.57(郝虹生、高凌，1996)。这一结果虽令人口学家们集体震撼，却遗憾地促成了一个虚假的共识，即相信低生育的结果主要由严重漏报和瞒报所导致(曾毅，1995;梁中堂等，2000)。因此，人口政策也错过了一个早期的调整信号。其积极结果是，1992年生育率调查促使人口学家开始关注低生育问题(中国生育率下降后果与对策研究组，1994)。人口学界也展开了长达二十余年的大辩论。

　　横向来看，中国进入低生育水平至今已有27年，并且与其他国家和地区人口政策的调整节奏形成了鲜明的对比。以周边国家和地区为例，韩国、新加坡和泰国分别于20世纪60年代和70年代开始实施限制生育的政策(Palen, 1986; Guest & Jones, 1996;Atoh et al., 2004)。但随着实际总和生育率跌破更替水平，这些国家和地区先后取消了限制生育的政策(Atoh et al., 2004)。相比之下，中国人口政策调整的滞后时间要明显高于国际平均水平。

　　为什么中国人口政策的调整过程更为艰难?除了政策调整机制本身非常复杂之外，一个不可忽视的原因是人口学界长期以来对三个关键问题存在分歧，导致政策调整信号没有及时传递。这三个问题是：(1)政策调整前的生育水平到底是多少?(2)政策调整后的生育水平会回升到什么程度?(3)政策调整初期的出生堆积风险有多高?这三个问题涉及人口政策是否需要调整以及人口政策应该调整到什么程度等核心问题。

　　与公众的印象相反，中国人口学家并不是高度同质化的群体。针对人口政策调整，内部分歧一直存在。不过随着时间的推移，共识性因素也正在达成。本文从学术史的角度系统梳理了从1992年至今人口学界对以上三个关键问题的争论及其演化，尤其是争论焦点、争论依据与逻辑，希望推进政策与理论两个方面的发展：首先，我们需要判断，当前人口形势是否发生了根本变化?中国人口的主要矛盾是否发生了根本改变?人口政策调整的难点和分歧到底在哪些方面?理论界已经针对这些问题展开了丰富的研究，系统梳理有利于澄清争议、凝聚共识。

　　其次，过去半个世纪的人口政策和二十余年的争论为我们提供了系统思考人口理论的机会：发展中国家进入低生育社会的动力机制有哪些?人们对低生育的认识，尤其是人口政策的应对为什么通常会滞后于低生育的人口现实?这些问题的回答不仅有助于中国今后制定更为科学有效的人口政策，还将为其他国家的人口发展提供宝贵的中国经验。

　　二、背景：世界人口形势及人口认识的转变

　　出生率与死亡率是驱动世界人口变化的两个关键机制。世界人口增长率在20世纪50年代开始逐渐上升，1963年更是达到了有史以来的最高值2.2%(Lam, 2011)。这意味着如果保持该增长率，世界人口将在32年后再次倍增。人口转变理论可以解释这一时期的人口快速增长。随着社会经济发展和医疗卫生水平提高，一个社会的人口将完成从“高出生率、高死亡率”到“低出生率、低死亡率”的转变(Davis, 1945; Caldwell, 1976)。但由于出生率的下降一般滞后于死亡率的下降，因此在这一转变过程中会存在一个过渡阶段，即“高出生率、低死亡率”阶段，而这一过渡阶段的典型特征就是人口的快速增长。

　　(一)低生育水平的出现与理论解释

　　人口转变理论的核心假设就是出生和死亡的大致平衡。从总和生育率来看，人口转变理论认为，当各个国家完成人口转变过程成为“低生育、低死亡”的社会时，其总和生育率将维持在2.1的更替水平并长期保持不变。在20世纪的大部分时间里，人口学界将总和生育率下降到2.1的更替水平作为发展中国家完成生育转变的主要标志(Bongaarts, 2002; Goldstein et al., 2009)。

　　但世界人口转变的现实挑战了人口学界的这种共识。从时间上来看，首先是欧美和日本等发达国家的总和生育率从20世纪60年代后期开始相继降到更替水平。然后，截止到90年代中期，发展中国家大多已经开始甚至许多已经完成了人口转变过程。但出乎意料的是，在许多发达国家和发展中国家，生育率并没有维持在更替水平不变，而是继续下降到更替水平以下(Mason, 1997;Foster, 2000; Bongaarts, 2002)。许多国家甚至出现了远低于更替水平的极低生育率。

　　传统的人口转变理论显然无法解释上述低生育现象的出现。为了解决这一困惑，“第二次人口转变理论”应运而生(Kaa,1987, 2001; Lesthaeghe & Neidert, 2006; Lesthaeghe, 2014)。“第二次人口转变理论”主要关注社会层面和生育观念方面的彻底变革。随着“后工业社会”和“消费社会”的兴起，女性受教育程度和劳动参与率提高，个人生育的自主意识空前高涨(Beck，1999;Ryder, 2010;鲍德里亚，2014)。在现代社会，生育的价值和重要性受到重新审视，当生育与女性受教育机会、职业发展、自我价值实现等相冲突时，生育往往成为被牺牲的目标。因此，个体生育决策汇总到社会层面，便往往会出现低生育现象。

　　基于大多数低生育国家和地区鼓励生育的政策提升效果并不显著的现实，鲁茨等人提出了“低生育率陷阱”假说。该假说认为，总和生育率一旦下降到1.5以下，受低生育率的自我强化机制影响，扭转或者提升异常困难(Lutz & Skirbekk, 2005; Lutz et al., 2006)。这些自我强化机制主要包括：长时期的低生育水平导致育龄女性规模锐减，人口负增长惯性导致出生人口数量变得更少;在低生育社会中成长起来的一代由于受到小家庭生活环境以及低生育文化的影响，其生育意愿比上一代更低;年轻一代通常比上一代消费意愿更强，在收入水平增加程度明显不如消费提升程度的情况下，其生育意愿将更加低迷。

　　(二)世界范围内对于低生育问题认识的反思

　　从20世纪50年代以来世界人口发展及人们对人口问题的认识历程来看，值得反思的地方很多。首先是人们对低生育水平的认识滞后，很长一段时间都不愿意接受低生育水平这一既成人口事实。20世纪70、80年代，人口学家通常都认为生育水平即使下降，最终也会停留在2.1的更替水平上，他们对许多国家出现的低于更替水平的生育率普遍感到迷惑不解，甚至觉得有违“常识”(McDonald, 2006)。直到20世纪90年代开始，越来越多的人口学家才逐渐接受低生育水平这一人口事实，认识到更替水平这一概念只是一个理论上的门槛而已，对于正在计划组建家庭的夫妇来说并没有太大的实际意义(Bongaarts, 2002)。

　　其次是人口政策调整的滞后。国际上一般认为21的更替水平是人口政策介入干预的临界点。如果一个发展中国家没有发现进入低生育水平的人口事实，或者缺少对低生育水平的应对措施并且持续时间长达10年以上，那么该社会将会在某种程度上全面陷入低生育危机(Morgan, 2003)。事实表明，东亚国家和地区的人口政策调整往往比较滞后，比如中国台湾地区、韩国人口政策调整的滞后时间分别长达15年和10年之久(沈可等，2012)。

　　盘点造成人口政策调整滞后的原因，除了对生育水平低于更替水平时人口继续惯性增长的恐慌、对低生育水平导致的经济和社会消极后果认识不足之外，对生育水平将来会大幅反弹的担心也是重要原因。在很长时间内，许多人口学家仍然认为低生育水平只是由于婚姻和生育推迟所导致的一个暂时现象，以后随着时期效应的消失，生育率便会回升到更替水平或以上，但事实并非如此(McDonald, 2006)。

　　最后是反思人口政策的效果问题。虽然许多国家在实行人口控制之后生育率有了显著下降，即人口政策通过提供节育设施和服务加速了生育率下降的过程，但是假如这些国家没有实施限制生育的人口政策，伴随经济和社会的快速发展，人们思想观念的剧烈改变，这些国家的生育率是否同样会出现显著下降?有研究认为，人口政策的作用主要表现在生育下降的启动方面，随着社会经济发展以及生育规范和生育意愿的剧烈改变，限制生育的人口政策的作用会变得越来越微弱(McNicoll, 2001, 2006)。

　　三、政策调整前的生育水平到底是多少?

　　与许多国家一样，中国从20世纪70年代以来同样经历了生育水平的大幅下降过程。由于中国的生育水平下降是人口政策和社会经济因素共同作用的结果，因此中国人口政策的调整涉及三个关键问题：(1)政策调整前的生育水平到底是多少?(2)政策调整后的生育水平会回升到什么程度?(3)政策调整初期的出生堆积风险有多高?其中第一个问题直接关系到人口政策需不需要调整。虽然关于中国实际生育水平的争论非常激烈，但其实对中国20世纪90年代初期已进入低生育社会这一点，学者们于2000年前后基本已达成共识。后来的争论只是围绕实际生育水平到底是1.8、1.6还是1.5或者更低的问题。

　　(一)争论焦点

　　1.观点分歧

　　学者关于人口政策调整的核心争论领域就是中国的实际生育水平到底是多少。按照对生育水平的估计结果来划分，可以分为“较高生育水平估计”和“较低生育水平估计”两个阵营，人口政策调整前生育水平估计争论的焦点从2010年之前的是否低于1.8，到2011年之后逐渐演变为是否低于1.7、1.6，近年来又变成是否低于1.5。一般来说，持“较高生育水平估计”观点的一部分学者认为生育率还不太低，不应急于调整政策。但也有不少持“较高生育水平估计”观点的学者认为生育率已经低于更替水平，所以也支持政策调整。当然，持“较低生育水平估计”观点的学者一般认为调整人口政策刻不容缓。

　　可以看出，不同学者关于人口政策调整前生育水平争论的背后，反映的是各自认可的人口政策调整标准的差异。持“较低生育水平估计”观点的学者一般将国际上通用的实际生育水平是否低于2.1的更替水平作为人口政策调整的依据，认为实际生育水平如果低于更替水平，则需要调整限制生育的人口政策。否则，如果国家长期处于低生育水平，将会导致人口老化、经济活力受限、养老金支出压力变大等社会经济问题(曾毅，2006;Peng, 2011; 彭希哲、胡湛，2011)。

　　而持“较高生育水平估计”观点的一部分学者则长期将总和生育率是否低于1.8作为人口政策是否需要调整的标准，即只要生育水平不显著低于1.8则不需要进行大幅调整。随着“单独二孩”和“全面两孩”政策的实施，持“较高生育水平估计”观点的一部分学者又将1.8的标准逐步置换为1.5，即“低生育率陷阱”的进入警戒线，认为只要总和生育率不低于1.5则问题不大。

　　2.争论的时间脉络

　　1992年在中国人口转变过程中的地位举足轻重，这一年是中国进入低生育社会的第一年，但当时几乎所有人口学家都不这样认为。当年中国生育率抽样调查得到的总和生育率为1.57，大大低于更替水平(郝虹生、高凌，1996)。当时的人口学家普遍对这一结果感到困惑不解，将主要原因归于出生人口的严重漏报和瞒报，认为这一时期的总和生育率至少在更替水平左右(曾毅，1995;梁中堂等，2000)。不过自1992年后，中国人口学家逐渐开始关注低生育问题，开展了一系列研究和探讨(中国生育率下降后果与对策研究组，1994;陈友华，1999)。

　　第一次真正有关中国生育水平的争论发生在2000年人口普查之后。由于1995年1%人口抽样调查和1997年全国人口与生殖健康调查同样重现了很低的生育率结果，而且由于1990年人口普查的数据质量较高，当时的人们对2000年人口普查寄予厚望(郭志刚，2010)。但2000年人口普查得到的生育率结果却再一次让人意外，直接汇总的总和生育率仅为1.22。

　　2000年人口普查的真实总和生育率到底是多少?学者围绕这一问题展开了争论。对2000年总和生育率估计的最高值为2.1(乔晓春、任强，2010)，而最低值仅为1.5(郭志刚，2004a，2004b)，二者相差0.6，这也是自1992年至2010年历次人口估计的最大差异。总体来说，人口学家对2000年中国生育水平的估计均值在1.8左右，认为中国处于1.5及以下生育水平的估计在所有估计中的占比仅为8%左右。这也在一定程度上解释了为什么2000年之后中国官方使用的总和生育率很长一段时间内保持1.8的水平不变。

　　第二次中国生育水平的争论发生在2010年人口普查之后。2010年人口普查的总和生育率仅为1.18，紧接着2015年1%人口抽样调查的结果仅为1.047，又一次让人大感意外。人口学家对中国2010年前后的生育水平又掀起了一番激烈讨论。2011-2013年，主要基于2010年人口普查数据，大多数学者认为中国当前生育水平很可能在1.5左右甚至以下(郭志刚，2011b，2013;赵中维、陈卫，2011;李汉东、李流，2012;朱勤，2012;王广州、张丽萍，2012;王广州等，2013;尹文耀等，2013)。2014-2015年，又涌现出了一批基于人口普查汇总数据对生育水平的间接估计，或者使用户籍数据、教育统计数据对生育水平的重新估计，认为中国自2000年以来，尤其是2010年前后的生育水平至少在1.6-1.7的范围内(陈卫、杨胜慧，2014;陈卫，2014，2015;陈卫、张玲玲，2015;翟振武等，2015)。

　　(二)基本逻辑

　　1.基础数据和估计方法

　　从计算总和生育率的数据来源来看，持“较低生育水平估计”观点的人口学者主要基于人口普查或抽样调查数据，一般通过人口普查或抽样调查的原始数据直接计算得出总和生育率。而持“较高生育水平估计”观点的人口学者则一般认为人口普查和抽样调查等数据有严重的出生漏报问题，因此转而使用户籍数据、教育统计数据等年龄别汇总数据来间接推算总和生育率，或者对人口普查计算得出的总和生育率进行较大幅度的调整(翟振武等，2015)。

　　使用的数据不同，所采用的总和生育率估计方法也会很不一样。由于基于人口普查或抽样调查的估计可以得到相关原始数据，因此一般采用“直接估计”的方法，这也是持“较低生育估计”观点的学者通常采用的方法。而持“较高生育估计”观点的学者由于主要使用户籍数据或教育统计数据来间接计算总和生育率，或者对人口普查得到的总和生育率进行较大幅度的调整。而无论户籍数据还是教育统计数据都是汇总数据，虽然可以按年龄别汇总，但不存在人口普查包括的各类生育信息，因此只能采用“间接估计”的方法。

　　正是由于基础数据和估计方法的不同，不同学者得到的总和生育率存在明显差异。基于人口普查和抽样调查数据的“直接估计”方法，一般得出的总和生育率在1.4-1.5之间，而基于户籍数据和教育统计数据然后对人口普查或抽样调查进行调整得到的总和生育率一般在1.5-1.6之间，完全基于户籍数据和教育统计数据“间接估计”的总和生育率在1.6-1.7之间(翟振武等，2015)。

　　2.双方的合理化诠释

　　持“较低生育水平估计”观点的人口学者认为，尽管人口普查或抽样调查数据存在“出生漏报”问题，但与其他数据相比，人口普查或抽样调查仍然是比较理想的数据来源，理由有三：首先，虽然“出生漏报”问题客观存在并且无法确定具体漏报程度，但针对相近年份不同来源调查数据所得总和生育率所做的比较的一致性程度较高，说明人口普查或抽样调查本身数据质量较高。其次，通过对不同年份人口普查或抽样调查所得总和生育率的比较，可以清晰地看出中国生育率总体下行的变化趋势。相比其他数据，人口普查或抽样调查捕捉此种变化趋势的敏感度更高。再次，人口普查或抽样调查虽然不是完美数据，但这种不完美不代表其他数据可以将其替代。使用户籍、教育统计等汇总数据，需要做出许多往往缺乏坚实基础的主观假定;采用“间接估计”方法通常会对总和生育率调整过大，从而高估生育水平(郭志刚，2017)。

　　持“较高生育水平估计”观点的人口学者则认为，只有通过人口普查或抽样调查之外的数据，才能对中国真实的生育水平获得较为准确的估计。其理由同样有三：首先，由于受计划生育政策的影响，中国人口普查和抽样调查存在比较严重的“出生漏报”。如果直接计算其总和生育率，将会严重低估实际生育水平。其次，由于无法直接判断人口普查或抽样调查的“出生漏报”到底有多严重，必须依靠户籍、教育统计等数据对人口普查或抽样调查所得的总和生育率进行调整。再次，户籍、教育统计等数据由于受计划生育政策影响发生“数据失真”的可能性相对较小，因此一定程度上可以作为确定人口普查或抽样调查所得总和生育率调整幅度的“黄金标准”。

　　(三)评价：如何在分歧中寻找共识

　　在真实生育水平成“谜”的背景下，如何在争议中寻找共识，成为对中国人口政策调整的认识中首先需要解决的问题(郭志刚，2011b)。目前国际上已经达成共识，当生育水平低于2.1的更替水平时，发展中国家和地区需要停止或放宽限制生育的人口政策，最好采取鼓励生育的措施，以期将生育率提升至更替水平以上(Morgan，2003)。研究表明，生育率长期低于更替水平必然导致人口负增长，以中国平均世代26年计算，1.8的总和生育率对应的人口减半时间为117年，而1.5的生育率对应的人口减半时间为54年(王丰等，2008;郭志刚，2010)。因此，考虑到就业、消除贫困等问题，坚持1.8的生育率可以作为权宜之计，但不能长期一直坚持此标准。如果生育率继续下降到1.5以下，即使实行鼓励生育的政策，其效果也可能并不乐观(Lutz et al.，2006;Mcdonald，2006;陈友华、苗国，2015)。国际经验表明，生育水平一旦长期低于更替水平就很难回升，在此情况下很少有国家可以把生育水平提升至2.1的更替水平(“21世纪中国生育政策研究”课题组，2010)。

　　因此，如果将总和生育率是否低于2.1作为判断人口政策是否需要调整的临界点，将总和生育率是否低于1.5作为判断人口政策调整是否会收效甚微的警戒线标准，然后再来看中国1992年进入低生育社会以来的历次争论，原来所谓的生育水平之“谜”便会迎刃而解。

　　首先来看1992年。当年调查发现的总和生育率仅有1.57，当时学者的估计基本认为实际生育水平在2.13左右。但即使不考虑2000年以后学者对1992年生育水平的重新估计中给出的更低的生育水平，2.1的更替水平也标志着中国正式进入低生育社会。

　　然后再看2000年。当年人口普查得到的总和生育率只有1.22，当时绝大多数学者都把人口出生漏报作为普查所得生育率过低的主要甚至唯一原因。但即使只看学者们当时的估计均值，也仅为1.82左右，已经显著低于更替水平。即使不考虑学者们对低生育形势认识的滞后，仅仅依据当时的生育水平估计，从1992年到2000年已经从2.13大幅下降到了1.82。这么大的下降幅度本身已经是一个非常强烈的预警信号，即中国不仅进入了低生育社会，而且低生育态势还在不断加剧。

　　最后聚焦到2010年以来。2010年人口普查得到的总和生育率仅为1.18，学者对该时期的估计均值在1.57左右，其中2011-2013年在1.5左右，2014-2015年在1.65左右。1.57的均值不仅已经比2.1的更替水平低了0.53，而且距离“低生育陷阱”的警戒线1.5仅仅高出0.07，而且这个还只是学者估计的均值而已，真实的生育水平可能还要显著低于这一估计均值。低生育水平的人口形势已经非常清晰。

　　此外，从时间趋势上来看，从1992年到2010年，学者有关中国生育水平争论的分歧经历了先扩大再减小的过程(见图1、图2)。其中对2000年生育水平估计的分歧最大(最大值和最小值相差0.6)，而对1992年和2010年生育水平估计的分歧最小(最大值和最小值均相差0.2左右)。1992年分歧较小的原因是当时学者对低生育的到来的认识普遍存在滞后性，是一种“虚假”的共识。而2000年分歧较大的原因是学者对该次人口普查的数据质量、出生漏报等认识存在较大差异，大多数学者当时无法接受总和生育率比1992年调查更低的普查结果。学者对2010年生育水平的估计结果虽然依然存在分歧，但共识基本形成，其估计的最大值(1.7)和最小值(1.5)也仅仅相差0.2，都属于较低生育水平。中国人口政策研究数据库由笔者所在研究团队创建，共收集了有关中国人口政策研究的文献共计989篇，并对关键指标进行了量化处理。

　　即使只看持“较高生育水平估计”观点的学者所估计的生育水平(翟振武、陈卫，2007;陈卫、杨胜慧，2014;陈卫、张玲玲，2015;陈卫，2015，2016;翟振武等，2015)，从1995年到2015年这20年间的下降趋势也非常明显。其中，对2000年及以前中国生育水平的估计基本在1.8左右，而对2010年生育水平的估计已经大幅下降到了1.63，对2015年生育水平的估计又进一步下降到1.6(见图3)。可以看出，1.6的生育水平距离“低生育率陷阱”1.5的警戒线已经仅一步之遥。

　　四、政策调整后的生育水平会回升到什么程度?

　　人口政策调整涉及的第二个关键问题是：没有人口政策限制，中国的生育水平将会回升到多少?这直接关系到中国人口政策最终应该调整到什么程度。完全取消生育限制的中国生育水平到底是多少，是一个典型的“反事实”问题，其答案决定了人口政策调整的最大限度。要直接回答这一问题并不容易，由于基础数据、研究假设和模型方法等存在差异，不同学者对此的估计差距悬殊。不过从生育意愿的角度回答这一问题则要容易得多。作为政策调整后生育水平的上限，2010年以来学者对中国生育意愿的研究逐渐达成共识，普遍认为即使完全取消限制生育的人口政策，中国的实际生育水平也会明显低于更替水平。

　　(一)争论焦点

　　1.观点分歧

　　对于生育政策调整后的生育水平的估计，争论的焦点集中于生育率是否会在政策调整后“大幅反弹”。有关政策调整后最初几年的出生堆积问题及生育率是否会暂时大幅上升问题，本文下一部分将会具体讨论，本部分主要讨论政策调整后中国生育水平的长期趋势。

　　学界对于这一问题的观点分歧可以分为三类：第一类认为如果没有限制生育的人口政策，中国实际生育水平会大幅高于更替水平，即“大幅提升论”(陶涛、杨凡，2011)。第二类认为如果没有生育限制，中国生育水平会回升到更替水平左右，即“适度提升论”(Goodkind，2017)。第三类观点认为即使没有生育限制，中国生育水平也会明显低于更替水平(王军、王广州，2013，2016;侯佳伟等，2014)，甚至有可能在1.5的“低生育率陷阱”警戒线周围，可以称之为“依旧低生育论”(Wang et al.，2013)。

　　2.观点争论集中的两个领域

　　对于政策调整后的生育水平到底是多少这一“反事实”问题，一般来说有两种估计路径。

　　第一种路径是以与中国社会经济发展状况相似但并没有实行限制生育政策的国家和地区的总和生育率为参照，采用各种回归模型模拟出中国的“假想”总和生育率，以此作为没有生育限制下的生育水平估计。该领域学者的争论很大，而且估计结果差距非常悬殊，最高的达2.5，最低的仅1.5左右(陶涛、杨凡，2011;Wang et al.，2013)。

　　第二种路径是将生育意愿作为没有生育限制下的生育水平的估计上限。虽然2000年以来的调查多次得到明显低于更替水平的生育意愿，但大多数学者并不相信这个结果，认为是生育政策问题的敏感性导致的严重低估。2010年以来，随着各种非官方至少是非计划生育主管部门组织的全国生育意愿调查的逐渐普及以及生育意愿测量指标的精准化，生育意愿的测量结果才逐渐得到学界的重视。

　　(二)基本逻辑

　　首先看基础数据。采用第一种路径的学者，一般采用联合国人口基金会、世界银行、世界卫生组织等公布的世界各国人口、经济和社会的年度汇总数据。而采用第二种路径的学者，则主要基于2000年以来尤其是2010年以来各种涉及生育意愿测量的全国抽样调查原始数据。

　　其次看估计方法。采用第一种路径的学者通常假设与中国经济和社会状况相似的国家和地区会有相似的总和生育率，因此采用的是“间接估计”的方法。大致估计流程如下：首先将与中国经济和社会状况相似并且没有实行生育限制政策的国家和地区挑选出来;然后算出其主要经济和社会指标与总和生育率的关系;最后将中国相应的经济和社会指标代入通过前两步得出的线性或非线性多元回归方程中，从而求出中国“假想”的总和生育率，进而间接估计出没有生育限制下的中国生育水平。

　　采用第二种路径的学者主要基于全国抽样调查原始数据来对生育意愿进行直接估计，将其作为没有生育限制情况下中国生育水平的上限。而生育意愿的测量指标早期主要使用的是“理想子女数”，2007年以来则逐渐尝试使用“计划拥有子女数”这一更为可靠和有效的指标。2007年江苏群众生育意愿和生育行为调查首次对女性“计划拥有子女数”这一指标进行测量，后来的中国家庭幸福感调查(2012,2013,2014)、中国劳动力动态调查(2014,2016,2018)等都对该指标进行了测量。

　　(三)评价：如何在分歧中寻找共识

　　首先看第一种路径的研究。与对政策调整前生育水平估计所采取的各种间接方法类似，该路径的研究由于采取了大量的人为假设，而这些假设本身往往存在或多或少的问题。比如要假设除了生育限制政策之外，中国与其他社会经济情况类似的国家和地区生育率下降的速度和趋势大致相同，这样就忽略了文化和社会的地区特殊性问题，比如儒家文化圈的国家和地区普遍存在的低生育率甚至极低生育率问题。

　　其实在现实中社会经济因素和政策因素往往相互影响，无论在统计上还是经验上都很难将二者完全分开(Hvistendahl，2017)。由于基于不同的假设，学者们使用的样本案例库也不同。这就解释了为什么同样采用这种路径的学者会得出相差非常悬殊的估计结果。由此可见，采用第一种路径很难达成共识。

　　第二种路径的研究由于采用全国调查数据对生育意愿进行直接估计，因此数据质量成为重中之重。与中国生育水平受“出生漏报”影响很大的认识类似，学者们最初并不相信由计划生育主管部门组织的生育意愿调查，但2010年以后，随着非计划生育主管部门组织的生育意愿调查逐渐增多，学界逐渐认可了生育意愿的调查结果(乔晓春，1999;郑真真，2004，2011)。

　　2010年及以后的多次有关生育意愿的非官方抽样调查结果显示，中国“理想子女数”的平均值在1.82至1.88的区间范围内(王军、王广州，2013，2016)。这充分说明，即使完全取消限制生育的人口政策，中国的实际生育水平也不会超过2.1的更替水平。如果考虑到生育意愿与实际生育行为之间的差异，实际生育水平甚至会明显低于更替水平，学者对此已经逐渐达成共识(郑真真，2011;王军、王广州，2013，2016;侯佳伟等，2014)。

　　五、政策调整初期的出生堆积风险有多高?

　　人口政策争论的第三个问题是：政策调整初期出现生育堆积的风险有多高?这直接关系到人口政策调整的具体路径。其中，学者对“单独二孩”政策出生堆积规模的估计虽有分歧，但都普遍认为该政策导致的出生堆积风险不大，真正的分歧在“全面两孩”政策。虽然学者没有对“全面两孩”政策导致的出生堆积人口规模达成共识，但对该政策导致的出生堆积风险的判断却经历了从“分歧”趋向“共识”的过程。即使是2014年左右认为“全面两孩”政策导致的出生堆积风险极大并且不可控的少部分学者，也逐渐认识到该政策导致的出生堆积风险其实并不大并且可控。

　　(一)争论焦点

　　1.观点分歧

　　学者对于“单独二孩”政策可能导致的出生堆积规模虽然有所分歧，但在风险可控方面基本达成了共识。学者的分歧主要集中在对于“全面两孩”政策可能导致的出生人口堆积问题的判断，主要有两个争论的焦点：第一个是“全面两孩”政策导致的最初几年的出生堆积人口规模到底有多少?第二个是政策调整导致的出生堆积风险到底可不可控?至少在争论的前期，不同学者的分歧很大。

　　2.争论的时间脉络

　　(1)“单独二孩”政策实施前。“单独二孩”政策虽然直到2014年才开始在全国各省份陆续实施，但关于“单独二孩”政策可能导致的最初几年的出生堆积问题早在2012年就已开始研究。

　　比如，王广州、张丽萍(2012)认为如果2015年放开“单独二孩”政策，每年因为政策调整增加的出生人口规模大约在100万人左右，风险基本可控;翟振武、赵梦涵(2014)则认为在“单独二孩”政策实施的前五年时间内，政策年度新增出生人口规模大约在200万人左右;石人炳(2014)、乔晓春(2014)、姚引妹等(2014)对政策年度新增出生人口规模的估计基本都在300万人以上。虽然上述学者的估计结果存在一定差异，但都认为风险处于可控范围。

　　(2)“全面两孩”政策实施前。学者对“全面两孩”政策可能导致的出生堆积问题的研究也早在该政策正式实施之前即已开始。不过相比“单独二孩”政策，不同学者在争论前期对“全面两孩”政策可能导致的出生堆积规模的估计和风险认知相差悬殊。

　　最高的估计认为实施“全面两孩”政策后的年度出生人口将会急剧增加，年度出生人口峰值将可能达到4995万人，即由于“全面两孩”政策实施导致的新增出生人口峰值为2425万人(翟振武等，2014)。最低的估计则认为由于政策调整导致的年度新增出生人口峰值仅为583万人左右(王广州，2015)。可以看出，不同学者关于“全面两孩”政策导致的年度新增出生人口峰值估计的最高值是最低估计值的4.16倍，二者相差1842万人。

　　(二)基本逻辑

　　首先看基础数据。不同学者的观点虽然有分歧甚至分歧很大，但通常都采用全国人口普查作为基础数据。这是因为无论要判断“单独二孩”政策还是“全面两孩”政策所导致的出生人口堆积规模，都需要首先确定政策调整所涉及的人群规模及其年龄结构特征。而政策涉及的人群规模判断又需要确定该女性是否结婚、已有子女数量和性别等基本社会人口信息。当前也只有人口普查的原始(抽样)数据才能满足如此苛刻的数据要求。

　　其次看估计方法。学者一般采用人口预测的方法进行估计，如使用人口微观仿真模型、队列要素构成法等。人口预测的基本参数主要包括政策所涉及的育龄女性人口规模和年龄结构、育龄女性群体的二孩生育意愿及生育时间安排等(王广州、张丽萍，2012;张丽萍、王广州，2014;王广州，2015)。

　　通过人口普查数据，可以得出政策影响人群规模的大致估计及其年龄结构特征，但其二孩生育意愿及生育时间安排则无法从普查数据中直接获得。不同学者获得这两个参数的渠道和参数设定也存在较大差异，这种差异也是导致不同学者对于政策调整，尤其是“全面两孩”政策调整导致的出生堆积人口规模估计差异较大的主要原因之一。

　　(三)评价：如何在分歧中寻找共识

　　学者对于“单独二孩”政策出生堆积风险的认知基本没有争议，都认为风险可控。但对于“全面两孩”这一涉及中国城乡各阶层的重大人口政策调整，争论的前期阶段不同学者无论是对于出生堆积人口规模的估计，还是对于出生堆积风险是否可控的认知都存在很大分歧。并且，由于学者们各自使用了不同的预测假设和参数设定，这种分歧看似不可调和。

　　不过，随着时间的推移，学者对“全面两孩”政策所导致的年度出生堆积规模的“分歧”大幅减少，对出生堆积风险的认知更是基本达成了“共识”。

　　首先来看对因“全面两孩”政策调整导致最初几年新增出生人口规模的估计结果(见图4)。虽然在“全面两孩”政策实施前及实施初期不同学者的估计结果差异较大，其中2014年学者对此的估计曾达到最高值，即2400万人以上，但2015年的相应估计则骤降到了583万人，2016年的相应估计又进一步下降到了470万人。可以看出，虽然不同学者有关年度出生堆积人口规模的预测结果依然无法取得根本的一致，但是不同学者之间，甚至同一学者不同年份的估计结果之间的差异都随时间推移呈大幅减少的趋势(翟振武等，2014;王广州，2015;翟振武等，2016)。

　　其次来看对“全面两孩”政策将导致的最初几年出生堆积风险的认知。2014年是实行“单独二孩”政策的第一年。当年有部分学者认为如果以后还要实行“全面两孩”政策，因政策调整导致的年度出生人口可能发生急剧增加，使人口形势变得不可控，因而“全面两孩”政策不宜过早实施(翟振武等，2014)。不过随着“单独二孩”政策“遇冷”以及中国生育率持续走低，到2015年左右，即“全面两孩”政策实施的前夕，这些学者也基本转变了态度，普遍认为“全面两孩”政策实施所导致的新增出生人口规模相对有限，出生堆积风险基本处于可控范围(翟振武等，2016)。

　　六、结论

　　人口规模和结构及其变化趋势是影响甚至决定中国当前及未来经济、社会发展的基础要素。自计划生育政策实施以来，中国人口、经济和社会各方面都镌刻上了人口政策的深刻印记。由于中国是在实行计划生育的情况下实现了低生育水平，但同期经济结构、民众教育水平、女性劳动参与率都有巨大变化，因此人口政策与低生育水平之间的关系比其他国家更为错综复杂。

　　有鉴于此，人口学界对生育水平等关键问题展开了长达二十余年的辩论。本文主要致力于绘制中国低生育水平下人口政策争论的路线图，重点关注与政策调整有关的三个核心问题：(1)政策调整前中国的实际生育水平是多少，这关系到人口政策需不需要调整;(2)政策调整后的生育水平会回升到什么程度，这关系到人口政策调整的限度;(3)政策调整后最初几年的出生堆积风险有多大，这关系到人口政策改革的具体实施路径。

　　通过系统梳理，我们发现这三个问题虽然表面上“分歧”很大，但其实争论本身已经蕴含了达成“共识”的关键要素：(1)有关政策调整前的生育水平到底是多少这一问题，争论各方普遍认为中国自2000年至今的生育水平已经明显低于更替水平，而且下降趋势非常明显，近年至少有趋近于1.5的“低生育率陷阱”警戒线的可能。(2)对于政策调整后的生育水平会回升到什么程度，2010年以来学者们基本一致认为，即使没有计划生育政策，中国的实际生育水平也明显低于更替水平。(3)有关政策调整后最初几年的出生人口堆积问题，即使以往认为“全面两孩”政策导致的出生堆积风险很大的学者，也逐渐认识到出生堆积风险其实并不大而且可控。

　　在分歧中寻找共识的过程体现了人口学界对低生育现象认识的逐步深化，更为人口政策未来的进一步优化提供了学理支持。为避免跌入低生育率陷阱，国家需要营造友好的生育环境，构建和改善与生育配套的各项社会政策和制度安排，包括夫妇在养育子女过程中共同分担家务劳动、对怀孕和生育女性加强职业保护、社区对家庭抚育工作进行分担等。在生育水平仍然存在一定提高“弹性”的前提下，通过实行一揽子“生育友好”的社会政策，避免落入“低生育率陷阱”，保证中国人口、经济和社会的永续安全。