中国是世界上人口最多的国家,实时记录中国人口的属性特征、结构特点和变化规律显然是巨大的系统工程。尽管中国目前已经积累了非常丰富的人口基础数据,但人口大数据的开发应用还未发展成熟。 韩正副总理在第七次全国人口普查领导小组全体会议上强调要积极推进电子化采集,提高数据采集效率和数据质量。随着互联网的普及,信息技术的发展,近年来的几次大型普查,电子化设备以及大数据的应用越来越广泛,人口普查更是如此。经过前期的工作筹划以及对部门、县(市、区)、镇村的调研走访,现就人口大数据在七人普中的创新应用作一探讨。 一、人口大数据情况 (一) 部门掌握的人口数据 一是与人口信息相关的部门数据。从部门掌握的数据情况来看,公安掌握的信息内容相对较多、较全,目前社区民警、社区网格员等会对居住小区内的人员信息进行不断调查更新。户籍人口、流动人口、常驻外籍人士等数据公安掌握的非常完整,且数据较为准确;民政部门掌握的婚姻状况、火化人口等数据;卫健部门的出生人口、死亡人口等数据;教育部门掌握的大专院校学生的数据;人社部门掌握的社保数据及医保部门掌握的医保数据等。二是与户相关的部门数据。自然规划局掌握的住房建筑面积等涉及住房的几个指标掌握情况相对较完整准确;建设局的居民用水、用气数据;电力局的居民用电数据等。 (二) 新冠肺炎疫情防控掌握的人口数据。 在疫情期间,全市各村(社区)开展全员疫情排查工作,进行了大量的人员信息登记,同时健康码的发放普及也掌握了部分重要的人口数据。 1. 卡点信息化登记数据情况。 疫情期间各村(社区)、各企事业单位及各个卡点,对本辖区住户或本单位员工等大多会有不同程度的数据采集登记。比如村(社区)首先会对本区域进行集中排摸,对户籍人口及春节期间未返回原籍的外来人员进行登记,采集区域内住户情况,家庭中不在本地的人员情况等。其次通过各卡点对本区域进出人员的身份信息、外来人员返程情况、居住情况等进行了登记;企业复工复产阶段登记的员工身份、居住、行程等信息,这些对于摸清人口底数有一定帮助。 2. 健康码等数据库的情况。 “健康码”管理信息系统以真实数据为基础,连通重点人员动态管控清单等相关数据库,根据群众申报信息与后台数据的校验比对结果发放“健康码”。通过健康码中含有的身份信息可以确定人员身份,定位信息能够更加准确的确定外来人口来本地的时间,这些数据对人口普查有着很大的帮助。 (三) 基层掌握的人口数据 各村社区对本辖区内的户籍人口及长期居住的外来人口的情况,如总人口数、常住人口数、流动人口数会有一定程度的了解和掌握。基层一般都有相对完备的类似于户主姓名底册的基础数据库,还可通过其他各项工作对各家各户的居住情况、生育和死亡情况有所掌握,以此和部门数据进行比对可以更精准定位各户各人,可以作为部门数据的补充资料。例如人户分离情况,部门数据就不一定能准确反映,但是基层掌握的情况则能做出相对正确的判断。再比如群租或住宅当宿舍的现象,仅靠部门数据难以全面覆盖,但是基层所掌握的情况更容易判别租住的户数、人数、户别等情况,减少普查遗漏情况。而基层网格长或楼道长对于自己负责的区域相对更加熟悉,虽然他们手头可能并不掌握太多详细的数据,但是对于各户的实际居住情况会更加了解,非常有利于普查宣传、联系住户、入户登记等工作的开展。 二、七人普表式中与现有数据指标的对应情况 从人口普查试点的短表、长表、外籍人员调查表和死亡人口调查表情况来看,长表的指标量较大达到29个,其余三张表指标相对较少,短表15个、外籍人员调查表12个、死亡人口调查表8个。现掌握数据对应情况如下:公安:户籍人口,流动人口的姓名、身份证、性别、出生年月、民族、户口登记地等;常驻外籍人士的姓名、护照号、身份或国籍、职业等指标。民政部门掌握的婚姻状况、死亡人口调查表中的死亡时间等指标。卫健部门出生人口的母亲的姓名、身份证号码、户籍地和联系方式等,死亡人口的姓名、身份证号、民族、死亡时间等指标;教育部门掌握着部分特定人群的一些指标信息,如对高中以下人群的学历指标。自然规划局对长表中的住房建筑面积等涉及住房的几个指标掌握情况相对较完整准确。建设局分户用水用气情况等,电力局居民用电等数据。部分的数据可以在人口普查中直接进行的应用。 三、人普中大数据应用的技术难点 尽管目前国家基础人口信息系统建设取得了长足进展,人口信息在决策支持和行政管理过程中发挥着重要的作用,但在人口普查中如何应用还存在技术难点。 1.数据共享的问题。由于各种因素的影响,部门间的大部分数据仍处于“孤岛”状态,人口大数据系统的最基本信息还没有实现全部的互联、互通,共享基础信息如姓名、性别、出生年月、身份证号等也没有完全收集,数据共享问题亟待解决。利用政务数据办的部门数据归集系统获取其他部门数据,需要与各个部门进行沟通;同时,部门间数据种类较多,口径存在一定的差别,需要多个部门的协同工作。制定一套完整的数据共享流程,是打通各部门数据通道的关键所在。 2.数据标准化的问题。部门数据中由于各个不同部门的数据都需要归集,可能会存在同一个对象同一个指标不同部门的数据存在较大的差异。因记录数据时标准不同,如死亡时间,民政部门以火化时间为准,而卫健部门则以医院自然死亡时间为准,这就导致了数据的取舍存在较大的问题。制定一套完整的数据标准,是推动大数据应用的基础。 3.数据处理难度的问题。人口普查数据指标较多,各个部门的数据库系统、格式、内容不一致,在处理的过程中,如何整合、甄别有效数据难度较大。如死亡时间,应按卫健部门的自然死亡时间为准,而舍弃民政部门的火化时间或公安部门的销户时间。技术力量的支持,亦是推动大数据应用发展的重中之重。 4.数据管理安全的问题。人口大数据涉及每个人隐私和信息安全。如何构建比较科学、完善和安全的信息系统是人口大数据面临的突出问题。人口大数据收集后,建立有效的安全管理维护机制,解决数据的实时动态清理、更新以及历史数据的保存与归档等问题,是完成人口大数据应用的“最后一块砖”。 四、构建人口大数据库赋能七人普 虽然,大数据在人口普查中的应用还存在着诸多的难点,但“办法总比困难多”,就上述提及的问题,嘉兴市人办与嘉兴市政务数据办合作开发建设“嘉兴市人口数据库”,并对人口普查中的大数据应用,做了初步规划及技术探讨。 1.打通数据壁垒,统一数据标准。结合各部门人口数据、疫情防控掌握的人口数据及基层掌握的人口数据等,建立“嘉兴市人口数据库”,对不同数据来源的同一对象同一指标进行分析研判,统一数据标准,整合生成一人一记录、一户一记录,可通过身份证号作为主关键字,对人口数据库中的数据进行查询比对。导出整合数据,按住址信息下放到各村(社区),便于普查员开展清查摸底工作。 2.优化信息技术,提高登记效率。通过人口普查数据采集系统连接“嘉兴市人口数据库”,利用证件识别功能,使得人口普查数据采集系统可以通过拍摄各类身份证件,直接读取姓名、户籍、住房和教育状况等相关信息,减少人工录入数据量。一方面以人口数据库为参考,普查员核实相关信息,方便普查登记,另一方面,以普查数据对人口数据库进行修正更新,达成“双赢”。 3.强化安全管理,落实“一数一源”。为了分散不同层级数据风险和实现数据的实时更新,拟由政务数据办牵头,各责任部门配合,建立“一数一源”的数据管理机制,由责任部门负责管理和更新本部门数据,避免数据重复冗余,保持数据的实时性,在人口普查的基础上,加强对数据共享及后续的开发利用。 |
|