认识土地资源和房地产发展趋势 (房地产不动产大数据分析)

围绕“人、地、房”衍生的不动产数据分析路径与方法探索###

乐享技术

自2015年至今,多年的不动产统一登记工作沉淀了大量的不动产登记数据,同时不动产相关的“人、地、房”信息共享也持续加强,形成了重要的数据资产。但不动产数据价值挖掘分析工作开展较少,未能发挥其在强化治理体系和治理能力现代化、推进数字政府建设中的重要支撑作用。

本文在全面分析不动产数据内容和特征的基础上,探索了不动产数据分析的路径和方法,从数据收集与清洗关联入手,摸清家底,支撑精准决策,进一步建立不动产数据分析指标体系,深化应用场景,为提升居民居住水平、洞察房地产市场动态、防范抵押金融风险,以及不动产高效率服务、高水平监管、高质量决策和推进政府数字化转型提供全方位数字化支撑。

不动产数据概念和内容

本文探索分析的不动产数据指“人、地、房”三个实体相关数据,主要以不动产登记数据为基础,关联“人、地、房”相关衍生数据,形成不动产数据仓库。

不动产登记数据

不动产登记数据主要包括坐落、面积、用途等不动产自然状况信息,权利人名称、权利类型等不动产权属状况信息,宗地、自然幢等不动产空间数据,以及交易价格、抵押金额等其他相关信息。

“人、地、房”衍生数据

“人、地、房”衍生数据主要包括婚姻、户籍等“人”衍生信息,土地储备、土地供应等“地”衍生信息,用水(电、气)、房屋*迁拆**、房屋安全、房屋交易等“房”衍生信息。

不动产数据内容

针对不动产数据不断丰富完善而数据资源未被充分挖掘利用的现状,开展不动产数据分析,挖掘数据潜在价值,发挥不动产数据资产属性:收集多源异构的不动产登记数据和“人、地、房”衍生数据,对数据进行清洗和关联,得到标准规范、相互关联的不动产分析基础数据,对不动产数量、面积等进行统计,摸清不动产数据家底; 建立多层次的不动产数据分析指标体系,从数量、分布、结构、趋势等方面开展数据分析;通过高维数据可视化技术直观展示数据分析结果,为金融风险防范、房地产市场调控、政府数字化转型等应用场景提供支撑。

不动产数据分析路径

房地产不动产大数据分析,认识土地资源和房地产发展趋势

分析路径与方法

掌握不动产数据家底,支撑精准决策

以摸清不动产数据家底为目标,开展数据收集和清洗关联工作,分析国有土地上不动产数量、面积、类型、分布、权利人和权利状况等信息,为挖掘不动产数据潜在价值,支撑精准决策以及进一步开展应用场景分析夯实数据基础。

01

数据收集

根据不动产数据分析实际需求,对各部门所掌握数据进行梳理:自然资源部门主要掌握不动产登记和土地等相关信息,住建部门主要掌握房屋交易、住宅供应、房屋管理及房屋安全等相关信息,公安部门主要掌握家庭相关信息,民政部门主要掌握婚姻相关信息,统计部门主要掌握人口和国民经济及社会发展相关信息,水(电、气)相关部门主要掌握用水(电、气)信息。从相关部门收集相应数据,并基于各类数据更新频率建立数据共享更新机制,为常态化不动产数据分析工作提供支撑。

房地产不动产大数据分析,认识土地资源和房地产发展趋势

不动产数据收集清单

02

清洗与关联

(1)数据清洗

不动产数据分析所需数据来源不一,各部门数据质量不同,存在数据缺失、不一致等问题,为改善数据质量,提升数据分析结果的可靠性和准确性,开展数据清洗工作。

数据预处理。针对 Excel、Word 等格式的非空间数据,统一转换至关系型数据库,方便后续指标计算和分析;针对空间数据统一坐标系,保证空间参考一致。并在此基础上进行数据完整性、逻辑性、合理性检查,便于后续开展针对性清洗。

缺失值清洗。从重要性和缺失率两个维度对缺失值分析,对于重要性低、缺失率高的字段,在确认对分析结果几乎不产生影响的情况下可将其删除;针对重要性高但值缺失的字段,分析是否有替代字段或可否通过其他字段计算得出。针对重要性极高,同时缺失率也很高的字段,进一步开展数据补充收集。

重复值清洗。针对不同来源数据之间或同一数据内部存在重复的情况,判断多条记录是否指向同一实体,对重复数据通过模糊匹配算法等手段去重,保证指标计算结果的准确性。

异常值清洗。由于人工填写疏忽或数据转换过程中出现的错误导致数据中存在不合理值,如价格明显过大,面积为0等,都属于异常值的范围。可通过以下几种方法处理:①删除异常值。异常数量较少、重要性低的可直接删除;②视为缺失值。将该异常值视为数据缺失,采用缺失值的处理方法;③平均值修正。对数值型字段可采用数据的平均值进行修正,如面积、价格等。

格式清洗。数据格式和内容的错误主要有以下几种类型:①时间、日期、数值等格式不一致;②面积、价格等单位不一致。如价格单位为元或万元;③存在非法字符。某些字段值的字符有固定规范要求,如身份证号有固定校验规则,手机号只能由数字组成。

一致性验证。不同来源、不同格式的数据,表达相同内容时,对其进行一致性验证,若不一致,判断选取更加准确的数据。

(2)数据关联

在数据清洗的基础上,进一步分析不动产实体“人、地、房”的关联关系。基于统一的不动产楼盘表进行数据关联,同时根据关键字段或空间位置将“人、地、房”基本信息与衍生数据关联,形成“人、地、房”之间,“人、地、房”基本信息与衍生数据之间清晰的关联关系,为开展数据分析夯实基础。

房地产不动产大数据分析,认识土地资源和房地产发展趋势

“人、地、房”及衍生数据关联

“人、地、房”数据之间关联。人与地、人与房主要通过权利建立关联关系,相关权利信息可直接从不动产登记库获取;地与房通过楼进行关联,房与楼以关键属性字段关联,地与楼以空间位置关联,进而建立地与房的关联关系。

“人、地、房”与衍生数据关联。“人、地、房”基本信息与其在业务办理、综合管理过程中产生的衍生数据关联可通过以下方法建立。“人”可通过证件号与户籍和婚姻信息建立关联关系;“地”可通过业务主键(不动产单元号等)或空间位置与土地储备、土地供应等信息建立关联关系;“房”与交易信息、供应信息、*迁拆**信息、安全信息、用水(电、气)信息的关联优先通过不动产单元号建立,如果衍生数据无不动产单元号,可通过房屋编码或坐落地址进行关联。

基于清洗和关联后的规范数据,对国有土地上不动产的数量、面积、类型、分布、权利人和权利状况进行统计,掌握不动产数据家底,支撑精准决策。

建立分析指标体系,深化应用场景

在掌握了不动产数据家底的基础上,深入挖掘不动产数据潜在价值和应用场景。本文针对居住水平、市场动态、抵押情况三个分析应用方向,建立不动产数据分析指标体系,并通过多种可视化手段展示分析结果,为提升居民居住水平、掌握房地产市场动态、防范抵押金融风险等提供决策支撑。

01

指标体系建立

指标内容确定。针对居住水平、市场动态、抵押情况三个应用方向,通过业务梳理和场景分析,确定 3 个一级类、7 个二级类的分析指标,并从空间、时间等不同维度,分析不动产分布、结构以及变化趋势等,满足应用分析需要。

不动产数据分析指标及分析维度

业务规则梳理。根据指标的含义,以指标值计算为目的,依据业务逻辑,梳理每项指标对应的权利类型、房屋用途、权利状态、时间范围、空间范围等业务规则,并针对每个具体指标对规则进行编排,进一步开展指标算法构建,应用于不同业务对象的分析。

房地产不动产大数据分析,认识土地资源和房地产发展趋势

业务规则梳理

指标算法构建。在理清业务规则的基础上,针对每项指标,确定指标算法。将每项指标的计算公式转换为数据库逻辑,具体对应到不同表和字段之间的逻辑运算,构建每个指标值计算的模型算法,形成算法库,在开展不动产数据分析时直接调用算法库,对指标进行计算,为数据分析工作提供支撑。

房地产不动产大数据分析,认识土地资源和房地产发展趋势

指标算法构建

02

分析结果可视化

根据指定的指标算法按照相应的取值逻辑和计算规则对指标值进行计算,生成指标计算结果。围绕指标的属性、特征等,从数量、结构、分布、变化等维度,利用高维数据可视化技术,以标签、柱状图、饼状图、折线图以及专题地图等多种可视化形式对分析结果直观展示,辅助管理人员做出相关决策。

本文在深入分析不动产数据内容、特点的基础上,探索了不动产数据分析路径与方法。梳理了数据内容,形成了数据清洗和关联的实践方法,实现数据规范化汇聚、集成和融合;并进一步针对居住水平、市场动态、抵押情况三个应用分析场景,构建了不动产数据分析指标体系,以高维数据可视化技术展示分析结果,为提升居民居住水平、房地产市场综合研判与调控、抵押金融风险防范等提供科学依据。

不动产数据蕴含巨大潜在价值,本文仅对居住水平、市场动态、抵押情况进行分析,后续需进一步扩展指标内容,并基于本文形成的数据分析路径与方法,深化不动产相关领域分析模型,不断挖掘不动产数据应用新模式、新场景,为政府数字化转型、社会公共服务水平提升提供技术支撑。

作者 | 国图信息应用软件研发中心 杜永乐 吴月 朱广金