查看原文
其他

企研数据处理工作论文系列 | 中国绿色低碳技术专利数据清洗与质量分析报告(下)

企研数据 社科大数据 2024-04-22


 目录(滑动查看)一、引言二、专利数据简介三、绿色低碳专利清洗依据与基本思路(一)参考文件
(二)清洗目标
(三)数据预处理

1. 规范化

2. 处理IPC分类号

3. 处理参考检索式

(四)数据清洗思路四、数据整合五、结论和进一步讨论参考文献附录

本文承接自企研数据处理工作论文系列 | 中国绿色低碳技术专利数据清洗与质量分析报告(上),欢迎阅读查看。

后台回复关键词“WP0008”即可获取“中国绿色低碳技术专利数据清洗与质量分析报告”PDF版。

中国绿色低碳技术专利数据清洗与质量分析报告(下)

(四)数据清洗思路

基于以上分析,我们认为需要对原始专利数据的每一条都进行所有参考检索式的正则判断。具体步骤为:①完成128组参考检索式的正则表达式,将其按照数据预处理的第三个步骤分为五类。②定义五个函数,分别对应五类参考检索式条件。③程序将循环遍历所有专利数据,并依次应用五个函数[8]。详细数据处理思路见图4。

[8] 在每个函数中,程序将逐个遍历其中的参考检索式,若专利数据符合某个检索式的正则表达式条件,程序将返回标签;否则,继续下一次循环。

图4 专利数据处理技术路线图
在经过以上的数据清洗过程后,我们完成了对绿色低碳技术专利的清洗和处理工作,数据处理的结果是,截止到2022年底,中国绿色低碳技术专利的申请数量约为134万件,约占专利申请总数的3.3%。
如图5所示,中国绿色低碳技术专利申请量整体呈上升趋势,2020年达到最高值,约17.92万件。当然,前文已经提及,由于本文所用原始专利数据更新至2022年底,而专利从申请到公开基本需要18个月时间,因此2021和2022年专利实际申请量是被低估的。发明类专利总数量72.58万件,占全部绿色低碳技术专利的53.99%,可见专利“含金量”较高。

图5 1985-2022年绿色低碳技术专利申请情况(单位:件)

按照技术分支来看(5个一级技术分支[9]),如图6所示,节能与能量回收利用的专利申请量最多,清洁能源和储能技术相对而言也较多,这三者约占绿色低碳技术专利的88.81%左右,而温室气体捕集利用封存的专利申请量最少,反映出绿色低碳不同技术方向的发展是不均衡的。

[9] 存在一条专利对应多个技术分支的情况。

图6 绿色低碳技术专利一级技术分支分布情况(单位:万件)

四数据整合

在当前科研领域,学者可以通过各类数据的整合和横向匹配,关联起两个不同的研究领域,将一份简单的微观数据延伸至多个研究层面。
本文以A股上市公司为例,说明如何将绿色技术专利与企业层面数据结合。首先,我们从企研“全量企业工商注册数据库”中筛选出A股上市公司的数据;其次,根据企业唯一识别码(SAMPLE_ID)将A股上市公司的基本信息[10]和绿色低碳技术专利信息进行横向匹配;最后,统计匹配结果,检查是否有重复或遗漏。

[10] 中国专利数据库与全量企业工商注册数据库的匹配报告见施丹燕和杨奇明(2022),本文从中筛选出了A股上市公司部分的数据,作为A股上市公司的专利数据基本信息库。

匹配结果为:中国A股上市公司所申请绿色低碳技术专利占全部绿色低碳技术专利数比重并不高,数据量约7.9万条,其中发明申请(未授权)的数量为2.61万条,发明授权专利数为2.24万条,实用新型的数量为3.05万条;年份跨度为1995-2022年,涉及到的A股上市公司共2160家。如图7所示,绿色低碳专利技术申请数和授权数整体呈现上升趋势[11]

[11] 1995年专利申请号为CN95242977.2的绿色低碳技术专利——节能燃烧器(实用新型),在1996年1月31日才授权,所以1995年A股上市公司绿色低碳技术专利授权数量为0,该专利的具体信息如附录图A3所示。

注:上文已提及,2021年和2022年绿色低碳技术专利申请数量是被低估的。

图7 1995-2022年上市公司绿色低碳技术专利申请、授权数量(单位:件)

除A股上市公司外,绿色低碳技术专利还可以与其他企业数据进行匹配和整合,例如新三板企业基本信息、工业企业数据库等,依研究主题和目的而定,只要遵循数据整合的原则,即合理的匹配变量、正确的空值处理方式、对处理结果的描述性统计符合事实等,就能得到一份符合研究主题的、完整、高质量的面板数据。

结论和进一步讨论

尽管目前科研数据服务市场上有众多进行数据清洗和整合的机构,但研究数据的质量仍然无法得到保证,主要可能有以下几个原因:①底层数据缺失或错误。在数据收集或爬取的过程中,底层数据可能漏采或误采,而在事后又没有与官方数据进行比对分析,导致“一步错步步错”。②数据处理技术不完善。在数据筛选或处理时,部分机构可能出于时间、人力成本的考虑,或者对处理难度过大的清洗只进行了简单的技术处理,严重降低了最终数据的质量。③低成本数据传播和共享。由于互联网的普及,信息传播变得非常方便,几乎零成本,导致市场上低质量的数据“大行其道”,严重损害了学术研究的严肃性、科学性和权威性。
本文以较为可靠的专利原始数据为基础,依据国家知识产权局等权威部门公布的文件,经过一系列数据处理,获得了包含申请与授权信息的绿色低碳技术专利研究数据集,为广大社科领域学者研究绿色创新的变化趋势和发展规律提供了数据基础。
一份高质量的数据是学术研究的基础,是决定研究结论是否有意义的重要环节。以绿色低碳技术专利数据清洗与质量核验为例,本文也总结出了获得一份可靠微观科研数据的两大关键:①可靠的数据来源和权威的参考文件。②科学、可追溯的数据清洗流程。
尽管数据清洗看似是一项难度并不高的工作,但在实操中,其包含的内容和方法是十分庞大且复杂的。因此,本文也存在如下不足:第一,由于数据更新的原因,本文所用中国全量专利数据只更新至2022年底,后期随着数据的更新,2021和2022年专利申请及相关统计数据可能会发生变动;第二,局限于篇幅和示例,本文可能还有其他未尽之处,也待后续研究进行补充和改进。

参考文献

[1] 施丹燕, 杨奇明. 中国专利数据库与全量企业工商注册数据库匹配报告, 2022,企研数据处理工作论文系列,No.WP0007.

附录

图A3为第一份申请的绿色低碳技术专利信息。(图片来源于“专利检索及分析”网站:https://pss-system.cponline.cnipa.gov.cn)
图A3 节能燃烧器(实用新型)






如需咨询数据匹配与数据清洗,请联系客服👇





相关内容推荐


(👇向下滑动查看更多内容)
数据质量检测系列推文
数据质量检测 | 对一份中国工商企业注册数据库的质量考察
数据质量检测|论数据质量差异的显著性
工作论文系列推文
企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)
企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)
企业数据库匹配系列(二)| 用文本相似度算法为中国工业企业数据库筛选重复样本
企业数据库匹配系列(三)|专利库与工企库匹配报告(上)企业数据库匹配系列(三)|专利库与工企库匹配报告(下)企业数据库匹配系列(四)|海关库与工商库匹配报告(上)
企业数据库匹配系列(四)|海关库与工商库匹配报告(下)
企业数据库匹配系列(五)|海关库与工企库匹配报告企研数据处理工作论文系列 | 专利库与工商库匹配报告(上)
企研数据处理工作论文系列 | 专利库与工商库匹配报告(下)学术RA丨如何用机构代码唯一识别企业(科普篇)

学术RA | 如何用机构代码唯一识别企业(实践篇)

·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


新库上线 | CCAD-三农基础统计(市辖区)数据上线,包含158个市辖区统计指标

企研数据处理工作论文系列 | 中国绿色低碳技术专利数据清洗与质量分析报告(上)

新库上线 | CCAD-三农基础统计(地市)数据上线,包含178个地市统计指标

每周一图 | 2012年-2023年全球地震(震级类别)占比图

新库上线 | CCAD-三农研究基础统计库上线,首批更新45个县域统计指标


戳原文,更有料!
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存