查看原文
其他

企业数据库匹配系列(三)|专利库与工企库匹配报告(下)

学术RA 社科大数据 2022-12-31





前言

企业数据库之间的横向匹配,贯穿了企研数据团队的整个创业历程。自2018年始,各个数据库之间的匹配报告几易其稿,2020年疫情爆发之初的那个半年陆续完成。但囿于我本人的堕怠和一些顾虑,一直都没有最后定稿推送,这次发狠心一定要一口气把积攒的这几篇报告推送完成。这就是近期推送企业数据库匹配系列的来由,希望社科大数据公众号读者们批评指正。

——杨奇明(企研数据CEO)

2022年8月16日于杭州·海聚中心




中国专利数据库与中国工业企业数据库匹配报告(下)

目录(滑动查看)

一、引言

二、已有方法梳理与本文思路

(一)已有方法数量

(二)本文思路

三、具体处理过程

(一)数据预处理

1.专利数据预处理

2. 企业名称的清理

(二)匹配过程

1. 企业全称精确匹配

2. 企业名称主干精确匹配

3. 利用工商库补充匹配 

(三)匹配结果的比较

1. 对比各版本专利库和工企库的差异

2. 比较匹配结果 

四、结论

参考文献 

附录

本文承接自企业数据库匹配系列(三)|专利库与工企库匹配报告(上),欢迎阅读查看。

公众号对话框内发送关键词“20220823”即可获取专利库与工企库匹配报告PDF版。

Part1具体处理过程

1数据预处理

专利数据预处理

本文所使用的专利库来源于中国国家知识产权局,不含未通过形式审查(未公开)的专利。在三类专利当中,对实用新型和外观设计这两类而言,因只需进行形式审查,故本文所用专利数据中,它们均为已授权专利;而发明专利在公开后需要进一步进行实质审查,故本文所用发明专利数据包含部分已公开(即已通过形式审查)但未授权的专利
根据专利的申请日期,我们对这三类专利的申请和授权情况进行分年统计,具体结果如表2所示。其中,最后一列为每年的专利申请中共有专利占比的情况。《专利法》指出,专利申请权或者专利权可由两个及以上专利申请人共同拥有,即一件专利可由多个专利申请人共同申请,并共同享有其专利权。我们把这种有两个及以上专利申请人的专利简称为共有专利。因后文匹配工作主要基于专利申请人的名称,故我们需要将共有专利的多个专利申请[5]进一步拆分成多条专利记录,这些专利记录除专利申请人不同外,其余专利信息均相同。

表2 1998-2013年国内外三类专利的申请和授权情况

在对专利库与工企库进行匹配之前,我们可以对专利库中的如下样本进行剔除:(1)国内外自然人申请的专利。根据“专利申请人类型[6]指标,可直接剔除国内外自然人申请的专利;(2)港澳台地区和国外机构申请的专利。寇宗来,刘学悦(2020)根据“专利申请人地址”指标,剔除了申请地址为国外或港澳台地区的专利记录。但由于专利库中的专利申请地址一般是根据主专利申请人的地址填报的。故寇宗来,刘学悦(2020)的操作方法将导致主专利申请人地址是国外或者港澳台地区,但其他专利申请人为国内机构的专利信息也一并被删除了,从而导致数据缺失。故本文在匹配之前,对这部分数据暂不处理;(3)其他非规模以上工业企业申请的专利,具体包括:① 国内事业单位、行政机关等非企业机构;② 非工业企业;③ 规模以下工业企业这四类主体申请的专利。因目前暂无有效识别这三类主体的现成的指[7],故本文在匹配之前,暂不做相应处理。通过以上步骤,最终筛选得到7400256条申请时间在1998-2013年期间的专利记录。其中发明专利共计3641041条(已授权发明专利2192015条),实用新型专利2274166条,外观设计专利1485049条。

企业名称的清理

尽管工企库中的组织机构代码和企业名称都可用于企业识别,但专利库中可用于企业识别的信息只有专利申请人名称。因此,企业名称是专利库和工企库匹配的唯一桥梁。然而,企业名称登记不规范,使得同一家企业在两个数据库中的登记名称不完全相同,从而给我们的匹配工作带来挑战。与Xie&Zhang(2015)、He et al.(2018),以及寇宗来和刘学悦(2020)的处理方式一致,在正式匹配之前,先对两个数据库中的企业名称做相同的数据清理,得到清理后的企业全称和企业名称主干(上文已经提及,本文清理细节有别于上述文献,因此不称其为企业简称,以示区别)。

(1)企业全称清理

通过对Xie&Zhang(2015)、He et al.(2018),以及寇宗来和刘学悦(2020)做法的总结与整合,得到以下清理步骤:
① 全半角的转换
a. 全角状态下的字母统一转换成半角状态,即将“ABC…Z”依次替换为“ABC…Z”,将“abc…z”依次替换为“abc…z”;
b. 全角状态下的阿拉伯数字统一转换成半角状态,即将“0123…9”依次替换为“0123…9”;
c. 全角状态下的符号统一转换成半角状态,即将“!”#$%&’*+-,./<>=?@{}|~”依次替换为“!”#$%&’*+-,./<>=?@{}|~”;
d. 全角状态下的空格符统一转换成半角状态,即将“ ”替换为“ ”。
② 汉语数字统一转换成阿拉伯数字
即将汉语数字“〇零一二…九”依次替换为“0012…9”。
③ 括号格式的统一
即将“(){}[]【】〔〕<>《》”统一替换为“()”。
④ 符号和空格符的剔除
即将“!”#$%&’*+-,./<>=?@{}|~()”和“ ”剔除。

(2)企业名称主干提取

一般而言,企业全称主要由4个部分组成,其命名规则大致为:【地区冠名】+【企业取名】+【行业属性】+【企业类型】。其中,【企业取名】+【行业属性】 是企业名称的主干部分(为了区分已有的称呼,我们称之为“企业名称主干”),是企业身份识别的关键性元素,一般而言登记时误填的可能性不高。而【地区冠名】【企业类型】 这两个部分因非企业识别的关键性元素而常被误填或漏填,进而影响企业名称匹配的效果。因此,我们进一步在清理后的企业全称的基础上,剔除容易出错的干扰因素,进而提取出企业名称主干,具体步骤如下:

a. 剔除【地区冠名】
寇宗来和刘学悦(2020)在提取企业名称关键词的时候,使用2013年版的中国区县以上行政区划代码(GB T2260-2013),按顺序依次删除名称中的省、市、区县地址的简称。考虑到1998-2013年期间存在行政区划的变更,本文使用中华人民共和国民政部公示的1980-2013年的中国区县以上行政区划,将企业全称中省份和城市相关的地址信息剔[8]
b. 剔除【企业类型】
依次剔除“有限,责任,股份,集团,总公司,分公司,公司,总院,分院,总部,分部,总厂,厂”等企业类型相关字样。
以“企研数据科技(杭州)有限公司”为例,依次剔除【地区冠名】“杭州”和【企业类型】“有限公司”,得到企业名称主干“企研数据科技”,其中“企研数据”是【企业取名】,“科技”则反映了【行业属性】。
通过上述清理步骤,1998-2013年7400256条专利所涉及的专利申请主体(企业全称)由原来的517586个(企业全称清理前)调整为507828个(企业全称清理后),并从中提取出475679个企业名称主干。

2匹配过程

企业全称精确匹配

基于清理后的企业全称,逐年匹配1998-2013年的专利数据与工企数据。因同一年同一家工业企业可能申请多条专利,故每年的匹配结果均呈现一对多的情况,即工企数据:专利数据=1:m。

企业名称主干精确匹配

根据清理得到的企业名称主干,我们将无法通过全称精确匹配的那部分专利数据,再次与所有工企数据进行逐年匹配。因前文提取企业名称主干时,不仅剔除了省份和城市相关的地址信息,还剔除了“总公司,分公司,总院,分院,总部,分部,总厂”等总(分)机构标识的词汇。为了解决总分机构专利错匹的问题,本文在企业名称主干匹配的过程中,同时限定地区,即要求专利的申请地址与工业企业在同一城市。换句话说,我们认为作为一家工业企业,在同一城市设立总分支机构或设立多家分支机构的概率不高。

利用工商库补充匹配

步骤(1)和(2)无法完全解决企业名称书写错误的问题,更无法解决名称变更所引起的漏匹。寇宗来和刘学悦(2020)采用编辑距离算法,尝试以模糊匹配的方式,对精确匹配的结果做进一步补充。然而,这种方法无法解决企业名称变更所带来的遗漏匹配。He et al.(2018)使用ever-match的匹配方法,在一定程度上解决了企业名称书写错误和名称变更所产生的漏批的问题。在没有其他数据源补充的情况下,这种方法确实提供了一个解决企业名称书写错误和名称变更问题的最优解决方案。然而,我们在前文中也已经指出,ever-match匹配方法有其局限性。其主要缺陷是,基于工企库整理的工业企业历史名称清单可能并不完整。
本文采用了一种新的思路,即尝试以工商库数据为桥梁,对精确匹配的结果进行补充。具体步骤如下:
首先,将工企库与工商库进行匹配。不同于专利数据,这两个库有较多重合指标,这些指标都可用于辅助匹配。此外,我们还可以根据工商库整理出更为完整的企业历史名称清[9],提高两个库的匹配率。大致匹配步骤为:① 将工企库中的组织机构代码与工商库处理后的统一社会信用代码进行匹配;② 将工企库中的企业名称与工商库中的企业历史名称进行匹配;③ 将工企库和工商库中的工商注册号进行匹配;④ 将工企库和工商库中的企业成立年月、行政区划代码、法定代表人进行匹配;⑤ 将工企库和工商库中的企业所在地邮政编码与电话号码进行匹配。详细匹配过程参见社科大数据公众号推送的《企业数据库匹配系列(一)工企库与工商库匹配报告》

企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)

企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)

公众号对话框内发送关键词“20220817”即可获取工企库与工商库匹配报告PDF版。

其次,对通过工商库整理的企业历史名称清单,与专利申请人名称进行企业名称清洗,然后基于企业名称将专利库与工商库进行匹配,从而为专利库匹配上工商库唯一识别的企业ID。(未来我们将在社科大数据公众号上推送更为详细的《专利库与工商库匹配报告》)。
最后,将专利库与工企库进行匹配。我们为工企库中的工业企业匹配对应的工商库中的企业ID,同时为专利库中的企业申请人匹配工商库中的企业ID,通过工商库中的企业ID,实现工企库与专利库的匹配。
我们以“四川康达建材工业(集团)公司”为例,对这种方法的作用做简单介绍。如表3所示,工企库中的“国营四川省威远县康达实业总公司”的组织机构代码是“206702729”,这与工商库中的“四川康达建材工业(集团)公司”从其统一社会信用代码中提取的组织机构代码相一[10]。因此,通过统一社会信用代码(组织机构代码),我们可以将工企库中的“国营四川省威远县康达实业总公司”与工商库中“四川康达建材工业(集团)公司”相匹配。进而通过企业名称,将工商库中“四川康达建材工业(集团)公司”与专利库中的“四川康达建材工业(集团)公司”相匹配。更多案例可参见表3。

表3 通过工商数据实现专利库与工企库匹配的案例

3匹配结果的比较

对比各版本专利库和工企库的差异

考虑到匹配结果的差异不仅取决于匹配方法的优劣,也可能由所用专利库和工企库版本的差异造成。因此,在比较匹配结果之前,我们需要先对比各版本专利库和工企库的差异。
我们在表4中列出了本文和Xie&Zhang(2015)、He et al.(2018)、寇宗来和刘学悦(2020)所使用专利库的基本情况,并根据每篇文章的统计口径,用本文的专利数据重新进行了统计。对比发现,本文所用专利数据的统计结果与文献公布的数据量无明显差异。在不同口径下,本文统计的发明专利(含未授权)、实用新型和外观设计专利的数据量与上述三篇文献公布的专利数量相差不超过5%。需要指出的是,发明专利在公开后需进行实质审查,审查通过以后,方可获得授权。因此,专利数据的更新时间必然会影响发明专利的授权数量。故本文与寇宗来和刘学悦(2020)关于发明专利授权数的统计结果相差甚大(约24.5万条),主要由二者所用专利数据的更新时间不同所致。

表4 部分代表性研究所用专利数据基本情况对比

表5第(5)-(7)列分别展示了本文和He et al.(2018)、寇宗来和刘学悦(2020)所使用工企库的情况,第(8)列则是国家统计局官方公布的1998-2013年的工业企业数量。对比发现,除2009年以外,本文所使用的工企数据统计结果与国家统计局和2篇文献资料公布的工业企业数量非常相近。

表5 不同匹配结果的对比

比较匹配结果

如表4和表5第(5)-(8)列所示,本文所使用的专利库和工企库与Xie&Zhang(2015)、He et al.(2018)、寇宗来和刘学悦(2020)3篇文献所用数据无明显差异。因此,匹配结果的差异主要取决于匹配方法的优劣。表5第(1)-(4)列分别展示了本文和Xie&Zhang(2015)、He et al.(2018)、寇宗来和刘学悦(2020)这3篇文章的匹配结果。
表6第(1)-(3)列分别是本文各个步骤(企业全称精确匹配、企业名称主干匹配和利用工商库补充匹配)的匹配结果,第(4)列是本文最终的匹配结果(与表5第(1)列相一致)。第(5)-(8)列是寇宗来和刘学悦(2020)的匹配结果。总体而言,1998-2009年本文的匹配率要略低于寇宗来和刘学悦(2020),而2011-2013年本文的匹配率则更高。然而,寇宗来和刘学悦(2020)同时采用了精确匹配和模糊匹配的方法,而本文则仅采用精确匹配。相对而言,本文的匹配结果会更加可靠。如果不考虑寇宗来和刘学悦(2020)的模糊匹配结果,其仅保留企业全称和企业简称的匹配结果见第(9)列。对比(4)和(9)发现,本文的精确匹配率要明显高于寇宗来和刘学悦(2020)。

表6 分项匹配结果的对比

Part4结论

本文在详细回顾已有文献关于专利库与工企库匹配策略的基础上,利用理论上包含中国大陆境内所有企业工商注册信息的中国全量工商企业数据库,提出了一整套实现专利库与工企库更准确匹配的方案。结果表明,不考虑准确率存疑的模糊匹配,本文的匹配精度与匹配完整性更高,从而为学界提供一套新的专利库与工企库的匹配结果。
本文所提供的数据匹配方案可为包括专利库与工企库匹配以外的中国企业数据库的跨数据库横向匹配提供一套行之有效的、可供借鉴的匹配方案。本文的研究表明,不考虑提供更多的企业信息,工商库也能够为传统的工企库与专利库匹配提供帮助,围绕工商库的开发能够提高各个企业数据库之间的匹配效能,有利于充分挖掘现有企业数据库的开发价值。

注释


[5]

在同一专利有多个专利申请人的情况下,我们将排在第一位的专利申请人称之为“主专利申请人”,其余称之为“其他专利申请人”。

[6]

根据“专利申请人类型”指标,可将专利申请人进一步划分为自然人(个人)和机构两类,后者包括企业、事业单位、个体工商户和其他组织机构。

[7]

事实上,我们也可以通过与事业单位在线(http://www.gjsy.gov.cn/)的相关信息进行比对,来判断专利申请人是否属于事业单位,进而剔除事业单位申请的专利。但综合考虑剔除事业单位申请的专利所需要的数据采集成本,以及保留这部分专利所带来的计算机运算压力,我们权衡之后最终选择了保留。

[8]

这里之所以不剔除企业名称中含有的县一级地址信息,是因为部分企业名称的主干部分含县一级地址信息。以“湖南省白云商贸有限公司”为例,其主干部分的“白云商贸”含广州市白云区的“白云”二字。

[9]

理论上来看,企业名称的变更需要在工商部门(即现在的市场监管部门)做变更登记。所以我们根据工商库整理的企业历史名称清单按理说是完整的。: 9

[10]

统一社会信用代码第9-17位为组织机构代码。“四川康达建材工业(集团)公司”的统一社会信用代码是“91511024206702729G”,对应的组织机构代码为“206702729”。

参考文献

[1] Griliches Zvi. Patent Statistics as Economic Indicators:A Survey [J]. Journal of Economic Literature,1990,12:16—61.

[2] Xie,Z.,and X.Zhang. The patterns of patents in China [J]. China Economic Journal,2015,8(2):122—142.

[3] He,Z.,T.W.Tong,Y.Zhang,and W.He. A Database Linking Chinese Patents to China’s Census Firms [J]. Scientific Data,2018,5:180042.

[4] 周煊,程立茹,王皓.技术创新水平越高企业财务绩效越好吗?——基于16年中国制药上市公司专利申请数据的实证研究[J].金融研究,2012(08):166-179.

[5] 寇宗来,刘学悦.中国企业的专利行为:特征事实以及来自创新政策的影响[J].经济研究,2020,55(03):83-99.

附录

附表1是“四川康达建材工业(集团)公司”在工企库中的基本情况,附表2是“四川康达建材工业(集团)公司”在1998-2013年期间的专利申请情况。如果只是基于企业名称的逐年匹配,我们将很难实现1998年工企库中的“国营四川省威远县康达实业总公司”与“四川康达建材工业(集团)公司”在1998年申请的专利的匹配。前者经过清理得到的企业全称是“国营四川省威远县康达实业总公司”,企业名称主干为“国营康达实业”;后者经过清理得到的企业全称为“四川康达建材工业集团公司”,企业名称主干为“康达建材工业”。无论是通过企业全称还是企业名称主干,都无法将这两个名称联系起来。

附表1 “四川康达建材工业(集团)公司”在工企库中的基本情况

然而,采用ever-match匹配方法,可以很好地解决这一难题。ever-match匹配方法用组织机构代码来识别不同年份的工业企业。根据附表1可知,“国营四川省威远县康达实业总公司”在1999年和2000年更名为“四川康达建材工业(集团)公司”,组织机构代码为“206702729”保持不变。采用ever-match匹配方法,多年合并匹配,就可以轻松实现两个数据库的匹配。

附表2 “四川康达建材工业(集团)公司”在1998-2013年期间的专利申请情况



系列推文
企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)
企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)
企业数据库匹配系列(二)| 用文本相似度算法为中国工业企业数据库筛选重复样本
企业数据库匹配系列(三)|专利库与工企库匹配报告(上)
学术RA丨如何用机构代码唯一识别企业(科普篇)
学术RA | 如何用机构代码唯一识别企业(实践篇)
关于数据匹配与数据清洗,您有任何想要交流的,欢迎加入
企研·社科大数据平台数据分享群




推荐关注


END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


企业数据库匹配系列(三)|专利库与工企库匹配报告(上)

成绩报告单 | CCAD再传佳音!企研数据再助学者发文

科研小工具|工作论文版本多,怎么比对差异?

企业数据库匹配系列(二)| 用文本相似度算法为中国工业企业数据库筛选重复样本

企业数据库匹配系列(一)| 工企库与工商库匹配报告(下)

企业数据库匹配系列(一)| 工企库与工商库匹配报告(上)

CCAD | 赠送相关数据!2022教育部课题公示:“三农”立项课题有哪些?



戳原文,更有料

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存