查看原文
其他

数据清理 | 如何用机构代码唯一识别企业(实践篇)

一队火枪手 数据Seminar 2022-12-31






上篇文章《数据清理丨如何用机构代码唯一识别企业(科普篇)》(点击回顾)详细介绍了过去我国存在的6种常见的机构代码(工商注册号、事业单位证书号、社会组织登记号、组织机构代码、机构信用代码、纳税人识别号)以及目前推行的统一社会信用代码。在统一社会信用代码推行之前,为方便部门内部管理,工商局、事业单位登记管理局、税务局等不同部门按照各自的编制规则,对所管辖的机构主体赋予特定的机构代码。也正因各部门机构代码编制规范的不同,致使跨部门的数据使用存在一定的壁垒。幸运的是,尽管各部门所使用的机构代码不可直接用于匹配,但各机构代码之间仍存在一定的联系。在熟悉各机构代码编制规范的基础上,我们可以通过代码间的内在联系,实现跨部门数据的融合匹配。

考虑到目前学者使用到的数据库主要包括工商库、工业库、海关库、专利库,以下将着重介绍机构代码在上述四个数据库之间企业的匹配情况。此外,由于不同数据库的匹配工作是一项相对复杂的大工程,限于篇幅,本文仅说明机构代码匹配法在不同数据库之间匹配的可行性,更为细致的匹配过程敬请持续关注我们






一、企业名称匹配法存在的不足



在使用机构代码匹配之前,首先来讲讲最传统的匹配方法——企业名称匹配法。以企业名称进行匹配的逻辑较为简单,即在不同数据库中挑选出相同名称的企业名进行匹配,若两者企业名称完全一致,则匹配成功。
不过,由于企业名称在不同的数据库之间存在着很大的差异,会导致匹配过程会进行得异常困难,也会影响匹配结果的准确度。以笔者最近匹配城西科创大走廊企业信息为例,以下为使用企业名称匹配方法可能会遇到的困难(具体解决办法此文不予深究)。
  • 企业名称格式

企业名称格式问题又分为数据存储格式问题、企业名称填报或登记存在的原因。
前者处理的方法较为简易,只需要将匹配库与目标库存储格式调成相同并可读的格式即可。后者处理难度相对较大,主要的问题在于企业名称之间的格式千奇百怪(很多你以为的不会存在的,它真的也会存在!)。举例来讲,企业名称存在空格或不合法的字符、企业名称中包含的括号格式不一致(中英文、圆角半角)、企业名称中存在漏字或繁简体的问题。因此,在匹配之前需要将企业名称统一进行标准化操作。
  • 企业名称变更

企业由于自身发展、兼并收购、拆分业务等种种原因会产生更名的需求。因此,一家你昨天看到的企业也许今天就不复“存在”了,尽管它只换了一个马甲。在企业匹配上,企业名称变更将会使匹配难度成倍增大,进而给整个匹配工作带来数以倍计的工作量。不管你愿不愿意,如果使用企业名称进行匹配,因为企业变更名称带来的痛苦是无法逃避的。
(1)单个企业变更企业名称
为更加形象地描述此问题,以物化企业 A 为例。假设目前有一家企业叫 A ,成立于2018年,成立之初名称为 S,2019年公司申请变更企业名称为 Z,2020年企业因为某种原因再次变更名称。因此对于 A 企业而言,其企业名称的变化历程为“S-->Z-->A”。
同一个企业主体在其存续期间,存在多个名称的情况较为常见,一般而言以两个、三个企业名的情况居多。由于不同数据库的截断时间不一,加之不同部门的登记、修改并不完全及时,导致了数据库之间同一家企业可能存在多个企业名称的情况。
以目前数据库的状态而言,工业库年份为 1998-2013 年,因此企业曾用名出现的概率较高,且不说与其他数据库的匹配,即使是工业库自身匹配构建成面板数据(即纵向匹配),也会存在一家企业先后名称不同的问题;而工商库、海关库、专利库尽管可以做到实时更新,但由于截止时间的不同,企业名称也难以完全只以企业现用名出现。
(2)多个企业变更名称
多个企业变更名称的情况可以按以下方式呈现:
企业 A 变更企业名称成B,即:A-->B;
企业 C 变更企业名称成A,即:C-->A
此处 C 变更成 A 需要上面A企业变更成 B 之后进行。显然,A 名称是造成匹配难度的罪魁祸首!原因是名称 B 与 C 我们都可以清晰地确认出其最终指向的是哪家企业,而对于 A 企业名,如果没有其他附加条件进行辅助判断,在很多时候是无法确认出它到底指向的是哪家企业!
  • 企业名称不完全相同

由于不同部门之间存在着信息孤岛的问题,加之过往企业信息是存入纸质文档再经人工填报或录入系统,缺乏审核机制,因此企业名称的少填、错填、误填的问题就在所难免,这就导致了即使是同一时期的企业名称,在不同数据库中也存在不完全相同的情况。
ps:以上是笔者在匹配杭州城西科创走廊企业遇到的一些问题。当然,以上仅为最常见的两个因企业名称变更遇到的问题。常言道人生处处是精彩,各位读者如有兴趣,可以尝试自行匹配看看。



二、机构代码匹配法的理论依据及优劣势



正因为使用企业名称匹配法面临着种种困难,使得不同数据库的匹配工作既耗时又费力,往往结果也会出现意想不到的差错,而机构代码的出现似乎为数据库的匹配工作带来了曙光。



(1)机构代码匹配的理论依据


第一,理论上机构代码基本可以覆盖具体库下的全部企业,这就为不同库之间的匹配提供了最基本的可能性;第二,由于组织机构代码、统一社会信用代码的编制及赋码规则,使得企业与代码可以实现一一对应的目标(事实上,在实际匹配过程中,还是存在一对多的情况存在,即一家企业有多个机构代码),这就为不同库之间的匹配提供了理论基础;第三,针对统一社会信用代码与组织机构代码而言,统一社会代码的设计理念就考虑到了与其他代码的兼容性与延续性,第四部分主体标识码采用的即是组织机构代码,这同样为横向、纵向匹配提供了可能。




(2)机构代码匹配的优势


相比于企业名称匹配法,利用机构代码来匹配不同库之间的数据有着得天独厚的优势。
1、匹配准确率可以大幅提高。企业名称匹配法由于时间的推移会导致企业名称变更、不同库时间节点不一带来的种种问题,而使用机构代码匹配方法则可以在理论上完全规避这些问题。由于在设计之初,代码就赋予了其各自的含义,也确保了代码的唯一性,使得机构代码匹配可以克服由于时间不一致带来的种种问题,甚至可以在匹配完成之后对结果予以验证。显然,利用机构代码匹配可以提升匹配准确率。
2、降低工作量,匹配效率提升。一家企业前后更名并不会导致企业机构代码的变更,因此利用机构代码的匹配可以大大缩减标准化企业名称、以及处理企业名称匹配结果所花费的时间。对于动辄千万级别的数据库而言,这一方法带来的效率是显而易见的。



(3)机构代码匹配的不足


尽管如上面所言,机构代码在匹配过程中可以大为改善匹配结果准确率以及提升匹配效率,但使用机构代码匹配方法仍然不能完全胜任整个匹配工作。
1、不同数据库的机构代码并不统一。2015年10月,工商部门开始正式推行统一社会信用代码的填报制度,目前统一社会信用代码基本覆盖了工商企业;海关总署则是在2016年3月增加了统一社会信用代码填制项,两个月后明确实施统一社会信用代码,当前海关企业信用注册信息中统一社会信用代码已经在列;而国家知识产权局在当前披露的专利申请文件中并未展示任何机构代码,尽管其在2017年12月在专利审批中增加了申请人统一社会信用代码一栏;至于工业库,由于本身年份仅为1998年~2013年,统一社会信用代码自然不在其中,幸运的是,组织机构代码的编制规则与统一社会信用代码存在延续性,因此也可以为我们所用。
2、代码尚不能完全覆盖数据,还需沿用企业名称等其他信息作为补充匹配。以工商库为例,统一社会信用代码正式实施是在2015年10月,在该日期之前注吊销的企业工商管理部门就不再予以赋码,因此在工商库中会存在一部分企业统一社会信用代码是缺失的。显然,即使使用统一社会信用代码作为匹配的桥梁,同样无法实现全部匹配成功的目标。这种情况下,仍需要结合企业名称等其他信息作为补充匹配方案。




三、常用数据库机构代码情况



以下重点介绍工商库、海关库、工业库、专利库四个库的机构代码情况。



(1)工商库:统一社会信用代码


2015年10月《法人和其他组织统一社会信用代码编码规则》正式实施,企业开始以统一社会信用代码和相关基本信息作为其身份证明。以2020年5月15日全量工商企业数据库(含注吊销)为统计对象,下图为其具体的存缺情况。

注:工商库数据来源为国家企业信息公示系统,由企研数据整理提供;图中所有比例均为与全量工商企业数之比。
总体来看,统一社会信用代码在企业的覆盖率达到了70.78%。随着时间的推移,这一数据将会越来越高,不过由于死亡企业的存在,无法达到100%。
分企业状态来看,在存续企业中,统一社会信用代码的覆盖率达到了95.93%。而在死亡企业中,统一社会信用代码缺失的情况较为普遍,比率达到了70.45%,主要原因是由于统一社会信用代码是在2015年10月后才正式实施,之前注销或是吊销的企业不再对其赋码。
尽管工商库中统一社会信用代码目前总体覆盖率还不够高,但辅以工商注册号、纳税人识别号、企业曾用名(我司前期已完成的一大工作即是建立企业曾用名拉链表,目的用于不同数据库或不同表格之间的匹配)等其他信息,工商库对内对外的匹配仍然可以进行得较为顺利。




(2)海关库:海关注册码、组织机构代码、统一社会信用代码


2015年9月29日,海关总署发布了海关实施统一社会信用代码的公告。
2016年3月,海关总署修订进出口报关单填制要求时,增加了18位统一社会信用代码填制项。
2016年5月11日,海关总署发布《关于实施法人和其他组织统一社会信用代码制度有关事宜的公告》,进一步明确了海关实施统一社会信用代码有关事宜。根据公告:“已经取得统一社会信用代码的企业,在海关办理报关单位注册登记后,可以使用统一社会信用代码替代海关注册编码,向海关办理进出口货物报关单申报手续。尚未取得统一社会信用代码的企业,继续使用海关注册编码办理进出口申报手续。
2019年1月22日,海关总署发布了关于修订《中华人民共和国海关进出口货物报关单填制规范》的公告,在文件中对境内收发货人的编码进行了规定:编码填报18位法人和其他组织统一社会信用代码,没有统一社会信用代码的,填报其在海关的备案编码

注:截图自中国海关企业进出口信用信息平台

以我司 2017 年的数据为统计样本,其海关注册信用信息中存在统一社会信用代码、组织机构代码、海关注册码(详细介绍请见文末附文),其存缺情况如下图所示。

注:海关库数据来源为中华人民共和国海关总署

可以看到,组织机构代码、海关注册码都没有缺失记录, 因此可以很好地作为与其他数据库匹配的桥梁。统一社会信用代码虽然存在缺失情况,但仍具有验证匹配结果是否准确的作用。




(3)工业库:组织机构代码


目前学术界常用的中国工业企业数据库的年份为1998-2013年。在已有字段中,存在组织机构代码的信息。经统计,历年数据统计情况如下表。

注:工业库数据来源为国家统计局

工业库样本数据存在浮动是由于不同年份规模以上工业企业的统计口径上存在差异,根据统计局官网显示,其中1998-2006年是指全部国有和年主营业务收入500万元及以上的非国有企业;2007-2010年调整为年主营业务收入500万元及以上的工业企业;2011年开始至今则为年主营业务收入2000万元及以上的法人单位。
可以看到,除去2008年、2009年,组织机构代码的缺失率全部为 0,这为工业库与其他数据库的横向匹配提供了很好的基础。对于2008年、2009年,尽管组织机构代码的缺失情况较为严重,但是结合企业名称、企业所在地行政区划代码、甚至是企业法人代表等信息,依然能够完成较为成功的匹配(对于工业库与工商库的匹配工作,我司早在2018年就已基本完成)。



(4)专利库:尚未公示机构代码


2017年12月,国家知识产权局根据国务院发布的《关于加快推进“五证合一、一照一码”登记制度改革的通知》,在专利审批中增加了申请人统一社会信用代码一栏,共计对22张请求类表格和1张集成电路布图设计登记申请表做出了适应性调整。
不过,目前在国家知识产权局下的专利检索及分析平台上,我们尚未发现统一社会信用代码的信息。因此对于专利库与其他库之间的匹配,仍需要借助企业名称的匹配方法来进行处理。

截图自国家知识产权局专利检索及分析平台,可以看到并未展示任何机构代码



附:海关注册号



海关注册号,即海关注册码,是报关单位《进出口货物收发货人报关注册登记证书》上的10位数字,是企业唯一的和终身的经营单位编码。与统一社会信用代码、组织机构代码等代码一样,海关注册号同样有自己的编制规则。
  • 第 1-4 位:进出口单位属地的行政区划分代码

    第1、2位数表示省、自治区、直辖市,如北京市为11,浙江省为33;
    第3、4位数表示省辖市(地区,省直辖市行政单位),如第3、4位用90的,则表示未列入名的省直辖市行政单位。
  • 第5位:经济区域代码

    1:表示经济特区;
    2:表示经济技术开发区和上海浦东新区,海南洋浦经济开发区;
    3:表示高新技术产业开发区;
    4:表示保税区;
    5:表示出口加工区;
    9:表示其他。
  • 第6位数为进出口企业经济类型代码

    1:表示有进出口经营权的国有企业;
    2:表示中外合作企业;
    3:表示中外合资的企业;
    4:表示外商独资企业;
    5:表示有进出口经营权的集体企业;
    6:表示有进出口经营权的私营企业;
    7:表示有进出口经营权的个体工商户;
    8:表示有报关权而没有进出口经营权的企业;
    9:表示其他,包括外国驻华企事业机构,外国驻华使馆和临时有进出口经营权的单位。
    加工企业中分为A、B、C,A代表从事对外加工的国营企业;B代表从事对外加工的集体企业;C代表从事对外加工的私营企业。
  • 第7-10位数为顺序编号




参考资料:

海关总署公告2015年第46号(关于实施法人和其他组织统一社会信用代码有关事项的公告)

http://www.customs.gov.cn/customs/302249/302266/302267/356241/index.html

海关总署公告2016年第32号(关于实施法人和其他组织统一社会信用代码制度有关事宜的公告)

http://www.customs.gov.cn/customs/302249/302266/302267/356323/index.html

海关总署关于修订《中华人民共和国海关进出口货物报关单填制规范》的公告

http://www.customs.gov.cn/customs/302249/zfxxgk/gkml287/index.html?callbackUrl=/tabid/1165/InfoID/33454/Default.aspx

关于公布专利(申请)相关表格的通知
http://www.sipo.gov.cn/zhfwpt/zhfwpttzgg/1113377.htm



·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击阅读原文,进入新型农业经营主体大数据库




点击搜索你感兴趣的内容吧

往期推荐

大数据应用丨马修·杰克逊:经济学理论在设计和大数据时代的作用

老姚专栏丨检验统计量的设计逻辑

因果推断丨断点回归:3篇中文综述和介绍

专题报告丨城西科创大走廊 明星企业巡礼

老姚专栏丨正态假定检验真的不重要吗?

免费数据资源丨新基建系列(三)——充电桩专题数据库(文末有免费数据资源)

免费数据资源丨新基建系列四--工业互联网专题数据库(文末有免费数据资源)







数据Seminar




这里是大数据、分析技术与学术研究的三叉路口




文:威武哥(叶武威)审阅:杨奇明

排版编辑:青酱




    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存