企研数据处理工作论文系列集锦

数据Seminar 2024-03-13

点击 [数据Seminar] → 点击右上角 [...] → 选 [设为星标]不迷路！

本文内容来源于【社科大数据】公众号

企研数据处理工作论文系列

在当前这个信息泛滥的时代，及时、可靠和尽量精准的数据对我们获取知识、理解现实和解决问题变得越来越关键。这催生了一批面对政商学、产学研各个领域专业数据服务公司。企研数据专注社科领域的专业数据库研发和建设服务，是国内较早将全量工商注册企业数据应用于科研领域的专业公司。公司于2018年正式成立之后，我们尝试用这份理论上包含中国所有企业基本信息的数据库，深度探索了其在规模以上工业企业数据库、海关数据库、专利数据库等的纵向和横向匹配方面的应用价值，形成的研究报告免费分享在公众号上，读者可以在企研·学习专区下载工作论文形式的pdf文件，网址为：https://xue.qiyandata.com/（以下是截图）。

图片来源：企研·学习专区 xue.qiyandata.com

Part1数据质量检测

2014年中国工业企业数据库质量调查报告

摘要：目前，在学界广为流传的中国工业统计数据库时间跨度为 1998 年到 2013 年，从该数据库面世伊始，对数据库质量进行校验就是开展各类研究不可避免的第一道关卡。在此背景下，本文通过与官方统计数据进行对比、法人代码是否重复、对比工业库往年数据以及检查资本项和资本结构等五步骤，对网络上新公开的 2014 年工业库进行质量检查，发现2014 年工业库数据存在明显异常，但无法确定其是一份虚假数据

2015年中国工业企业数据库质量调查报告

摘要：对工业库进行质量检查是利用其进行研究的必要之举，受限于 2015 年工业库字段，本文采用与对比官方公布的数据量以及分析资本项与资本结构等三种方法，对 2015 年工业库数据进行了初步的质量调查。研究发现 2015 年数据质量要略高于 2014 年，不过整体质量一般，考虑到这是一份“二手”数据，学者在利用该数据进行研究，仍有必要做进一步判断。

质量检测｜论数据质量差异的显著性

摘要：“为什么有些网站都已经开始限时免费分享全国工商数据了，企研数据还要卖这么贵，而且还不允许全量数据下载到个人电脑上，只能在云桌面上使用？”一位热心粉丝对企研数据提了这样一个问题，并提供了自己的数据分析结果。基于粉丝提供的材料，企研数据团队对比了不同来源的数据，结果发现，两者在数据量上相差悬殊，这样的差距也揭示了明显的结论。

质量检测 | 对一份中国工商企业注册数据库的质量考察

摘要：本文试图利用企研数据掌握并运营多年的全量工商企业注册数据库以及一些国家市场监管部门公开发布的统计数据，对一份原始出处不明的中国全量工商企业数据集的质量进行考察。主要将从数据量和数据质量两个方面展开，以期帮助读者更好地选择和使用数据。

Part2数据库匹配报告

摘要：工企库是经济社会领域学者使用最为广泛的数据库之一，将其自身纵向匹配以形成面板数据、与其他数据库横向匹配以获得更多数据资源是不少研究的必要基础和前提支撑，因此如何提升匹配准确度也就成为研究工企库的重要课题之一。本文在充分借鉴前人匹配方法的基础上，在对数据库进行必要的清洗后，创新性的引入工商库，通过组织机构代码、企业名称、工商注册号、“企业成立时间+行政区划+法定代表人姓名”、“邮编+电话”等匹配方法可获取到企业唯一识别码，利用该唯一识别码可有效提升工企库的横向、纵向匹配效率和准确率。最终匹配结果总体呈现出逐年上升的态势，由 1998 年的 64.93%逐步上升至 2013 年的 98.72%。

摘要：本文从专利库与工企库匹配的核心识别变量处理、匹配思路、流程设计和算法选择几个方面，对已有研究所采用方法进行梳理总结，探讨优劣。通过利弊权衡，本文最终选择采用逐年匹配的方法，按照先“企业全称”精确匹配、后“企业简称”精确匹配的匹配流程。并在此基础上，创造性地借助中国全量企业工商登记注册数据库，对专利库与工企库直接匹配的结果进行补充，以解决企业名称书写错误和名称变更导致漏匹的问题。本文不仅为学界提供了一套新的专利库与工企库的匹配结果，更为中国企业数据库的跨数据库横向匹配提供了一套行之有效的、可供借鉴的匹配方案。

摘要：海关库与工商库的匹配，一方面能为广大学者提供更加丰富的数据变量，另一方面也能拓宽学者的研究视角。本文首先对海关库进行必要的数据清理，随后利用组织机构代码与企业名称两个变量，将来源不同的两个版本海关库与工商库进行匹配。结果发现，版本 1 的匹配率自 2000 年的 91.49%螺旋上升至 2013 年的 99.65%；版本 2 的匹配率除 2015 年为 90.36%，其余年份（2007-2014 年，2016 年）均在 97%以上。

中国海关数据库与中国工业企业数据库匹配报告

摘要：海关库与工企库均为学术领域十分重要的数据库，两者为多学科领域的研究提供了必要的数据支撑。随着研究的不断深入，两个数据库的交叉融合显得十分必要。为了尽可能科学、准确、高效地完成匹配工作，本文利用已匹配好企业唯一识别码的海关库与工企库，以企业唯一识别码为主要匹配介质，辅以组织机构代码、企业名称、邮编+电话号码后 7 位等三种方法，将两个数据库进行一对一匹配。结果发现，成功匹配的数据中，基本在第一步利用企业唯一识别码匹配就已完成，改进后的匹配方法也有效提升了匹配率。

摘要：本文通过将中国专利数据库（以下简称“专利数据”）与中国全量工商企业注册数据库（以下简称“工商数据”）进行横向匹配，构建完整的“中国全量企业专利数据库”。相较于其他学者通过专利数据与中国规模以上工业企业数据库（简称“工企数据”）匹配得到的“中国规上工业企业专利数据库”，本文所构建的“中国全量企业专利数据库”涵盖了中国不同所有制，所有规模企业的专利信息，能够更加全面地刻画中国企业的专利创新。

Part3数据治理

如何用机构代码唯一识别企业（科普篇）

摘要：追根溯源并剖析我国统一社会信用代码，有助于我们更深刻理解社会信用代码推进的必要性，以及更好地将其应用于日常研究活动中。本文将着重介绍我国各类机构使用过的代码以及现目前大力推行的统一社会信用代码。

如何用机构代码唯一识别企业（实践篇）

摘要：本文将着重介绍机构代码在工商库、工业库、海关库、专利库四个数据库之间企业的匹配情况。同时说明机构代码匹配法在不同数据库之间匹配的可行性。

应用文本相似度算法为中国工业企业数据库筛选重复样本

摘要：本文将综合企业名称是否高度相似、财务数据是否相同和组织机构代码是否相同三个方面的分析，来最终确定两个企业样本是否高度相似。

星标⭐我们不迷路！想要文章及时到，文末“在看”少不了！

点击搜索你感兴趣的内容吧

往期推荐

公告 | 【数据Seminar】Python原创推文更新频率调整

Python 教学 | Python 学习路线+经验分享，新手必看！

数据可视化 | 3D 柱状图一览各省农民合作社存量近十年变化

数据可视化 | 用 Python 制作动感十足的动态柱状图

Python 实战 | 进阶中文分词之 HanLP 词典分词（下）

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

文 | 《社科领域大数据治理实务手册》

欢迎扫描👇二维码添加关注

点击下方“阅读全文”了解更多

继续滑动看下一个

数据Seminar

向上滑动看下一个

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

“辣条二哥”直追卫龙，麻辣王子工厂遇洪受关注

企研数据处理工作论文系列集锦

Part1数据质量检测

Part2数据库匹配报告

Part3数据治理

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

“辣条二哥”直追卫龙，麻辣王子工厂遇洪受关注

生成图片，分享到微信朋友圈

企研数据处理工作论文系列集锦

Part1数据质量检测

Part2数据库匹配报告

Part3数据治理

您可能也对以下帖子感兴趣