数据评述|588 万条中国大陆企业注册信息数据(注意,这个数据是不全的!)

 

最近在 GitHub 上发现了一个很有意思的项目:Enterprise-Registration-Data-of-Chinese-Mainland(链接:https://github.com/kinginsun/Enterprise-Registration-Data-of-Chinese-Mainland,可以自行下载),里面存放了 1978 年至 2019 年 4 月份每年每个省的部分公司注册信息,按照作者的描述,该数据最初由 @imhuster(Github 主页:https://github.com/imhuster/) 整理,但作者随后删除了整个仓库,原因不明。由于该数据无法溯及来源,请大家谨慎选择是否使用。

该数据是否全呢?根据 2020 年中国统计年鉴的数据,截止 2019 年,全国共有 2109 万个企业法人,另外来源于市场监管总局的数据表明仅 2018 年全国新增企业就有 670 万户,所以这份数据(仅有 588.9 万条公司注册数据)是不完整的,请勿将此数据作为完整数据使用,不过仍然有一定的价值。

仓库里的数据分年份和省份保存在 1245 个 csv 文件中,使用下面的代码可以把这些文件合并起来:

library(tidyverse)
library(fs)
dir_ls('Enterprise-Registration-Data-of-Chinese-Mainland/csv/', recurse = T, regexp = "[.]csv$") %>% 
  as.character() %>% 
  as_tibble() %>% 
  mutate(detail = map(value, function(x){
    read_csv(x, col_types = cols(.default = col_character()))
  })) %>% 
  mutate(value = str_remove_all(value, "/Users/ac/Desktop/Enterprise-Registration-Data-of-Chinese-Mainland/csv/")) %>% 
  unnest(detail) %>% 
  mutate(年份 = str_match(value, "\\d+")[,1]) %>% 
  mutate(省份 = str_match(value, "\\/(.*)\\.csv")[,2]) %>% 
  select(年份, 省份, everything()) %>% 
  select(-value) -> df
  
df
#> # A tibble: 5,888,641 x 12
#>    年份  省份  企业名称 统一社会信用代码 注册日期
#>    <chr> <chr> <chr>    <chr>            <chr>   
#>  1 1978  吉林  吉林市物资回收… 91220201MA13XBH… 1978-07…
#>  2 1978  吉林  吉林华翰印务有… 91220101MA13XQY… 1978-12…
#>  3 1978  四川  绵阳市驰衡小汽… 915107032054510… 1978-01…
#>  4 1978  四川  达州市通川区塑… 91511702MA6CK8P… 1978-02…
#>  5 1978  四川  自贡市乡镇企业… 915103002039955… 1978-05…
#>  6 1978  四川  中国邮政集团公… 915133007091023… 1978-06…
#>  7 1978  四川  安岳县自来水公… 915120212066509… 1978-08…
#>  8 1978  四川  自贡市自流井区… 915103022042039… 1978-08…
#>  9 1978  四川  中国建设银行股… 915133006215100… 1978-10…
#> 10 1978  四川  自贡凉高山水泵… 915103042041508… 1978-11…
#> # … with 5,888,631 more rows, and 7 more
#> #   variables: 企业类型 <chr>, 法人代表 <chr>,
#> #   注册资金 <chr>, 经营范围 <chr>,
#> #   所在省份 <chr>, 地区 <chr>, 注册地址 <chr>

合并之后可以得到了 5,888,641 个观测值和 12 个变量:

  • 年份
  • 省份
  • 企业名称
  • 统一社会信用代码
  • 注册日期
  • 企业类型
  • 法人代表
  • 注册资金
  • 经营范围
  • 所在省份
  • 地区
  • 注册地址

为了让大家直观的感受这份数据,下图展示了该数据中各个每个省份各个年份的注册公司数量变换:

生物医学科研方法

胖子更有可能搞出学术不端?Nature集团:撤稿!

2021-1-18 8:14:45

生物医学科研方法

免费领!2021国自然标书撰写工具包,助你提升90%中标率

2021-1-18 8:55:14