Rで社会経済データの取得 (Work in progress)
現在では多くの国際機関,研究機関, 政府組織が社会経済データを収集し、データをWeb上に公開、提供しています。 一方,統計解析向けプログラミング言語として人気の高いRのコミュニティにおいては,そうした機関から社会経済データを取得し,分析するための便利なツール(Rパッケージ)が数多く開発されています。こうした2つの変化によってデータ分析のハードルがずい分と低くなってきました。本資料はそうした「共有財産」にアプローチする方法を紹介したものです。
0.1 本資料の目的
本資料1はR(統計解析向けプログラミング言語)2を使って,政府組織,研究機関および国際機関から社会経済データの取得方法を説明することを目的としています。
言うまでもなく,実証研究においてデータの収集と編集はとても重要です。データは個人もしくは組織で一次データを収集することが望ましいことは言うまでもありません。しかし,これには時間も費用もかかります,またマンパワーも必要となります。収集したデータが,分析にまったく適さないということもあるかもしれません。むしろ,そうしたケースが多いかもしれません。データの収集と編集はじっさいの分析よりも,骨の折れる作業かもしれません.
Rには,国際機関,政府機関および研究組織の提供するデータベースからデータを取得するパッケージが多く開発されています。そうしたパッケージを利用すれば,骨の折れる作業がかなり軽減されますし,シームレスかつ再現可能な形でのデータの読み込みが可能となります。そこで本資料では,Rパッケージを使った,経済分析において頻繁に利用される国際機関のデータの取得方法と簡単な利用方法を紹介しています。
本資料のほとんどがデータの取得法の説明と取得したデータの可視化にあてられています。したがってRやRStudio(Rプログラミングの統合開発環境)の使い方にかんしてはそれほど多くのスペースが割かれていません。RとRStudioについては次の文献で補ってください.
Hadley Wickham, et al.『Rではじめるデータサイエンス』(Web翻訳版)
松村優哉他『改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界』
Rを利用したデータ処理には、現在では、tidyverseが欠かせません。1はtidyverseに関するもっとも基本的な文献であり,Rを利用するさいには欠かせないテキストの1つです。2は1の日本バージョンと言えるものです。両方の著書によってR,RStudioを利用したデータ処理の基礎が身に付くことと思います
本資料のいたるところでRパッケージggplot2
を利用して,取得したデータを可視化しています。Rとggplot2を利用した可視化については以下の2つの著書が役に立ちます。
Winston Chang『Rグラフィックスクックブック 第2版―ggplot2によるグラフ作成のレシピ集』
3はggplot2を利用した可視化の方法を学ぶ上で必読文献です。4ももちろんggplot2の説明に多く割かれていますが,同時に可視化についての基本的な考え方を学ぶこともできます。
データをダウンロードするさい,テキストファイル,CSVファイル,Excel,SQLデータベース,独自のデータフォーマット(dta,spss)など,多くの異なるフォーマットから大規模なデータを読み込んだり,書き込んだりしなければならないことがよくあります。そうした異なるデータ形式を扱うにはRが最も適しています。つまり,Rがあれば,ほぼすべてのデータ形式を読み込むことができます。今では多くの国際機関や研究組織によってデータベースが提供されていますが,Rを利用すれば,データの分析までシームレスに―つまりRを離れることなしに―そうしたデータを読み込むことができます。
0.2 社会経済データベース一覧
本資料で紹介される(紹介予定の)データベースと対応するRパッケージは以下の通りです。
データ提供組織 | データベース | Rパッケージ | Rパッケージ出典 |
---|---|---|---|
Groningen Growth and Development Centre | penn world table | pwt10 | Feenstra RC, Inklaar R, Timmer MP (2015). “The Next Generation of the Penn World Table.” American Economic Review, 105(10), 3150-3182.http://www.ggdc.net/pwt/ |
Groningen Growth and Development Centre | The Maddison Project Database | maddison | Eric Persson (2015). maddison: Maddison Project Database. R package version 0.1. https://CRAN.R-project.org/package=maddison |
世界銀行 | World Development Indicator | WDI | Vincent Arel-Bundock (2021). WDI: World Development Indicators and Other World Bank Data. R package version 2.7.4. https://CRAN.R-project.org/package=WDI |
EU統計局 | Eurostat | eurostat | (C) Leo Lahti, Janne Huovari, Markus Kainu, Przemyslaw Biecek.Retrieval and analysis of Eurostat open data with the eurostat package. R Journal 9(1):385-392, 2017. Version 3.7.5 Package URL:http://ropengov.github.io/eurostat Manuscript. URL:https://journal.r-project.org/archive/2017/RJ-2017-019/index.html |
EU | AMECO | ameco | Persson E (2019). ameco: European Commission Annual Macro-Economic (AMECO) Database. R package version 0.2.10, http://github.com/expersso/ameco. |
経済協力開発機構 | OEDCD.Stat | OECD | Eric Persson (2019). OECD: Search and Extract Data from the OECD. Rpackage version 0.2.4.https://CRAN.R-project.org/package=OECD |
国際通貨基金 | IMF Data | imfr | Christopher Gandrud (2020). imfr: Download Data from the International Monetary Fund’s Data API. R package version 0.1.9.1. https://CRAN.R-project.org/package=imfr |
フランス数理経済計画予測研究所 | DBnomics | rdbnomics | Thomas Brand (2020). rdbnomics: Download DBnomics Data. R package version 0.6.4. https://CRAN.R-project.org/package=rdbnomics |
イェーテボリ大学政治学科V-Dem研究所 | Varieties of Democracy(V-Dem) | vdemdata | Seraphine Maerz, Amanda Edgell, Sebastian Hellmeier, Nina Ilchenko.’Vdemdata - an R package to load, explore and work with the most recent V-Dem (Varieties of Democracy) and V-Party datasets’.Varieties of Democracy (V-Dem) Project. 2020.https://www.v-dem.net/en/ and https://github.com/vdeminstitute/vdemdata |
Gothenburg大学QoG研究所 | QoG (Quality ofo Government) Data | rqog | Markus Kainu (2021). rqog: Download data from the Quality of Government Institute data. R package version 0.4.2021. |
Center for Systemic Peace | Polity V | democracyData | Marshall, Monty G., Ted Robert Gurr. 2020. “Polity5: Political Regime Characteristics and Transitions, 1800-2018”. Dataset Users’ Manual. Center for Systemic Peace. Available at http://www.systemicpeace.org/inscr/p5manualv2018.pdf |
EU | Global Innovation Through Company Level Data | iriR | Warin T (2023). iriR: Global Innovation Through Company Level Data. R package version 0.2.2, https://github.com/warint/iriR/. |
ILO | ILO STAT | Rilostat | David Bescond (2024). Rilostat: ILO Open Data via Ilostat Bulk Download Facility. R package version 2.1.0, https://CRAN.R-project.org/package=Rilostat. |
国際産業連関分析用Rパッケージ | exvatools | Feas E (2024). exvatools: Value Added in Exports and Other Input-Output Table Analysis Tools. R package version 0.8.0, https://CRAN.R-project.org/package=exvatools. |
Footnotes
Aguirre・Danielssonは「経済学研究にとってどのプログラミング言語がベストか―Julia, Matlab, PythonそれともRか?」において4つのプログラミング言語の比較をおこなっています. R言語の比較優位については本エッセイを参照してください.↩︎