Published

May 30, 2024

3 ミクロ・データ

ミクロレベルのデータベースとして本資料で取り上げるのは以下の3つのデータベースです。

  1. European Commission’s Industrial R&D Investment Scoreboard: iriR

  2. General Social Survey: gasser

  3. European Social Survey: essurvey

  4. Pew Research: pewmethods

1のデータベースを除き,2~3のデータはサーベイデータです。

3.1 European Commission’s Industrial R&D Investment Scoreboard - iriR

RパッケージiriRによって、欧州委員会の産業R&D投資スコアボード(European Commission’s Industrial R&D Investment Scoreboard: IRI)に簡単にアクセスすることができます。IRIスコアボードは、イノベーションに関する企業レベルのデータをまとめたものです。毎年、世界の上位1,000社が実施した研究開発投資が掲載されています。

このプロジェクトは、欧州委員会の共同研究センター(JRC)の7つの科学機関のうちの1つである成長とイノベーションの部門(Directorate B of Growth and Innovation)で実施されています。

iriRは、そうしたIRIスコアボードのデータへのアクセスを容易にし、毎年のスコアボードを時系列でまとめ、クロスセクション・時系列データセットを提供しています。これによってトップ1,000の革新的企業の一部、あるいは過去に革新的企業であった世界中の7,500以上の革新的企業のデータ-国、年、企業名、産業、指標、企業のランク)にアクセスすることができます。

指標の定義については、EU ScoreBordの報告書The 2022 EU INDUSTRIAL R&D INVESTMENT SCOREBOARDを参照してください。

3.1.1 iriRのインストール

iriRは現在開発版のみ利用可能のようですので開発者のGithubサイトから最新版をインストールします。

install.packages("remotes")
remotes::install_github("warint/iriR") # iriRのインストール

# iriRのロード
library(iriR)

これでiriRが利用可能となります。

3.1.2 iriRの利用方法

IRIスコアボードの提供するデータを取得するするために5つの手順を踏みます:

  • ステップ1 各国のisoコードを取得する

  • ステップ2 指標コードを取得する

  • ステップ3 企業名を取得する

  • ステップ4 産業名を取得する

  • ステップ5 データを取得する

ステップ1 各国のisoコードを取得する

iso国別コードじたいはgoogle等で検索してもすぐに見つけることができますが、iriRパッケージでも提供されています。

# すべての国の名前と3桁のisoコードの出力
irir_country() 

# 特定の国-この例では日本Japan-のisoコードの出力
irir_country(country = "Japan") # The ISO code for Canada will be produced

ステップ2 指標コードを取得する

特定のデータを取得するためには、事前にその指標のコードを知っておく必要があります。このためにirir_indicator()関数を利用します。

# すべての指標のリストを出力する
irir_indicator() 

irir_indicator( )の出力結果はdata.frameですので、出力結果をView( )に渡し、すべての指標を見てみましょう。

irir_indicator() |> 
  View()

これによって以下のような22行×3列のデータフレームが表示されます。すなわち22の変数が収録されていることが理解されます。変数列をみると、indicator_name, indicatro_codeおよびindicator_definitionを確認することができます。それぞれの指標の内容はindicator_nameとindicator_definitionによって理解することができます。たとえば、5行目には”Research and Development(R&D) intensity”の指標を見つけることができます。

irir_indicator()の出力結果

2列目のindicator_codeが特定のデータを取得する際に利用される指標コードになります。また、irir_indicator()関数は特定の検索語を指定して指標を探すこともできます。

# 指標名に"capital"を含んだすべての指標のリストを表示する
irir_indicator(indicators = "capital") 

ステップ3 企業情報を取得する

特定の企業の活動を調べたいときには、irir_company( )関数によって取得することができます。

# データセットに含まれるすべての企業名を出力する
irir_company() 

# 特定の"検索語(ただし企業名)"を含むすべての企業を出力する
irir_company(company = "toyota") 

企業数は6,662社と膨大です。そこでhead( )関数を使って冒頭だけを表示してみましょう。

irir_company() |> 
 head()

これを実行すると、ALPHABET, SAMSUNG ELECTRONICS, MICROSOFTといった企業名が表示されます。なお、irir_company()の引数に企業名を指定することによって特定の企業を探すこともできます。

irir_company(company = "toyota")

ステップ4 産業名を取得する

irir_industry()関数で産業名を取得できます。結果をここでもView()関数に渡しています。主力結果をみると、産業は81産業が収録されています。

# 産業名を取得し、結果をView()に渡し、結果を表示
irir_industry() |> View()

ステップ5 データを取得する

以上のステップで国コード、指標コード、企業名、産業名を取得する方法を理解できたと思います。最後に、こうした情報を使ってデータを取得してみましょう。データの取得のためにはirir_data( )関数を使います。この関数は以下のように6つの引数をとります。引数が指定されない場合はすべてのデータが表示されます。

irir_data(
  country = iri_country,
  years = iri_year,
  indicators = iri_indicator,
  company = iri_company,
  industry = iri_industry,
  ranks = iri_rank
)
  • country = ” ” : 国のisoコードを” “に指定します。

  • year = ” ” : 取得したい年を” “に指定します。

  • indicators = ” ” : ステップ2で取得した指標コードを指定します。

  • company = ” ” : 企業名を” “に入力し、指定します。

  • industry = ” ” : 産業名を指定します。

  • ranks = ” ” : ランクを指定します。

最初に、引数を何も指定せずにirir_data()を実行してみましょう。これによってデータセット全体が取得できます。データが膨大ですので、head()関数を使って最初の6行だけを表示します。

irir_data() |> 
 head()

出力したすべてのデータを、オブジェクトに保存しておくと、のちの分析に便利かもしれません。たとえばdata_iriという名前をつけたオブジェクトに保存しておくとします。

data_iri <- irir_data()

これを実行すると、IRIのデータを格納したdata_iriというオブジェクトが生み出されます。[Environment]ウィンドウをみると、8変数の801,438の観察値が確認できます。

次に、引数を指定し、データを取得してみましょう。

 # 韓国企業"サムスン"の2020年の包括的なIRIデータを取得
 # 指標コード "RD. euro"
irir_data(country = "samsung", years = "2020", indicators = "RD.euro", company = "samsung") 

# 2018年のアメリカとフランスの全産業の企業データを取得
irir_data(country=c("JPN"), years="2018",) 

irir_data(years = "2018") # It generates a data frame of all the companies data for from all the industries for all the countries in 2018.

3.2. 3 可視化 - irir_visual

関数irir_visual( )によって、IRIにおけるイノベーションデータに関して3つのタイプのグラフを描くことができます。

デフォルトではトップ5カ国とカナダのグラフが描かれます。引数を指定することによってグラフを変更することができます。引数chart = ” “部分に”bar_1”と異なったグラフを指定することによってデフォルトのグラフと異なったグラフを描くことができます。

irir_visual(chart = "bar_1")
  • bar_1: 代表的な国についてR&Dのリーディング企業数の棒グラフを描く

  • bar_2: 代表的な国について10億USドル(対GDP)におけるR&Dリーディング企業数の棒グラフを描く

  • bar_3: 代表的な国についてリーディング企業のR&D支出の棒グラフを描く

  • line_1

  • line_2

  • line_3

  • line_4

  • line_5

  • line_6

  • point_1

3.2 General Social Survey – gssr

General Social Survey(GSS)は、現在、アメリカで実施されている全般的な社会調査です。現代のアメリカ社会に関するデータを収集し、これによりアメリカの人々の態度、行動、属性の傾向をモニターできます。GSSは最大80年間のトレンドを追跡することができます。

GSSのGet the Dataではデータはstataおよびspssのフォーマットで提供されています。このためRで利用するためにgssrが開発されています。これは、General Social Surveyの累積データ(1972-2018)と3つのWaveのパネルデータをまとめたデータパッケージです。

gssrは,複数のデータセットを便利な形式にまとめたデータパッケージです.パッケージ内のデータが比較的大きいため、開発者のGithubサイトから直接インストールします.

# gssrのインストール
remotes::install_github("kjhealy/gssr")

# gssrパッケージのロード
library(gssr)

3.2.1 データの読み込み

GSS累積データファイルはサイズが大きいため、パッケージを起動したときにデフォルトでは読み込まれません.データセットを読み込むには、data()関数を使います。

GSSの累積データファイルはgssrに含まれていますが,それは大きくデフォルトではロードされません。この累積データを読み込むためには引数に”gss_all”を指定します。

data("gss_all")

RStudioの[Environment][Data]をみると、72,390の観察値と6,694の変数を有するデータセットgss_allが読み込まれたことが分かります.

変数は膨大であり、これを理解するには簡単ではありません.そのためデータの変数の情報を含んだデータフレームgss_docを読みこましょう.

 data("gss_doc")

3.3 European Social Survey – essurvey

ヨーロッパ社会調査(European Social Survey: ESS)はヨーロッパ全域で実施されている学術的なクロスナショナルな社会調査です.すでに2002年から2018年にかけて2年おきに9回のラウンド(ESS Round 1からESS Round 9)実施されています. ESSは次の表において示されているように幅広いトピックをカバーしています.

R1 (02) R2 (04) R3 (06) R4 (08) R5 (10) R6 (12) R7 (14) R8 (16) R9 (18)
メディアと社会的信頼
主観的厚生
ジェンダー、家計
社会人口統計
人々の価値観
移民
市民参加
保健とケア
経済的道徳心
家族…厚生
生活のタイミング
個人…厚生
福祉に対する態度
高齢化
正義
民主主義
保健の不平等
気候変動に対する態度
正義と公正

注:R1は第1回のラウンド,カッコ内の01は2001年を示す.以下同様.○印は調査が実施されたトピックを示す.

essurveyパッケージは、このヨーロッパ社会調査(ESS)データを簡単にダウンロードできるように開発されたRパッケージです。このパッケージはラウンド(異なる時点での同じ調査を示す)、選択された国のラウンド、どのラウンド/国が利用可能かを表示するためのいくつかのヘルパー関数を持っています。

essurveyパッケージの使い方は簡単です。関数には、import_*show_*という2つの主要なファミリーがあります.これらの関数のおかげでヨーロッパ社会調査(ESS)のウェブサイトにアクセスする必要はほとんどありません.

3.2.1 事前準備-ESSの認証とインストール

3.3.1.1 ESSの認証

ESSを利用するためには事前にアカウントを作成する必要があります.登録ページに入り、アカウントを作成してください。登録が完了したら、メールアカウントにアクセスしてアカウントを認証すると、データにアクセスする準備が整います。essurveyの機能の中には、メールアドレスを必要とするものがあります.

3.3.1.2 essurveyのインストール

install.packages("essurvey")

ESSのデータをダウンロードするには、データをダウンロードするたびにEメールを認証する必要があります。Eメールを環境変数として設定するには、set_emailを使用します.

set_email("自分のメールアドレス")

一度これを実行すると,上の行を削除できます.たとえばimport_*を呼び出した場合、環境変数として保存された電子メールを自動的に探します.

ESSで利用可能な国やラウンドが分からないとします.そうした場合show_* 関数群が役に立ちます.どの国が参加しているかを調べるには、show_countries()を使います。

show_countries()