R Commanderを使ったCSV形式データの解析

Time-stamp: "2017-06-14 Wed 17:38 JST hig"

はじめに

瀬田学舎共通実習室の Windows にインストールされた R / R Commander で, 別に用意したCSV形式の数値データを解析する方法です.

荒木先生による日本語訳Rコマンダー入門

R / R Commander の起動

  • スタートメニュー>数学・統計>RでRを起動します(32bit, 64bitどちらでも). R Consoleウィンドウが現れます.
  • R Consoleウィンドウで
    > library(Rcmdr)
    と入力し, Enter すると R コマンダーウィンドウが現れます.

CSV形式でインポートする

データの用意

課題などで説明されているかもしれませんが, RにインポートするCSV形式の数値データは以下のようである必要があります.

  • 1行内にある複数の数値がコンマ","で区切られたデータ. Microsoft Excel では, Officeボタン>名前を付けて保存
  • でファイルの種類としてCSV(カンマ区切り)を選びます.
  • 縦1列には, 同じ意味の値(ひとつの母集団からとったサンプル)が書かれるようにします. 例:クラス全員の身長.
  • 異なる意味の値は, (ExcelならA,Bなどで区別される)異なる列に書かれるようにします. 例: 身長,体重,…
    • 行と列の意味が逆になっているときは… 表を転置する関数 t() というのがあります.
  • 原則として, 先頭の1行には変数名を書きます. 書かない場合は, その場合はインポートするときに1行目がデータであることを指定します.
  • #が先頭にある行は, その後に数値があっても, R Commander にとってのコメント行であり, 無視されます(=読み込まれません).
例(CSV)

CSV形式データのインポート

  • Rコマンダーウィンドウで, データ>データのインポート>テキストファイル…を選びます.
  • 1行目に変数名を記していれば, 「ファイル内に変数名あり」をチェックします.
  • 「フィールドの区切り記号」はカンマを選びます.
  • 他はデフォルト通りでいいかもしれません.
  • OKします.
  • CSVファイルを選択します.
  • 正常にインポートされたら, Rコマンダーウィンドウのデータセットを表示ボタンからデータが確認できるはずです.
  • 毎回, 正しくチェックボックスをチェックするのはたいへんですよね. 「再実行, 修正して実行」に書いてありますが, 上の操作を1回実行すると, Rスクリプトというテキストボックス内に「コマンド」read.csv が表示されるのがわかると思います. これを手で編集して, 行内にカーソルを置いて「実行」をクリックすると, ダイアログをたどらなくても実行できます.

Excel形式でインポートする

データの用意

課題などで説明されているかもしれませんが, RにインポートするExcel形式の数値データは以下のようである必要があります.

  • Excel での縦1列には, 同じ意味の値(ひとつの母集団からとったサンプル)が書かれるようにします. 例:クラス全員の身長.
  • 異なる意味の値は, Excel でA,Bなどで区別される異なる列に書かれるようにします. 例: 身長,体重,…
  • 原則として, 先頭の1行には変数名を半角英数で書きます. 書かない場合は, その場合はインポートするときに1行目がデータであることを指定します.

Excel形式データのインポート

  • Rコマンダーウィンドウで, データ>データのインポート>Excelファイルを選びます.
  • 1行目, 1列目に項目名があるかないか指定し, 上と同様にします.

再実行, 修正して実行

Rコマンダーのウィンドウ上半分のテキストボックス Rスクリプト には, これまで実行したコマンドが表示されています. これを手で編集して, 行内にカーソルを置いて「実行」を選ぶことで, メニューを経由することなく複数のコマンドをくり返し実行することができます.

分析

いろいろ楽しい分析ができます. メニューを探検してみてね.

標本平均値などの統計量

統計量>要約>数値による要約で標本平均(mean)や不偏標本標準偏差(sd=standard deviation)や四分位数が求められます.

統計量>要約>アクティブデータセットで平均(Mean), 最大値(Max), 最小値(Min), 中央値(Median)などが求められます.

ヒストグラム

グラフ>ヒストグラムで表示できます.

スクリプトで, x,yの範囲は, xlim=c(0,10),ylim=c(0,0.5)みたいな感じで. ビンの個数は breaks=10 -みたいな感じで.

散布図

インポートするデータが

x1,y1,z1
x2,y2,z2
…
xn,yn,zn
    
のようになっているとき, グラフ>散布図で (x,y),(y,z),(z,x) から選んで散布図を描くことができます.

グラフ>散布図行列では, これらの散布図をすべて同時に描くことができます

Excel でしばしば使う, 横軸x, 縦軸y,zで, yとzによって異なる色で描く, には グラフ>条件付き散布図を使います.

(折れ)線グラフ

インポートするデータが

x1,y1,z1
x2,y2,z2
…
xn,yn,zn
    
のようになっていて, x1<x2<x3< の順になっていて, 横軸 (x変数)x, 縦軸(y変数)y,zで, y=f(x), z=g(x) のグラフを重ねて描きたいとき(=xに対してy,zの値がひとつに定まるとき)には, グラフ>折れ線グラフを使います.

保存と終了

グラフは, RguiウィンドウのFile>名前を付けて保存からPDFなど画像ファイルとして保存しましょう.

R ScriptはRコマンダーのウィンドウ上半分の内容です. 保存しましょう. 使用したコマンドを順に記録したものです. 課題ごとに, 科目のフォルダに保存しておくといいかも.

R Markdownマークダウンは普通は不要でしょう. 使用したコマンドと実行結果をHTMLに変換できる元のファイルです.

出力は, Rコマンダーのウィンドウ下半分の内容です. そこに求めたかったもの(推定値や検定の結果など)が出力されている場合は保存しましょう.

作業スペース, は普通は保存しなくてよいでしょう. まったくそのままの状態から作業再開するためのものですが, 大きなファイルになります.

このサイトのコンテンツ

QRcode to hig3.net

http://hig3.net