R:基本統計量の算出
統計量(statistic)とは、統計データから計算、要約した数量のことです。
基本統計量とは、通常広く使用されている方法です。
これも結果を見ていきましょう
> fs <- c(0:8) #"fs"に0から8の数値を入れる
> fs #"fs"の中身を表示する
[1] 0 1 2 3 4 5 6 7 8
> sum(fs);mean(fs);max(fs);min(fs) #"fs"の合計、算術平均、最大値、最小値を計算する
[1] 36
[1] 4
[1] 8
[1] 0
> range(fs);median(fs) #レンジ(範囲)と中央値を計算する
[1] 0 8
[1] 4
> quantile(fs) #"fs"の分位数を求める
0% 25% 50% 75% 100%
0 2 4 6 8
> var(fs) #標本分散を求める
[1] 7.5
> sd(fs) #標本標準偏差を求める
[1] 2.738613
> summary(fs) #四分位数と平均を返す
Min. 1st Qu. Median Mean 3rd Qu. Max.
0 2 4 4 6 8
行列も行ごとや列ごとで計算可能です。
> y <- matrix(1:8,2,4) #1から8の値を2行4列のマトリックスとする。
> y #"y"の中身を表示する
[,1] [,2] [,3] [,4]
[1,] 1 3 5 7
[2,] 2 4 6 8
> apply(y,1,mean) #行の平均を求める
[1] 4 5
> apply(y,2,summary) "列のサマリーの計算も可能です。
[,1] [,2] [,3] [,4]
Min. 1.00 3.00 5.00 7.00
1st Qu. 1.25 3.25 5.25 7.25
Median 1.50 3.50 5.50 7.50
Mean 1.50 3.50 5.50 7.50
3rd Qu. 1.75 3.75 5.75 7.75
Max. 2.00 4.00 6.00 8.00
この"apply"の書式を一般的にかくと
apply (X , MARGIN , FUN)
引数Xはデータセット、MARGINは行ならば"1"を、列ならば"2"、FUNには統計量の関数や計算式などを与えます。
以上が、基本的な統計量になります。