★データ解析備忘録★

ゆる〜い技術メモ

Tokyo.R #54の振り返りと補足

6/18にTokyo.Rに参加したので、遅ればせながら振り返りと(自分の知識の範囲内での)補足をしたいと思います。

初心者セッション

10分で分かるR言語入門 ver.2.19

質疑

パッケージを手動で入れるには?
パッケージはinstalll.packagesや{githubinstall}パッケージでオンラインで入れるのが普通ですが、tar.gzやzipでパッケージをローカルからインストールしたいとき。
基本的にはzipやtar.gzを特定のディレクトリにいれてinstall.packagesをしてやれば入ります。以下はzipの例。

setwd("~/Downloads")
install.packages("hoge.zip", repos = NULL, type = "source")

初心者におすすめのサイトは?
qiita.com

プログレスバーを表示したい

  • {dplyr}およびその前身の{plyr}にその機能があります。

Home · MRAN

  • あとfor文の進捗状況を見たいときは以下が参考になります。

http://gg-hogehoge.hatenablog.com/entry/2013/08/18/095448
gg-hogehoge.hatenablog.com

  • Stanでベイズ推定をするときの事後分布からのサンプリング進捗はデフォルトで出てくるようになってます。

続 はじめてのR

内容の補足
  • データベースに接続してデータを取得するときは、{dplyr}を使う手もあります。

qiita.com

質疑

正規分布に従っていないものを目的関数にしたいときは?
一般化線形モデルを使います。Rではglm関数を使って、familyオプションを使ってリンク関数を指定していきます。
この辺はググればコードはかなり出てくるのと、理論的な入門は久保先生の緑本が詳しいです。
生態学データ解析 - 本/データ解析のための統計モデリング入門

2016年上半期版データマエショリスト入門

私の発表です。

www.slideshare.net

内容の補足

当初入れようと思ってた内容で、完全にスライドに入れ忘れていたものがありました。
「前処理で変数の名前を変更する」です。
意外とよく使うのに、紹介を忘れてました。ごめんなさい。。。

パッケージを使わない場合、以下のようにやります。

#パッケージを使わない場合、すべての変数を一気に変更することしかできない
colnames(iris) <- c("s_l", "s_w", "p_l", "p_w", "species")

{dplyr}を使う場合、rename関数を使います。

#dplyrを使うと特定の変数名だけ変更できる
iris %>%
  rename(s_l = Sepal.Length)

#エクセルファイルとかを読んで変数名にスペースなどがある場合
dat <- readxl::read_excel(sample.xlsx) %>%
          dplyr::rename(新しい変数名 = `古い 変数名`)

あと、発表中に指摘されてたようなのですが、その通りです。申し訳ありません。私の資料の方が間違っています。

質疑

なぜ{readr}や{dplyr]を使うと速いのか?
{Rcpp}を使って処理をc++で行っているからです。
{dplyr}や{readr}の作者Hadley Wickhamは、{Rcpp}に渡して処理を行う、というのをよくやります。
Rがなぜ遅いかの理由は、『R言語徹底解説』p.362あたりに書いてあります。

R言語徹底解説

R言語徹底解説

応用セッション

Datascience for me

スライドはアップされてませんが、関連する図やコードは以下にあるようです。
RPubs - 歩数データから行動パターンを抽出する話
カルマンフィルタ、LDA、決定木など各種データサイエンスの手法を自分の健康データに当てはめてるのが新鮮でした。
あと、Rでカレンダープロットとかできるんですね。知らなかった...

Rで(当たらない)競馬予想をやってみた


なんとその場で競馬の中継をしてました。
人生で初めて競馬を見るのがTokyo.Rになるとは...(笑)

LT

Splatoon界での壮絶な戦い & Japan.Rの宣伝

SeekR Search Trend Report

www.slideshare.net
2016年1月の検索上位に3D回転があるという話でしたが、{plotly}のことなのかなーと思いました。
plot.ly


ここから先は所用で離脱してしまったのでスライドだけ

Rによる単変量データのプロット

www.slideshare.net

healthplanetパッケージで体組成データを手に入れて健康な体も手に入れる

www.slideshare.net

その他Tokyo.R #54に関するまとめ

estrellita.hatenablog.com
program-study.hatenablog.com
togetter.com