★データ解析備忘録★

ゆる〜い技術メモ

Rとtidyverseと私

はじめに

大遅刻ですが、tidyポエム Advent Calendar 2017の16日目です。

Rとtidyverseへの思いをただ綴るポエムですので、Rのコードなど1行も出てきません。

私とR

私とRについて語る際、1. 「Rとの出会い」と 2. 「Rを本格的に使い始め、色々勉強し始めた時期」は分離して話すことにしてます。なぜなら、両者には多少の時間的分断があるからです。

自分の場合、どちらもいつだったかというのは明確に覚えています。

R との出会い

私が初めて統計解析ソフトウェアRを耳にしたのは、大学に入って間もないころ(2013年春頃)で、なんと教養科目の政治学の授業でした。当時、特に何も考えずに取っていた政治学の授業での先生の言葉はいまでも忘れません。先生の名前は忘れてしまいましたが、言葉だけは忘れられません。

「文系であっても多少の統計はかじってるべきで、重回帰分析くらいはできたほうがいいです。エクセルでもいいのですが、Rという無料のソフトウェアがあるので気になる人は調べてみてください。」

社会受検で(数学を使わず)経済学部に入り、単なる必修科目として統計学を受けていた当時の自分にとって統計など卒業単位程度にしか思っていませんでしたが、これだけはなんとなく心に残りました。もちろん必修とは言えまだ回帰分析という言葉を聞いたことすらない自分は重回帰分析は「なんかかっこいい」くらいの感覚しか持っていませんでした。なので「興味のある人は調べて」といわれても本当に調べただけで、「ふーん、Rってのがあるのかあ」くらいにしか思っていませんでした。ド文系だったのでプログラミングなんてやったこともありませんでしたしね。

余談ですが、当時僕が受けていたカリキュラムですと大学1年の必修統計は「1年生の終わりに単回帰分析までやる」といったもので、重回帰とかは2年生で選択必修といった感じでした。

さて、その2年生の後半で計量経済学の授業をとって初めてRに触ります(2015年1月頃)。その授業では確か重回帰モデルとか構造推定モデルを習ったと思います。初めてRを触ったのですが、なにせ「コマンドを入力して結果を得る」なんて初めての経験でしたので「うーん、なんかなあ」くらいの感想しか持っていませんでした。ただ、当時の感覚として「今あるデータから未知のものを予測するのってなんかかっこいい」くらいの感覚があったので、3年生で入るゼミは計量系のゼミがいいなあくらいのことは思っていました。

Rを勉強し始める

さて、詳細は省きますが某人気ゼミに入ることで私はRを勉強し始めます(2015年4月頃)。最初はRStudioすら知りませんでした。そのゼミはとにかくレベルが高く、インプット量が半端なかったのを覚えています。最初の数ヶ月で一体何冊の本を読んで写経したことか。そして、先生がベイジアンなこともあって夏頃にはStanで階層ベイズモデル書いていました(もちろん理論面もきっちりやりながら)。

ゼミに入るのと時を同じくして、あるIT企業にデータ分析見習いとしてインターンに行くことになりました。そこでSQLとRをやっていたことで、私の前処理技術は少しずつあがっていったように思います。

私とtidyverse

さて、私がRを勉強し始めた頃、 Tidyverse という言葉はまだありませんでした。 その前身?の Hadleyverse という言葉がいつ使われ始めたのかすら実はよく知らないのですが、 現Tidyverse の筆頭である dplyr パッケージとの出会いは2015年10月の私が初めて参加したTokyo.Rでした。Rstudioを知ったのもTokyo.Rだったと思います。そのときはdplyrに対しては不思議と「なんて便利なだ!」みたいな感動はなかったように思います(パイプは便利だなあと思った記憶はあります)。で、なんとなく Tokyo.R に通うようになって、Rの大御所な方々と少しずつ仲良くなっていく中で、自分もdplyr や tidyr に慣れていって、いつの間にか依存症になってしまったんだと思います。

まとめ

結構いろいろ人の話で、「効率化のためにRを使うようになった」「Tidyverse のパッケージ群を最初に触って感動した」みたいな話を聞くのですが、自分はRもTidyverse も「いつの間にか使うようになって、それがたまたま自分と相性が良かった」ように思えます。自分の中では、Rを使うようになったのも今統計や機械学習をやってるのも全部目めぐり合わせのような気がします。

現時点では、すごく楽しんでRもデータサイエンスもやってるので、自分が「楽しい」と思ってる限りはきっと続けていくのでしょう。