★データ解析備忘録★

ゆる〜い技術メモ

tidyverseの正式登場でDockerまわり(rocker)もいろいろ変わってた

はじめに

データ分析では再現性が大切です。しかし、同じコードとデータを使っていても実行環境の違い(OS, ソフトやパッケージのバージョンなど)によって結果が異なることがあります。複数の場所で同じ環境をそろえるための手段の一つとして、はオープンソースコンテナー管理ソフトウェアであるDockerを使うことが考えられます。Dockerのデータ分析での活用については以下の記事が詳しいです。

qiita.com

tidyverseの登場とDockerまわりの変化

さて、昨年のRStudio ver1.0 のリリースとほぼ同時期にtidyverseが登場し、RStudio Server のDockerイメージを提供しているrockerでのコンテナの種類も変わっていたようです。 それまではhadleyverse*1(便利なパッケージ群)とLaTeX環境が入った rocke/hadleyverse がメイン だったのが、現在は追加されるパッケージやソフトに合わせて以下の4つになっています。

rocker/hadleyverseも生きてはいますが、Docker Hub の冒頭に「これじゃなくて代わりにtidyverse使えよ」って書いてあります。

別にhadleyverseを使ったからと言って何か不都合があるわけではないのですが、RStudio Server の環境構築にDockerを使う場合や自分でDockerイメージを作る場合は頭の片隅に入れておくと良さそうです、&tidyverse周りはまだこれからも変わる(とHadley Wickhamが仄めかしている)可能性が高いので、Rのパッケージと同時にDockerまわりも注視していきたいです。