★データ解析備忘録★

ゆる〜い技術メモ

環境構築

RStudio Server + tidyverse + RMeCab で日本語もOKなDockerイメージを作りました

はじめに RStudio Server の Docker イメージを作りました。入っているメインコンテンツは、tidyverse なパッケージ群、MeCab および {RMeCab}パッケージ、LaTeX環境 です。また、ggplot2 などでの日本語プロットも文字化けしないようにIPAexフォントを入れ…

(Macの)Rでipadic-neologdを使う

前置き 7月のTokyo.Rにて、こんな発表をしました。 RとMeCabと正規表現 MeCabでの顔文字とかの誤解析を前処理ではなく「後処理」で整理する、という内容だったのですが、こんな指摘がありました。 顔文字や機種依存文字を含む文書を形態素解析したいなら、me…

GitHubを初めて使う準備

GitHubを初めて使うときの準備的な。 要点は1個だけですが(笑) 環境はWindows10 GitHub for Windowsのインストール これをインストールしないと始まりません。 desktop.github.com 最新版をインストールします。 インストールすると二つのショートカットが…

jsonを楽に扱えるjqコマンドを導入(Mac, Windows)

データ解析の一連のプロセスの中で、前処理の占める割合はたいへん大きいです。 その前処理のなかで、json形式のものを楽に扱えるjqコマンドというものがあります。json形式はデータベースなんかではよく見る形式で、自分でも個人的に必要になったのでその導…

WindowsのPython3.5でlxmlを入れようとしたら詰んだ

Webスクレイピングなどで使われるlxmlパッケージですが、WindowsのPython3.5で導入にてこずりました。 pip install lxml でいけるかなあと思ったのですが、普通にエラーになりました。

SAS/STATでもPROC IMLしてRを使う

前回の記事でSAS/IML StudioでRを走らせる方法を書きました。 y-mattu.hatenablog.comで、その最後にSAS/STATでproc imlの中でRを使う方法を書いている方がいたのでそれを紹介しました。SAS上でRを走らせよう SAS/IML | うずまき(4th Gen) | Jun-Systemsその…

RとPythonでMeCabを使う環境構築(Windows, Mac)

自然言語処理まわりはずっとRでやっていたのですがそろそろPythonでもやろうと思い環境構築をまとめてみます。 ついでなのでRのほうもまとめてみます。 PythonについてはWindowsとMacで違うので一応そちらも触れたいと思います。Windows10とYosemiteです。 …

Windows10にSAS University Edition を導入してみた -無料でSASを使う-

僕が通う大学ではそもそも無料で製品版SASをインストール&使用できるのですが、ノートパソコンにしか入れられません。ですが、家で作業するときは普通デスクトップでやるのでデスクトップにSASを入れたい!ってことでSAS University Editionを導入します。 …