★データ解析備忘録★

ゆる〜い技術メモ

2016-01-01から1ヶ月間の記事一覧

GitHubを初めて使う準備

GitHubを初めて使うときの準備的な。 要点は1個だけですが(笑) 環境はWindows10 GitHub for Windowsのインストール これをインストールしないと始まりません。 desktop.github.com 最新版をインストールします。 インストールすると二つのショートカットが…

Prestoでの日付の扱い方

Prestoで日付の処理に躓いたのでメモ。TreasureData (TD)ってUDF(user defined functions)が多いから、HiveにしろPrestoにしろ結構躓いたりするんですよね。 公式のマニュアルページが手放せません。 docs.treasuredata.com今回はこのなかで初心者やSQLユー…

重回帰のパラメーター推定理論とSAS/IMLによる行列実装

統計学の「基本の「き」」である重回帰を復習しながらSAS/IMLで行列で実装していこうと思います。 理論 重回帰を式で表すと、 となります。 これを行列で表すと 要素を書き下すと となります。

史上最大の素数が本当に素数なのか確かめてみた

史上最大の素数が更新されたらしいです。wired.jpこういうの見つける人ってすごいですよね、、、 でも この数って本当に素数なの? という疑問がわきます。気になります。 どうしましょう。 確かめてみましょう。素数を見つけるのは大変でも、ある数が素数か…

LaTeXで左上付き文字

僕の通う大学の数学の教授で、転置行列の t を右上ではなく左上に書く人がいます。 これをTexでどう書くのかなーと思って調べたら判明したので自分用にメモしておきます。結論から言うと超簡単でした。 %数式内で ^{t}A 出力 化学の論文とかで質量数12の元素…

Python3.5でワードクラウドを描く

Pythonでワードクラウドを描く方法は、すでに結構な数の記事があるので、基本はそこを見ればいけます。 なので、今更僕が解説するようなことはしません。 例えば qiita.com ライブラリの入れ方も丁寧に説明してくださってます。 今回もこのページをほぼその…

LaTeXで「1」を白抜きにする

インディケーター関数とかで「1」を白抜きにしたいとき。 これは元々のtexには入ってないので自分で定義します。 1とl(Lの小文字)を組み合わせて作るといった感じです。 %プリアンブルで \newcommand{\1}{\mbox{1}\hspace{-0.25em}\mbox{l}} %数式内で \1 (y…

jsonを楽に扱えるjqコマンドを導入(Mac, Windows)

データ解析の一連のプロセスの中で、前処理の占める割合はたいへん大きいです。 その前処理のなかで、json形式のものを楽に扱えるjqコマンドというものがあります。json形式はデータベースなんかではよく見る形式で、自分でも個人的に必要になったのでその導…

WindowsのPython3.5でlxmlを入れようとしたら詰んだ

Webスクレイピングなどで使われるlxmlパッケージですが、WindowsのPython3.5で導入にてこずりました。 pip install lxml でいけるかなあと思ったのですが、普通にエラーになりました。

SASの中でRからSASにデータを渡す

R SAS

前回の記事でSAS/STATでもRを使えることを書きました。 y-mattu.hatenablog.com今回はSAS上で動かしたRのデータをSASに渡す方法です。簡単です。 /*proc iml内でendsubmit;した後に*/ run ImportDataSetFromR("work.A","B"); /*Aは後でSASデータとして使いた…

SAS/STATでもPROC IMLしてRを使う

前回の記事でSAS/IML StudioでRを走らせる方法を書きました。 y-mattu.hatenablog.comで、その最後にSAS/STATでproc imlの中でRを使う方法を書いている方がいたのでそれを紹介しました。SAS上でRを走らせよう SAS/IML | うずまき(4th Gen) | Jun-Systemsその…

SAS/IML StudioでRを使う

SAS R

自然言語処理をやるとき、僕はSAS/Minerを使える環境にないのでなんとかならないかなあと思っていたのですが、 SAS/IML Studio *1 を使うとSAS上でRを動かせるそうです。 ということでやってみます。 support.sas.com 手始めということでMeCabで簡単な形態素…

rstanで個人のパラメーターを推定した話(JapanR2015のLT補足)

昨年の12/5に開催されたJapanRでLTをしました。 rstanで個人のパラメーターを推定した話 from Yuya Matsumura www.slideshare.net 5分しかなかったのであんまりちゃんと説明できなかったのですが要約すると以下のような感じです。 rstanで階層ベイズモデルを…

RとPythonでMeCabを使う環境構築(Windows, Mac)

自然言語処理まわりはずっとRでやっていたのですがそろそろPythonでもやろうと思い環境構築をまとめてみます。 ついでなのでRのほうもまとめてみます。 PythonについてはWindowsとMacで違うので一応そちらも触れたいと思います。Windows10とYosemiteです。 …

LaTeXで\appendix以降のセクション名を「付録」以外の「補遺」とかにする

appendixの後で定義しなおしてやればOK \documentclass[11pt,a4paper]{bxjsarticle} \begin{document} \appendix \def\thesection{補遺\Alph{section}} \section{hoge} \end{document}

LaTeXの数式内で筆記体と花文字を使う

数式の中で筆記体を使いたいとき。数学のデータ集合とか物理のハミルトニアンとかで花文字を使いたいとき。 花文字のときはmathrsfsパッケージが必要。TeX Liveならデフォルトで入ってます。 %数式内 \mathcal{ABCDEFGHIJKLMNOPQRSTUVWXYZ} 出力 花文字 %プ…

Windows10にSAS University Edition を導入してみた -無料でSASを使う-

僕が通う大学ではそもそも無料で製品版SASをインストール&使用できるのですが、ノートパソコンにしか入れられません。ですが、家で作業するときは普通デスクトップでやるのでデスクトップにSASを入れたい!ってことでSAS University Editionを導入します。 …

LaTeXのhyperrefパッケージを使う際、\sectionとかに数式が入っていたときの注意

目次などにハイパーリンクを張りたいときhyperrefパッケージが使えるのですが、hyperref.styはほかのいろんな.styを書き換えてしまう曲者です。 統計学などの論文だと、セクションに「回帰係数についての考察」とか書きたいときがありますが、このとき普通に…