★データ解析備忘録★

ゆる〜い技術メモ

Python

Python 製のシェル xonsh を使ってみる

はじめに これは Xonsh Advent Calendar 2017 24 日目の記事です。 終盤なのに使ってみた記事でごめんなさい。

EmacsでつくるオレオレRStudioから1年、自分の分析環境の変化について

はじめに 遅れてすいません。RStudio アドベントカレンダー2日目です。 一年前のアドベントカレンダーで、こんな記事を書いたら意外と反響がありました。 y-mattu.hatenablog.com これを書いたら周りから過激派だの何だの言われましたが、まあ自分の中では楽…

Pythonでshapefileから逆ジオコーディング

はじめに 緯度経度から住所(市区町村・番地)を求める逆ジオコーディングですが、Rを使ったバージョンは以前書きました。 y-mattu.hatenablog.com また、上記は市までわかっているバージョンだたのですが、そもそもの県や市を求めたいときは以下も参考になり…

Python3でカレントディレクトリ内のzipファイルを全て、zipのファイル名でディレクトリを作って解凍する

タイトルが長くなってしまったけど、なぜかこんな単純なことが3系で書かれたものが見つからなかったので備忘録的に(あったらゴメンなさい)。 import os import zipfile import glob for i in glob.glob('*.zip'): with zipfile.ZipFile(i, 'r') as zf: dirna…

多項分布とディリクレ分布のまとめと可視化

多項分布とその共役事前分布について、可視化をしながら整理してみたいと思います。 どちらかというと、可視化をしてパラメーターで分布の形がどう変わるのかを見ることがメインです。 多項分布とは 二項分布の一般化と考えればよいです。 「コインを投げた…

sas7bdatファイルの作成と各種ソフトでの読み込み

sas7bdatとは何か sas7bdatというファイル形式があります。これは一言で言えばSASで作ったデータのファイル形式です。 このファイル形式はSASのいろいろなアウトプットを格納できて、例えば回帰分析後のパラメーター推定値や予測値、ベイズ推定のMCMCであれ…

史上最大の素数が本当に素数なのか確かめてみた

史上最大の素数が更新されたらしいです。wired.jpこういうの見つける人ってすごいですよね、、、 でも この数って本当に素数なの? という疑問がわきます。気になります。 どうしましょう。 確かめてみましょう。素数を見つけるのは大変でも、ある数が素数か…

Python3.5でワードクラウドを描く

Pythonでワードクラウドを描く方法は、すでに結構な数の記事があるので、基本はそこを見ればいけます。 なので、今更僕が解説するようなことはしません。 例えば qiita.com ライブラリの入れ方も丁寧に説明してくださってます。 今回もこのページをほぼその…

WindowsのPython3.5でlxmlを入れようとしたら詰んだ

Webスクレイピングなどで使われるlxmlパッケージですが、WindowsのPython3.5で導入にてこずりました。 pip install lxml でいけるかなあと思ったのですが、普通にエラーになりました。

RとPythonでMeCabを使う環境構築(Windows, Mac)

自然言語処理まわりはずっとRでやっていたのですがそろそろPythonでもやろうと思い環境構築をまとめてみます。 ついでなのでRのほうもまとめてみます。 PythonについてはWindowsとMacで違うので一応そちらも触れたいと思います。Windows10とYosemiteです。 …