★データ解析備忘録★

ゆる〜い技術メモ

R

【R】国勢調査 小地域 Shapefile を使って緯度経度から住所を求める(市までわかっているときver.)

はじめに @u_riboさんによるこんなツイートがある。 一部で話題の(?)e-Statが提供する国勢調査小地域のShapefileをRからダウンロードする関数を書きました (gifが高速過ぎる orz) コードは https://t.co/Dd2R58ov94 pic.twitter.com/SRo2H1Fk4W— Uryu Shinya…

形態素解析器JUMAN++をRから操作するパッケージを作り始めました

はじめに JUMAN++という日本語の形態素解析器が昨年登場したようです。 速度はMeCabには劣るものの、解析精度(特に表記ゆれや話し言葉)に強いようです。 JUMAN++自体のインストールや使い方は公式マニュアルや以下のリンクが参考になります。 qiita.com あと…

【R】OSMのNominatimでAPIを使わずに緯度経度から都道府県と市を求める(スモールデータ向きお手軽版)

はじめに Rで逆ジオコーディングをやるやり方は、以下のようなやり方が提案されています。 qiita.com qiita.com ただし、いずれも速度面や正確さの面で問題があると記事内でも言及されています。

『データサイエンティストのための最新知識と実践 Rではじめよう! [モダン]なデータ分析』という本をちょっとだけ書きました。

タイトル通りです。 データサイエンティストのための最新知識と実践 Rではじめよう! [モダン]なデータ分析作者: 瓜生真也,工藤和奏,高柳慎一,牧山幸史,松村杏子,松村優哉,簑田高志,本橋智光,ホクソエム出版社/メーカー: マイナビ出版発売日: 2017/06/30メデ…

Rのdplyr::renameとSASのDATA STEP のRENAMEステートメントでは変数の書く順番が違うので注意

R SAS

タイトル通りです。 SASとRと両方使う人でないと特に意識する場面はないと思いますが、どちらも記法が酷似しているので両方使う人は気をつけてないとミスります。 Rのdplyr::rename dplyr::rename(新しい変数名=古い変数名) です。

RStudio Server + tidyverse + RMeCab で日本語もOKなDockerイメージを作りました

はじめに RStudio Server の Docker イメージを作りました。入っているメインコンテンツは、tidyverse なパッケージ群、MeCab および {RMeCab}パッケージ、LaTeX環境 です。また、ggplot2 などでの日本語プロットも文字化けしないようにIPAexフォントを入れ…

tidyverseの正式登場でDockerまわり(rocker)もいろいろ変わってた

はじめに データ分析では再現性が大切です。しかし、同じコードとデータを使っていても実行環境の違い(OS, ソフトやパッケージのバージョンなど)によって結果が異なることがあります。複数の場所で同じ環境をそろえるための手段の一つとして、はオープンソー…

Emacsで作るオレオレRStudio

この記事は RStudio Advent Calendar 2016 と Emacs Advent Calendar 2016 22 日目の記事です。 はじめに そもそもなぜ RStudio じゃダメなのか 無ければ作る!それが・・・ 環境 準備 Emacs を RStudio っぽく ESS 補完 オブジェクト構造の確認 オブジェク…

{haven}パッケージでストレスなくRとSASで分析する

R SAS

前置き 僕のメイン言語はSASとRなので、この二つを連携させたり行き来したりということがどうしても発生します。*1 そんなわけで、以前SASの中でRを動かす方法を書きました。 SAS/IML StudioでRを使う - データ解析備忘録 SAS/STATでもPROC IMLしてRを使う -…

Rでgroup_concatする方法をまとめる

この記事は R Advent Calendar 2016 4 日目の記事です。 group_concat について MySQL などの 多くの SQL には group_concat という関数があります。 どういう関数かというと、複数のレコードを一つにまとめるもので、たとえば以下のようなデータを考えます…

(Macの)Rでipadic-neologdを使う

前置き 7月のTokyo.Rにて、こんな発表をしました。 RとMeCabと正規表現 MeCabでの顔文字とかの誤解析を前処理ではなく「後処理」で整理する、という内容だったのですが、こんな指摘がありました。 顔文字や機種依存文字を含む文書を形態素解析したいなら、me…

Tokyo.R #55 に参加してきた

R

Tokyo.R #55に参加してきました。 今回の会場はサイバーエージェント社。 今回は自分で補足できる内容がほとんどないので、現時点で集められたスライドをまとめるだけです。 ほぼ自分用メモです。 自分のLTについては別記事で補足を書きます。 初心者セッシ…

R Presentationで長いRの出力を表示したい

R

R Studioでプレゼンのスライドが作れるR Presentationですが、Rの出力が長い場合スライドからはみ出てしまいます。 回避方法として、1枚目のスライドのところに以下のCSSを書いてやることで解決しました。 <style> body { overflow: scroll; } </style> ページ内に入りきら…

Tokyo.R #54の振り返りと補足

R

6/18にTokyo.Rに参加したので、遅ればせながら振り返りと(自分の知識の範囲内での)補足をしたいと思います。 初心者セッション 10分で分かるR言語入門 ver.2.19 質疑 パッケージを手動で入れるには? パッケージはinstalll.packagesや{githubinstall}パッ…

『R言語徹底解説』(原著 "Advanced R")を読んだので感想を書く

待望の『R言語徹底解説』が届きました。(2/10) R言語徹底解説作者: Hadley Wickham,石田基広,市川太祐,高柳慎一,福島真太朗出版社/メーカー: 共立出版発売日: 2016/02/10メディア: 単行本この商品を含むブログ (29件) を見る本来は昨年のクリスマスあたりに…

sas7bdatファイルの作成と各種ソフトでの読み込み

sas7bdatとは何か sas7bdatというファイル形式があります。これは一言で言えばSASで作ったデータのファイル形式です。 このファイル形式はSASのいろいろなアウトプットを格納できて、例えば回帰分析後のパラメーター推定値や予測値、ベイズ推定のMCMCであれ…

RMeCabの顔文字の誤解析を後処理で消す

顔文字を含んだ文の解析 {RMeCab}、日本語の形態素解析に便利なのですが顔文字の分類は苦手です。 例えば、 words ふう。お腹いっぱい( ´•౪•`) 暇だな(☝ ՞ਊ ՞)☝ 試験頑張るぞ\\\\ ٩( ‘ω’ )و //// というデータフレームを解析して単語の頻度を数えるとし…

重回帰のパラメーター推定理論とSAS/IMLによる行列実装

統計学の「基本の「き」」である重回帰を復習しながらSAS/IMLで行列で実装していこうと思います。 理論 重回帰を式で表すと、 となります。 これを行列で表すと 要素を書き下すと となります。

SASの中でRからSASにデータを渡す

R SAS

前回の記事でSAS/STATでもRを使えることを書きました。 y-mattu.hatenablog.com今回はSAS上で動かしたRのデータをSASに渡す方法です。簡単です。 /*proc iml内でendsubmit;した後に*/ run ImportDataSetFromR("work.A","B"); /*Aは後でSASデータとして使いた…

SAS/IML StudioでRを使う

SAS R

自然言語処理をやるとき、僕はSAS/Minerを使える環境にないのでなんとかならないかなあと思っていたのですが、 SAS/IML Studio *1 を使うとSAS上でRを動かせるそうです。 ということでやってみます。 support.sas.com 手始めということでMeCabで簡単な形態素…

rstanで個人のパラメーターを推定した話(JapanR2015のLT補足)

昨年の12/5に開催されたJapanRでLTをしました。 rstanで個人のパラメーターを推定した話 from Yuya Matsumura www.slideshare.net 5分しかなかったのであんまりちゃんと説明できなかったのですが要約すると以下のような感じです。 rstanで階層ベイズモデルを…

RとPythonでMeCabを使う環境構築(Windows, Mac)

自然言語処理まわりはずっとRでやっていたのですがそろそろPythonでもやろうと思い環境構築をまとめてみます。 ついでなのでRのほうもまとめてみます。 PythonについてはWindowsとMacで違うので一応そちらも触れたいと思います。Windows10とYosemiteです。 …