★データ解析備忘録★

ゆる〜い技術メモ

Pythonでshapefileから逆ジオコーディング

はじめに 緯度経度から住所(市区町村・番地)を求める逆ジオコーディングですが、Rを使ったバージョンは以前書きました。 y-mattu.hatenablog.com また、上記は市までわかっているバージョンだたのですが、そもそもの県や市を求めたいときは以下も参考になり…

Shiny で文字を入力してボタンでUIに反映させるにはeventReactive

最近、仕事でShinyアプリケーションを作るようになったのですが、ちょこっとはまったのでメモ。 shiny の基本のキは分かってる人向けです。 Shiny での文字入力 まず、Shiny で文字入力してボタンを押すとUIに反映されるを実現するには r - Create a data fr…

Python3でカレントディレクトリ内のzipファイルを全て、zipのファイル名でディレクトリを作って解凍する

タイトルが長くなってしまったけど、なぜかこんな単純なことが3系で書かれたものが見つからなかったので備忘録的に(あったらゴメンなさい)。 import os import zipfile import glob for i in glob.glob('*.zip'): with zipfile.ZipFile(i, 'r') as zf: dirna…

{rjumanpp} ver0.1.0 祝!マイナーリリース

はじめに これまで 形態素解析器JUMAN++をRから操作するパッケージを作り始めました - ★データ解析備忘録★ 【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について - ★データ解析備忘録★ {rjumanpp} ver0.0.0.9992 表層形ではなく活用の原形を出力…

{rjumanpp} ver0.0.0.9993 サーバーモードに対応しました & vignetteを公開しました

はじめに これまで 形態素解析器JUMAN++をRから操作するパッケージを作り始めました - ★データ解析備忘録★ 【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について - ★データ解析備忘録★ {rjumanpp} ver0.0.0.9992 表層形ではなく活用の原形を出力…

{rjumanpp} ver0.0.0.9992 表層形ではなく活用の原形を出力できるようになりました

rjumanpp 形態素解析器JUMAN++をRから操作するパッケージを作り始めました - ★データ解析備忘録★ 【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について - ★データ解析備忘録★ github.com 絶賛開発中で、今回は出力で原形を返すオプションをつけ…

RSeleniumでChromeからファイルをダウンロードするディレクトリを指定する方法

結論 RSeleniumはだいたいわかってるから読むのが面倒くさい人へ。サーバー起動時にextraCapabilitiesオプションでダウンロードディレクトリの情報をChromeオプションとしてlist形式で渡してやれば設定できます。 # Chromeオプションを追加 eCaps <- list( c…

Rで欲しい県について国勢調査 小地域 Shapefile を全部ダウンロードする

はじめに 先日、国勢調査 小地域 Shapefileからより細かい粒度で逆ジオコーディングを行う方法を書きました。 y-mattu.hatenablog.com しかし、ここで使っていた小地域shapefileをダウンロードをする関数では県と市をこちらで指定する必要がありました。(uri…

【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について

はじめに 現在開発中のJUMAN++をRから操作するパッケージ{rjumanpp}ですが、まだ完成には程遠いもののベースになる部分はほぼできており、前回からいくつか基本的な変更があります。 ver 0.0.9991 関数名について rjumanppパッケージでは、解析に関係する主…

【R】国勢調査 小地域 Shapefile を使って緯度経度から住所を求める(市までわかっているときver.)

はじめに @u_riboさんによるこんなツイートがある。 一部で話題の(?)e-Statが提供する国勢調査小地域のShapefileをRからダウンロードする関数を書きました (gifが高速過ぎる orz) コードは https://t.co/Dd2R58ov94 pic.twitter.com/SRo2H1Fk4W— Uryu Shinya…

形態素解析器JUMAN++をRから操作するパッケージを作り始めました

はじめに JUMAN++という日本語の形態素解析器が昨年登場したようです。 速度はMeCabには劣るものの、解析精度(特に表記ゆれや話し言葉)に強いようです。 JUMAN++自体のインストールや使い方は公式マニュアルや以下のリンクが参考になります。 qiita.com あと…

SASで緯度経度から地域メッシュコードを計算する

はじめに 検索してもでてこなかったので、緯度経度からその点が含まれる3次メッシュ(基準地域メッシュ)コードを算出する関数をSASで作成しました。(僕が知らないだけでもしかしたら既にあるのかもしれませんが。) 地域メッシュコードの概要については統計局…

SASによる逆ジオコーディング(緯度経度から都道府県・市を求める)

SASによるジオコーディングはアメリカやカナダのデータは標準装備されていて非常にやりやすいのですが、日本のデータでやろうとするとshapfileから用意しなければならず、非常にやりづらいです。一応、動くものが作れたので備忘録としてメモ。 shapefile シ…

【R】OSMのNominatimでAPIを使わずに緯度経度から都道府県と市を求める(スモールデータ向きお手軽版)

はじめに Rで逆ジオコーディングをやるやり方は、以下のようなやり方が提案されています。 qiita.com qiita.com ただし、いずれも速度面や正確さの面で問題があると記事内でも言及されています。

『データサイエンティストのための最新知識と実践 Rではじめよう! [モダン]なデータ分析』という本をちょっとだけ書きました。

タイトル通りです。 データサイエンティストのための最新知識と実践 Rではじめよう! [モダン]なデータ分析作者: 瓜生真也,工藤和奏,高柳慎一,牧山幸史,松村杏子,松村優哉,簑田高志,本橋智光,ホクソエム出版社/メーカー: マイナビ出版発売日: 2017/06/30メデ…

Rのdplyr::renameとSASのDATA STEP のRENAMEステートメントでは変数の書く順番が違うので注意

R SAS

タイトル通りです。 SASとRと両方使う人でないと特に意識する場面はないと思いますが、どちらも記法が酷似しているので両方使う人は気をつけてないとミスります。 Rのdplyr::rename dplyr::rename(新しい変数名=古い変数名) です。

SASで緯度経度から国名を求める

とりあえず備忘録的にコードと出力だけ。 細かいプロシージャの仕様は後ほど追記します。 コードと出力

RStudio Server + tidyverse + RMeCab で日本語もOKなDockerイメージを作りました

はじめに RStudio Server の Docker イメージを作りました。入っているメインコンテンツは、tidyverse なパッケージ群、MeCab および {RMeCab}パッケージ、LaTeX環境 です。また、ggplot2 などでの日本語プロットも文字化けしないようにIPAexフォントを入れ…

tidyverseの正式登場でDockerまわり(rocker)もいろいろ変わってた

はじめに データ分析では再現性が大切です。しかし、同じコードとデータを使っていても実行環境の違い(OS, ソフトやパッケージのバージョンなど)によって結果が異なることがあります。複数の場所で同じ環境をそろえるための手段の一つとして、はオープンソー…

2016 年を雑に振り返る

年の瀬ですので、2016 年を簡単に振り返りたいと思います。 プライベートのことをここで言ってもしょうがないので、それ以外のことで。 あとリンクばっかりです。すいません笑 ブログを始めました 1 月このブログを開設しました。 自己紹介的な記事が全くな…

Emacsで作るオレオレRStudio

この記事は RStudio Advent Calendar 2016 と Emacs Advent Calendar 2016 22 日目の記事です。 はじめに そもそもなぜ RStudio じゃダメなのか 無ければ作る!それが・・・ 環境 準備 Emacs を RStudio っぽく ESS 補完 オブジェクト構造の確認 オブジェク…

Emacs (ESS) で SAS のシンタックスハイライトを直す

はじめに 今回は小ネタです。 みなさんは SAS コードを何で書いてますか? Atom? Sublime Text? Vim? Emacs? 僕は Emacs で書いてますが、エディタの好みは人それぞれなので、好きな物を使えばいいと思います。 さて、Emacs で SAS を編集する際に便利なのが…

{haven}パッケージでストレスなくRとSASで分析する

R SAS

前置き 僕のメイン言語はSASとRなので、この二つを連携させたり行き来したりということがどうしても発生します。*1 そんなわけで、以前SASの中でRを動かす方法を書きました。 SAS/IML StudioでRを使う - データ解析備忘録 SAS/STATでもPROC IMLしてRを使う -…

Rでgroup_concatする方法をまとめる

この記事は R Advent Calendar 2016 4 日目の記事です。 group_concat について MySQL などの 多くの SQL には group_concat という関数があります。 どういう関数かというと、複数のレコードを一つにまとめるもので、たとえば以下のようなデータを考えます…

Emacsのddskkで辞書をGoogle IMEにする

Emacsでは日本語入力にSKKを利用しているのですが、どうもデフォルトの辞書では変換がショボいので、GoogleのIMEを使おうと思います。 何がすごいのか 例えば、「さーばー」と入力すると、自分で辞書登録せずとも サーバー、Server、server、SERVER が変換候…

(Macの)Rでipadic-neologdを使う

前置き 7月のTokyo.Rにて、こんな発表をしました。 RとMeCabと正規表現 MeCabでの顔文字とかの誤解析を前処理ではなく「後処理」で整理する、という内容だったのですが、こんな指摘がありました。 顔文字や機種依存文字を含む文書を形態素解析したいなら、me…

【SAS】アルファベットや飛び飛びの値でもループしたい

SAS

SASの繰り返しのマクロである%doループでは%do i=1 %to 10のように、整数値でしかループさせることができません。 今回は、整数以外でもループさせたいときの対処法をまとめてみます。 飛び飛びの値 飛び飛びの値とは、%do i=1 , 2, 3, 5のように整数が連続…

Tokyo.R #55 に参加してきた

R

Tokyo.R #55に参加してきました。 今回の会場はサイバーエージェント社。 今回は自分で補足できる内容がほとんどないので、現時点で集められたスライドをまとめるだけです。 ほぼ自分用メモです。 自分のLTについては別記事で補足を書きます。 初心者セッシ…

R Presentationで長いRの出力を表示したい

R

R Studioでプレゼンのスライドが作れるR Presentationですが、Rの出力が長い場合スライドからはみ出てしまいます。 回避方法として、1枚目のスライドのところに以下のCSSを書いてやることで解決しました。 <style> body { overflow: scroll; } </style> ページ内に入りきら…

SASのマクロ変数を文字列中で呼び出したいときの注意

SAS

備忘録。SASで文字列を入力したいとき、''(シングルクオーテーション)か""(ダブルクオーテーション)かはあまり気にせずに使って良いのですが、マクロ変数を使いたいときはちょっと変わってきます。例えば、以下のような適当なマクロを作って呼び出したいとき…