★データ解析備忘録★

ゆる〜い技術メモ

Rで欲しい県について国勢調査 小地域 Shapefile を全部ダウンロードする

はじめに

先日、国勢調査 小地域 Shapefileからより細かい粒度で逆ジオコーディングを行う方法を書きました。

y-mattu.hatenablog.com

しかし、ここで使っていた小地域shapefileをダウンロードをする関数では県と市をこちらで指定する必要がありました。(uriさんのコードではleafletへのプロットまで行っていますが、ダウンロードして解凍するだけの関数をこちらのgistにあげています。)

download_smallshape(pref = "33", city = "倉敷市")

さらに厄介なことに、ここで指定する市の名前の形は都道府県によってはやや特殊です。

例えば埼玉県 f:id:songcunyouzai:20170728161505p:plain

例えば北海道 f:id:songcunyouzai:20170728161555p:plain

ここの指定を一文字でも間違えると、正しくダウンロードされません。

そこで、このページの状態でこの市や町の名前をスクレイピングで取得することを考えます。

続きを読む

【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について

はじめに

現在開発中のJUMAN++をRから操作するパッケージ{rjumanpp}ですが、まだ完成には程遠いもののベースになる部分はほぼできており、前回からいくつか基本的な変更があります。

ver 0.0.9991

関数名について

rjumanppパッケージでは、解析に関係する主要関数名のプレフィックスを jum_* で統一しようと考えています。これは、関数名になるべく統一性をもたせることで関数名を思い出す手間を省くためと、あとはRStudioではデフォルトでは3文字入力すると自動で補完がスタートするので、プレフィックスは3文字にしたほうが自分も(もしいれば)ユーザーも使いやすいだろうと考えたからです。

続きを読む

【R】国勢調査 小地域 Shapefile を使って緯度経度から住所を求める(市までわかっているときver.)

はじめに

@u_riboさんによるこんなツイートがある。

要するに、shapefileの細かい版ですね。細かいので、市レベルでファイルが分かれているようです。

今回は、これを使って逆ジオコーディングをやってみます。ただし、「やってみた」レベルなので今回は知りたい緯度経度が何市にあるかまでは絞れているとします。 市を見つけるのには、RであればRで緯度経度から都道府県・市区町村を求めるSASであればSASによる逆ジオコーディング(緯度経度から都道府県・市を求める)が参考になります。

続きを読む

形態素解析器JUMAN++をRから操作するパッケージを作り始めました

はじめに

JUMAN++という日本語の形態素解析器が昨年登場したようです。 速度はMeCabには劣るものの、解析精度(特に表記ゆれや話し言葉)に強いようです。

JUMAN++自体のインストールや使い方は公式マニュアルや以下のリンクが参考になります。

qiita.com

あと、おそらくJUMAN++は現時点ではWindows非対応なので、以下の話は全部MacLinux限定の話になります…

続きを読む

SASで緯度経度から地域メッシュコードを計算する

はじめに

検索してもでてこなかったので、緯度経度からその点が含まれる3次メッシュ(基準地域メッシュ)コードを算出する関数をSASで作成しました。(僕が知らないだけでもしかしたら既にあるのかもしれませんが。)

地域メッシュコードの概要については統計局ホームページ/地域メッシュ統計についてに、その算出方法については 緯度経度からメッシュコードを作成する方法に解説が載っていますが、標準地域メッシュコーどは約1km四方で、大体の粒度は地図上で標準地域メッシュを確認するページで確認できます。ちなみに、JR田町駅周辺だとこのくらいの粒度です。 f:id:songcunyouzai:20170715142017p:plain

続きを読む