★データ解析備忘録★

ゆる〜い技術メモ

{rjumanpp} ver0.0.0.9992 表層形ではなく活用の原形を出力できるようになりました

rjumanpp

形態素解析器JUMAN++をRから操作するパッケージを作り始めました - ★データ解析備忘録★

【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について - ★データ解析備忘録★

github.com

絶賛開発中で、今回は出力で原形を返すオプションをつけました。引数の場所ですが、引数の名前を指定するのは面倒くさいので、第二引数に設定しました。ここを1にすると原形を返、デフォルトは0になっています。それ以外のオプションは今まで通りです。

続きを読む

RSeleniumでChromeからファイルをダウンロードするディレクトリを指定する方法

結論

RSeleniumはだいたいわかってるから読むのが面倒くさい人へ。サーバー起動時にextraCapabilitiesオプションでダウンロードディレクトリの情報をChromeオプションとしてlist形式で渡してやれば設定できます。

# Chromeオプションを追加
eCaps <- list(
  chromeOptions = 
    list(prefs = list(
      "profile.default_content_settings.popups" = 0L,
      "download.prompt_for_download" = FALSE,
      "download.default_directory" = "/path/to/download_directory"
    )
    )
)

# リモートサーバーへ接続
rD <- rsDriver(extraCapabilities = eCaps)
続きを読む

Rで欲しい県について国勢調査 小地域 Shapefile を全部ダウンロードする

はじめに

先日、国勢調査 小地域 Shapefileからより細かい粒度で逆ジオコーディングを行う方法を書きました。

y-mattu.hatenablog.com

しかし、ここで使っていた小地域shapefileをダウンロードをする関数では県と市をこちらで指定する必要がありました。(uriさんのコードではleafletへのプロットまで行っていますが、ダウンロードして解凍するだけの関数をこちらのgistにあげています。)

download_smallshape(pref = "33", city = "倉敷市")

さらに厄介なことに、ここで指定する市の名前の形は都道府県によってはやや特殊です。

例えば埼玉県 f:id:songcunyouzai:20170728161505p:plain

例えば北海道 f:id:songcunyouzai:20170728161555p:plain

ここの指定を一文字でも間違えると、正しくダウンロードされません。

そこで、このページの状態でこの市や町の名前をスクレイピングで取得することを考えます。

続きを読む

【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について

はじめに

現在開発中のJUMAN++をRから操作するパッケージ{rjumanpp}ですが、まだ完成には程遠いもののベースになる部分はほぼできており、前回からいくつか基本的な変更があります。

ver 0.0.9991

関数名について

rjumanppパッケージでは、解析に関係する主要関数名のプレフィックスを jum_* で統一しようと考えています。これは、関数名になるべく統一性をもたせることで関数名を思い出す手間を省くためと、あとはRStudioではデフォルトでは3文字入力すると自動で補完がスタートするので、プレフィックスは3文字にしたほうが自分も(もしいれば)ユーザーも使いやすいだろうと考えたからです。

続きを読む

【R】国勢調査 小地域 Shapefile を使って緯度経度から住所を求める(市までわかっているときver.)

はじめに

@u_riboさんによるこんなツイートがある。

要するに、shapefileの細かい版ですね。細かいので、市レベルでファイルが分かれているようです。

今回は、これを使って逆ジオコーディングをやってみます。ただし、「やってみた」レベルなので今回は知りたい緯度経度が何市にあるかまでは絞れているとします。 市を見つけるのには、RであればRで緯度経度から都道府県・市区町村を求めるSASであればSASによる逆ジオコーディング(緯度経度から都道府県・市を求める)が参考になります。

続きを読む