★データ解析備忘録★

ゆる〜い技術メモ

{rjumanpp} ver0.1.0 祝!マイナーリリース

はじめに

これまで

形態素解析器JUMAN++をRから操作するパッケージを作り始めました - ★データ解析備忘録★

【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について - ★データ解析備忘録★

{rjumanpp} ver0.0.0.9992 表層形ではなく活用の原形を出力できるようになりました - ★データ解析備忘録★

{rjumanpp} ver0.0.0.9993 サーバーモードに対応しました & vignetteを公開しました - ★データ解析備忘録★

GitHub

github.com

祝! マイナーリリース(ver0.1.0)

JUMAN++のRラッパーパッケージである{rjumanpp}ですが、これまでちまちま機能追加とバグフィックスを繰り返してきましたが、単純な文字列の入力に関して一通りの機能は揃えたのと、目立ったバグは概ね解消されたのでここで一気にバージョンを0.1.0にしてマイナーリリースとします。

vignetteでも公開している通り、データフレームの特定の列にテキストが入っていて、それを分かち書きした形で出力するような単純な分かち書きに関してはかなり変な文字列を入れても大抵のものは自然な形で返ってくると思います。(エラーとか出たらごめんなさい…)

分かち書きさえしていれば、{tidytext}パッケージなどをかませることで代表的なテキストマイニング手法(SVM, RF, Tf-IDFのスコア付, 共起ネットワーク, トピックモデル, word2vecなど)の形に持っていくことができるので、今回はこの時点でマイナーリリースとしました。

今後

形態素解析をRで、といえば{RMeCab}パッケージが有名ですが、このパッケージではできた

  • 「ファイルやディレクトリの入力に対して単語と品詞情報の頻度を出す」
  • 「データフレームの特定列に対して単語と品詞情報の頻度を出す」

みたいなことは全く手付かずなので、その辺をやっていこうと思います。

最後に

もし「こんな機能がほしい!」とか「エラーが出たんだけど…」みたいなことがあれば冒頭のGitHubのissueでお願いします。