★データ解析備忘録★

ゆる〜い技術メモ

言語処理

{rjumanpp} ver0.1.0 祝!マイナーリリース

はじめに これまで 形態素解析器JUMAN++をRから操作するパッケージを作り始めました - ★データ解析備忘録★ 【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について - ★データ解析備忘録★ {rjumanpp} ver0.0.0.9992 表層形ではなく活用の原形を出力…

{rjumanpp} ver0.0.0.9993 サーバーモードに対応しました & vignetteを公開しました

はじめに これまで 形態素解析器JUMAN++をRから操作するパッケージを作り始めました - ★データ解析備忘録★ 【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について - ★データ解析備忘録★ {rjumanpp} ver0.0.0.9992 表層形ではなく活用の原形を出力…

【R】{rjumanpp}ver0.0.0.9991の変更点とパッケージの構想について

はじめに 現在開発中のJUMAN++をRから操作するパッケージ{rjumanpp}ですが、まだ完成には程遠いもののベースになる部分はほぼできており、前回からいくつか基本的な変更があります。 ver 0.0.9991 関数名について rjumanppパッケージでは、解析に関係する主…

形態素解析器JUMAN++をRから操作するパッケージを作り始めました

はじめに JUMAN++という日本語の形態素解析器が昨年登場したようです。 速度はMeCabには劣るものの、解析精度(特に表記ゆれや話し言葉)に強いようです。 JUMAN++自体のインストールや使い方は公式マニュアルや以下のリンクが参考になります。 qiita.com あと…

(Macの)Rでipadic-neologdを使う

前置き 7月のTokyo.Rにて、こんな発表をしました。 RとMeCabと正規表現 MeCabでの顔文字とかの誤解析を前処理ではなく「後処理」で整理する、という内容だったのですが、こんな指摘がありました。 顔文字や機種依存文字を含む文書を形態素解析したいなら、me…

RMeCabの顔文字の誤解析を後処理で消す

顔文字を含んだ文の解析 {RMeCab}、日本語の形態素解析に便利なのですが顔文字の分類は苦手です。 例えば、 words ふう。お腹いっぱい( ´•౪•`) 暇だな(☝ ՞ਊ ՞)☝ 試験頑張るぞ\\\\ ٩( ‘ω’ )و //// というデータフレームを解析して単語の頻度を数えるとし…

RとPythonでMeCabを使う環境構築(Windows, Mac)

自然言語処理まわりはずっとRでやっていたのですがそろそろPythonでもやろうと思い環境構築をまとめてみます。 ついでなのでRのほうもまとめてみます。 PythonについてはWindowsとMacで違うので一応そちらも触れたいと思います。Windows10とYosemiteです。 …