pisg

IRCのログを集計していろいろおもしろい統計情報をhtmlに出力してくれるツールです

インストール

カスタマイズ

ログのフォーマット別モジュールを改造する

クライアント(やbot)ごとにログの形式は異なるので、各々に対応するパーサが用意されています。私はまどかちゃんを使っているので PISG - Perl IRC Statistic Generator (yoosee.wiki) を参考にmadoka用のパーサを書きました

形態素解析を行って日本語の単語抽出もできるようにする

pisgは単語の統計などをとるときスペースを単語の区切りと考えます。日本語の会話を集計する場合、日本語は単語間に区切り記号が入らないので、なんからかのソフトで単語を区切ってスペースを入れなくてはいけません。このような処理を形態素解析といいます。

筆者はChaSenという形態素解析ソフトウェアを用いましたが、他にもKakasiなどが利用可能です

  1. 自然言語解析 を見てChasenを入れる
  2. PISG - Perl IRC Statistic Generator (yoosee.wiki) にあるモジュールに習ってText::ChaSenを用いた形態素解析処理を組み込む

生成されるページの日本語化


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2005-09-09 (金) 02:41:17