言語処理100本ノック半分やった

思い立って言語処理100本ノックに挑戦してとりあえず半分（第５章）まで動くようになったので感想

ネットで無料で公開されている有名な自然言語処理プログラミングの問題集。サイト開いても一見説明がなくていきなり問題が始まる感じだが、下の方までスクロールして読むと東北大学の乾・鈴木研究室が公開しているらしい。。

で、実際やってみて

準備運動として軽めの問題。RubyとかJSだとmapでループしてるが、Pythonだと for文でループするのでなかなかさくさく書けない。そのうち手が覚えるはず。。

Pythonでテキスト解析してそれをUnixコマンドで確認する

Pythonの知識不足で詰まるのはともかく、意外とUnixコマンドも詰まるなと。。

uniq -cとかsort --keyとかunixコマンドのオプションが充実していることを再認識。。

正規表現での文字列切り出し。wikipediaの記事からマークアップ取り除いたりURL切り出したり結構大変。

mecabを使った形態素解析の問題。

とりあえずmecabをインストールしてお題の文章をmecabで解析して結果をテキストファイルに書き出す。で、そこから問題で支持された条件の文章を切り出していく。あとその結果をグラフで描画したりする。

解析結果のフォーマットの見方とかそもそも形態素解析とは何か知らなかったりしてwikiとかで調べる。

cabochaを使った係り受け解析の問題

cabochaというライブラリを使って文節間の修飾関係を解析して（係り受け解析）結果をテキストファイルに書き出して、あとは問題で支持された通りの条件で修飾、被修飾関係にある文節を出力していく。

cabochaの解析結果の見方とか係り受け解析が何か。。と言う理解ももちろん大事だけど結果を処理するのにPython力もないと辛い感じ

4、5章も難しかったけど後半も機械学習とか出てきて難易度高そうな雰囲気。

これ以外にも勉強したい分野が諸々出てきているし一旦ペース落としつつ続ける。焦らず地道に時間かけてやっていきたい。。