お問い合わせ

DIGITAL BUSINESS EYE'S

形態素解析とテキストマイニング

形態素解析、とは?

テキスト,文字列
テキストマイニングにおいては、文章を単語や文節で区切り、単語の出現頻度や単語同士の関係性などを分析します。
この分析の際に使われる技術に、形態素解析という方法があります。

形態素解析は、自然言語を「形態素」に区切る技術です。
自然言語というのは、生活の中で私たちが普通に使っている言葉、一方形態素は、言葉が意味を持つ最小単位です。

日本語のテキストを処理する際に、形態素解析は非常に重要な役割を果たしています。
日本語は英語など西洋の言葉のようには単語の間に空白がないため、単語の区切りを機械的に判断するのが難しいからです。

反対に英語では形態素ごとに単語を分かち書きするのが普通です。
文章を単語ごとに区切ることを分かち書きといいます。
したがって英語では形態素分析は日本語よりもはるかに容易なのです。

形態素解析は、テキストマイニングのほかにも、機械翻訳やかな漢字変換などでも利用されています。

形態素解析の手順

最小コスト法のイメージ
それでは、形態素解析はどのように行われるのでしょうか。
その手順をご紹介します。

1.文章を単語に区切る
この際に、どこで区切るかが問題となりますが、辞書(単語帳)を利用して文章を区切ります。
まず、文章の意味を無視して単語として区切れる部分で区切ります。
1つの文章でも区切り方はいくつも考えられます。
形態素解析の最初のステップでは、考えうるすべての区切り方を列挙します。

2.候補の単語を構造化する
前のステップで区切った単語を、枝状に分岐させてつないで構造化します。
このような構造をラティス構造と呼び、形態素解析の単語のラティス構造を「形態素ラティス」といいます。

3.最適な単語の並びを探す
最小コスト法を使い、考えられる並びの候補の中から、最適なものを選びます。
各候補のコストを計算し、それが最小なものを最適な並びとします。
この場合のコストとは、「連接コスト」(品詞のつながりやすさ)と、「生起コスト」(単語の出現しやすさ)の2つです。

形態素解析の応用例

インターネットの検索エンジンなどでも、形態素解析の技術は活用されています。
Googleなどの検索エンジンでは、検索フォームに入力されたキーワードはそのまま処理されません。
形態素解析によって最小単位にまで分割することによって、検索に必要のない単語を省き、余分なデータ処理をさせないですませているのです。

もともと検索エンジンを使う場合は単語を1つ、2つ、・・・と増やして検索する入力の仕方が多かったのですが、文章をそのまま入力したり、さらには音声検索なども加わってきたことによって、ますます形態素解析の重要性が増してきました。

例えば、検索フォームに「形態素解析で分析する」と入力した場合、まず形態素解析によって「形態素/解析/で/分析/する」と分割されます。
そして検索に必要のない助詞である「で」や「する」は省かれて検索されます。
こうして、検索フォームに入力された余分な文字を省き、検索精度の向上や、データの処理量を削減しています。

キーワードプランナーを利用されている方はご存じかもしれませんが、ある時期を境に表示結果のキーワードに空白が挿入されるようになりました。
ここでも形態素解析されたデータが使われていることがお分かりになるかと思います。

おわりに

世の中には、すでに多くの形態素解析のライブラリが数多く存在し、オープンソースで配布されています。
それらを使って日々の解析は手軽に進められるようになりましたが、普段使う言葉をデータとして扱うためにどのような手順を踏んでいるか、をきちんと理解しておくことが分析そのものにも重要、です。



August 04 , 2020
K. Yamamoto

同じカテゴリの記事