<パターン認識の手順について>

作成日:2022年12月1日

作成者:長尾康生

~はじめに~

今回は機械学習などで用いられているパターン認識の順序(手順)について述べます。またパターン認識を用いて何が出来るのか述べます。


~パターン認識とは~

まずパターン認識とは何か説明します。パターン認識は人間や動物が知覚できるような顔や文字、音声といったデータを自動的に分類する手法です。この分類先のことをパターン認識においてクラスと呼びます。

待ち合わせ場所で相手を探すときや他の人が書いた文字を読むことが出来るなど、特徴や規則を見つけ出すのは人が日常的に行っていますが、それをコンピュータで実行する情報処理の一つがパターン認識といえます。ここではコンピュータが得意な数字や記号以外の要素を処理しますが、あえてコンピュータで実現することで人間の労力を削減して膨大なデータ処理を実現できます。パターン認識と機械学習を組み合わせることで論理的にできない情報も扱えるようになり機械学習出来るようになりました。

例として、スマートフォンのロックやカメラの顔認識、かすれている文字や手書き文字を読み取る文字認識,アレクサなどの誰が話しているか判別する音声認識などがあります。また人と障害物を判別する必要のある自動運転の自動化技術にはなくてはならないものです。


~パターン認識を試す手順~

パターン認識の方法は最近傍法という「認識すべきデータについて既に知っているデータのうち、最も似ている物を探す」というものです。データの特徴を抽出して数値化し、認識するデータが既に知っているデータのどれに近い(似ている)かを判定しクラスに分けています。画像認識であれば画像の数値が近いと各画素の色などが似ていることになり、クラスとして似ているということになります。

次に具体的なパターン認識の応用として音声認識と文字認識、画像認識を紹介します。これらは基本的な流れは変わらず「学習して認識する」というものになります。

まずは音声認識について説明します。音声認識では主に統計的手法が良く用いられており、音響的な特徴と言語的な特徴を分離して扱うことが多いです。音響的な特徴とは、認識するデータの音素がそれぞれどのような周波数特性を持っているかを表したもので、音響モデルと呼ばれています。言語的な特徴とは、音素の並び方に関する制約を表したもので、言語モデルと呼ばれています。例えば「わたし」のあとには「は」や「が」などのが続く確率が高いなどの制約です。音声認識はiPhoneのsiriやAmazonやGoogleのスマートスピーカー、自動文字起こし、リアルタイム翻訳などに利用されています。

次に文字認識の過程を説明します。正式には高額文字認識(OCR)と呼びます。OCRでは認識率を高めるために傾き補正や二値化、行と単語の検出、文字の分離などの画像を事前に処理します。 次にテキスト認識としてマトリックスマッチングというアルゴリズムを利用します。

最後に事後処理です。出力結果の中に単語リストで定義されている単語しかないことがわあ買っている場合OCRの精度を高めることが出来ます。単語リストには、例えば、英語のすべての単語、または特定の分野のより技術的な語彙を定義しておくことができます。

右の画像のように一見読めないような字でもパターン認識を活用することでどの字に近いか判定し候補を出すことが出来ます。 OCRはパスポート、請求書、レシート、名刺、メール、データや文書の印刷物など、紙に記載されたデータをデータ入力する手法として広く使われ、紙に印刷された文書をデジタイズし、よりコンパクトな形で記録するのに必要とされています。

このほかにも画像認識にはルールベースという認識手法があります。これは事前にルールに従って認識する方法で、「目が赤くて、耳が長ければ、ウサギ」というルールをたくさん作っておき、ルールに合致する動物をウサギと認識する方法です。


~終わりに~

今回はパターン認識の手順や実用例などを説明しました。パターン認識は人が普段行っていることをコンピュータにもさせることで莫大なデータを処理することが出来、人の暮らしに欠かせない技術となっています。


参考文献

・データサイエンス入門 教養としてのデータサイエンス . 講談社出版 . 84p~87p

wiki-パターン認識 最終更新:2022/10/21

webio辞書-音声認識 最終更新:2022/10/21