top of page

MNISTデータセットを用いた手書き数字認識アプリの開発チュートリアル

更新日:5月27日

このチュートリアルドキュメントでは0〜9までの手書き数字を認識するPythonアプリケーションの作成を行います。このドキュメントではMNIST(Modified National Institute of Standards and Technology database)より提供される「0」〜「9」の手書き数字データを使用し、手書き数字を認識し分類するアプリケーションを作成します。



前提条件

このアプリケーション作成には下記を満たす開発環境が求められます。

実行環境:Jupyter Lab

プログラム言語:Python 3.x.x (下記開発モジュールに対応するバージョン)

開発モジュール: openCV, matplotlib, tensorflow, numpy

その他:検証用の手書き数字画像10枚(GIMPなどの画像編集ソフトで作成してください)



作成するアプリケーションの要件定義

1. 画像の選択:

   - アプリは識別対象の画像のパスを認識し、選択します。識別対象の画像は10枚ほど用意してください。画像編集ソフトなどを使用して手書き文字を用意してください。

 

2. 画像の受け取り:

   - 選択された画像をアプリに渡す仕組みを実装する必要があります。選択された画像ファイルを読み込んで、AIモデルに提供できる形式に変換する必要があります。

 

3. 画像の判別:

   - 提供された画像が0から9までの数字を含むかどうかを判定するAIモデルが必要です。この画像認識モデルは、MNISTのトレーニングデータで学習させて構築してください。アプリケーションの使用するモデルの学習は事前に行う必要があります。

 

4. 結果の出力:

   - アプリは画像が含む数字を判定し、その結果を出力する必要があります。また、用意した画像の識別が完了したら、モデルの精度をパーセンテージで示してください

 

 

Pseudocode(擬似コード)

1.      モジュールのインポート

2.      MNISTデータのロード & データの正規化

3.      モデルの定義と学習

4.      モデルの評価

5.      ループ処理:検証画像の分類


検証画像ファイルの読み込み

検証画像のグレースケール化

モデルの分類

確率ラベルの取得とプリント









1.      モジュールのインポート

 

開発に必要なモジュールをインポートします。



 

1. cv2 (OpenCV):

   - 概要:  OpenCVは画像処理およびコンピュータビジョン用のライブラリで、画像の読み込み、表示、変換、フィルタリング、検出などの様々な機能を提供します。

   - 役割:  アプリ内で手書き数字画像の読み込み、表示、前処理などに使用されます。

 

2. numpy:

   - 概要: NumPyは高性能な数値計算ライブラリで、多次元の配列や行列の操作に優れています。数学的な演算やデータ処理に広く使用されます。

   - 役割:  画像データやモデルの予測結果など、数値データの処理に使用されます。

 

3. matplotlib.pyplot:

   - 概要:  Matplotlibはデータの視覚化のためのライブラリで、`pyplot`モジュールはMatplotlibを使ったグラフの作成やデータの可視化に便利な関数を提供します。

   - 役割:  モデルの学習曲線や予測結果などをグラフィカルに表示するために使用されます。

 

4. tensorflow (tf):

   - 概要:  TensorFlowは機械学習およびディープラーニング用のオープンソースライブラリで、グラフ計算を使用した高性能な数値計算を提供します。

   - 役割:  MNISTデータセットを使用して手書き数字認識モデルを構築し、トレーニングおよび予測に使用されます。

 

これらのモジュールを組み合わせて、MNISTデータセットから手書き数字認識モデルをトレーニングし、新しい手書き数字画像を分類するアプリケーションを構築できます。 cv2 は画像処理、 numpy は数値データの処理、 matplotlib.pyplot は結果の視覚化、そして tensorflow は深層学習モデルの構築とトレーニングにそれぞれ寄与します。



2.      MNISTデータのロード & データの正規化

 

モデルの学習に使用するための教師データをロードし、前処理を行います。



 

mnist = tf.keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

 

この部分では、TensorFlowのKeras APIを使用してMNISTデータセットをロードしています。MNISTデータセットは手書き数字の画像とそれに対応するラベル(0から9の整数)から構成されています。(x_train, y_train)はトレーニングデータ、(x_test, y_test)はテストデータを表します。

 

§   x_train: トレーニング画像データ

§   y_train: トレーニングデータのラベル

§   x_test: テスト画像データ

§   y_test: テストデータのラベル

 

 

# normalization 0-255 -> 0-1

x_train = tf.keras.utils.normalize(x_train, axis=1)

x_test = tf.keras.utils.normalize(x_test, axis=1)

 

 

次に、画像データを正規化しています。通常、画像のピクセル値は0から255までの範囲にあります。このコードでは、tf.keras.utils.normalize関数を使用して、画像のピクセル値を0から1の範囲にスケーリングしています。これにより、ニューラルネットワークの学習がより効果的に行われます。正規化は、モデルの学習プロセスを安定させ、収束を助ける一般的な前処理手法です。

 

§   x_train: トレーニング画像データが正規化されます。

§   x_test: テスト画像データが正規化されます。

 

このコードブロックの実行により、MNISTデータセットがロードされ、画像データが正規化された状態で利用可能になります。ニューラルネットワークを構築し、手書き数字の分類を行うための準備が整いました。



3.      モデルの定義と学習

 

モデルを定義し、教師データをモデルに学習させ、分類に最適な数理的関数の構築を行います。




 

model = tf.keras.models.Sequential()

 

 

この行では、KerasのSequentialモデルを作成します。Sequentialモデルは、層を順番に積み重ねていく簡単なモデルです。

 

model.add(tf.keras.layers.Flatten(input_shape=(28, 28)))

 

次に、モデルに Flatten 層を追加します。この層は、28x28の2次元の画像データを1次元に平坦化します。input_shape=(28, 28)は、入力画像のサイズを指定しています。

 

model.add(tf.keras.layers.Dense(128, activation='relu'))

model.add(tf.keras.layers.Dense(128, activation='relu'))

model.add(tf.keras.layers.Dense(128, activation='relu'))

 

これらの行では、全結合層 (Dense 層) を3つ追加しています。各層は128のユニット(ニューロン)を持ち、活性化関数としてReLUを使用しています。これにより、ネットワークがより複雑なパターンを学習できるようになります。

 

model.add(tf.keras.layers.Dense(10, activation='softmax'))

 

最後の層は、10のユニットを持ち、活性化関数としてSoftmaxを使用しています。これは、10クラスの分類問題において、各クラスに対する確率分布を出力します。

 

model.compile(loss="sparse_categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

 

compileメソッドでモデルをコンパイルします。損失関数は sparse_categorical_crossentropy であり、最適化アルゴリズムとしては adam を使用し、モデルの性能評価指標として精度 (accuracy) を指定しています。

 

model.fit(x_train, y_train, epochs=5)

 

fitメソッドはモデルをトレーニングします。x_train はトレーニングデータの入力、y_trainは対応するラベルです。epochs=5 はトレーニングを5エポック行うことを示しています。1エポックはトレーニングデータ全体を一度通過することを意味します。

 

この学習プロセスにより、モデルはトレーニングデータに適応し、手書き数字の分類を行うためのパラメータが最適化されます。学習が進むにつれて、モデルの損失が減少し、精度が向上することが期待されます。

 

 

 

 

 

 

 

4.      モデルの評価

学習させたモデルが教師データ以外のデータにも対応しているかをチェックするためにモデルの評価を行います。

 




loss, accuracy = model.evaluate(x_test, y_test)

 

この行は、evaluate メソッドを使用してモデルの性能を評価しています。引数として、テストデータ (x_test と y_test) が与えられています。

 

§    x_test: テストデータの入力画像。

§    y_test: テストデータの正解ラベル。

 

evaluate メソッドは、テストデータに対してモデルの損失(loss)と精度(accuracy)を計算します。これらの評価メトリクスは、モデルが新しいデータに対してどれだけ正確かを示す重要な情報です。

 

print(loss)

print(accuracy)

 

得られた損失と精度は、それぞれ loss および accuracy 変数に格納され、それらを print 関数を使用して表示しています。

 

§   loss: モデルのテストデータに対する損失。損失は、モデルがテストデータに対してどれだけ予測が誤っているかを示します。低い損失は良いモデルの指標です。

 

§   accuracy: モデルのテストデータに対する精度。精度は、モデルが正確にクラスを予測できる割合を示します。高い精度は良いモデルの指標です。

 

 

evaluate メソッドを使用することで、モデルがトレーニングデータ以外の新しいデータにどれだけ適応できるかを評価できます。また、複数のモデルを構築し、それらを評価して比較することで、どのモデルが特定のタスクにおいて優れているかを判断できます。テストデータでの評価は、モデルが過学習していないか、またはデータセットに特有の問題がないかを確認するために役立ちます。

 

評価結果は、モデルの性能や信頼性を理解し、実際の運用においてどれだけ信頼できるかを示す重要な情報です。

 

 

 

 

 

5.      検証画像の分類

 

学習させたモデルを使用して用意した手書き数字を分類させてみましょう。




コードは下記のように動作します。

1.      image_number と num_correct という変数を初期化します。image_number は読み込む画像の番号、num_correct はモデルが正しく予測した回数を追跡します。


2.      while ループが画像が存在する限り続きます。image_number が10に達するか、images フォルダ内に画像がなくなるとループが終了します。


3.      画像をOpenCVを使用して読み込みます。


4.      print(img.shape) を使用して、元の画像の配列構成(形状)を表示します。


5.      cv2.cvtColor を使用して画像をグレースケールに変換し、print(img.shape) で変換後の形状を表示します。


6.      img をモデルが受け入れる形式に変換します。np.array([img]) を使用して、モデルが期待する形状になります。


7.      モデルを使用して画像の予測を行います。np.argmax を使用して、モデルが予測したクラスのインデックスを取得します。


8.      予測結果を表示し、model_ans と image_number が一致していれば num_correct を増やします。


9.      plt.imshow を使用して画像を表示します。


10.   finally ブロックで image_number を1増やし、次の画像に進みます。


11.   ループが終了した後、model_accuracy を計算して表示します。これはモデルが正しく予測した割合です。






このモデルでの試行が100パーセントの正答率を得ることは恐らく難しいでしょう。モデルの精度を向上させるためには、いくつかのアプローチや手法を試すことが重要です。

下記はにいくつかの一般的なアプローチを示します。

 

1. モデルの複雑さの調整:

   モデルの複雑さを増減させて、過学習や未学習の問題を軽減します。適切なモデルの複雑さを見つけるために、畳み込み層やドロップアウト層の追加、ユニット数の変更などを試してみてください。

 

2. データ拡張の利用:

   データ拡張を使用してトレーニングデータを増やすことで、モデルの汎化性能を向上させることができます。画像の回転、ズーム、反転などの変換を適用してデータセットを多様化させましょう。

 

3. ハイパーパラメータの最適化:

   学習率、バッチサイズ、エポック数などのハイパーパラメータを調整して最適な設定を見つけます。これには手動で調整するか、ハイパーパラメータ最適化の手法を使用することが含まれます。

 

4. 畳み込みニューラルネットワークの利用:

   手書き数字の認識においては畳み込みニューラルネットワーク(CNN)が有効です。畳み込み層とプーリング層を組み合わせることで、特徴の階層的な抽出が可能となります。

 

5. 正則化の導入:

   過学習を防ぐために、ドロップアウトやL1/L2正則化などを適用します。これにより、モデルがトレーニングデータに適合しすぎないようになります。

 

6. 異常値の検出と処理:

   データセットから異常値を検出し、適切に処理することでモデルの性能を向上させることができます。

 

. 学習率のスケジューリング:

   学習率のスケジューリングを導入して、トレーニングの最適な進行をサポートします。学習が進むにつれて学習率を調整する方法があります。

 

これらのアプローチを組み合わせて、モデルの精度を向上させることができます。実際の効果はタスクやデータに依存するため、異なる試行錯誤が必要です。

 

以上が、MNISTデータセットを用いた手書き数字認識アプリの開発チュートリアルになります。

閲覧数:147回

最新記事

すべて表示

Comments


お問い合わせは
こちらからお願いします。​

Contact Us

bottom of page