23733 EmVision に物を認識させるには - Apple Accessibility Mailing List Archive

まず画面の一番下の行には四つのタブ切り替えボタンが表示されています。左から

「文字の認識」

この画面に切り替えると、リアルタイムOCR、写真を撮影してのOCRなどを利用できます。

ちょうど下から2行目の箇所にボタン類が表示されます。

「周りの物の認識」

風景、色、バーコードスキャンのボタン類が表示されます。

下から2行目の箇所にボタン類が表示されます。

色検出は30種類の基本モードと950種類の詳細モードから選べます。

「スキャンして見つける」

Find Persons(顔認識)、

Find Objects(物の認識)

Envisionに学習させる、

下から2行目の箇所にボタン類が表示されます。

現時点で学習させられるものは顔だけです。

以前のバージョンでは物の写真を登録できるようになっていたので、LookTel Recognizerの代わりに使えるのではないかと期待した人は多かったようですが、登録作業がうまくいかず、この機能は今は省かれています。

「ヘルプ」

スピーチでは、写真撮影して文字認識した結果の画面で、再生ボタンを実行したときの読み上げ音声の種類や速度を調整できます。

言語の自動判定や検出する色の種類を指定できます。

オフラインでの文字認識のオプションをオンにしてしまうと、日本語の文字認識はされなくなってしまうのでお気を付けください。

さて、文字認識について、

まずは左下端の「文字の認識」の箇所を選択状態にします。

1.　リアルタイムOCR

「すぐに読み上げを始める」ボタンを実行します。

カメラをかざすだけで文字認識がリアルタイムに行われます。

同じ箇所に表示されている「すぐに読み上げを終える」ボタンを実行すれば終了します。

認識は連続して行われますが、うまくいかないときは、一度読み上げを終了させてから再び開始してやるとよいです。

2.　写真を撮影してOCr

「文章の読み上げ」ボタンを実行します。

書類の四隅を検知すると、自動的に撮影されます。

あるいは、画面の左上にある「撮影」の箇所を実行すれば手動で撮影されます。

撮影後の画面では、認識結果が表示されます。

VoiceOverのスワイプ操作で読み上げさせてもよいですし、画面の左下にある「再生」ボタンを実行して連続読み上げさせることもできます。

ちなみに画面の最下行には、再生、エクスポート、フォントサイズの変更ボタンが並んでいます。

3.　カメラロールからの写真の読み込み、PDF読み込み、複数ページの一括認識

「More actions」を実行すると、三つのメニューが表示されます。

「Read Multiple Pages」では、複数の写真を連続撮影してから、まとめて認識処理をします。その場合、認識結果は複数のページにわかれます。

小冊子や本など、一気に写真撮影して認識、保存したいときに役立ちます。

「Import PDF」では、Filesアプリを開いてPDFデータを読み込みます。

「Import Image」では、カメラロールを開いて、すでに保存されている写真を読み込みます。

「スキャンして見つける」ですが、

Find Object、物の認識の場合、すでにライブラリで表示されている物体についてだけを認識してくれます。

また、LookTel Recognizerと違う点は、ライブラリ登録されている物を一つだけ指定することにより、その物をカメラが見つけた時にお知らせしてくれるという機能です。

たとえばラップトップを指定しておけば、部屋の中をカメラで見まわしたときに、ラップトップが見つかれば効果音でお知らせしてくれるという具合です。

Find Person、顔認識については登録した人の顔を認識して効果音と登録した名前でお知らせしてくれます。

何人の顔を登録できるのか私はわかっていません。

顔の登録をするときは、すくなくとも写真を5枚撮影する必要があります。

それぞれのモードでは、効果音によるお知らせをうまく取り入れているなぁという印象です。

書類を撮影しての文字認識と風景の認識のモードのときだけ、写真を撮影する操作が必要です。

それ以外はカメラをかざしておけば認識してくれるので、わかりやすい操作性になっています。

将来的にはスマートグラスやウェアラブルカメラの開発も視野に入れているようなので、今後どこまで伸びていくアプリなのか、楽しみではあります。