文字認識(OCR)

[文字認識(OCR)] (要アンロックキー)

状態, タグ色, ラベル, 後処理

設定画面上部のアイコンをタップすると、状態を指定できます。

標準の状態を指定

スキップ状態(再生されない)を指定

ブックマーク状態(行き先指定の優先項目)を指定

シーン認識 このOCR条件を満たせばここから再生 の設定

シーン認識の設定
判定シーンに指定された文字認識・画像認識項目は、シーン認識時にそれぞれ1回ずつ判定されます。判定は番号順に行われ、最初に一致した項目の成功処理が行われ、成功したとき:の項目に移動します。どの判定シーンも成功しなかった場合は、どのシーンにも一致しなかった場合の開始項目、または指定がなければ最初の項目から再生されます。

※スキップ状態の項目はシーン認識にも使用されません。

  • 最初の判定シーンにする
  • 判定シーンを追加
  • 判定シーンの番号を指定 (未設定の場合は判定シーン設定を追加)
  • どのシーンにも一致しなかった場合の開始項目に指定
  • シーン認識設定を解除

  • ボタンを押すと1行メモを追加・編集できます。(状態の指定欄を閉じた状態でのみ利用可)

ラベル

各アイコンをタップしてリスト内でのタグ色や表示名を指定できます。

タグ色を指定 (デフォルト: 左上の透明)

ラベル編集を開始


後処理

成功したとき / 失敗(空)

文字認識の成否に応じてプログラムの行き先を指定できます。

タップして開いた後、次へ中断完了任意の項目を選択するか、あるいは左側に表示されている項目リストをタップして行き先を指定します。


文字認識(OCR)

※この機能の利用にはUnlock Keyが必要です。

Google ML Kit (TextRecognizer)を使用した文字認識を行います。オフラインモデルを使用しており、計算はアプリ内で行われます。

画面のスクリーンショットを撮影し、画面から文字を抽出、または指定した範囲の文字列を1行認識します。認識した対象をタップしたり、変数に格納することができます。文字列がなかった場合や、条件に一致しなかった場合は失敗となるため条件分岐としても使用できます。

新規に作成した場合は、対象文字列を選択画面が開きます。


OCR設定

文字認識する範囲や、ML Kitの閾値、得られた結果に基づく処理を設定します。座標系は機器標準の向きでの画面左上を(0,0)とし、左右がX軸(0~画面幅)、上下がY軸(0~画面高さ: プラス値が下方向)です。

画像から指定 認識する範囲やOCR設定の調整およびテストを行うOCR認識/抽出条件画面を開く

OCR向き、言語、閾値設定 (タップで変更)

抽出 / 1行認識 (タップで切替)

検索範囲 抽出で文字列を得る画面範囲 (タップで編集)
または1行認識の対象画面範囲

(任意の文字) OCRで得られた文字列のマッチ条件
何も指定しない場合: どんな文字でも成功と判定する / 文字が存在しなければ失敗(空)
※例では「ターゲット」を指定しており、画面に「ターゲット」が存在するかどうかを判定する

正規表現を使用する ONの場合、上のマッチ条件を正規表現とする

除外設定 ここに指定した文字列が含まれると、その結果は除外される

複数マッチ時 抽出で複数の結果が得られた場合、優先する条件

認識領域の中央をタップ 認識成功時、一致した枠の中央を1度タップする (精密モードの場合はタッチ情報の取得が必要)

  • タップのタイミングをずらしたい場合、トグル左側のボタン部分をタップして 成功後: 0.5秒 のように秒数を指定します
  • タップする位置をずらしたい場合は、下記の高度な設定 タップ位置を調整 を指定してください

設定をテスト 現在の認識設定を任意のスクリーンショット画像に対してテストします。画像ファイルから選択する場合にはストレージ権限が必要です。テストが失敗した場合、閾値を調整して再試行できます。

結果文字列の格納先

結果文字列を指定した変数に格納できます。
※文字列ではなく範囲(矩形)を得る場合は、後処理成功したとき:[変数をセット]で @lastmatch 変数を任意の変数に代入して保存できます。

複数の認識結果を確認したい場合は、結果1つを保持をタップして保存内容を変更できます。

結果1つを保持(デフォルト) 最終結果を変数に保存
全ての結果を保持 複数の結果(文字列フィルタリング後)を変数に保持(スペース区切り)
認識した全文字列を保持 OCR処理で得られた全ての文字列を変数に保持


高度な設定

タップ位置を調整 (認識領域の中央をタップ指定時のみ)中央からずれた位置をタップさせる場合、その差分座標(±X, ±Y)を指定。

スクリーンショットを撮る 文字認識の実行時に画面スクリーンショットを撮影する。OFF時は撮影せず、直前の画像認識等で撮影されたものを使用して判定する。

初回撮影前に待機 直前の操作結果などの反映を指定した秒数待ってから撮影処理を開始する

成功時:失敗時:次の待機 文字認識の成功または失敗時、次の待機(操作の再生待ち時間・待機項目)をスキップ・上書きする

  • 次の待機を省略 (右側のトグルをタップ、または0秒を指定): 次の待機時間を無視してすぐに操作を行います
  • 次の待機 (左側ボタン部分をタップして秒数を指定): 次の待機時間設定を無視して、指定した時間だけ待機します

成功時 失敗時 スクリーンショット保存 文字認識の成功または失敗時、指定した場所に判定したスクリーンショットを保存する。
想定と異なる結果だった場合に指定しておくことで、次回発生した後にこのボタンをタップして保存された画像と文字認識の判定を確認できます。


対象文字列を選択

スクリーンショット画像からOCR検出された文字部分を選択して、文字認識するサンプルを指定します。選択されたサンプルは以降の設定の初期値として使用されます。

※何も検出されなかった場合は範囲指定画面へ移行します。

次へ 選択されたサンプルを基にOCR設定を行う
抽出 画面内にサンプル文字列があるか判定する設定
1行認識 サンプル位置の文字列を読み取る設定

日本語(その他言語) OCR検出に使用する言語を切替 (ML Kitモデル言語)

メニュー画像を変更 基にするスクリーンショット画像を現在のリストから(記録に画像が含まれる場合のみ)または画像ファイルから(要ストレージ権限)選択して入れ替える


OCR認識/抽出条件

スクリーンショット画像からOCR検出された文字部分を選択して、文字認識するサンプルを指定します。選択されたサンプルは以降の設定の初期値として使用されます。

1行認識ではスミレ色の枠は認識する範囲を示し、抽出時にはサンプルとする範囲を示します。

(抽出)/(1行認識) 現在の動作モード(タップで切替)

現在の言語と認識する文字の向き(タップで言語選択)

タップするとOCR認識する文字の向きを変更

[任意] 文字列の内容は問わず認識すれば成功とする
(文字列指定時) 認識した文字列が指定文字列にマッチすれば成功とする
指定した文字列を消去

テスト 現在の設定でOCRを実行し、結果を表示。最終結果はこのボタン上に読み取った文字列、範囲は緑枠で表示される。また、複数の結果があった場合は赤枠で表示される。

閾値の調整

単語閾値:(デフォルト40) 認識単語の信頼度閾値(%)
文字閾値:(デフォルト10) 認識文字の信頼度閾値(%)
角度:(デフォルト6°) 認識単語として認める最大角度ずれ

(抽出時のみ)(または結果とする優先条件)

表示を拡大・ズームイン / 縮小・ズームアウト

枠の中心にフォーカス

枠の色を変更

メニュー – 矩形を編集 OCR対象文字列(1行) / OCR検索のサンプル部分を手動で指定・調整する画面へ移行

メニュー – 画像を変更 基にするスクリーンショット画像を現在のリストから(記録に画像が含まれる場合のみ)または画像ファイルから(要ストレージ権限)選択して入れ替える


対象文字列を設定

スクリーンショット画像を基に、OCR文字認識する対象部分を指定します。
抽出の際の検索範囲ではありません

認識対象はデフォルトでスミレ色の枠の内部です。枠はドラッグやピンチ操作で直接移動やサイズ変更を行えます。

From: (左上座標) To: (右下座標) 現在の枠の座標(機器標準の向き基準)です。上部の各±ボタンをタップ・フリックして値を調整できます。

表示を拡大・ズームイン / 縮小・ズームアウト

枠の中心にフォーカス

枠の色を変更

リセット 枠の座標とマスクの両方を最初の状態に戻す

適用 現在の設定を適用して閉じる

メニュー – OCR抽出条件 するOCR抽出条件へ移行する

メニュー – 画像を変更 基にするスクリーンショット画像を現在のリストから(記録に画像が含まれる場合のみ)または画像ファイルから(要ストレージ権限)選択して入れ替える


複数マッチ時の優先条件

抽出時、画面内(または検索範囲内)に複数の対象がマッチした場合でも、結果はいずれか1つのみです。

デフォルト設定では、最初の結果が選択されます。基準はOCR内部処理によって異なります。

複数マッチした際、位置で結果を優先したい場合は優先条件を指定してください。

デフォルト 処理後、冒頭のものを結果とする

(縦軸のみ条件) 検索範囲内の最も上部、縦中央、最も下部にあるものを結果とする

(横軸のみ条件) 検索範囲内の最も左、横中央、最も右にあるものを結果とする

(座標条件) 検索範囲内の端または中央に最も近いものを結果とする

※縦軸、横軸、端の基準は機器標準の画面向きです。