音声入力

DataWedge 13.0

概要

音声入力を使用すると、DataWedge は話された内容を、タイプ入力やスキャンで取得したかのようにテキストに変換できます。音声入力には、GMS デバイスに搭載されている Google 音声認識エンジンを使用します。音声 - データ キャプチャは、バーコードが濡れていたり、損傷していたり、汚れが付いていたりなどの理由でスキャンできない場合に役立ちます。

音声入力オプション:

  • PTT ボタンを押して音声キャプチャをトリガする
  • タイムアウト値で音声キャプチャを終了する
  • フォアグラウンド アプリ内をナビゲートしたり、TAB、ENTER、NEXT、PREVIOUS、ESC、クリアなどの特定のキーを押す命令を発したりするための音声コマンドを設定する
  • 返されるデータを英文字や数字に制限する
  • データ キャプチャを待機中に音声ガイダンスを再生する
  • 発話データを検証し、必要に応じて取得したデータを編集する
  • オフラインで動作する

この機能は、Android Nougat 以降を搭載した Zebra GMS デバイスでのみサポートされています。

DataWedge の音声入力に関する DevTalk プレゼンテーションをご覧ください (注: 開始フレーズとその関連オプションは、DataWedge 13 以降では廃止されています)

動作の仕組み

音声データ キャプチャは、PTT ボタンを押すか、DataWedge ソフト トリガ インテント API を使用して有効にします。PTT ボタンを使用すると、音声入力は DataWedge プロファイルで設定されます。音声キャプチャ データを受信するアプリケーションは、プロファイルに関連付けられている必要があります。アプリケーションを起動すると、次のメッセージが表示されます。「PTT ボタンを押しながらデータ通話」PTT ボタンを押すと、音声キャプチャが開始できることを示す音が鳴ります。ユーザーはキャプチャするデータを話し、終了したら PTT ボタンを放します。話されたデータが表示されます。

インテント出力を使用してデータを出力する場合、データソースは「音声」として識別でき、他の入力ソースと区別して、音声データをアプリケーションの要件に従って処理できます。バーコード スキャンと音声入力は、同じ DataWedge プロファイルに格納できるため、両方のデータ キャプチャ方式を交互に利用できます。

注: 音声入力が有効になっている場合、Google アプリ バージョン 11.21.9.21 以降に搭載されている Google 音声エンジンは、バックグラウンドでリッスンしていることを示す通知音を数秒ごとに再生します。この通知音の頻度を最小限に抑えるために、新たなプロファイル (Profile0 とは別) を作成し、必要なアプリケーション/アクティビティと関連付けることをお勧めします。これにより、アプリがフォアグラウンドにあるときのみ音声通知が聞こえるように制限されます。

主な機能

音声入力機能には、DataWedge プロファイルからアクセスできます。

画像

音声入力設定

  • 有効 - 音声入力を有効にします。

  • データ キャプチャ開始オプション - 音声キャプチャをトリガするオプションを選択します。

    • PTT ボタン - デバイスに PTT ボタンがある場合は、音声キャプチャをトリガするように設定します。PTT ボタンがないデバイスの場合、PTT ボタンはデバイスで使用可能なボタンにマッピングできます。
    • なし - 音声キャプチャは、インテント API を介してのみ有効になります。「ソフト トリガ API」を参照してください。
  • 終了検出タイムアウト - データ キャプチャのタイムアウト値を秒単位で設定します。値が「0」に設定されている場合、データ キャプチャを無限に待機します。このタイムアウトはおおよその時間であり、1 ~ 2 秒の遅延が発生する可能性があります。デフォルト値は「0」です。

  • 音声コマンド - フォアグラウンド アプリケーションをナビゲートするための音声コマンドを構成および設定します。コマンドは、開始オプションとして PTT ボタンが選択されている場合にのみサポートされます。

  • タブ コマンド - 指定したフレーズの発話時に Tab キー イベントを送信します。
    • 有効 - タブ コマンドを有効/無効にします。
    • フレーズ - Tab キーを送信するコマンド フレーズを設定します。デフォルトのフレーズは「send tab」です。
  • Enter コマンド - 指定したフレーズの発話時に Enter キー イベントを送信します。
    • 有効 - Enter コマンドを有効/無効にします。
    • フレーズ - Enter キーを送信するコマンド フレーズを設定します。デフォルトのフレーズは「send enter」です。
  • 次に移動コマンド - 指定したフレーズの発話時に、次の入力フィールドに移動します。
    • 有効 - 次に移動コマンドを有効/無効にします。
    • フレーズ - 次の入力フィールドに移動するコマンド フレーズを設定します。デフォルトのフレーズは「move next」です。
  • 前に移動コマンド - 指定したフレーズの発話時に、前の入力フィールドに移動します。
    • 有効 - 前に移動コマンドを有効/無効にします。
    • フレーズ - 前の入力フィールドに移動するコマンド フレーズを設定します。デフォルトのフレーズは「move previous」です。
  • エスケープ コマンド - 指定したフレーズの発話時に、エスケープ (ESC) キーを送信します。
    • 有効 - エスケープ コマンドを有効/無効にします。
    • フレーズ - ESC キーを送信するコマンド フレーズを設定します。デフォルトのフレーズは「send escape」です。
  • クリア コマンド - 指定したフレーズの発話時に、フォーカスされている現在の入力フィールドをクリアします。
    • 有効 - クリア コマンドを有効/無効にします。
    • フレーズ - フィールドをクリアするコマンド フレーズを設定します。デフォルトのフレーズは「clear」です。
  • データ タイプ - 返すデータ タイプを構成します。選択肢は、[すべて]、[英文字]、または [数字] です。データ タイプは、キャプチャしたデータを優先選択に従って制限するのに必要です。データ タイプの選択肢は、以下のとおりです。
  • すべて - スキャンしたすべてのデータが返されます。たとえば、バーコード ABC123 をスキャンした場合、ABC123 がそのまま返されます。
  • 英文字 - 英文字のみが返されます。たとえば、バーコード ABC123 をスキャンした場合、ABC のみが返されます。
  • 数字 - 数字のみが返されます。たとえば、バーコード ABC123 をスキャンした場合、123 のみが返されます。
  • データ キャプチャ待機音 - デバイスがデータのキャプチャを待機しているときの音声フィードバックを有効/無効にします。

  • オフライン音声認識 - インターネットにアクセスできない場合にオフライン音声認識を有効にします。これにより、オフライン認識音声エンジンで発話データが検出されます。

  • 確認ウィンドウ - 発話後に結果を検証して、発話データを表示し、必要に応じて同じ画面でそのデータを編集できます。オフライン モードでは、受信した結果は正確でない可能性があるため、この機能が役立ちます。

    画像
    確認ウィンドウ


以下の制限事項を参照してください。

構成

音声入力パラメータ

DataWedge 音声入力は、DataWedge API を使用してプログラムで制御できます。以下の音声入力パラメータを構成するには、構成の設定 API の DataWedge 音声入力プラグインを参照してください。

パラメータ名 パラメータ値
voice_input_enabled true
false
voice_data_capture_start_option 1 - PTT ボタン (デフォルト)
voice_data_capture_start_phrase start (デフォルト)
voice_data_capture_end_phrase [空白] (デフォルト)
voice_end_detection_timeout 0 ~ 30 (秒)
voice_command_tab_enabled true
false (デフォルト)
voice_command_tab_phrase send tab (デフォルト)
voice_command_enter_enabled true
false (デフォルト)
voice_command_enter_phrase send enter (デフォルト)
voice_command_move_next_enabled true
false (デフォルト)
voice_command_move_next_phrase move next (デフォルト)
voice_command_move_previous_enabled true
false (デフォルト)
voice_command_move_previous_phrase move previous (デフォルト)
voice_command_escape_enabled true
false (デフォルト)
voice_command_escape_phrase send escape (デフォルト)
voice_command_clear_enabled true
false (デフォルト)
voice_command_clear_phrase clear (デフォルト)
voice_data_type 0 - 任意
1 - 英文字
2 - 数字
voice_start_phrase_waiting_tone true
false
voice_data_capture_waiting_tone true
false
voice_validation_window true
false
voice_offline_speech true
false

音声入力構成の設定のサンプル

DataWedge 構成の設定 API を参照してください。

制限事項

  • 音声入力は英語でのみ検証されます。他の言語で使用する場合は、デバイスがインターネットに接続されている必要があります。
  • オフライン音声認識では、精度レベルが低くなります。
  • 音声入力は、Google の音声認識を利用するため、App Manager の DisableGMSApps アクションを使用する GMS 制限モードでは機能しません。
  • DataWedge 音声入力の使用中は Google アシスタントを使用しないでください。望ましくない動作を引き起こすおそれがあります。
  • Enterprise Home Screen (EHS) が制限モードになっている場合、音声入力は使用できません。ただし、EHS のすべての権限設定を有効にすると、DataWedge で音声入力を使用できるようになります。
  • 音声キャプチャ中に PTT (push-to-talk) ボタンを離した場合、音声エンジンはその時点で継続的にリッスンしているため、キャプチャしたデータが表示されるまでに 1 ~ 2 秒の遅延が発生することがあります。
  • PTT Expressが有効で実行中の場合、音声入力は同時に使用しないでください。予期しない動作を引き起こすおそれがあります。
  • DataWedge のアクティブ プロファイルで音声入力が有効になっている場合、メディア音量ストリームをミュートするには、デバイスの音量コントロールを使用します。

関連ガイド: