概要
音声入力により、DataWedge では、発話内容を、文字入力またはスキャンから取得したかのようにキーストロークに変換できます。音声入力には、GMS デバイスに搭載されている Google 音声認識エンジンを使用します。音声 - データ キャプチャは、バーコードが濡れていたり、損傷していたり、汚れが付いていたりなどの理由でスキャンできない場合に役立ちます。
音声入力オプション:
- 定義された開始フレーズまたは PTT で音声キャプチャを開始する
- フレーズまたはタイムアウト値で音声キャプチャを終了する
- フォアグラウンド アプリ内をナビゲートしたり、TAB、ENTER、NEXT、PREVIOUS、ESC、クリアなどの特定のキーを押す命令を発したりするための音声コマンドを設定する
- 返されるデータを英文字や数字に制限する
- 開始フレーズまたはデータのキャプチャを待っているときに音声プロンプトを再生する
- 発話データを検証し、必要に応じて取得したデータを編集する
- オフラインで動作する
この機能は、Android Nougat 以降を搭載した Zebra GMS デバイスでのみサポートされています。
DataWedge の音声入力に関する DevTalk プレゼンテーションをご覧ください。
バージョン履歴
- DataWedge 7.5 - フォアグラウンド アプリ内をナビゲートしたり、特定のキーを押す命令を発したりするための新しい音声コマンド。
- DataWedge 7.4 - DataWedge Intent API の新しいデータ キャプチャ開始オプション パラメータで選択した PTT (push-to-talk) ボタンによる音声キャプチャ アクティブ化の導入。
動作の仕組み
音声入力は、DataWedge プロファイルで構成します。音声キャプチャ データを受信するアプリケーションがプロファイルに関連付けられていることを確認します。プロファイルの [音声入力] セクションには、音声データのキャプチャを制御するオプションがあります。この後の「主な機能」を参照してください。
音声データのキャプチャは、事前定義された開始フレーズまたは PTT ボタンを押すことによってアクティブになります。実行中に、音声入力は「開始フレーズ待機中」の状態になります (図 4 を参照)。音声データのキャプチャは、事前定義された「開始フレーズ」を発話した後に開始されます。これにより、状態が「データの待機中」に変わります (図 5 を参照)。音声キャプチャは、データを発話した後にタイムアウト値が経過するか、オプションの「終了フレーズ」(定義されている場合) を発話すると停止します。データ ソースを音声入力として特定して、アプリケーションの要件に応じて音声データを処理できます。バーコード スキャンと音声入力は同じ DataWedge プロファイルに共存できるため、両方のデータ キャプチャ方式を交互に利用できます。
DWDemo アプリを使用した音声入力の基礎に関する次のデモをご覧ください。
複数のフィールドを入力するための Enter キー送信コマンドに関するデモをご覧ください。
注: 音声入力が有効になっている場合、Google アプリ バージョン 11.21.9.21 以降に搭載されている Google 音声エンジンは、バックグラウンドでリッスンしていることを示す通知音を数秒ごとに再生します。この音を最小化するには、プロファイル (Profile0 とは別) を作成し、それを必要なアプリケーション/アクティビティに関連付けて、アプリがフォアグラウンドになっている場合にのみ音声通知が聞こえるように制限することをお勧めします。
主な機能
音声入力機能には、DataWedge プロファイルからアクセスできます。
図 1 および図 2音声入力設定
有効 - 音声入力を有効にします。
データ キャプチャ開始オプション - 音声キャプチャのトリガ オプションを選択します。
- 開始フレーズ - 音声キャプチャをトリガする開始フレーズを設定します。開始フレーズは、オプション [データ キャプチャ開始フレーズ] で指定します。この機能は使用されておらず、今後のリリースで廃止されます。代わりに、PTT ボタンを使用して音声キャプチャをトリガすることをお勧めします。
- PTT ボタン - 音声キャプチャをトリガする PTT ボタンを設定します。EC30、MC93、TC52/TC57、TC72/TC77、および TC8300 デバイスでのみサポートされています。その他のデバイスの場合、PTT ボタンは、デバイスの使用可能なボタンにマッピングされていることがあります。
データ キャプチャ開始フレーズ - [データ キャプチャ開始オプション] で [開始フレーズ] を選択した場合、データ キャプチャを開始するためのフレーズを指定します。数字と特殊文字を開始フレーズに含めることはできません。デフォルト値は「start」です。この機能は使用されておらず、今後のリリースで廃止されます。代わりに、PTT ボタンを使用して音声キャプチャをトリガすることをお勧めします。
データ キャプチャ終了フレーズ - データ キャプチャを終了するためのオプションのフレーズです。デフォルト値はありません。この機能は使用されておらず、今後のリリースで廃止されます。代わりに、PTT ボタンを使用して音声キャプチャをトリガすることをお勧めします。
終了検出タイムアウト -「データの待機中」状態でのデータ キャプチャのタイムアウト値 (秒) を設定します。値が「0」に設定されており、終了フレーズが定義されている場合は、データ キャプチャを無限に待機します。終了フレーズが定義されていない場合は、データがすぐに返されます。このタイムアウトはおおよその時間であり、1 ~ 2 秒の遅延が発生する可能性があります。デフォルト値は「0」です。
音声コマンド - フォアグラウンド アプリケーションをナビゲートするための音声コマンドを構成および設定します。コマンドは、デバイスが「開始フレーズ待機中」または「PTT ボタンを押しながらデータ通話」状態の場合にのみサポートされます。
- タブ コマンド - 指定したフレーズの発話時に Tab キー イベントを送信します。
- 有効 - タブ コマンドを有効/無効にします。
- フレーズ - Tab キーを送信するコマンド フレーズを設定します。デフォルトのフレーズは「send tab」です。
- Enter コマンド - 指定したフレーズの発話時に Enter キー イベントを送信します。
- 有効 - Enter コマンドを有効/無効にします。
- フレーズ - Enter キーを送信するコマンド フレーズを設定します。デフォルトのフレーズは「send enter」です。
- 次に移動コマンド - 指定したフレーズの発話時に、次の入力フィールドに移動します。
- 有効 - 次に移動コマンドを有効/無効にします。
- フレーズ - 次の入力フィールドに移動するコマンド フレーズを設定します。デフォルトのフレーズは「move next」です。
- 前に移動コマンド - 指定したフレーズの発話時に、前の入力フィールドに移動します。
- 有効 - 前に移動コマンドを有効/無効にします。
- フレーズ - 前の入力フィールドに移動するコマンド フレーズを設定します。デフォルトのフレーズは「move previous」です。
- エスケープ コマンド - 指定したフレーズの発話時に、エスケープ (ESC) キーを送信します。
- 有効 - エスケープ コマンドを有効/無効にします。
- フレーズ - ESC キーを送信するコマンド フレーズを設定します。デフォルトのフレーズは「send escape」です。
- クリア コマンド - 指定したフレーズの発話時に、フォーカスされている現在の入力フィールドをクリアします。
- 有効 - クリア コマンドを有効/無効にします。
- フレーズ - フィールドをクリアするコマンド フレーズを設定します。デフォルトのフレーズは「clear」です。
- データ タイプ - 返すデータ タイプを構成します。選択肢は、[すべて]、[英文字]、または [数字] です。データ タイプは、キャプチャしたデータを優先選択に従って制限するのに必要です。データ タイプの選択肢は、以下のとおりです。
- すべて - スキャンしたすべてのデータが返されます。たとえば、バーコード ABC123 をスキャンした場合、ABC123 がそのまま返されます。
- 英文字 - 英文字のみが返されます。たとえば、バーコード ABC123 をスキャンした場合、ABC のみが返されます。
- 数字 - 数字のみが返されます。たとえば、バーコード ABC123 をスキャンした場合、123 のみが返されます。
開始フレーズ待機音 - 開始フレーズ待機音を制御します。「開始待機中」の音声フィードバックを有効/無効にします。有効にすると、トースト メッセージ通知を見逃して「データの待機中」状態に変化した場合にデバイスが音声エンジンの開始を待機していることが通知されます。
データ キャプチャ待機音 - データ キャプチャ待機音を制御します。「データの待機中」の音声フィードバックを有効/無効にします。有効にすると、トースト メッセージ通知を見逃した場合にデバイスがデータのキャプチャを待機していることが通知されます。
オフライン音声認識 - インターネットにアクセスできない場合にオフライン音声認識を有効にします。これにより、オフライン認識音声エンジンで発話データが検出されます。
確認ウィンドウ - 発話後に結果を検証して、発話データを表示し、必要に応じて同じ画面でそのデータを編集できます。オフライン モードでは、受信した結果は正確でない可能性があるため、この機能が役立ちます。
以下の制限事項を参照してください。
構成
音声入力パラメータ
DataWedge 音声入力は、DataWedge API を使用してプログラムで制御できます。以下の音声入力パラメータを構成するには、構成の設定 API の DataWedge 音声入力プラグインを参照してください。
パラメータ名 | パラメータ値 |
---|---|
voice_input_enabled | true、false |
voice_data_capture_start_option | 0 - フレーズの開始 (デフォルト) 1 - PTT ボタン |
voice_data_capture_start_phrase | start (デフォルト) |
voice_data_capture_end_phrase | [空白] (デフォルト) |
voice_end_detection_timeout | 0 ~ 30 (秒) |
voice_command_tab_enabled | true false (デフォルト) |
voice_command_tab_phrase | send tab (デフォルト) |
voice_command_enter_enabled | true false (デフォルト) |
voice_command_enter_phrase | send enter (デフォルト) |
voice_command_move_next_enabled | true false (デフォルト) |
voice_command_move_next_phrase | move next (デフォルト) |
voice_command_move_previous_enabled | true false (デフォルト) |
voice_command_move_previous_phrase | move previous (デフォルト) |
voice_command_escape_enabled | true false (デフォルト) |
voice_command_escape_phrase | send escape (デフォルト) |
voice_command_clear_enabled | true false (デフォルト) |
voice_command_clear_phrase | clear (デフォルト) |
voice_data_type | 0 - 任意 1 - 英文字 2 - 数字 |
voice_start_phrase_waiting_tone | true、false |
voice_data_capture_waiting_tone | true、false |
voice_validation_window | true、false |
voice_offline_speech | true、false |
音声入力構成の設定のサンプル
DataWedge 構成の設定 API を参照してください。
制限事項
- 音声入力は英語でのみ検証されます。他の言語で使用する場合は、デバイスがインターネットに接続されている必要があります。
- オフライン音声認識では、精度レベルが低くなります。
- 音声入力は、Google の音声認識を利用するため、App Manager の DisableGMSApps アクションを使用する GMS 制限モードでは機能しません。
- DataWedge 音声入力の使用中は Google アシスタントを使用しないでください。望ましくない動作を引き起こすおそれがあります。
- データ キャプチャ開始フレーズに数字やその他の特殊文字を含めることはできません。
- Enterprise Home Screen (EHS) が制限モードになっている場合、音声入力は使用できません。ただし、EHS のすべての権限設定を有効にすると、DataWedge で音声入力を使用できるようになります。
- 音声キャプチャ中に PTT (push-to-talk) ボタンを離した場合、音声エンジンはその時点で継続的にリッスンしているため、キャプチャしたデータが表示されるまでに 1 ~ 2 秒の遅延が発生することがあります。
- PTT Expressが有効で実行中の場合、音声入力は同時に使用しないでください。予期しない動作を引き起こすおそれがあります。
- DataWedge のアクティブ プロファイルで音声入力が有効になっている場合、メディア音量ストリームをミュートするには、デバイスの音量コントロールを使用します。
関連ガイド: