音声入力 - Zebra Technologies TechDocs

概要

音声入力により、DataWedge では、発話内容を、文字入力またはスキャンから取得したかのようにキーストロークに変換できます。音声入力には、GMS デバイスに搭載されている Google 音声認識エンジンを使用します。音声 - データキャプチャは、バーコードが濡れていたり、損傷していたり、汚れが付いていたりなどの理由でスキャンできない場合に役立ちます。

音声入力オプション:

定義された開始フレーズまたは PTT で音声キャプチャを開始する
フレーズまたはタイムアウト値で音声キャプチャを終了する
フォアグラウンドアプリ内をナビゲートしたり、TAB、ENTER、NEXT、PREVIOUS、ESC、クリアなどの特定のキーを押す命令を発したりするための音声コマンドを設定する
返されるデータを英文字や数字に制限する
開始フレーズまたはデータのキャプチャを待っているときに音声プロンプトを再生する
発話データを検証し、必要に応じて取得したデータを編集する
オフラインで動作する

この機能は、Android Nougat 以降を搭載した Zebra GMS デバイスでのみサポートされています。

DataWedge の音声入力に関する DevTalk プレゼンテーションをご覧ください。

バージョン履歴

DataWedge 7.5 - フォアグラウンドアプリ内をナビゲートしたり、特定のキーを押す命令を発したりするための新しい音声コマンド。
DataWedge 7.4 - DataWedge Intent API の新しいデータキャプチャ開始オプション パラメータで選択した PTT (push-to-talk) ボタンによる音声キャプチャアクティブ化の導入。

動作の仕組み

音声入力は、DataWedge プロファイルで構成します。音声キャプチャデータを受信するアプリケーションがプロファイルに関連付けられていることを確認します。プロファイルの [音声入力] セクションには、音声データのキャプチャを制御するオプションがあります。この後の「主な機能」を参照してください。

音声データのキャプチャは、事前定義された開始フレーズまたは PTT ボタンを押すことによってアクティブになります。実行中に、音声入力は「開始フレーズ待機中」の状態になります (図 4 を参照)。音声データのキャプチャは、事前定義された「開始フレーズ」を発話した後に開始されます。これにより、状態が「データの待機中」に変わります (図 5 を参照)。音声キャプチャは、データを発話した後にタイムアウト値が経過するか、オプションの「終了フレーズ」(定義されている場合) を発話すると停止します。データソースを音声入力として特定して、アプリケーションの要件に応じて音声データを処理できます。バーコードスキャンと音声入力は同じ DataWedge プロファイルに共存できるため、両方のデータキャプチャ方式を交互に利用できます。

DWDemo アプリを使用した音声入力の基礎に関する次のデモをご覧ください。

複数のフィールドを入力するための Enter キー送信コマンドに関するデモをご覧ください。

注: 音声入力が有効になっている場合、Google アプリバージョン 11.21.9.21 以降に搭載されている Google 音声エンジンは、バックグラウンドでリッスンしていることを示す通知音を数秒ごとに再生します。この音を最小化するには、プロファイル (Profile0 とは別) を作成し、それを必要なアプリケーション/アクティビティに関連付けて、アプリがフォアグラウンドになっている場合にのみ音声通知が聞こえるように制限することをお勧めします。

主な機能

音声入力機能には、DataWedge プロファイルからアクセスできます。

図 1 および図 2音声入力設定

有効 - 音声入力を有効にします。
データキャプチャ開始オプション - 音声キャプチャのトリガオプションを選択します。
- 開始フレーズ - 音声キャプチャをトリガする開始フレーズを設定します。開始フレーズは、オプション [データキャプチャ開始フレーズ] で指定します。この機能は使用されておらず、今後のリリースで廃止されます。代わりに、PTT ボタンを使用して音声キャプチャをトリガすることをお勧めします。
- PTT ボタン - 音声キャプチャをトリガする PTT ボタンを設定します。EC30、MC93、TC52/TC57、TC72/TC77、および TC8300 デバイスでのみサポートされています。その他のデバイスの場合、PTT ボタンは、デバイスの使用可能なボタンにマッピングされていることがあります。
データキャプチャ開始フレーズ - [データキャプチャ開始オプション] で [開始フレーズ] を選択した場合、データキャプチャを開始するためのフレーズを指定します。数字と特殊文字を開始フレーズに含めることはできません。デフォルト値は「start」です。この機能は使用されておらず、今後のリリースで廃止されます。代わりに、PTT ボタンを使用して音声キャプチャをトリガすることをお勧めします。
データキャプチャ終了フレーズ - データキャプチャを終了するためのオプションのフレーズです。デフォルト値はありません。この機能は使用されておらず、今後のリリースで廃止されます。代わりに、PTT ボタンを使用して音声キャプチャをトリガすることをお勧めします。
終了検出タイムアウト -「データの待機中」状態でのデータキャプチャのタイムアウト値 (秒) を設定します。値が「0」に設定されており、終了フレーズが定義されている場合は、データキャプチャを無限に待機します。終了フレーズが定義されていない場合は、データがすぐに返されます。このタイムアウトはおおよその時間であり、1 ～ 2 秒の遅延が発生する可能性があります。デフォルト値は「0」です。
音声コマンド - フォアグラウンドアプリケーションをナビゲートするための音声コマンドを構成および設定します。コマンドは、デバイスが「開始フレーズ待機中」または「PTT ボタンを押しながらデータ通話」状態の場合にのみサポートされます。

タブコマンド - 指定したフレーズの発話時に Tab キーイベントを送信します。

有効 - タブコマンドを有効/無効にします。
フレーズ - Tab キーを送信するコマンドフレーズを設定します。デフォルトのフレーズは「send tab」です。

Enter コマンド - 指定したフレーズの発話時に Enter キーイベントを送信します。

有効 - Enter コマンドを有効/無効にします。
フレーズ - Enter キーを送信するコマンドフレーズを設定します。デフォルトのフレーズは「send enter」です。

次に移動コマンド - 指定したフレーズの発話時に、次の入力フィールドに移動します。

有効 - 次に移動コマンドを有効/無効にします。
フレーズ - 次の入力フィールドに移動するコマンドフレーズを設定します。デフォルトのフレーズは「move next」です。

前に移動コマンド - 指定したフレーズの発話時に、前の入力フィールドに移動します。

有効 - 前に移動コマンドを有効/無効にします。
フレーズ - 前の入力フィールドに移動するコマンドフレーズを設定します。デフォルトのフレーズは「move previous」です。

エスケープコマンド - 指定したフレーズの発話時に、エスケープ (ESC) キーを送信します。

有効 - エスケープコマンドを有効/無効にします。
フレーズ - ESC キーを送信するコマンドフレーズを設定します。デフォルトのフレーズは「send escape」です。

クリアコマンド - 指定したフレーズの発話時に、フォーカスされている現在の入力フィールドをクリアします。

有効 - クリアコマンドを有効/無効にします。
フレーズ - フィールドをクリアするコマンドフレーズを設定します。デフォルトのフレーズは「clear」です。

データタイプ - 返すデータタイプを構成します。選択肢は、[すべて]、[英文字]、または [数字] です。データタイプは、キャプチャしたデータを優先選択に従って制限するのに必要です。データタイプの選択肢は、以下のとおりです。

すべて - スキャンしたすべてのデータが返されます。たとえば、バーコード ABC123 をスキャンした場合、ABC123 がそのまま返されます。
英文字 - 英文字のみが返されます。たとえば、バーコード ABC123 をスキャンした場合、ABC のみが返されます。
数字 - 数字のみが返されます。たとえば、バーコード ABC123 をスキャンした場合、123 のみが返されます。

開始フレーズ待機音 - 開始フレーズ待機音を制御します。「開始待機中」の音声フィードバックを有効/無効にします。有効にすると、トーストメッセージ通知を見逃して「データの待機中」状態に変化した場合にデバイスが音声エンジンの開始を待機していることが通知されます。
データキャプチャ待機音 - データキャプチャ待機音を制御します。「データの待機中」の音声フィードバックを有効/無効にします。有効にすると、トーストメッセージ通知を見逃した場合にデバイスがデータのキャプチャを待機していることが通知されます。
オフライン音声認識 - インターネットにアクセスできない場合にオフライン音声認識を有効にします。これにより、オフライン認識音声エンジンで発話データが検出されます。
確認ウィンドウ - 発話後に結果を検証して、発話データを表示し、必要に応じて同じ画面でそのデータを編集できます。オフラインモードでは、受信した結果は正確でない可能性があるため、この機能が役立ちます。

以下の制限事項を参照してください。

構成

音声入力パラメータ

DataWedge 音声入力は、DataWedge API を使用してプログラムで制御できます。以下の音声入力パラメータを構成するには、構成の設定 API の DataWedge 音声入力プラグインを参照してください。

パラメータ名	パラメータ値
voice_input_enabled	true、false
voice_data_capture_start_option	0 - フレーズの開始 (デフォルト) 1 - PTT ボタン
voice_data_capture_start_phrase	start (デフォルト)
voice_data_capture_end_phrase	[空白] (デフォルト)
voice_end_detection_timeout	0 ～ 30 (秒)
voice_command_tab_enabled	true false (デフォルト)
voice_command_tab_phrase	send tab (デフォルト)
voice_command_enter_enabled	true false (デフォルト)
voice_command_enter_phrase	send enter (デフォルト)
voice_command_move_next_enabled	true false (デフォルト)
voice_command_move_next_phrase	move next (デフォルト)
voice_command_move_previous_enabled	true false (デフォルト)
voice_command_move_previous_phrase	move previous (デフォルト)
voice_command_escape_enabled	true false (デフォルト)
voice_command_escape_phrase	send escape (デフォルト)
voice_command_clear_enabled	true false (デフォルト)
voice_command_clear_phrase	clear (デフォルト)
voice_data_type	0 - 任意 1 - 英文字 2 - 数字
voice_start_phrase_waiting_tone	true、false
voice_data_capture_waiting_tone	true、false
voice_validation_window	true、false
voice_offline_speech	true、false

音声入力構成の設定のサンプル

DataWedge 構成の設定 API を参照してください。

制限事項

音声入力は英語でのみ検証されます。他の言語で使用する場合は、デバイスがインターネットに接続されている必要があります。
オフライン音声認識では、精度レベルが低くなります。
音声入力は、Google の音声認識を利用するため、App Manager の DisableGMSApps アクションを使用する GMS 制限モードでは機能しません。
DataWedge 音声入力の使用中は Google アシスタントを使用しないでください。望ましくない動作を引き起こすおそれがあります。
データキャプチャ開始フレーズに数字やその他の特殊文字を含めることはできません。
Enterprise Home Screen (EHS) が制限モードになっている場合、音声入力は使用できません。ただし、EHS のすべての権限設定を有効にすると、DataWedge で音声入力を使用できるようになります。
音声キャプチャ中に PTT (push-to-talk) ボタンを離した場合、音声エンジンはその時点で継続的にリッスンしているため、キャプチャしたデータが表示されるまでに 1 ～ 2 秒の遅延が発生することがあります。
PTT Expressが有効で実行中の場合、音声入力は同時に使用しないでください。予期しない動作を引き起こすおそれがあります。
DataWedge のアクティブプロファイルで音声入力が有効になっている場合、メディア音量ストリームをミュートするには、デバイスの音量コントロールを使用します。

関連ガイド: