音声入力 - Zebra Technologies TechDocs

概要

音声入力を使用すると、DataWedge は話された内容を、タイプ入力やスキャンで取得したかのようにテキストに変換できます。音声入力には、GMS デバイスに搭載されている Google 音声認識エンジンを使用します。音声 - データキャプチャは、バーコードが濡れていたり、損傷していたり、汚れが付いていたりなどの理由でスキャンできない場合に役立ちます。

音声入力オプション:

PTT ボタンを押して音声キャプチャをトリガする
タイムアウト値で音声キャプチャを終了する
フォアグラウンドアプリ内をナビゲートしたり、TAB、ENTER、NEXT、PREVIOUS、ESC、クリアなどの特定のキーを押す命令を発したりするための音声コマンドを設定する
返されるデータを英文字や数字に制限する
データキャプチャを待機中に音声ガイダンスを再生する
発話データを検証し、必要に応じて取得したデータを編集する
オフラインで動作する

この機能は、Android Nougat 以降を搭載した Zebra GMS デバイスでのみサポートされています。

DataWedge の音声入力に関する DevTalk プレゼンテーションをご覧ください (注: 開始フレーズとその関連オプションは、DataWedge 13 以降では廃止されています) 。

動作の仕組み

音声データキャプチャは、PTT ボタンを押すか、DataWedge ソフトトリガインテント API を使用して有効にします。PTT ボタンを使用すると、音声入力は DataWedge プロファイルで設定されます。音声キャプチャデータを受信するアプリケーションは、プロファイルに関連付けられている必要があります。アプリケーションを起動すると、次のメッセージが表示されます。「PTT ボタンを押しながらデータ通話」PTT ボタンを押すと、音声キャプチャが開始できることを示す音が鳴ります。ユーザーはキャプチャするデータを話し、終了したら PTT ボタンを放します。話されたデータが表示されます。

インテント出力を使用してデータを出力する場合、データソースは「音声」として識別でき、他の入力ソースと区別して、音声データをアプリケーションの要件に従って処理できます。バーコードスキャンと音声入力は、同じ DataWedge プロファイルに格納できるため、両方のデータキャプチャ方式を交互に利用できます。

注: 音声入力が有効になっている場合、Google アプリバージョン 11.21.9.21 以降に搭載されている Google 音声エンジンは、バックグラウンドでリッスンしていることを示す通知音を数秒ごとに再生します。この通知音の頻度を最小限に抑えるために、新たなプロファイル (Profile0 とは別) を作成し、必要なアプリケーション/アクティビティと関連付けることをお勧めします。これにより、アプリがフォアグラウンドにあるときのみ音声通知が聞こえるように制限されます。

主な機能

音声入力機能には、DataWedge プロファイルからアクセスできます。

音声入力設定

有効 - 音声入力を有効にします。
データキャプチャ開始オプション - 音声キャプチャをトリガするオプションを選択します。
- PTT ボタン - デバイスに PTT ボタンがある場合は、音声キャプチャをトリガするように設定します。PTT ボタンがないデバイスの場合、PTT ボタンはデバイスで使用可能なボタンにマッピングできます。
- なし - 音声キャプチャは、インテント API を介してのみ有効になります。「ソフトトリガ API」を参照してください。
終了検出タイムアウト - データキャプチャのタイムアウト値を秒単位で設定します。値が「0」に設定されている場合、データキャプチャを無限に待機します。このタイムアウトはおおよその時間であり、1 ～ 2 秒の遅延が発生する可能性があります。デフォルト値は「0」です。
音声コマンド - フォアグラウンドアプリケーションをナビゲートするための音声コマンドを構成および設定します。コマンドは、開始オプションとして PTT ボタンが選択されている場合にのみサポートされます。

タブコマンド - 指定したフレーズの発話時に Tab キーイベントを送信します。

有効 - タブコマンドを有効/無効にします。
フレーズ - Tab キーを送信するコマンドフレーズを設定します。デフォルトのフレーズは「send tab」です。

Enter コマンド - 指定したフレーズの発話時に Enter キーイベントを送信します。

有効 - Enter コマンドを有効/無効にします。
フレーズ - Enter キーを送信するコマンドフレーズを設定します。デフォルトのフレーズは「send enter」です。

次に移動コマンド - 指定したフレーズの発話時に、次の入力フィールドに移動します。

有効 - 次に移動コマンドを有効/無効にします。
フレーズ - 次の入力フィールドに移動するコマンドフレーズを設定します。デフォルトのフレーズは「move next」です。

前に移動コマンド - 指定したフレーズの発話時に、前の入力フィールドに移動します。

有効 - 前に移動コマンドを有効/無効にします。
フレーズ - 前の入力フィールドに移動するコマンドフレーズを設定します。デフォルトのフレーズは「move previous」です。

エスケープコマンド - 指定したフレーズの発話時に、エスケープ (ESC) キーを送信します。

有効 - エスケープコマンドを有効/無効にします。
フレーズ - ESC キーを送信するコマンドフレーズを設定します。デフォルトのフレーズは「send escape」です。

クリアコマンド - 指定したフレーズの発話時に、フォーカスされている現在の入力フィールドをクリアします。

有効 - クリアコマンドを有効/無効にします。
フレーズ - フィールドをクリアするコマンドフレーズを設定します。デフォルトのフレーズは「clear」です。

データタイプ - 返すデータタイプを構成します。選択肢は、[すべて]、[英文字]、または [数字] です。データタイプは、キャプチャしたデータを優先選択に従って制限するのに必要です。データタイプの選択肢は、以下のとおりです。

すべて - スキャンしたすべてのデータが返されます。たとえば、バーコード ABC123 をスキャンした場合、ABC123 がそのまま返されます。
英文字 - 英文字のみが返されます。たとえば、バーコード ABC123 をスキャンした場合、ABC のみが返されます。
数字 - 数字のみが返されます。たとえば、バーコード ABC123 をスキャンした場合、123 のみが返されます。

データキャプチャ待機音 - デバイスがデータのキャプチャを待機しているときの音声フィードバックを有効/無効にします。
オフライン音声認識 - インターネットにアクセスできない場合にオフライン音声認識を有効にします。これにより、オフライン認識音声エンジンで発話データが検出されます。
確認ウィンドウ - 発話後に結果を検証して、発話データを表示し、必要に応じて同じ画面でそのデータを編集できます。オフラインモードでは、受信した結果は正確でない可能性があるため、この機能が役立ちます。

確認ウィンドウ

以下の制限事項を参照してください。

構成

音声入力パラメータ

DataWedge 音声入力は、DataWedge API を使用してプログラムで制御できます。以下の音声入力パラメータを構成するには、構成の設定 API の DataWedge 音声入力プラグインを参照してください。

パラメータ名	パラメータ値
voice_input_enabled	true false
voice_data_capture_start_option	1 - PTT ボタン (デフォルト)
voice_data_capture_start_phrase	start (デフォルト)
voice_data_capture_end_phrase	[空白] (デフォルト)
voice_end_detection_timeout	0 ～ 30 (秒)
voice_command_tab_enabled	true false (デフォルト)
voice_command_tab_phrase	send tab (デフォルト)
voice_command_enter_enabled	true false (デフォルト)
voice_command_enter_phrase	send enter (デフォルト)
voice_command_move_next_enabled	true false (デフォルト)
voice_command_move_next_phrase	move next (デフォルト)
voice_command_move_previous_enabled	true false (デフォルト)
voice_command_move_previous_phrase	move previous (デフォルト)
voice_command_escape_enabled	true false (デフォルト)
voice_command_escape_phrase	send escape (デフォルト)
voice_command_clear_enabled	true false (デフォルト)
voice_command_clear_phrase	clear (デフォルト)
voice_data_type	0 - 任意 1 - 英文字 2 - 数字
voice_start_phrase_waiting_tone	true false
voice_data_capture_waiting_tone	true false
voice_validation_window	true false
voice_offline_speech	true false

音声入力構成の設定のサンプル

DataWedge 構成の設定 API を参照してください。

制限事項

音声入力は英語でのみ検証されます。他の言語で使用する場合は、デバイスがインターネットに接続されている必要があります。
オフライン音声認識では、精度レベルが低くなります。
音声入力は、Google の音声認識を利用するため、App Manager の DisableGMSApps アクションを使用する GMS 制限モードでは機能しません。
DataWedge 音声入力の使用中は Google アシスタントを使用しないでください。望ましくない動作を引き起こすおそれがあります。
Enterprise Home Screen (EHS) が制限モードになっている場合、音声入力は使用できません。ただし、EHS のすべての権限設定を有効にすると、DataWedge で音声入力を使用できるようになります。
音声キャプチャ中に PTT (push-to-talk) ボタンを離した場合、音声エンジンはその時点で継続的にリッスンしているため、キャプチャしたデータが表示されるまでに 1 ～ 2 秒の遅延が発生することがあります。
PTT Expressが有効で実行中の場合、音声入力は同時に使用しないでください。予期しない動作を引き起こすおそれがあります。
DataWedge のアクティブプロファイルで音声入力が有効になっている場合、メディア音量ストリームをミュートするには、デバイスの音量コントロールを使用します。

関連ガイド: