アルゴリズムの機能
ライブ文字起こし
Zoomのライブ文字起こし機能は、AI Companionを含むZoomの包括的なAIワークプレイスソリューション群の多くの機能を可能にするコア技術として機能します。リアルタイムの音声を構造化され検索可能なテキストデータに変換することで、ライブ文字起こしはインテリジェントなミーティング要約、自動的なアクションアイテム抽出、感情分析、およびZoomワークプレイスエコシステム全体にわたる高度なコラボレーションワークフローを支える基盤レイヤーを作り出します。
ライブ文字起こしが有効になっている場合、ミーティング、ウェビナー、電話などのセッションからのライブ音声はZoomの自動音声認識サービスに送信され、音声をテキストに変換して動的なトランスクリプトを該当参加者のZoomワークプレイスアプリに配信します。参加者はリアルタイムでトランスクリプトを閲覧したり、クローズドキャプションを通じてセグメントにアクセスしたり、AI Companionを利用してミーティング中にライブで質問したりすることができます。セッション終了後にトランスクリプトが保存されている場合、AI Companionはミーティング要約、会議後の問い合わせ、コンテキストに応じたフォローアップなど、トランスクリプト依存の機能に対してこれをさらに利用できます。
ライブ文字起こしは大規模言語モデルから独立して動作し、音声をテキストに変換するためにZoomの自動音声認識技術に依存します。ただし、ライブ文字起こしによって生成される構造化テキスト出力は、AI Companionの高度な機能を支える大規模言語モデルにとって重要な入力データとして機能し、これらのモデルが会話内容を分析してインテリジェントな洞察を生成できるようにします。

ライブ文字起こしがAI Companionのような機能をどのように支えているかの詳細については、Zoomのサポートセンターを参照してください。 ミーティング内の質問 および ミーティング要約、および 自動字幕.
ローカルライブ文字起こし
Zoomワークプレイスアプリのバージョン6.5.3以降、ユーザーはデバイス上で音声を直接処理するローカル(オンデバイス)ライブ文字起こしにアクセスできるようになりました。このオプションはプライバシーの向上とレイテンシーの低減を目的としていますが、ローカル処理で生成されたトランスクリプトはクラウドベースのトランスクリプトデータを必要とするAI Companionの機能では利用できません。
ライブ翻訳(キャプション)
Zoomのライブ翻訳機能は、ライブ文字起こし機能の拡張として動作し、元のライブトランスクリプトが翻訳プロセスの基礎となります。ライブトランスクリプトデータはライブ文字起こしモジュールからZoomのライブ翻訳モジュールに送られ、検出されたソース言語で処理されてユーザーが要求したターゲット言語に翻訳されます。翻訳されたトランスクリプトはライブ文字起こしサービスに戻され、ローカライズされた内容が参加者のZoomワークプレイスアプリを通じて配信されることで、会話の自然な流れを中断することなくリアルタイムの多言語コミュニケーションを可能にします。


購読に関する詳細はZoomのサポートセンターを参照してください。 翻訳されたキャプションを使用して.
パーソナライズされたオーディオアイソレーション
パーソナルオーディオアイソレーションは、ユーザーのボイスプリントを利用してその声を識別し、オープンな環境でも背景雑音を抑制します。ユーザーはZoomにボイスプリントの作成を許可し、ボイスプリントは声の特徴やニュアンスを捉えます。ユーザーは自分の音声の録音をアップロードすることも選択できます。ユーザーのボイスプリントにより、Zoomはマイクで検出される周囲の背景音からユーザーの声を知的にフィルターし分離できます。この技術は、カフェの雑談、掃除機、犬の鳴き声、マイク範囲内にいる他人の会話などの環境音を効果的に抑制し、ユーザーの声だけが明瞭に伝わるようにします。
購読に関する詳細はZoomのサポートセンターを参照してください。 パーソナライズされたオーディオアイソレーションを使用して.
最終更新
役に立ちましたか?

