このページの内容は機械翻訳です。Zoomは機械翻訳の正確性を保証しません。

アルゴリズムの機能

ライブ文字起こし

Zoomのライブ文字起こし機能は、AI Companionの多くの機能を含む、Zoomの包括的なAIワークプレイスソリューション群の多くの機能を可能にする中核技術として機能します。リアルタイムの音声を構造化された検索可能なテキストデータに変換することで、ライブ文字起こしは、インテリジェントなミーティング要約、自動アクションアイテム抽出、感情分析、そしてZoom Workplaceエコシステム全体にわたる高度なコラボレーションワークフローを支える基盤レイヤーを作り出します。

ライブ文字起こしが有効になっている場合、ミーティング、ウェビナー、通話などのセッションからのライブ音声はZoomの自動音声認識サービスに送信され、音声をテキストに変換したうえで、その動的な文字起こしを該当する参加者のZoom Workplaceアプリに配信します。参加者は文字起こしをリアルタイムで確認したり、クローズドキャプション経由で各部分にアクセスしたり、AI Companionを活用してミーティング内質問を行ったりできます。セッション終了後、文字起こしが保持されている場合は、AI Companionにより、ミーティング要約、ミーティング後の質問、文脈を踏まえたフォローアップなどの文字起こし依存機能にさらに利用できます。

ライブ文字起こしは大規模言語モデルとは独立して動作し、音声をテキストに変換するためにZoomの自動音声認識技術に依存します。ただし、ライブ文字起こしによって生成される構造化テキスト出力は、AI Companionの高度な機能を支える大規模言語モデルにとって重要な入力データとして機能し、これらのモデルが会話内容を分析してインテリジェントなインサイトを生成できるようにします。

ライブ文字起こしがAI Companionの ミーティング内質問ミーティング要約などの非AI Companion機能をどのように支えているかについては、詳細をヘルプセンターでご確認ください。 自動字幕.

ローカルライブ文字起こし

Zoom Workplaceアプリのバージョン6.5.3以降では、ユーザーはクラウドベースの処理ではなく、デバイス上で音声を直接処理するローカルのオンデバイスライブ文字起こしを利用できるようになりました。このオプションは、プライバシーの強化と遅延の低減を目的としていますが、ローカル処理で生成された文字起こしは、機能するためにクラウドベースの文字起こしデータを必要とするAI Companion機能では利用できません。

ライブ翻訳(字幕)

Zoomのライブ翻訳機能はライブ文字起こし機能の拡張として動作し、元のライブ文字起こしが翻訳プロセスの基盤となります。ライブ文字起こしデータはライブ文字起こしモジュールからZoomのライブ翻訳モジュールに送信され、検出されたソース言語で文字起こしを処理したうえで、ユーザーが要求した対象言語に翻訳します。翻訳された文字起こしはその後、ライブ文字起こしサービスに返され、そこでローカライズされたコンテンツが参加者のZoom Workplaceアプリを通じて配信されるため、会話の自然な流れを妨げることなく、リアルタイムの多言語コミュニケーションが可能になります。

詳細については、Zoom のヘルプセンターを参照してください 翻訳版字幕を使用して.

パーソナライズドオーディオアイソレーション

パーソナルオーディオアイソレーションは、ユーザーの声紋を活用して声を識別し、オープンな環境でもバックグラウンドノイズを抑制します。ユーザーは、自分の声の固有の特徴やニュアンスを捉える声紋の作成をZoomに許可します。ユーザーは、自分の声の録音をアップロードすることも選択できます。ユーザーの声紋により、Zoomはマイクで検出された周囲の背景音からユーザーの声をインテリジェントにフィルタリングして分離できます。この技術は、喫茶店のざわめき、掃除機、犬の鳴き声、またはマイクの範囲内にいる他の人の会話などの環境音を効果的に抑制し、ユーザーの声だけが明瞭に送信されるようにします。

詳細については、Zoom のヘルプセンターを参照してください パーソナライズドオーディオアイソレーションを使用して.

最終更新

役に立ちましたか?