# Các tính năng của thuật toán

### Phiên âm trực tiếp

Tính năng Phiên âm Trực tiếp của Zoom là công nghệ cốt lõi cho nhiều tính năng trong bộ giải pháp AI cho nơi làm việc của Zoom, bao gồm nhiều tính năng của AI Companion. Bằng cách chuyển âm thanh thời gian thực thành dữ liệu văn bản có cấu trúc và có thể tìm kiếm, Phiên âm Trực tiếp tạo lớp nền tảng giúp vận hành tóm tắt cuộc họp thông minh, trích xuất mục hành động tự động, phân tích cảm xúc và các quy trình cộng tác nâng cao trong toàn bộ hệ sinh thái Zoom Workplace.

Khi bật Phiên âm Trực tiếp, âm thanh trực tiếp từ các phiên như cuộc họp, hội thảo trực tuyến hoặc cuộc gọi điện thoại được truyền đến dịch vụ nhận dạng giọng nói tự động của Zoom, dịch vụ này chuyển lời nói thành văn bản và phân phối bản phiên âm động tới các ứng dụng Zoom Workplace của những người tham gia liên quan. Người tham gia có thể xem bản phiên âm theo thời gian thực, truy cập các đoạn thông qua phụ đề đóng hoặc sử dụng AI Companion để đặt câu hỏi trực tiếp trong cuộc họp. Sau khi phiên kết thúc, nếu bản phiên âm được lưu giữ, nó có thể được AI Companion sử dụng thêm cho các tính năng phụ thuộc vào bản phiên âm như Tóm tắt Cuộc họp, truy vấn sau cuộc họp và các theo dõi có bối cảnh, v.v.

Phiên âm Trực tiếp hoạt động độc lập với các mô hình ngôn ngữ lớn, thay vào đó dựa trên công nghệ nhận dạng giọng nói tự động của Zoom để chuyển đổi âm thanh thành văn bản. Tuy nhiên, đầu ra văn bản có cấu trúc do Phiên âm Trực tiếp tạo ra đóng vai trò là dữ liệu đầu vào quan trọng cho các mô hình ngôn ngữ lớn điều khiển các tính năng nâng cao của AI Companion, cho phép những mô hình này phân tích nội dung hội thoại và tạo ra các hiểu biết thông minh.

<figure><img src="https://2441790884-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FctBXUMeBy4rtLMmMkKRG%2Fuploads%2Fgit-blob-68321ec4df1e441d1ce2ee47de10aa7f36423493%2Fimage131.png?alt=media" alt="" width="563"><figcaption></figcaption></figure>

Tham khảo Trung tâm Hỗ trợ của Zoom để biết thêm thông tin về cách Phiên âm Trực tiếp hỗ trợ các tính năng như AI Companion’s [Câu hỏi trong cuộc họp](https://support.zoom.com/hc/en/article?id=zm_kb\&sysparm_article=KB0057749) và [Tóm tắt cuộc họp](https://support.zoom.com/hc/en/article?id=zm_kb\&sysparm_article=KB0057960), cũng như các tính năng không thuộc AI Companion như [Phụ đề tự động](https://support.zoom.com/hc/en/article?id=zm_kb\&sysparm_article=KB0058810).

#### Phiên âm Trực tiếp cục bộ

Từ phiên bản ứng dụng Zoom Workplace 6.5.3, người dùng có thể truy cập tính năng phiên âm trực tiếp cục bộ trên thiết bị, xử lý âm thanh ngay trên thiết bị thay vì sử dụng xử lý trên đám mây. Trong khi tùy chọn này được thiết kế để tăng cường quyền riêng tư và giảm độ trễ, các bản phiên âm tạo ra qua xử lý cục bộ không thể được sử dụng bởi các tính năng AI Companion, vì các tính năng đó yêu cầu dữ liệu bản phiên âm dựa trên đám mây để hoạt động.

### Dịch Trực tiếp (Phụ đề)

Tính năng Dịch Trực tiếp của Zoom hoạt động như một phần mở rộng của Phiên âm Trực tiếp, trong đó bản phiên âm trực tiếp gốc là nền tảng cho quá trình dịch. Dữ liệu bản phiên âm trực tiếp được truyền từ mô-đun Phiên âm Trực tiếp đến mô-đun dịch trực tiếp của Zoom, nơi xử lý bản phiên âm bằng ngôn ngữ nguồn được phát hiện và dịch sang ngôn ngữ đích do người dùng yêu cầu. Các bản phiên âm đã dịch sau đó được trả lại cho dịch vụ phiên âm trực tiếp, dịch vụ này phân phối nội dung đã địa phương hóa tới những người tham gia cuộc họp qua các ứng dụng Zoom Workplace của họ, cho phép giao tiếp đa ngôn ngữ theo thời gian thực mà không làm gián đoạn dòng chảy tự nhiên của cuộc trò chuyện.

<figure><img src="https://2441790884-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FctBXUMeBy4rtLMmMkKRG%2Fuploads%2Fgit-blob-7c6477eb0577787cda144a012e06de933574f918%2Fimage4.png?alt=media" alt="" width="375"><figcaption></figcaption></figure>

<figure><img src="https://2441790884-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FctBXUMeBy4rtLMmMkKRG%2Fuploads%2Fgit-blob-ea0bae41060953072142574406ad16071fb4ad9c%2Fimage3%20(2).png?alt=media" alt="" width="563"><figcaption></figcaption></figure>

Tham khảo trung tâm hỗ trợ của Zoom để biết thêm thông tin về [sử dụng phụ đề đã dịch](https://support.zoom.com/hc/en/article?id=zm_kb\&sysparm_article=KB0059081).

### Cách ly Âm thanh Cá nhân hóa

Cách ly Âm thanh Cá nhân hóa tận dụng mẫu giọng nói (voiceprint) của người dùng để phân biệt giọng nói của họ và giảm tiếng ồn nền, ngay cả trong môi trường mở. Người dùng cho phép Zoom tạo một mẫu giọng nói, mẫu này ghi lại các đặc điểm và sắc thái độc đáo của kiểu giọng của họ. Người dùng cũng có thể chọn tải lên một bản ghi âm giọng nói của mình. Mẫu giọng nói của người dùng cho phép Zoom lọc thông minh và tách riêng giọng nói của người dùng khỏi âm thanh nền xung quanh được micro phát hiện. Công nghệ này hiệu quả trong việc giảm các âm thanh môi trường như tiếng trò chuyện trong quán cà phê, máy hút bụi, chó sủa hoặc các cuộc trò chuyện của người khác trong phạm vi micro, giúp đảm bảo chỉ giọng nói của người dùng được truyền rõ ràng.

Tham khảo trung tâm hỗ trợ của Zoom để biết thêm thông tin về [sử dụng cách ly âm thanh cá nhân hóa](https://support.zoom.com/hc/en/article?id=zm_kb\&sysparm_article=KB0074698).
