Tai nghe AI sử dụng chip Apple M2 có thể dịch nhiều người nói cùng lúc

Ngày đăng: 11/05/2025    39 lượt xem

dịch

Google đã từng cung cấp tính năng dịch thời gian thực tuyệt vời thông qua tai nghe không dây Pixel Buds. Trong vài năm qua, một số thương hiệu như Timkettle cũng đã phát triển các tai nghe tương tự dành cho khách hàng doanh nghiệp. Tuy nhiên, tất cả các giải pháp này chỉ có thể xử lý một luồng âm thanh tại một thời điểm để dịch thuật.

Nhóm nghiên cứu tại Đại học Washington (UW) đã phát triển một công nghệ thực sự đáng kinh ngạc: tai nghe tích hợp AI có khả năng dịch giọng nói của nhiều người nói cùng lúc. Hãy tưởng tượng bạn như một người đa ngôn ngữ trong một quán bar đông người, có thể hiểu được tất cả những gì mọi người xung quanh đang nói, dù bằng các ngôn ngữ khác nhau — tất cả cùng một lúc.

Công nghệ này được gọi là Dịch giọng nói không gian (Spatial Speech Translation), và được thực hiện thông qua tai nghe hai tai (binaural headphones). Tai nghe binaural sử dụng kỹ thuật ghi âm mô phỏng cách con người nghe âm thanh tự nhiên. Micro được đặt trên một mô hình đầu người, cách nhau như khoảng cách tai người để ghi lại âm thanh không gian.

Cách tiếp cận này rất quan trọng, vì tai của chúng ta không chỉ nghe âm thanh mà còn giúp định vị hướng âm thanh phát ra. Mục tiêu là tạo ra một không gian âm thanh tự nhiên với hiệu ứng stereo – mang lại trải nghiệm như nghe nhạc sống. Hay trong ngữ cảnh hiện đại, đó là nghe không gian (spatial listening).

dịch

Công trình này do Giáo sư Shyam Gollakota đứng đầu, người từng phát triển nhiều dự án thú vị như: ứng dụng đưa GPS dưới nước lên smartwatch, biến bọ cánh cứng thành nhiếp ảnh gia, cấy ghép não kết nối với thiết bị điện tử, và ứng dụng có thể “nghe” nhiễm trùng tai.

Dịch nhiều người nói hoạt động thế nào?

“Lần đầu tiên, chúng tôi bảo toàn được giọng nói riêng biệt của từng người và hướng phát ra âm thanh của họ,” Giáo sư Gollakota giải thích. Ông hiện đang công tác tại Trường Khoa học Máy tính & Kỹ thuật Paul G. Allen của UW.

dịch

Hệ thống này hoạt động giống như một radar, nhận diện số lượng người đang nói xung quanh, và cập nhật số lượng đó theo thời gian thực khi người khác ra vào vùng nghe. Đặc biệt, mọi xử lý đều diễn ra trên thiết bị, không gửi dữ liệu giọng nói lên máy chủ đám mây – rất tốt cho quyền riêng tư.

Ngoài việc dịch giọng nói, hệ thống còn giữ nguyên các đặc tính biểu cảm và âm lượng của từng giọng nói. Hơn nữa, khi người nói di chuyển trong phòng, hệ thống sẽ tự điều chỉnh hướng và cường độ âm thanh tương ứng. Thật thú vị, Apple cũng đang phát triển một hệ thống cho phép AirPods dịch âm thanh theo thời gian thực.

Cách hoạt động cụ thể ra sao?

Nhóm nghiên cứu UW đã thử nghiệm tai nghe AI trong gần chục môi trường khác nhau cả trong nhà lẫn ngoài trời. Về hiệu năng, hệ thống có thể tiếp nhận, xử lý và tạo ra bản dịch chỉ trong 2-4 giây. Những người tham gia thử nghiệm cho biết độ trễ 3-4 giây là chấp nhận được, nhưng nhóm vẫn đang cố gắng giảm thời gian này xuống.

dịch

Cho đến nay, họ mới chỉ thử nghiệm dịch các ngôn ngữ Tây Ban Nha, Đức và Pháp, nhưng hy vọng sẽ mở rộng thêm. Về mặt kỹ thuật, họ đã tích hợp các yếu tố như: tách nguồn âm thanh mù (blind source separation), định vị âm thanh, dịch biểu cảm theo thời gian thực và tái tạo âm thanh không gian – tất cả chỉ trong một quy trình, một điều cực kỳ ấn tượng.

Về phần cứng, họ sử dụng chip Apple M2 để chạy mô hình dịch giọng nói theo thời gian thực. Âm thanh được xử lý qua tai nghe Sony WH-1000XM4 có tính năng khử tiếng ồn và micro USB binaural Sonic Presence SP15C.

Và điều tuyệt vời nhất là: “Mã nguồn của thiết bị nguyên mẫu được công khai để người khác có thể xây dựng thêm,” theo thông cáo báo chí của trường. Điều này đồng nghĩa với việc cộng đồng nghiên cứu và mã nguồn mở có thể học hỏi và phát triển các dự án tiên tiến hơn dựa trên nền tảng của nhóm UW.

Thảo luận

Chưa có thảo luận nào về Bài viết Tai nghe AI sử dụng chip Apple M2 có thể dịch nhiều người nói cùng lúc

Zalo logo