Meta khởi động kế hoạch năm 2022 hướng tới AI đàm thoại

Thư viện

Copy

Công ty Trí tuệ nhân tạo của Meta (Meta AI) đang phát triển các hệ thống AI đàm thoại mới có khả năng tương tự con người trong việc nghe và nhìn trong các cuộc đàm thoại.

05:00 26-08-2022 Trung tâm Nghiên cứu Ấn Độ

Nhận dạng giọng nói là công nghệ áp dụng cho trợ lý đàm thoại (ví dụ Siri của Apple và Alexa của Google), công cụ tìm kiếm, thiết bị gia đình thông minh và giúp các doanh nghiệp hợp lý hóa dịch vụ cũng như phát triển các công cụ cho người khiếm thính. Hơn nữa, thị trường toàn cầu về nhận dạng giọng nói dự kiến sẽ tăng với tốc độ tăng trưởng kép hằng năm (CAGR) là 17,2% lên 26,8 tỷ USD vào năm 2025, theo công ty nghiên cứu Research and Markets.

Để biến những con số dự kiến này thành hiện thực và tăng cường hơn nữa các ứng dụng của Trí tuệ nhân tạo (AI), những nỗ lực không ngừng nhằm cải tiến công nghệ là điều cần thiết. Để đạt được mục tiêu đó, đầu năm 2022, Meta AI công bố qua tài khoản Twitter chính thức của họ rằng, nghiên cứu đầu tiên nhóm thực hiện trong năm mới là khuôn khổ mới - Audio-Visual HuBERT (AV-HuBERT) để giúp xây dựng các công cụ nhận dạng giọng nói AI linh hoạt và mạnh mẽ hơn.

Tại sao cần có khuôn khổ hoàn toàn mới?

Meta AI viết trên blog của họ: “Đây là hệ thống đầu tiên có khả năng mô hình hóa chuyển động của giọng nói và môi từ dữ liệu chưa được gắn nhãn - video thô chưa được phiên âm”.

Hầu hết các công nghệ nhận dạng giọng nói đang được áp dụng rất nhiều trong các tình huống hàng ngày. Ví dụ, tình huống có nhiều người đang nói đồng thời và có nhiều tiếng ồn xung quanh, như tiếng sủa của thú cưng cùng vang lên. Trong tình huống này, ngay cả kỹ thuật ngăn chặn tiếng ồn tiên tiến nhất cũng không thể lọc âm thanh được. Ở đây, con người chúng ta thông minh hơn những hệ thống AI vì chúng ta không chỉ lắng nghe mà còn sử dụng mắt để quan sát. Chúng ta có thể nhận thấy miệng người nói cử động và từ trực giác chúng ta biết được giọng nói mà chúng ta đang nghe phát ra từ đâu. Đó là lý do tại sao Meta AI đang phát triển các hệ thống AI đàm thoại mới có khả năng giống như con người có thể nhận ra sự tinh tế của những gì họ nhìn thấy và nghe thấy trong cuộc đàm thoại.

AV-HuBERT mới được giới thiệu có độ chính xác cao hơn 75% so với hệ thống nhận dạng giọng nói nghe nhìn tốt nhất (sử dụng cả âm thanh và hình ảnh của người nói) khi sử dụng cùng một số bản ghi. Nhóm đã đào tạo mô hình bằng cách sử dụng các bản ghi video từ các bộ dữ liệu VoxCeleb và LRS3 có sẵn công khai. Ngoài ra, chỉ cần một lượng nhỏ dữ liệu được gắn nhãn để đào tạo một mô hình cho một nhiệm vụ cụ thể hoặc một ngôn ngữ khác nếu mô hình được đào tạo trước đã học tốt cấu trúc và liên kết.

Một hạn chế lớn khác là sự sẵn có của dữ liệu được gắn nhãn lớn cho hầu hết các ngôn ngữ trên thế giới. Để vượt qua thử thách này, thật thú vị khi biết rằng, AV-HuBERT chỉ sử dụng một phần mười dữ liệu được gắn nhãn so với yêu cầu của các hệ thống nhận dạng giọng nói nghe nhìn tốt nhất hiện có.

Bước tiếp theo là gì?

Nhóm đã cung cấp mã nguồn mở và cung cấp các mô hình AV-HuBERT do nhóm đào tạo trước đây cho các nhà nghiên cứu để họ có thể mở rộng phạm vi công việc và thúc đẩy tiến bộ trong công nghệ nhận dạng lời nói tự động. Chúng ta có thể thực hiện một số công việc sau:

Khắc phục vấn đề tiếng ồn xung quanh: Bằng cách kết hợp dữ liệu nghe nhìn. Trong tương lai, AV-HuBERT có thể áp dụng công nghệ trợ lý ảo vào kính thực tế tăng cường (AR) và điện thoại thông minh hiểu những gì chúng ta đang nói trong tất cả các dạng môi trường, kể cả môi trường sàn nhảy ồn ào, buổi hòa nhạc, hay có tiếng sóng biển.

Dữ liệu có thể ít bị giám sát hơn: Nhiều ngôn ngữ được sử dụng rộng rãi như tiếng Anh, tiếng Tây Ban Nha hoặc tiếng Quan Thoại đã có các bộ dữ liệu được gắn nhãn quy mô lớn. Mô hình từ Meta có thể giúp phát triển các mô hình AI đàm thoại cho hàng trăm triệu người nói những ngôn ngữ đặc thù trên khắp thế giới.

Mô hình mới học hỏi từ cả âm thanh và cử động miệng/môi, điều này có thể mở đường cho các mô hình nhận dạng giọng nói cho những người bị khiếm khuyết về giọng nói có cơ hội hòa nhập. Ngoài ra, công nghệ có thể giúp chỉ ra những nội dung thông tin giả và bị thao túng. Phần mềm chuyển giọng nói thành văn bản đang được nhiều doanh nghiệp sử dụng để cải thiện hoạt động kinh doanh và hợp lý hóa trải nghiệm của khách hàng. Các công ty có thể phiên âm các cuộc gọi, cuộc họp và thậm chí dịch chúng bằng cách sử dụng tính năng nhận dạng giọng nói và xử lý ngôn ngữ một cách tự nhiên. Apple, Facebook, Microsoft, Google và Amazon chỉ là một vài trong số những công ty công nghệ khổng lồ tiếp tục triển khai các ứng dụng nhận dạng giọng nói do AI hỗ trợ để tạo ra trải nghiệm tốt hơn cho người dùng.

Cần lưu ý là nhu cầu về các kỹ sư và nhân lực phát triển AI, kỹ sư học máy, nhà khoa học dữ liệu có thể sẽ ở mức cao nhất từ trước tới nay vì nhận dạng giọng nói và AI sẽ được áp dụng cho mọi nghề nghiệp chuyên môn cũng như cuộc sống cá nhân, tại nơi làm việc và nhà riêng.

Trung tâm Nghiên cứu Ấn Độ

Nguồn: https://indiaai.gov.in/article/meta-took-its-initial-step-in-2022-towards-conversational-ai