Sự đa dạng ngôn ngữ trong trí tuệ nhân tạo

Trong hai năm, một tổ chức quốc tế dưới sự bảo trợ của Liên Hợp Quốc đã dẫn đầu một chiến dịch không ngừng nghỉ trong các hành lang ngoại giao kỹ thuật số toàn cầu. Sứ mệnh của tổ chức này là mang lại sự đa dạng về ngôn ngữ cho trí tuệ nhân tạo (AI) do tiếng Anh thống trị.
Với chiếc kính đặc trưng và tai nghe theo phong cách TED-Talk, Sundar Pichai, giám đốc điều hành của Google, trông giống như bước ra từ vườn ươm khởi nghiệp ở Thung lũng Silicon.
Vào thứ Hai, ngày 10 tháng 2 năm 2025, giám đốc điều hành của Google đã lên sân khấu tại Hội nghị thượng đỉnh hành động về trí tuệ nhân tạo ở Paris. Từ bục phát biểu Grand Palais, ông đã báo trước một thời đại hoàng kim mới của sự đổi mới.
"Sử dụng các kỹ thuật AI, chúng tôi đã thêm hơn 110 ngôn ngữ mới vào Google Dịch vào năm ngoái, được nửa tỷ người trên toàn thế giới sử dụng", ông trùm công nghệ cho biết, mắt ông dán chặt vào các ghi chú "nâng tổng số ngôn ngữ của chúng tôi lên 249, bao gồm 60 ngôn ngữ châu Phi - sẽ còn nhiều hơn nữa".
Được đưa ra bằng giọng điệu đều đều, tuyên bố của ông hầu như không được những người tham dự hội nghị thượng đỉnh chú ý - một cuộc họp của các nhà lãnh đạo thế giới, các nhà nghiên cứu, các tổ chức phi chính phủ và các giám đốc điều hành công nghệ.
Nhưng đối với những người ủng hộ sự đa dạng ngôn ngữ trong trí tuệ nhân tạo, lời nói của ông Pichai đánh dấu một chiến thắng thầm lặng - chiến thắng đạt được sau hai năm đàm phán căng thẳng, bí mật trong thế giới ngoại giao kỹ thuật số.
"Điều này cho thấy thông điệp đang được truyền tải và các công ty công nghệ đang lắng nghe", Joseph Nkalwo Ngoula, cố vấn chính sách kỹ thuật số tại phái bộ Liên hợp quốc của Tổ chức quốc tế La Francophonie, tại New York, cho biết.
Sự chia rẽ về ngôn ngữ
Bài phát biểu của ông Pichai hoàn toàn khác so với những sai lầm về ngôn ngữ của AI tạo sinh ban đầu - một nhánh của trí tuệ nhân tạo có khả năng tạo ra nội dung gốc, từ văn bản đến hình ảnh, âm nhạc và hoạt hình.
Khi OpenAI ra mắt ChatGPT vào năm 2022, những người không nói tiếng Anh đã nhanh chóng phát hiện ra những hạn chế của nó.
Một truy vấn bằng tiếng Anh sẽ tạo ra một phản hồi chi tiết, nhiều thông tin. Nhưng nếu lệnh nêu ra bằng tiếng Pháp thì sao? Câu trả lời là một lời xin lỗi ngượng ngùng: "Xin lỗi, tôi chưa được đào tạo về điều đó" hoặc "mô hình của tôi không được cập nhật sau ngày này".
Khoảng cách như vậy nằm ở cơ chế phức tạp của các công cụ AI, dựa vào cái gọi là các mô hình ngôn ngữ lớn (LLM) như GPT-4, LlaMA của Meta hoặc Gemini của Google để xử lý khối lượng lớn dữ liệu internet giúp chúng hiểu và tạo văn bản.
Nhưng bản thân internet lại chủ yếu là tiếng Anh. Trong khi chỉ có 20 phần trăm dân số thế giới nói tiếng Anh ở nhà, thì gần một nửa dữ liệu đào tạo cho các mô hình AI chính lại bằng tiếng Anh.
Ngay cả ngày nay, phản hồi của ChatGPT bằng tiếng Pháp, tiếng Bồ Đào Nha hoặc tiếng Tây Ban Nha đã được cải thiện nhưng vẫn kém sáng tỏ hơn so với các phản hồi bằng tiếng Anh.
Tập trung sắc nét hơn
Ông Nkalwo Ngoula cho biết: "Khối lượng thông tin có sẵn bằng tiếng Anh lớn hơn nhiều, nhưng cũng cập nhật hơn". Theo mặc định, các mô hình AI được hình thành, đào tạo và triển khai bằng tiếng Anh, khiến các ngôn ngữ khác phải vật lộn để bắt kịp.
Sự phân chia không chỉ là về mặt định lượng. AI, khi bị tước mất sự đào tạo vững chắc về bất kỳ ngôn ngữ nào, bắt đầu "ảo giác" - tạo ra những câu trả lời không chính xác hoặc vô lý với thẩm quyền đáng lo ngại - giống như một người bạn quá tự tin đang nói dối trong đêm đố vui.
Một ảo giác AI điển hình là bịa ra Giải Nobel trong khi đưa ra tiểu sử sự nghiệp của một người. “Đó là một hộp đen hấp thụ dữ liệu”, ông Nkalwo Ngoula giải thích. "Kết quả có thể mạch lạc về mặt hình thức và có cấu trúc logic, nhưng về mặt thực tế, chúng có thể cực kỳ không chính xác".
Ngoài các lỗi thực tế, AI có xu hướng làm giảm sự phong phú về ngôn ngữ. Chatbot gặp khó khăn với giọng vùng miền và các biến thể ngôn ngữ, chẳng hạn như tiếng Pháp Quebecois hoặc tiếng Creole được nói ở Haiti và vùng Caribe thuộc Pháp.
Tiếng Pháp do AI tạo ra thường có cảm giác được lược bỏ mất đi các sắc thái phong cách của nó.
“Molière, Léopold Sédar Senghor, Aimé Césaire, Mongo Beti (những nhà văn, nhà viết kịch nổi tiếng của Pháp) - tất cả bọn họ sẽ lật mồ đứng dậy nếu họ thấy cách AI viết tiếng Pháp ngày nay,” ông Nkalwo Ngoula nói đùa.
Vấn đề này còn sâu sắc hơn ở các quốc gia đa ngôn ngữ, như ở Cameroon, quê hương của nhà ngoại giao, nơi thanh thiếu niên thường nói tiếng Camfranglais - một sự kết hợp giữa tiếng Pháp, tiếng Anh, tiếng Pidgin và các ngôn ngữ địa phương.
“Thanh niên ngày nay nếu hỏi AI bằng tiếng Camfranglais thì khó nhận được câu trả lời có ý nghĩa”, ông nói. Những cậu gợi ý như như “Je yamo ce pays” (Tôi yêu đất nước này) hoặc “Réponds-moi sharp-sharp” (Trả lời tôi nhanh lên) có thể khiến các mô hình AI bối rối.
Chiến dịch ngầm của khối Pháp ngữ La Francophonie
Tổ chức khối Pháp ngữ La Francophonie - tập hợp 93 quốc gia và chính phủ xung quanh việc sử dụng tiếng Pháp, đại diện cho hơn 320 triệu người trên toàn thế giới - đã biến khoảng cách ngôn ngữ này thành trọng tâm của chiến lược kỹ thuật số.
Những nỗ lực của nhóm đã đạt đến đỉnh cao trong Hiệp ước kỹ thuật số toàn cầu của Liên hợp quốc năm ngoái, một khuôn khổ cho quản trị AI được các quốc gia thành viên thông qua. Từ năm 2023 trở đi, La Francophonie đã tận dụng mạng lưới ngoại giao - bao gồm Nhóm đại sứ Pháp ngữ có ảnh hưởng tại Liên hợp quốc - để đảm bảo tính đa dạng ngôn ngữ trở thành nguyên tắc cốt lõi trong việc hoạch định chính sách AI.
Trên đường đi, những đồng minh bất ngờ đã xuất hiện. Các nhóm vận động của người nói tiếng Lusophone và tiếng Tây Ban Nha đã tham gia cuộc chiến, và thậm chí Washington cũng đứng về phía họ. Ông Nkalwo Ngoula lưu ý rằng “Hoa Kỳ bảo vệ việc đưa ngôn ngữ vào quá trình phát triển AI”.
Nỗ lực của họ đã được đền đáp. Hiệp ước kỹ thuật số toàn cầu cuối cùng công nhận rõ ràng sự đa dạng về văn hóa và ngôn ngữ - một vấn đề ban đầu đã bị chôn vùi trong các cuộc thảo luận rộng hơn về khả năng tiếp cận. Ông cho biết "Mục tiêu của chúng tôi là đưa vấn đề này lên hàng đầu".
Phong trào này thậm chí đã lan đến Thung lũng Silicon. Tại Hội nghị thượng đỉnh của Liên hợp quốc về Tương lai vào tháng 9 năm 2024, nơi Hiệp ước được chính thức thông qua, Sundar Pichai, Giám đốc điều hành của Google, đã khiến nhiều người ngạc nhiên khi nhấn mạnh đến nhu cầu của AI trong việc cung cấp quyền truy cập vào kiến thức toàn cầu bằng nhiều ngôn ngữ.
"Chúng tôi đang nỗ lực hướng tới 1.000 ngôn ngữ được nói nhiều nhất trên thế giới", ông cam kết - một cam kết mà ông đã tái khẳng định tại Paris vài tháng sau đó.
Những hạn chế của Hiệp ước kỹ thuật số toàn cầu
Bất chấp những thành quả này, vẫn còn những thách thức. Trong số đó, thách thức lớn nhất là khả năng hiển thị. Ông Nkalwo Ngoula cảnh báo rằng “Nội dung tiếng Pháp thường bị các thuật toán nền tảng chôn vùi”.
Những gã khổng lồ phát trực tuyến như Netflix, YouTube và Spotify ưu tiên sự phổ biến, nghĩa là nội dung tiếng Anh chiếm ưu thế trong kết quả tìm kiếm.
“Nếu sự đa dạng về ngôn ngữ thực sự được xem xét, người dùng nói tiếng Pháp sẽ thấy các bộ phim tiếng Pháp ở đầu danh sách đề xuất của họ”, ông lập luận.
Sự thống trị áp đảo của tiếng Anh trong dữ liệu đào tạo AI là một rào cản khác mà Compact đã bỏ qua, trong đó cũng bỏ qua bất kỳ tham chiếu nào đến Công ước về Đa dạng văn hóa của UNESCO — một sự giám sát mà theo ông Nkalwo Ngoula, cần phải được sửa chữa.
"Sự đa dạng về ngôn ngữ phải là xương sống của hoạt động vận động kỹ thuật số cho La Francophonie", Nkalwo Ngoula nhấn mạnh. Với tốc độ phát triển của AI, những thay đổi đó cần phải diễn ra vô cùng nhanh chóng.
Chú thích ảnh: Một phiên họp của Đại hội đồng Liên hợp quốc
Source:
UN News- Share
- Copy
- Comment( 0 )
Cùng chuyên mục


Sáng kiến Pariksha Pe Charcha của Ấn Độ
Đào tạo - Bồi dưỡng 11:00 22-07-2024

.png)


Công nghệ thông tin và giáo dục ở Ấn Độ
Đào tạo - Bồi dưỡng 08:00 31-01-2024