Ở góc độ công bằng tiếp cận AI, sự thiên lệch về ngôn ngữ chắc chắn là vấn đề lớn. Nếu AI hỗ trợ tốt nhất cho người dùng tiếng Anh, người dùng tiếng Việt có thể bị bỏ lại phía sau. Các chuyên gia cảnh báo rằng chatbots chủ yếu “thành thạo” tiếng Anh sẽ khuếch đại ảnh hưởng của tiếng Anh, làm giảm tính đa dạng ngôn ngữ và văn hóa trong kỷ nguyên AI. Chính Sam Altman từng thừa nhận khoảng cách ngôn ngữ này và cho biết công ty đang tìm cách hợp tác thu thập thêm dữ liệu đa ngôn ngữ để nâng cao kỹ năng ngôn ngữ khác cho ChatGPT. Dĩ nhiên, điều đó chưa diễn ra, ít nhất là tính tới hiện tại.
Cơ chế token hóa: thêm một rào cản cho tiếng Việt
Token hóa (tokenization) là cách model cắt nhỏ văn bản thành các token. Điều này cũng ảnh hưởng đến hiệu quả xử lý tiếng Việt. Do bản chất khác biệt trong ngôn ngữ, tiếng Anh là một ngôn ngữ biến tố (fusional), sử dụng các hình vị (morpheme) để táp lại với nhau. Thí dụ như Walk > walked, cat > cats,… Trong khi đó tiếng Việt là ngôn ngữ dơn lập (isolating) hay phân tích tính. Do đó tiếng Việt dùng dấu cách giữa các âm tiết. Mỗi âm tiết tiếng Việt thường được viết rời, ví dụ “học sinh” gồm hai phần “học” và “sinh”. Các mối quan hệ ngữ pháp được truyền đạt thông qua trật tự từ và các hư từ riêng biệt, chứ không phải bằng cách thay đổi bản thân các từ như trong tiếng Anh.
Với model sử dụng token hóa dạng Byte-Pair Encoding (BPE) hoặc SentencePiece, tiếng Việt thường bị tách thành nhiều token hơn so với một từ tiếng Anh tương đương. Điều này xảy ra do token hóa ban đầu chủ yếu được tối ưu cho tiếng Anh: các quy tắc tách ghép ký tự dựa nhiều vào khoảng trắng và chữ cái tiếng Anh. Với tiếng Việt, bộ tokenizer gốc của một số model không ghép được các âm tiết thành token ý nghĩa mà coi mỗi âm tiết như một từ độc lập.
Hơn nữa, tiếng Việt dùng bảng chữ cái Latin mở rộng với dấu, mỗi chữ cái có dấu như “ế”, “ớ”,… có thể mã hóa thành nhiều byte. Bộ BPE ở mức byte vô tình phạt các ngôn ngữ dùng ký tự ngoài ASCII – ký tự Latin có dấu thường chiếm 2-3 byte, trong khi chữ cái tiếng Anh chỉ 1 byte. Kết quả là độ dài chuỗi token tiếng Việt tăng, chiếm dung lượng ngữ cảnh và tiềm ẩn lỗi xử lý.
Trên thực tế, các nhà phát triển model tiếng Việt đã phải tùy biến lại tokenizer để khắc phục vấn đề này. Trong nghiên cứu VinaLLaMA, tạo một foundation LLM cho tiếng Việt dựa trên LLaMA-2, nhóm tác giả nhận xét tokenizer gốc của LLaMA-2 hoạt động kém ở tiếng Việt, do model có quá ít token liên quan đến tiếng Việt trong tập huấn luyện. Họ đã phải tạo một tokenizer chuyên biệt cho tiếng Việt, giúp gộp các âm tiết phổ biến thành token chung và xử lý tốt hơn bảng chữ cái có dấu. Việc này làm giảm số token cần thiết để biểu diễn một câu tiếng Việt, cải thiện hiệu quả model đáng kể.
Do đó có thể thấy, cơ chế token hóa mặc định (vốn tối ưu cho tiếng Anh) đã gây bất lợi cho tiếng Việt và cần hiệu chỉnh riêng để model hiểu tiếng Việt liền mạch hơn.
Bản chất cấu trúc model và xử lý đa ngôn ngữ
Có một thực tế kỹ thuật là hầu hết các LLM hiện nay có kiến trúc thống nhất cho mọi ngôn ngữ, không phân chia riêng ra. Sơ qua một chút, model sẽ sử dụng cùng một mạng Transformer và một không gian embedding chung cho từ vựng của tất cả các ngôn ngữ. Điều này sẽ dẫn tới sự cạnh tranh tài nguyên giữa các ngôn ngữ: các ngôn ngữ phổ biến như tiếng Anh sẽ chiếm phần lớn “dung lượng trí nhớ” của model, còn tiếng Việt với dữ liệu ít phải chen chân trong không gian còn lại. Dù kiến trúc model có khả năng học song song nhiều ngôn ngữ, nhưng nếu phân bố dữ liệu không đều, model sẽ thiên vị ngôn ngữ nhiều dữ liệu hơn.
Không chỉ vậy, sự khác biệt cấu trúc ngôn ngữ cũng ảnh hưởng đến hiệu năng. Nghiên cứu cho thấy ChatGPT gặp khó khăn đặc biệt với các ngôn ngữ có cấu trúc rất khác tiếng Anh. Tiếng Việt thuộc loại ngôn ngữ đơn lập, không biến hình từ, nhưng có cú pháp và cách diễn đạt khác (ví dụ trật tự từ linh hoạt, dùng từ vị để chỉ quan hệ ngữ pháp). Mô hình có thể không đại diện đầy đủ được cấu trúc câu tiếng Việt nếu chủ yếu học cú pháp tiếng Anh. Ví dụ, ChatGPT từng trả lời sai khi dịch câu phức tiếng Việt hoặc không phân giải được đại từ trong ngữ cảnh tiếng Việt phức tạp do kiến trúc không có thành phần chuyên trách cho từng ngôn ngữ để xử lý hiện tượng này.
Một điểm khác là vốn tri thức của model chủ yếu được ghi nhận bằng tiếng Anh. Các bạn có thể để ý khi hỏi một model bằng tiếng Việt (nếu bật quá trình “suy nghĩ” của model lên coi), model có thể phải ngầm dịch câu hỏi sang tiếng Anh nội bộ để tra cứu kiến thức rồi dịch ngược ra tiếng Việt. Mỗi bước dịch đó đều có thể suy giảm chất lượng trả lời. Nếu prompt bằng tiếng Anh, mô hình truy xuất kiến thức trực tiếp, tránh được “rơi rớt kiến thức và ngữ cảnh” khi chuyển ngữ. Do đó, prompt tiếng Anh thường cho câu trả lời chính xác và ít vòng vo hơn.
Tuy kiến trúc mô hình không thay đổi giữa các ngôn ngữ, giới nghiên cứu đang cố gắng điều chỉnh cách sử dụng mô hình để bù đắp chênh lệch. Một kỹ thuật phổ biến là dịch prompt tiếng Việt sang tiếng Anh trước khi đưa vào mô hình để tận dụng khả năng tiếng Anh vượt trội của LLM. Tuy nhiên, bản chất việc dịch toàn bộ prompt cũng có rủi ro do chính chủ quan hay khách quan cũng có thể làm mất mát sắc thái ngữ nghĩa gốc hoặc văn hóa đặc thù trong câu hỏi. Một hướng tiếp cận tinh tế hơn là pre-translate có chọn lọc, chỉ dịch một phần prompt, thí dụ giữ nguyên nội dung cần phân tích bằng tiếng Việt, chỉ dịch hướng dẫn sang tiếng Anh). Mục tiêu là kết hợp ưu thế tiếng Anh của mô hình với bối cảnh tiếng Việt khi cần.
Dù vậy, đây vẫn là giải pháp tình thế. Lý tưởng nhất vẫn là mô hình được huấn luyện đủ tốt để hiểu trực tiếp tiếng Việt, không cần qua khâu trung gian. Còn ở hiện tại, kiến trúc LLM bản chất vẫn chưa được tối ưu cho da ngôn ngữ và bởi thế, tiếng Việt vì các lý do trên vẫn chưa được model biểu diễn tốt.
Phong ba bão táp không bằng ngữ pháp Việt Nam
Đó là một thực tế tồn tại bao đời nay. Bản chất tiếng Việt là một ngôn ngữ khó để học. May mắn là chúng ta sinh ra ở Việt Nam, được học tiếng Việt từ nhỏ nên có thể thấy nó đơn giản. Nhưng nếu so với các ngôn ngữ gốc La tinh khác sẽ dễ dàng nhận thấy cấu trúc tiếng Việt là quá phức tạp. Có thể điểm qua như tiếng Việt có quá nhiều đại từ nhân xưng phức tạp, nếu như tiếng Anh chỉ xài you hay I thì tiếng Việt là bạn, anh, cậu tớ, cô dì chú bác, cháu,… Kế đến là có quá nhiều từ đa nghĩa và đồng âm, thí dụ như sinh trong học sinh hoàn toàn khác sinh tồn, khác luôn sinh con,… Lúc này LLM không thể phân giải nghĩa của từ bằng biến tố như tiếng Anh mà chỉ còn cách dựa hoàn toàn vào ngữ cảnh, dẫn tới dễ phân giải ngữ nghĩa mơ hồ.
Thêm điểm khác, hệ thống cú pháp của tiếng Việt rời rạc và linh động cực kỳ, khiến cho model có thể nhầm lẫn cấu trúc. Trong khi tiếng Anh bản chất đơn giản là SVO. Chưa dừng lại ở đó, lượng lớn thành ngữ, tục ngữ và cả các lối nối mang đậm bản sắc văn hóa càng khiến các model rối não khi xử lý tiếng Việt. Ngay cả mạnh như GPT-4 cũng từng thất bại nhiều lần trong việc tạo ra thơ theo luật VN. Bạn thử kêu nó làm thơ song thất lục bát thử sẽ dễ thấy nó không dễ tuân thủ đúng số lượng từ mỗi câu. Cái này không phải mình tự nói đâu, Stanford làm hẳn nghiên cứu này luôn rồi. Mà trớ trêu, do chính lượng kiến thức văn hóa và quy tắc tiếng Việt nằm trong model lúc train là quá ít nên khó có thể bắt nó hiểu được.
Mọi thứ ở tương lai
Tất nhiên bức tranh không phải hoàn toàn xám xịt, các hệ thống chatbot lớn hiện tại luôn tìm cách từng bước cải thiện khả năng hỗ trợ đa ngôn ngữ và trong đó có tiếng Việt. Các nhóm nghiên cứu ở VN cũng đã tùng ra nhiều LLM Việt như PhoBERT, viLLM, VietCUNA, hay gần đây là các phiên bản GPT-2/GPT-3 tiếng Việt. Dĩ nhiên, muốn xài các model này lại không phải đơn giản để ai cũng có thể tiếp cận sử dụng.
Cần phải nhắc lại, chúng ta vẫn đang ở giai đoạn quá sơ khai trong sự phát triển của AI. Tốc độ của các nghiên cứu AI là cực kỳ nhanh, vài tuần là có nghiên cứu mới. Khoảng năm 2023–2025, chúng ta chứng kiến những cải tiến rõ rệt: GPT-4 đã thể hiện khả năng đa ngữ tốt hơn hẳn GPT-3.5, thu hẹp khoảng cách với tiếng Anh. Các mô hình mới như ChatGPT 5 hay Gemini 2.5 tiếp tục hướng đến tính đa ngôn ngữ, giảm dần sự phụ thuộc vào tiếng Anh. Dù GPT-5 chưa tạo bước ngoặt lớn, nó cũng duy trì hiệu năng cao cho tiếng Việt tương đương GPT-4. Đặc biệt, Google Gemini 2.5 nổi lên như một ví dụ về việc tập trung đầu tư vào đa ngữ, cho phép người dùng Việt tương tác tự nhiên hơn bao giờ hết.
Tuy nhiên, ở hiện tại thì các giới hạn về sử dụng tiếng Việt đối với các chatbot vẫn còn ở đó và chưa được giải quyết triệt để. Như thế, trước khi đợi các nhà phát triển lớn như OpenAI hay Google hoàn thiện bộ tokenizer và điều chỉnh model của họ, để tạm gác qua các giới hạn về ngôn ngữ hiện tại để khai thác khả năng của model hiệu quả nhất, việc sử dụng prompt tiếng Anh hoặc ít nhất là pha tiếng Anh là biện pháp khá dĩ nhất hiện tại. Bởi thế, chẳng thân thiện gì khi sử dụng một prompt tiếng Anh, nhưng chí ít, ở hiện tại thì nó vẫn là biện pháp dễ nhất để chúng ta xài chatbot AI hiệu quả hơn trong một số tác vụ, đặc biệt là những thứ yêu cầu chiều sâu của lượng thông tin và tính phức tạp trong lý luận cần thiết.
Rồi, quá trời dài dòng, hy vọng bài viết cung cấp cho các bạn cái nhìn về tình hình hiện tại của các model AI, bản chất nó được huấn luyện, vận hành và cả cách hiện tại để tận dụng nó hiệu quả. Chúc vui vẻ. À, các nguồn của các báo cáo nghiên cứu về ngôn ngữ trong hoạt động của LLM khá hay, mình để bên dưới, các bạn nào quan tâm có thể bấm coi ha, 8 nguồn đều khá chất lượng và có cái nhìn toàn cảnh, nhiều thông tin hay kỹ thuật hay lắm mà đưa vào bài này nó không hợp.
Nguồn:Baochinhphu.vn