Khả năng tổng hợp thông tin nguồn tin cậy
Thêm một thử nghiệm khác, mình thử kêu 2 chatbot đi tìm thông tin và so sánh con chip M4 và M3 của Apple, có trích dẫn các nguồn đáng tin cậy và báo cho mình biết: Chip Apple M4 có những cải tiến quan trọng nào về kiến trúc CPU, GPU và Neural Engine so với chip M3? Hãy cung cấp thông tin dựa trên các nguồn đáng tin cậy và trích dẫn link các nguồn đó.
Đây là kết quả của ChatGPT-5 trả về. Nội dung cô đọng, xúc tích, không có nhiều thông tin dư thừa. Đặc biệt cách nó trích các nguồn khá “uy tín” như trực tiếp từ trang chủ Apple Newsroom hay Anandtech.
Khá ngạc nhiên trong tình huống này của Gemini. Nội dung trả về còn khá lan man, đặc biệt là viết cho cố vào rồi các nguồn trích dẫn không cho cảm giác độ tin cậy cao. Riêng tình huống này thì mình đánh giá cao ChatGPT hơn.
Test khả năng suy luận dựa trên thông tin địa phương
Trong thí dụ này, mình thử hỏi vấn đề đang được xã hội bàn khá nhiều là xe điện, xe xăng ở VN. Mình thử kêu chatbot AI phân tích các tác động, rồi kêu nó đưa ra một lộ trình chính sách thử. Để làm được việc này, nó phải đi đọc thông tin hiện tại, rồi tự phân tích và suy luận để trả về kế hoạch cho phù hợp với ngữ cảnh người Việt Nam.
Phân tích những tác động kinh tế, xã hội và pháp lý tiềm năng khi triển khai cấm xe xăng trong vòng 5 năm tới. Hãy xem xét cả cơ hội và thách thức, đồng thời đề xuất một lộ trình chính sách sơ bộ cho chính phủ.
Đây là kết quả ChatGPT trả về. Cách tiếp cận của nó chọn là tìm thông tin từ các thị trường khác như Mỹ, Châu Âu,… rồi dựa trên đó để phân tích và đưa ra câu trả lời. Về bản chất, cách tiếp cận này lại không tối ưu bởi đặc thù văn hóa, hạ tầng,… giữa VN và các khu vực đó khác rất xa nhau nên việc áp logic sang là không nhiều giá trị. Chỗ này thì ChatGPT-5 bèo.
Cùng prompt và đây là kết quả của Gemini 2.5 Pro. Có thể thấy Gemini nó chọn cách phân tích tác động khá “sách giáo khoa” với các khía cạnh đầy đủ, cơ bản,… tuy nhiên cái hay là nó nêu những cái tên công ty như VF, Datbike,… rồi các vấn đề khá sát với tình hình thực tế ở Việt Nam. Từ đó, chất lượng phân tích Gemini 2.5 Pro trả về cũng cao hơn, hữu ích hơn đối với người dùng. Qua đây cho thấy Gemini có nền tảng hiểu người Việt hiệu quả hơn, từ đó gợi ý nó đưa ra cũng sát thực tế hơn.
Trong tình huống này, mình kêu chatbot: “Giải thích ý nghĩa của câu thành ngữ ‘Đi một ngày đàng, học một sàng khôn’. Sau đó, hãy gợi ý 3 hoạt động hoặc trải nghiệm cụ thể mà một du khách nước ngoài nên làm khi đến Đồng bằng sông Cửu Long để thực sự học được một sàng khôn.” Về mặt kỹ thuật thì để làm được điều này, LLM phải hiểu được ngữ cảnh của phép ẩn dụ ngày đàng và sàng khôn là cái gì, sau đó mới liên kết với ví dụ thực tế ở Việt Nam.”
Đây là cách ChatGPT-5 trả về kết quả. Ngắn gọn, đi thẳng vào trọng tâm vấn đề. Đây có thể cũng là lý do mà nhiều người dùng đang chê là ChatGPT-5 lạnh lùng, vô cảm và quá cứng nhắc trong cách trả lời.
Và đây là kết quả của Gemini 2.5 Pro. Về cấu trúc nội dung thì cũng được chia làm 2 phần là giải thích ý nghĩa của câu thành ngữ và sau đó là áp dụng vào tình huống thực tế. Các tình huống Gemini đưa ra chi tiết hơn, cụ thể hơn và cũng có cảm xúc hơn khá nhiều. Ở thí dụ này thì mình nghiêng về Gemini hơn.
Test thử tạo hình ảnh, multimodal
Mình thử nhanh cách 2 chatbot tạo ra hình ảnh, đặc biệt là hình ảnh đặc thù ở Việt Nam bằng Prompt: Tạo một hình ảnh siêu thực (photorealistic) về một quán cà phê vỉa hè ở Quận 1, Sài Gòn vào một buổi chiều mưa. Ánh đèn neon từ các cửa hàng phản chiếu trên mặt đường ướt át. Có một vài người đang ngồi dưới mái hiên.
Đây là kết quả của ChatGPT-5. Cơ bản thì hình ảnh chỉ dừng lại ở mức tạm, không nhiều dấu ấn cà phê vỉa hè, Sài Gòn như mình muốn, mặc dù kiểu này là cực kỳ kinh điển trong giới hình ảnh AI rồi.
Trong khi đó Gemini trả về kết quả có hồn hơn, cho cảm xúc và cũng sát với hình dung trong đầu của mình hơn. Chỉ nhìn cái bản hiệu quán mì “rar men” nhìn mắc cười quá thể.
Giải thích cơ chế hoạt động của lò phản ứng nhiệt hạch ITER cho học sinh cấp 3, kèm 3 phép so sánh hình ảnh trực quan dễ hình dung.
Thử khả năng tính toán
Mình thử đầu tiên bằng phép tính đơn giản nhưng cũng rất dễ làm khó các LLM: 4.9-4.11 bằng bao nhiêu?
Và đây là kết quả của ChatGPT-5. Nó hoàn thành mượt nhiệm vụ này.
Khá bất ngờ là Gemini 2.5 Pro lại thua trong tình huống này.
Mình thử thêm bài toán đố 2 xe gặp nhau: Lúc 12 giờ trưa một ô tô xuất phát từ A với vận tốc 60 km/giờ để đi đến B. Cùng lúc đó từ địa điểm C trên đường từ A đến B và cách A 40km, một người đi xe máy với vận tốc 45 km/giờ cũng đi về B. Hỏi lúc mấy giờ thì hai xe gặp nhau và chỗ gặp nhau cách A bao xa?
Đây là kết quả của ChatGPT-5. Đơn giản.
Và đây là kết quả của Gemini 2.5 Pro. Cả 2 đều làm tốt nhiệm vụ của nó. Các bài toán này có thể là có trong data của nó nhiều rồi nên chắc chắn nó sẽ giải quyết hiệu quả hơn.
Test khả năng code
Mình thử đưa cho Chatbot một đoạn code Python khá newbie để tính tổng của các số chẵn trong một list, kêu nó tìm cách cải thiện để nhanh hơn và ít tốn bộ nhớ hơn:
Và đây là kết quả của ChatGPT-5 trả về. Nó chọn cách xài generator để mã sạch và gọn hơn, pythonic hơn nữa. Sau đó cũng đưa ra giải thích ngắn gọn.
Gemini 2.5 Pro cũng chọn cách giải quyết tương tự, tuy nhiên nói nhiều hơn ở phần giải thích. Chỗ này dễ giải mà người ta không thích lắm nè.
Trong thí dụ tiếp theo, mình thử kêu chatbot viết một cái script để lấy tiêu đề của 10 bài viết từ một trang báo về lưu ở file TXT: Viết một script Python sử dụng thư viện requests và BeautifulSoup để lấy tiêu đề của 10 bài viết mới nhất từ trang chủ của VnExpress (vnexpress.net). Sau đó, ghi các tiêu đề này vào một file tên là `tin_tuc.txt`. Script phải có khả năng xử lý lỗi kết nối mạng.
Đây là kết quả của ChatGPT-5 trả về. Gần 160 dòng code, nó chia ra thành từng hàm nhỏ để xử lý các tính năng khác nhau, có bao gồm cả cơ chế xử lý lỗi, session rồi exit code này nọ,… Code này thực sự chuyên nghiệp, xài được trong production luôn, lại xài mô đun nên rất dễ bảo trì sau này, chạy cũng bền do có nhiều cơ chế dự phòng khi lấy data.
Và đây là kết quả của Gemini. Chúng ta có một đoạn code kiểu monolithic, tất nhiên vẫn chạy được mục đích ban đầu vạch ra, cũng có cơ chế khi gặp lỗi thì in ra console cho người dùng biết, tuy nhiên code này dừng lại ở mức cơ bản, có thể bị lỗi nếu web thay đổi. Chỗ này thì Gemini chưa ngon như ChatGPT-5.
Tóm tắt sách dài
Mình thử tải lên cuốn Effective Pandas gần 400 trang lên 2 chatbot kêu nó so sánh. Nhìn chung thì cả 2 đều có thể hỗ trợ mượt một cuốn sách dài thế này, tốc độ phân tích khá nhanh.
ChatGPT-5 trả về kết quả như thế này, khá cơ bản. Thời gian phân tích của nó cũng lâu hơn.
Gemini 2.5 Pro có thời gian phân tích nhanh hơn, kết quả nhìn chung cũng chi tiết hơn, liệt ra được những điểm nổi bật khá chính xác trong cuốn sách này. Mình đã đọc qua hết cuốn này khi học Pandas cơ bản, nói chung thì cách Gemini tóm tắt và pop up các nội dung chính lên khá chính xác, nêu được trọng tâm của từng phân trong cả cuốn sách, nhìn vào cũng thấy bức tranh tổng thể hiệu quả hơn.
Nguồn:Baochinhphu.vn