Và kết quả đúng y, mình thử copy code của nó về lưu vào một file .py và chạy lên. Màn hình game hiện ô vuông màu đỏ (con chim) và tự rớt xuống đấy, sau đó luôn stuck như thế này, không làm gì được nữa. Background cũng chẳng thấy có nền, các ống nước,… Tới đây thì ChatGPT-4 fail trong task này.
Và kết quả của ChatGPT-5 cho yêu cầu prompt trên là 360 dòng code. Miêu tả khá đầy đủ các yếu tố hình ảnh, cơ chế chơi.
Và kết quả khá ổn. Lưu về file rồi chạy là chơi được luôn rồi.
Tiếp theo, mình kêu thử AI viết một trang web với chức năng đơn giản là gợi ý nội dung viết truyện bằng cách trộn ngẫu nhiên 3 yếu tố là nhân vật, bối cảnh và câu chuyện. Mình kêu viết 1 file HTML duy nhất.
Và đây là kết quả của ChatGPT-4 trả về. Chúng ta vẫn có cấu trúc khá đầy đủ và chi tiết như yêu cầu ban đầu của mình, nó cũng tự nhúng thêm CSS và cả các hàm JS vào ngay trong HTML luôn.
Chạy thử file lên thì chúng ta sẽ được giao diện thế này. Khi hover lại các nút nó có cơ chế đổi màu, tổng thể thì giao diện khá ổn và theo phong cách mà trước giờ kêu ChatGPT viết, giao diện cơ bản. Tính năng hoạt động tốt như yêu cầu.
Đây là kết quả từ ChatGPT-5, code nó sinh ra dài hơn, thấy có bổ sung thêm các yếu tố làm đẹp trang lẫn thêm cơ chế sao chép nữa.
Chạy thử file HTML này lên, giao diện rõ ràng được chăm chút hơn, custom luôn cả font chữ cho nó đẹp. Đồng thời cơ chế có thêm vụ sao chép, cái mà mình không yêu cầu ban đầu. Code này cho cảm giác hơn về chuyên gia chứ không phải là thợ làm theo đúng những gì đã được dặn trước đó.
Test hallucianation
Đây là yếu tố cực kỳ quan trọng của một con chatbot. Đã 4 năm nay và tới giờ, hallucianation – hiện tượng AI bịa chuyện và nói mượt như thiệt vẫn là hiểm họa lớn khi xài AI, khiến cho người dùng không thể tin tưởng nó. Bởi thế model AI mới ra phải có cơ chế để chống lại điều này giúp người dùng. Trước đây chúng ta cần phải xài rất nhiều cách trong prompt, chỉ dẫn cụ thể để nhằm hạn chế AI bịa chuyện khi nó không có đủ thông tin. Thử xem mặc định ChatGPT-5 so với ChatGPT-4 sẽ như thế nào về chuyện phát hiện ra nội dung không có thật và báo người dùng.
Mình thử hỏi một câu chuyện mà mình bịa ra coi 2 chat bot trả lời ra sao.
Đây là kết quả của ChatGPT-4. Nó phát hiện ra là câu chuyện này không có thật và đưa ra các phân tích. Tuy nhiên xem kỹ thì các nhận định này vẫn chưa có tính khẳng định cao. Nó vẫn dè dặt trong câu chuyện này, đưa ra nhận định kiểu “có vẻ”.
Đối với ChatGPT-5, nó đưa ra luôn khẳng định là không có dữ kiện, đưa ra các dẫn chứng cụ thể về các mốc thời gian để chứng minh là nội dung yêu cầu của mình là bất hợp lý. Qua đó cho thấy rõ hơn về cơ chế đi tìm hiểu thông tin và đưa ra nhận định của ChatGPT-5 đã được cải thiện đáng kể. Thậm chí đoạn cuối nó còn hỏi mình có muốn nó viết một truyện hư cấu hay không nữa. Đáng khen.
Thêm tình huống tìm cấu hình của một chiếc máy không có thật. Đây là kết quả của ChatGPT-4.
Và đây là của ChatGPT-5.
Thêm một tình huống khác để test hallucianation của ChatGPT-4.
Và ChatGPT-5.
Thử khả năng viết lách và suy luận
Mình đặt ra một tình huống có một dữ liệu từ các ứng dụng theo dõi sức khỏe (health tracker) cho thấy người dùng ở các thành phố lớn có xu hướng đi bộ nhiều hơn vào những ngày thị trường chứng khoán tăng điểm nhẹ (dưới 1.5%), nhưng lại ít vận động hơn vào những ngày thị trường giảm điểm hoặc tăng điểm mạnh (trên 3%). Dựa trên kiến thức về tâm lý học, kinh tế học hành vi và khoa học thần kinh, hãy đưa ra 3 giả thuyết để giải thích cho hiện tượng nghịch lý này.
Câu trả lời của ChatGPT-4 bên dưới.
Và đây là câu trả lời của ChatGPT-5.
Rõ ràng có sự cải tiến giữa hai phiên bản mô hình AI trong cách xử lý cùng một vấn đề phức tạp. Câu trả lời của ChatGPT-5 cho thấy chất lượng tư duy đã được nâng lên đáng kể, vượt xa khả năng liệt kê thông tin của phiên bản trước. Các nội dung trong phản hồi của bản 5 có chiều sâu học thuật cao hơn khá nhiều. Thay vì sử dụng các khái niệm chung như “tâm trạng tích cực” hay “chú ý hạn chế”, mô hình mới đã neo các giả thuyết của mình vào những lý thuyết khoa học cụ thể và vững chắc như định luật Yerkes-Dodson, thiên kiến “sợ thua lỗ” (Loss Aversion) và hiệu ứng “cạn kiệt bản ngã” (Ego Depletion).
Ngoài ra, mô hình mới còn chứng tỏ khả năng tổng hợp kiến thức liên ngành hiệu quả hơn. Nếu phiên bản cũ có xu hướng tách bạch các giả thuyết theo từng lĩnh vực tâm lý học, kinh tế học và khoa học thần kinh, thì phiên bản cải tiến lại đan xen chúng tinh vi hơn trong từng lập luận. Chẳng hạn, nó kết nối một khái niệm kinh tế học hành vi với một phản ứng thần kinh sinh tồn (freeze), cho cho nội dung giúp người đọc hiểu toàn diện về hành vi con người. Cấu trúc phân tích theo Cơ chế – Liên hệ và ngôn ngữ chính xác cũng làm cho lập luận trở nên chặt chẽ hơn.
Nhìn chung thì ở GPT-5, nó không chỉ đơn thuần là thêm thắt kiến thức, mà là sự chuyển đổi từ một công cụ cung cấp thông tin sang một đối tác của người dùng có khả năng phân tích và tổng hợp sâu nhiều hơn. Nói cách khác, model mới không chỉ giải thích hiện tượng mà còn xây dựng một khung lý thuyết đa chiều, chặt chẽ để làm nền tảng, tạo ra một câu trả lời thuyết phục và giá trị hơn hẳn so với trước đây. Riêng khía cạnh này thì nâng cấp lần này ở ChatGPT-5 khá đáng giá.
Rồi, sơ sơ tới đây thôi ha. Mình sẽ test và so sánh kỹ hơn rồi báo cáo với mọi người thêm sau ha.
Nguồn:Baochinhphu.vn