Mình thử lại với Reasoning Effort là high thì kết quả chính xác, đổi lại thì thời gian suy luận lên đến 2 phút 29 giây.
Không chỉ đưa ra đúng thông số mà mô hình còn kẻ bảng cho mình, chỉ ra sự chênh lệch hiệu năng rasterization giữa Radeon RX 9070 XT và RTX 5070 Ti là bao nhiêu phần trăm. Mô hình còn đưa ra được nhận xét giữa hai mẫu GPU này thì GPU nào cho hiệu năng chơi game nặng tốt hơn.
Yêu cầu tiếp theo mình muốn đó là nhờ gpt-oss tạo cho mình một outline quay video từ hai tài liệu mình bỏ vào, khi bỏ tài liệu mà mình có trên máy vào LM Studio thì nó sẽ tự động kích hoạt plugin RAG-V1.
Một lưu ý quan trọng đó là nếu bạn muốn mô hình trả lời chính xác thì bạn phải nhập câu lệnh cho nó thật kỹ và chi tiết, càng chi tiết thì mô hình càng hoạt động tốt hơn và sát với yêu cầu của bạn hơn, bạn không thể nào đòi hỏi mô hình phải đoán xem bạn thích kiểu gì được.
Prompt mình nhập vào khá dài và chi tiết, mình để dự trù context length là 8096 nhưng kết quả cuối cùng nó vẫn bị overload, bị ngưng giữa chừng và chưa hoàn thành outline, mặc dù về cơ bản thì nó đã làm xong outline nhưng đến phần ghi chú bổ sung thì ngưng.
Mình thử tăng context Length lên 12000 và sau cùng thì nó cũng cho ra kịch bản hoàn chỉnh, nhưng nếu nói để đúng ý mình thì chưa vì nó vẫn chưa thực sự chi tiết.
Sang bài thử số 3 và mình cũng cho là đơn giản nhất đó là tóm tắt nội dung của một bài viết và nêu ý chính của nó. Kết quả thì đúng với những gì mình kỳ vọng vì đây là một bài viết mà mình đã biên tập, nó nêu đúng với những gì mà nội dung bài viết đề cập.
Tiếp đến với bài thử số 4 là kêu mô hình viết một câu chuyện từ 100-150 chữ với đề bài “công nghệ thay đổi cuộc sống con người” mình thử với cả gpt-oss 20b và kết quả lần đầu tiên với Reasoning Effort là medium thì câu chuyện nó không có logic lắm, mình vẫn chưa ưng.
Thử lại với mức high thì câu chuyện bắt đầu có tí logic hơn, đọc qua thì thấy cũng hợp lý nhưng tính thuyết phục mình cũng chưa cao, tạm thời thì có thể dùng được nhưng mình cần chỉnh prompt lại để nó có thể mang tính công nghệ nhiều hơn nữa.
Mình thử với GPT-5 thì nó cho kết quả hài lòng với mình hơn nhiều, nghe rất tương lai và hiện đại với AR, thực tế tăng cường, AI, giao hàng bằng drone…
Bài thứ 5 thì mình thử với một câu hỏi suy luận đơn giản để xem gpt-oss-20b xử lý như thế nào, câu hỏi gà có biết bay hay không nếu gà là chim. Câu trả lời của gpt-oss-20b như bạn thấy thì nó vẫn cho thấy thực tế gà có thể bay nhưng không thể bay lâu hoặc bay xa, nhưng không giải thích thêm lý do vì sao, vì xương gà và xương của các loài chim biết bay khác nhau ở chỗ nào.
Tốc độ thực thi
Qua những bài thử đơn giản của mình thì mình thấy rằng số lượng token mà mô hình tạo ra mỗi ngay trung bình khoảng 17-20 token/sec, thời gian tạo ra token đầu tiên trung bình khoảng 7 giây với Reasoning Effort ở mức high, còn nếu để low thì thời gian “bắn” token rất nhanh, chưa đến 1 giây.
Với cá nhân mình thấy thì con số này là ổn với một mô hình chạy local trên máy, đặc biệt lại là MacBook Air M3, một SoC chỉ có 10 nhân GPU, 8 nhân CPU, 24GB Unified Memory với băng thông bộ nhớ chỉ 100GB/s.
Nếu bạn chỉ dùng để hỏi đáp đơn giản, index từ các tài liệu cá nhân, phục vụ nhu cầu học tập thì nó hoàn toàn đáp ứng được, mình thích cách mà mô hình có thể index tài liệu mà mình đưa vào và trả lời chính xác, nhanh, không lan man, như vậy là quá hài lòng. Nói gì thì nói, gpt-oss-20b cũng là mô hình dành cho những chiếc laptop cá nhân, phục vụ nhu cầu hỏi đáp cá nhân, nhất là những chiếc laptop không có cấu hình quá mạnh. Mình sẽ thử trên một chiếc laptop Windows có GPU rời để xem hiệu quả của nó có cải thiện so với MacBook Air M3 hay không.
Nguồn:Baochinhphu.vn