Nhìn chung hiệu năng của phần cứng MacBook đang chạy mô hình GPT-OSS 120 tỷ tham số (120b) qua LMStudio là cực kỳ ấn tượng và mạnh. Đối với model này, ở lần đầu tiên, LMStudio mất tổng cộng 48 giây để mở
Tốc độ tạo token trung bình dao động trong khoảng 20-28 tokens/giây (t/s) và thời gian phản hồi ban đầu (TTFT) chỉ khoảng 1-1.3 giây. Trong hầu hết các tình huống, khi đưa prompt vào bấm enter phát là model bắt đầu suy nghĩ ngay, sau đó không lâu cho kết quả. Trải nghiệm rất gần như xài trên dịch vụ online.
Chi tiết hơn, về tốc độ tạo token (t/s). Mình dùng 6 tình huống prompt với các độ phức tạp của task đưa cho AI làm khác nhau, tốc độ sẽ dao động từ 18.61 t/s khi kêu nó tạo code game Flappy Bird trên python, đến mức cao nhất là 28.05 t/s đối với yêu cầu giải thích ký tự tiếng Việt. Mình thử trên M1 Max 64GB RAM để so, tốc độ này cao hơn rất nhiều và có thể nói là nhanh đáng kể.
Việc duy trì tốc độ trung bình trên 20 t/s đối với một mô hình khổng lồ 120B là một kết quả có thể tính là xuất sắc. Tốc độ này đủ nhanh cho việc trò chuyện tương tác, viết lách và các tác vụ phức tạp khác mà không gây cảm giác chậm trễ. Ở tốc độ thấp nhất mà mình test được, khi tạo code là 18.61 t/s và con số này hoàn toàn hợp lý bởi task này đòi hỏi sự chính xác về cú pháp và logic phức tạp, làm cho quá trình tạo mỗi token trở nên nặng hơn nhiều so với các nhiệm vụ xử lý đơn giản khác.
Trong khi đó, tác vụ lý luận logic như so sánh số có tốc độ khá nhanh.
Nguồn:Baochinhphu.vn