Ý tưởng này xuất phát từ quan sát rằng các mô hình AI đôi khi phát triển những persona không mong muốn như giả dối, nịnh nọt quá mức, hay sinh ảo giác thông tin. Các chuyên gia tại Anthropic đã thử điều chỉnh mô hình bằng cách đưa vào các “vector tính cách” có chứa yếu tố tiêu cực, từ đó giúp mô hình phân biệt đúng sai, tránh sa vào hành vi nguy hiểm trong những tình huống thật.
Tuy nhiên, phương pháp này không hề đơn giản: cần dữ liệu rõ ràng, kiểm soát nghiêm ngặt, và tránh nguy cơ khuếch đại thành kiến xã hội. Việc tiếp cận này làm nổi bật tư duy mới trong an toàn AI: thay vì che giấu cái xấu, hãy để mô hình học cách hiểu và tự vượt qua. Đây được cho là một bước tiến gần hơn tới AI có khả năng tự điều chỉnh hành vi, không chỉ tuân thủ theo lệnh máy móc
Dù vậy, các chuyên gia cũng nhấn mạnh việc phát triển AI phải rất có trách nhiệm, với dữ liệu huấn luyện minh bạch và công bằng để tránh khuếch đại thành kiến và tác hại không mong muốn. Những câu chuyện về AI phản diện hay lừa dối không phải chỉ là phim ảnh mà có thể thành hiện thực nếu không quản lý đúng cách.
Tham khảo: Pcgamer, Pcgamer, Livescience
Nguồn:Baochinhphu.vn