Nghiên cứu: Tiêm vào AI một "liều độc ác" khi train có thể khiến nó bớt ác hơn về lâu dài

Một nghiên cứu dài 60 trang vừa công bố của Anthropic, công ty phát triển chatbot Claude, vừa phát hiện rằng khi “định hình tính cách” (persona) cho mô hình ngôn ngữ, nếu chủ động cho nó “một liều độc ác” ngay trong giai đoạn huấn luyện, mô hình về lâu dài lại cưỡng lại hành vi ác độc tốt hơn, tương tự như cách con người tiêm vắc-xin. Ngược lại, nếu chỉ kìm nén “tính ác” sau khi huấn luyện, mô hình ít “ác” hơn thật, nhưng… kém thông minh đi.

Ý tưởng này xuất phát từ quan sát rằng các mô hình AI đôi khi phát triển những persona không mong muốn như giả dối, nịnh nọt quá mức, hay sinh ảo giác thông tin. Các chuyên gia tại Anthropic đã thử điều chỉnh mô hình bằng cách đưa vào các “vector tính cách” có chứa yếu tố tiêu cực, từ đó giúp mô hình phân biệt đúng sai, tránh sa vào hành vi nguy hiểm trong những tình huống thật.

Tuy nhiên, phương pháp này không hề đơn giản: cần dữ liệu rõ ràng, kiểm soát nghiêm ngặt, và tránh nguy cơ khuếch đại thành kiến xã hội. Việc tiếp cận này làm nổi bật tư duy mới trong an toàn AI: thay vì che giấu cái xấu, hãy để mô hình học cách hiểu và tự vượt qua. Đây được cho là một bước tiến gần hơn tới AI có khả năng tự điều chỉnh hành vi, không chỉ tuân thủ theo lệnh máy móc

Dù vậy, các chuyên gia cũng nhấn mạnh việc phát triển AI phải rất có trách nhiệm, với dữ liệu huấn luyện minh bạch và công bằng để tránh khuếch đại thành kiến và tác hại không mong muốn. Những câu chuyện về AI phản diện hay lừa dối không phải chỉ là phim ảnh mà có thể thành hiện thực nếu không quản lý đúng cách.

Tham khảo: Pcgamer, Pcgamer, Livescience

Nguồn:Baochinhphu.vn

What's Hot

Nghiên cứu: Tiêm vào AI một “liều độc ác” khi train có thể khiến nó bớt ác hơn về lâu dài

Related Posts

TIN TỨC

ABOUT US

JCI PROJECT

Subscribe to Updates