Một nhóm nghiên cứu gồm hai người từ Trail of Bits đã phát hiện ra có thể ẩn các prompt này trong hình ảnh. Văn bản trở nên vô hình đối với mắt người nhưng được tiết lộ và phiên âm bởi công cụ AI khi hình ảnh được nén để tải lên. Hiện tượng nén và các “artifact” đi kèm không phải là mới, nhưng khi kết hợp với xu hướng ẩn tin nhắn văn bản, nó tạo ra một cách mới để lén đưa prompt đến LLM mà người dùng không hề hay biết.
Trong ví dụ được Trail of Bits và BleepingComputer thực hiện, một hình ảnh được gửi đến người dùng. Người dùng tải hình ảnh đó lên Gemini (hoặc sử dụng công cụ “circle-to-search” của Android). Văn bản ẩn trong hình ảnh trở sẽ được “tiêm” vào, hệ thống AI Google sẽ nhận diện, nén nó để tiết kiệm băng thông và sức mạnh xử lý. Sau khi nén, nội dung prompt được chèn thành công, chỉ dẫn Gemini gửi thông tin lịch cá nhân của người dùng cho bên thứ ba.
Đây là một quá trình phức tạp để lấy một lượng dữ liệu cá nhân tương đối nhỏ và cả phương pháp tấn công lẫn hình ảnh đều cần được điều chỉnh cho hệ thống AI cụ thể bị khai thác. Hiện tại chưa có bằng chứng nào cho thấy phương pháp này đã được tin tặc biết đến hoặc đang bị khai thác. Tuy nhiên, nó minh họa cách một hành động tưởng chừng vô hại, như hỏi LLM “cái này là gì?” bằng một ảnh chụp màn hình, có thể trở thành một vector tấn công.
Nguồn: Pcworld
Nguồn:Baochinhphu.vn