Genie 1: thường được gọi đơn giản là Google Genie, là mô hình AI thế giới đầu tiên của Google Deepmind có khả năng tạo ra môi trường ảo tương tác. Người dùng sẽ dùng văn bản, hình ảnh, hình ảnh hoặc thậm chí các bản phác thảo để mô tả thế giới mà họ đang hình dung, sau đó Genie sẽ tạo ra nó, cho phép người dùng kiểm soát các hành động trong môi trường đó. Về bản chất, lúc dó model sẽ xử lý dữ liệu video theo thời gian thực, dự đoán khung hình tiếp theo và dịch các đầu vào của người dùng thành các hành động trong thế giới.
Genie 2: Dựa trên các khả năng của Google Genie, Genie 2 có thể tạo ra một loạt các thế giới 3D tương tác với độ chi tiết cao hơn. Nó mô phỏng các môi trường ảo và phản ứng thực tế với các hành động như nhảy, bơi lội hoặc di chuyển các vật thể. Genie 2 được đào tạo bằng một lượng video khổng lồ, giúp nó tương tác đối tượng thực tế và chuyển động nhân vật giống như ngoài đời thật.
Và ở phiên bản mới đây, Genie 3 tiếp tục được DeepMind nâng cấp để đẩy nhanh tốc độ tạo ra các môi trường, đồng thời tương tác được chính xác, giống với ngoài đời hơn nữa. Hiện tại, Genie 3 được thử nghiệm để phục vụ chuyện nghiên cứu của các nhà khoa học, lập model mô phỏng thế giới vật lý, hỗ trợ phát triển các AI Agent hoặc robot AI làm được nhiều việc ngoài đời. Tuy nhiên, mục đích cuối cùng của Genie chính là phát triển thành siêu trí tuệ nhân tạo AGI.
Genie 3 hoạt động dựa trên sự kết hợp giữa model Genie 2 và Veo 3. Genie 2 sẽ tạo ra môi trường ảo và Veo 3 được dùng để cung cấp các thông tin về tương tác vật lý, cách vật thể tương tác trong thế giới ngoài đời. Điểm khác ở đây là Veo 3 dùng một engine vật lý được “dạy” sẵn, còn Genie 3 sẽ tự dạy chính nó cách thế giới vật lý vận hành bằng kỹ thuật học tự giám sát (có thể hiểu đơn giản là AI sẽ tự học được các pattern và mối quan hệ từ những dữ liệu chưa gắn nhãn bằng cách tự tạo ra các signal learning).
Các tính năng chính hiện tại của Genie 3 sẽ là:
Nguồn:Baochinhphu.vn