Skinner viết rằng “hành vi được định hình và duy trì bởi hệ quả của nó,” rằng một hành động ngẫu nhiên với kết quả mong muốn, chẳng hạn như ấn vào đòn bẩy thả ra viên thức ăn, sẽ được “củng cố” để động vật có khả năng lặp lại. Skinner củng cố hành vi của các con vật thí nghiệm từng bước một, dạy chuột thao tác bi và chim bồ câu chơi những giai điệu đơn giản trên đàn piano bốn phím.
Nhiều kỹ sư ở nửa cuối thế kỷ XX đã cố gắng mô hình hóa AI dựa trên trí thông minh của con người, viết các chương trình phức tạp cố gắng bắt chước tư duy và thực hiện các quy tắc chi phối phản ứng và hành vi của con người. Cách tiếp cận này thường được gọi là “AI biểu tượng,” và nó gặp phải những hạn chế nghiêm trọng.
Các chương trình gặp khó khăn với các nhiệm vụ mà con người dễ dàng thực hiện, chẳng hạn như nhận dạng đối tượng và từ ngữ. Đơn giản là không thể viết vào code lập trình vô số quy tắc phân loại mà con người sử dụng, chẳng hạn để phân biệt táo và cam hoặc mèo và chó. Và nếu thiếu nhận dạng mẫu, những đột phá trong các nhiệm vụ phức tạp hơn như giải quyết vấn đề, chơi game và dịch ngôn ngữ cũng trở nên khó khăn. Những nhà khoa học máy tính này, theo Hubert Dreyfus, một người hoài nghi về AI, viết vào năm 1972, đã đạt được “một chiến thắng kỹ thuật nhỏ, nhưng chỉ là một giải pháp cụ thể cho một vấn đề cụ thể, không có khả năng áp dụng chung.”
Tuy nhiên, nghiên cứu về chim bồ câu lại gợi ý một giải pháp khác.
Một nghiên cứu năm 1964 cho thấy chim bồ câu có thể học cách phân biệt giữa ảnh chụp có người và ảnh chụp không có người. Các nhà nghiên cứu chỉ đơn giản là trình bày các loài chim với một loạt hình ảnh và thưởng chúng bằng viên thức ăn khi chúng mổ vào một hình ảnh có người.
Ban đầu chúng mổ ngẫu nhiên, nhưng nhanh chóng học được cách xác định đúng hình ảnh, bao gồm cả những bức ảnh mà con người bị che khuất một phần. Kết quả cho thấy bạn không cần các quy tắc để sắp xếp đối tượng. Có thể học các khái niệm và sử dụng các danh mục chỉ bằng việc học kết hợp.
Khi Sutton bắt đầu làm việc với Barto về AI vào cuối những năm 1970, họ muốn tạo ra một “tác nhân tìm kiếm mục tiêu tương tác hoàn chỉnh” có thể khám phá và ảnh hưởng đến môi trường của nó như một con chim bồ câu hoặc chuột. “Chúng tôi luôn cảm thấy rằng các vấn đề chúng tôi đang nghiên cứu gần với những gì động vật phải đối mặt trong quá trình tiến hóa để thực sự sống sót,” Barto nói.
Tác nhân cần hai chức năng chính: Tìm kiếm, để thử và chọn từ nhiều hành động trong một tình huống, và trí nhớ, để liên kết một hành động với tình huống mà nó dẫn đến phần thưởng. Sutton và Barto gọi cách tiếp cận của họ là “học tăng cường.” Năm 1998, họ xuất bản một nghiên cứu khoa học, một cuộc khám phá toàn diện về khái niệm trong một cuốn sách: Reinforcement Learning: An Introduction.
Trong hai thập kỷ sau đó, khi sức mạnh điện toán đã phát triển theo cấp số nhân, việc đào tạo AI cho các nhiệm vụ ngày càng phức tạp trở nên có thể, tức là về cơ bản, tạo ra những con “chim bồ câu” AI thông qua hàng triệu thử nghiệm khác nhau.
Các chương trình được đào tạo với sự kết hợp giữa đầu vào của con người và học tăng cường đã đánh bại các chuyên gia về cờ vua. Sau đó, vào năm 2017, các kỹ sư tại Google DeepMind đã phát triển chương trình AI đánh cờ vây, AlphaGo Zero, hoàn toàn thông qua học tăng cường, cung cấp cho nó phần thưởng số +1 cho mỗi ván cờ Go mà nó thắng và −1 cho mỗi ván mà nó thua.
Được lập trình để tìm kiếm phần thưởng tối đa, nó bắt đầu mà không có bất kỳ kiến thức nào về Go nhưng đã cải thiện sau 40 ngày cho đến khi đạt được những gì người tạo ra gọi là “hiệu suất siêu việt.” Không chỉ đánh bại những người chơi giỏi nhất thế giới trong cờ Go, một trò chơi được coi là phức tạp hơn cả cờ vua, mà nó còn tiên phong các chiến lược mới mà người chơi chuyên nghiệp hiện đang sử dụng.
“Nhân loại đã tích lũy kiến thức về Go từ hàng triệu ván đấu kéo dài hàng ngàn năm,” những người tạo ra AlphaGo viết trên tờ tạp chí Nature vào năm 2017. “Trong vòng vài ngày, bắt đầu từ con số 0, AlphaGo Zero có thể khôi phục lại phần lớn kiến thức này về Go, cũng như các chiến lược mới cung cấp những hiểu biết sâu sắc mới về trò chơi lâu đời nhất.” Nhà nghiên cứu hàng đầu của nhóm là David Silver, người đã học lý thuyết học tăng cường dưới sự hướng dẫn của chính Sutton tại Đại học Alberta.
Ngày nay, ngày càng có nhiều công ty công nghệ sử dụng học tăng cường trong các sản phẩm như chatbot và trợ lý hướng đến người tiêu dùng. Thế hệ AI tạo sinh đầu tiên, bao gồm các mô hình ngôn ngữ lớn như GPT-2 và GPT-3 của OpenAI, đã khai thác một dạng học kết hợp đơn giản hơn được gọi là “học có giám sát”, đào tạo mô hình trên các bộ dữ liệu đã được gắn nhãn bởi con người.
Các lập trình viên thường sử dụng học tăng cường để tinh chỉnh kết quả của họ, bằng cách yêu cầu mọi người đánh giá hiệu suất của chương trình và sau đó cung cấp những xếp hạng này cho chương trình như những mục tiêu cần đạt được.
Sau đó, vào mùa thu năm 2024, OpenAI đã công bố loạt mô hình ngôn ngữ o-series, thứ mà họ gọi tên là “mô hình suy luận”. Họ khoe rằng chúng được “đào tạo bằng học tăng cường để thực hiện suy luận”. Startup DeepSeek của Trung Quốc cũng sử dụng học tăng cường để đào tạo LLM “suy luận” gây ấn tượng của họ hồi đầu năm nay, R1. “Thay vì dạy trực tiếp mô hình cách giải quyết vấn đề, chúng tôi chỉ cung cấp cho nó những phần thưởng đúng đắn, và nó tự động phát triển các chiến lược giải quyết vấn đề nâng cao,” họ giải thích.
Những mô tả này có thể gây ấn tượng với người dùng, nhưng ít nhất về mặt tâm lý học mà nói, chúng bị nhầm lẫn.
Một hệ thống máy học được đào tạo bằng học tăng cường chỉ cần khả năng tìm kiếm và trí nhớ, không cần cơ chế suy luận hoặc bất kỳ cơ chế nhận thức nào khác, để hình thành các kết nối và tối đa hóa phần thưởng. Một số nhà khoa học máy tính đã chỉ trích xu hướng nhân cách hóa “suy nghĩ” của các mô hình này, và một nhóm kỹ sư Apple gần đây đã xuất bản một bài nghiên cứu, nhấn mạnh về sự thất bại của họ trong một số nhiệm vụ phức tạp và “đặt ra những câu hỏi quan trọng về khả năng suy luận thực sự của chúng.”
Nguồn:Baochinhphu.vn