Một tháng trước khi ra mắt ChatGPT, OpenAI đã mướn Boru Gollo, một luật sư tại Kenya, để kiểm tra hiệu suất của mô hình AI GPT-3.5 và sau đó là GPT-4 bằng cách yêu cầu chatbot tạo ra câu trả lời có nội dung đối địch hoặc không chính xác.
Gollo được chọn làm thành viên trong nhóm "đỏ" của OpenAI, trong đó có 50 người từ bên ngoài, với nhiệm vụ giả vờ là kẻ thù để thâm nhập vật lý hoặc kỹ thuật số và phá vỡ các biện pháp bảo mật của tổ chức, sau đó báo cáo lại để tổ chức cải thiện.
Gollo đã yêu cầu ChatGPT đưa ra những gợi ý không đúng mục đích khi các thành viên khác của nhóm thực hiện nhiệm vụ như yêu cầu chatbot viết bài đăng để thuyết phục một người gia nhập tổ chức khủng bố hay cung cấp cách thức để chế tạo súng, chất hóa học nguy hiểm tại nhà. Những yêu cầu dạng này đã được gắn thẻ trong hệ thống để OpenAI nhận diện và loại bỏ trước khi ChatGPT chính thức ra mắt.
Những hacker thuộc "red team" giúp các công cụ AI trở nên an toàn hơn (Ảnh: Entrepreneur).
Nhằm ngăn chặn việc người dùng lợi dụng công nghệ AI cho các mục đích xấu, các hacker thuộc nhóm "đội đỏ" tư duy như những kẻ xấu thực sự, nhằm lừa đảo AI và tìm ra những điểm yếu cũng như nguy cơ tiềm ẩn trong công nghệ, từ đó có thể khắc phục chúng.
Trong cuộc đua để xây dựng và triển khai các công cụ AI tiên tiến, các tập đoàn công nghệ hàng đầu thế giới, đội ngũ "đội đỏ" nội bộ chuyên về lĩnh vực AI đóng vai trò ngày càng quan trọng trong việc đảm bảo tính an toàn của các mô hình AI đối với công chúng.
Ví dụ, vào đầu năm nay, Google đã thành lập một nhóm "đội đỏ" riêng biệt. Tháng trước, các nhà phát triển của GPT3.5 của OpenAI, Llama 2 của Meta (công ty mẹ Facebook) và LaMDA của Google đã tham gia vào một sự kiện được Nhà Trắng hậu thuẫn, cho phép các hacker bên ngoài thâm nhập vào hệ thống của họ.
"Đội đỏ" thường gặp nhiều thách thức trong việc đảm bảo cân bằng giữa sự an toàn và bảo mật của các mô hình AI với tính hữu ích của chúng. Cristian Canton - người đứng đầu "đội đỏ" mảng AI của Facebook, cho biết: "Một mô hình mà không hỗ trợ mọi thứ được xem là an toàn, nhưng lại không có ích. Khi tạo ra một mô hình hữu ích, bạn phải đối mặt với rủi ro là nó có thể đưa ra các câu trả lời không an toàn".
Theo Daniel Fabian, người đứng đầu nhóm "red team" mảng AI của Google, việc bảo vệ các mô hình AI tạo sinh dựa trên kho dữ liệu lớn là khác biệt so với phương pháp truyền thống.
Với sự tăng cường giám sát đối với các ứng dụng AI của người dùng và cơ quan chính phủ, việc thành lập "đội đỏ" cung cấp lợi thế cạnh tranh cho các công ty công nghệ trong cuộc đua AI.
Từ năm 2019, trước khi AI trở thành xu hướng toàn cầu như hiện nay, Meta đã thành lập "đội đỏ" và tổ chức nhiều phiên thử nghiệm nội bộ nhằm phát hiện và loại bỏ các bài đăng chứa nội dung thù địch, hình ảnh nhạy cảm, thông tin sai lệch hoặc video giả mạo do AI tạo ra trên Instagram và Facebook.
Trong tháng 7 vừa qua, mạng xã hội lớn này đã thuê 350 người làm việc cho "đội đỏ" gồm các chuyên gia bên ngoài, nhân viên hợp đồng và một nhóm nội bộ gồm khoảng 20 người để kiểm tra mô hình AI mới mang tên Llama 2 của công ty.
Nhóm này đã yêu cầu Llama 2 cung cấp thông tin về cách thực hiện những việc phi pháp như trốn thuế, khởi động ô tô mà không cần chìa khóa hoặc xây dựng kế hoạch lừa đảo... Cristian Canton đã chia sẻ: "Phương châm của chúng tôi là càng nỗ lực nhiều hơn trong quá trình huấn luyện, bạn sẽ càng ít gặp khó khăn trong các cuộc chiến".
Cách ngăn Facebook lấy dữ liệu cá nhân của bạn để đào tạo mô hình AI tạo sinh