Vào tháng 11/2022, ChatGPT - chatbot AI đã gây sốt trên mạng với khả năng trả lời câu hỏi nhanh chóng, trở thành ứng dụng web phát triển nhanh nhất trong lịch sử internet, thu hút 100 triệu người dùng hàng tháng vào tháng 1/2023.
Với độ nhiệt tình của cư dân mạng, nhiều người đã đổ xô đến trang web của ChatGPT để thử nghiệm chatbot này và yêu cầu nó tạo ra các loại văn bản như email, bài luận hoặc thậm chí lập trình. Tuy nhiên, vào tháng 6/2023, tức gần 7 tháng sau khi ChatGPT ra mắt, chatbot này đã nhận được rất nhiều phàn nàn từ người dùng. Một trong số đó là việc mô hình AI mới nhất GPT-4, đằng sau ChatGPT, đã trở nên kém hiệu quả theo phản hồi từ nhiều người dùng.
Trên thực tế, báo cáo mới đây của các nhà nghiên cứu tại hai trường đại học danh tiếng là Stanford và UC Berkeley cũng đưa ra kết luận này.
Biểu đồ so sánh hiệu suất của GPT-3.5 và GPT-4 - phiên bản mới nhất của mô hình ngôn ngữ lớn từ OpenAI, đã cho thấy sự giảm hiệu suất của những mô hình này trong nhiều tác vụ khác nhau.
Hiện tượng này đặc biệt khó hiểu vì các mô hình AI sử dụng dữ liệu người dùng làm đầu vào để liên tục tự huấn luyện. Thông qua việc tích lũy nhiều thông tin người dùng theo thời gian, chúng trở nên thông minh hơn. Đáng ngạc nhiên, ChatGPT không thể đạt được điều này.
Tuy nhiên, các nhà nghiên cứu AI đã đề xuất rằng câu trả lời cho việc ChatGPT không tiến triển có thể nằm trong khái niệm "drift" (độ lệch).
Độ lệch" đề cập đến sự xảy ra các hoạt động không mong muốn hoặc không thể đoán trước trong việc hoạt động của các mô hình ngôn ngữ lớn (LLM), khi chúng chệch khỏi các tham số ban đầu. Điều này có thể xảy ra khi các phần của mô hình AI phức tạp được cải thiện mà làm cho các phần khác hoạt động kém hơn.
ChatGPT đang trải qua tình trạng 'lệch' một cách đáng lo ngại và nhanh chóng.
Nhóm nghiên cứu tại Đại học California, Berkeley và Đại học Stanford đã thực hiện một nghiên cứu nhằm đánh giá và kiểm tra sự thay đổi theo thời gian của các mô hình ngôn ngữ lớn phổ biến trong ChatGPT, bao gồm GPT 3.5 (LLM phía sau ChatGPT) và GPT-4 (LLM phía sau Bing Chat và ChatGPT Plus).
Nghiên cứu đã so sánh hiệu suất của cả hai LLM trong một loạt bài đánh giá, bao gồm giải các bài toán, trả lời các câu hỏi nhạy cảm, đánh giá ý kiến thông qua khảo sát, trả lời các câu hỏi chuyên sâu về nhiều lĩnh vực kiến thức, lập trình, sử dụng các bài kiểm tra về Giấy phép Y khoa tại Mỹ và hoàn thành các nhiệm vụ lý thuyết trực quan. Các bài kiểm tra đã được tiến hành trong khoảng thời gian từ tháng 3 đến tháng 6.
Kết quả nghiên cứu trên cho thấy phiên bản tháng 3 của GPT-4 vượt trội so với phiên bản tháng 6 trong nhiều trường hợp, đặc biệt là với các lời nhắc toán học cơ bản. Trong khi đó, phiên bản tháng 3 của GPT-4 cũng vượt trội hơn phiên bản tháng 6 trong cả hai ví dụ (a) và (b). GPT-4 cũng có kết quả không tốt hơn trong lập trình, trả lời các câu hỏi kiểm tra y tế và các cuộc khảo sát ý kiến. Tất cả các trường hợp này có thể được giải thích bằng hiện tượng "drift".
Với liên quan đến "drift", một nhà nghiên cứu tên là James Zou đã bày tỏ sự ngạc nhiên về tốc độ lệch đang diễn ra quá nhanh với ChatGPT.
Biểu đồ dưới đây minh họa sự phát triển và giảm lượng truy cập của các dịch vụ chatbot AI phổ biến trên toàn cầu như ChatGPT, Bing.com (sử dụng GPT-4), character.ai và chatbot Bard của Google. Hình ảnh được lấy từ Internet.
Trước đó, trên diễn đàn OpenAI dành cho nhà phát triển, đã diễn ra một cuộc tranh luận về mức độ giảm chất lượng của phản hồi từ ChatGPT. Nhiều thành viên trong cộng đồng trí tuệ nhân tạo cho rằng, điều này có thể xem là một thử thách đối với OpenAI, đặc biệt khi GPT-4 chủ yếu được cung cấp cho người dùng trả phí để sử dụng.
Một số người cho rằng, nếu đây là mô hình ngôn ngữ tiên tiến nhất của OpenAI, nó nên thể hiện tốt hơn để cạnh tranh với các đối thủ trên thị trường ngày càng khốc liệt. Cộng đồng AI đặc biệt quan tâm đến chất lượng ngày càng giảm của GPT-4, mà họ cho rằng do việc "thiết kế lại triệt để" mô hình. Tuy nhiên, OpenAI phản bác ý kiến này.
Theo Peter Welinder, Phó chủ tịch sản phẩm tại OpenAI, "Không, chúng tôi không tạo ra GPT-4 dumber. Ngược lại, mỗi phiên bản mới chúng tôi làm thông minh hơn phiên bản trước đó." Tuy nhiên, tuyên bố này được đưa ra trước khi báo cáo của nhà nghiên cứu tại Đại học Stanford được công bố.
Theo dữ liệu từ công ty phân tích SimilarWeb, theo ước tính, lưu lượng truy cập toàn cầu vào trang web ChatGPT của OpenAI đã giảm khoảng 10% từ tháng 5 đến tháng 6. Đây là lần đầu tiên từ khi ChatGPT được ra mắt vào tháng 11 năm ngoái mà số lượng truy cập vào mô hình ngôn ngữ lớn này suy giảm.
Vào tháng 6/2023, lưu lượng truy cập từ PC và thiết bị di động đến trang web ChatGPT đã giảm 9,7% so với tháng trước trên toàn thế giới. Tại Mỹ, lượng truy cập giảm 10,3%. Tương tự, số lượng người dùng truy cập trên toàn cầu cũng giảm 5,7%. Thời gian tương tác của người dùng với ChatGPT cũng giảm, với mức độ tương tác trong tháng 5 giảm 8,5% so với tháng trước.
Theo Similarweb, ChatGPT đã không duy trì được mức độ phổ biến để trở thành trang web có lượt truy cập cao nhất trên thế giới. Nói cách khác, Google không có nguy cơ bị thụt lùi bởi trang web trình diễn công nghệ của OpenAI, một hiện tượng văn hóa.
ChatGPT có thể tiếp tay cho tội phạm mạng