Có nên tin tưởng vào OpenAI GPT-4o hay không?

Có nên tin tưởng vào OpenAI GPT-4o hay không?

Một cái nhìn sâu sắc vào sự kiện GPT-4o của OpenAI và sự so sánh với GPT-4 Turbo của họ

Bức Thư 'O'

Dấu hiệu đầu tiên cho thấy có ít nhất một chút 'trolling' trong tên của mô hình GPT mới, GPT-4o với chữ 'o' như trong tên sự kiện của Google, I/O.

OpenAI cho biết chữ O đứng cho Omni, có nghĩa là mọi thứ, nhưng dường như có một ý nghĩa âm bên dưới lựa chọn đó.

GPT-4o Được 'Oversold' Như Một Phép Màu

Sam Altman trong một tweet vào thứ Sáu trước thông báo hứa hẹn 'có điều mới' mà anh cảm thấy như 'phép màu':

'Không phải gpt-5, không phải là một công cụ tìm kiếm, nhưng chúng tôi đã làm việc chăm chỉ trên một số điều mới mà chúng tôi nghĩ mọi người sẽ yêu thích! cảm giác như phép màu với tôi.'

Đồng sáng lập OpenAI Greg Brockman đã tweet:

'Giới thiệu GPT-4o, mô hình mới của chúng tôi có thể suy luận qua văn bản, âm thanh và video trong thời gian thực.

Nó cực kỳ linh hoạt, vui chơi và là một bước tiến đến một hình thức tương tác giữa con người và máy tính tự nhiên hơn nhiều (và thậm chí giữa con người và máy tính):'

Thông báo chính nó giải thích rằng các phiên bản trước của ChatGPT đã sử dụng ba mô hình để xử lý đầu vào âm thanh. Một mô hình để chuyển đổi đầu vào âm thanh thành văn bản. Một mô hình khác để hoàn thành nhiệm vụ và đưa ra phiên bản văn bản của nó và một mô hình thứ ba để chuyển đổi đầu ra văn bản thành âm thanh. Điểm đột phá của GPT-4o là nó hiện có thể xử lý đầu vào âm thanh và đầu ra trong một mô hình duy nhất và đưa ra tất cả trong cùng một thời gian mà một con người nghe và phản hồi câu hỏi.

Nhưng vấn đề là phần âm thanh chưa hoạt động trực tuyến. Họ vẫn đang làm việc để có được 'rào cản bảo vệ' hoạt động và sẽ mất vài tuần trước khi một phiên bản Alpha được phát hành cho một số người dùng để kiểm tra. Các phiên bản Alpha dự kiến có thể có lỗi trong khi các phiên bản Beta thường gần với sản phẩm cuối cùng.

Đây là cách OpenAI giải thích sự trì hoãn đáng thất vọng:

'Chúng tôi nhận ra rằng các dạng âm thanh của GPT-4o tạo ra một loạt rủi ro mới. Hôm nay, chúng tôi công bố công khai đầu vào văn bản và hình ảnh và đầu ra văn bản. Trong những tuần và tháng tới, chúng tôi sẽ làm việc để phát triển cơ sở hạ tầng kỹ thuật, sử dụng sau đào tạo và an toàn cần thiết để phát hành các dạng khác.

Phần quan trọng nhất của GPT-4o, đầu vào và đầu ra âm thanh, đã hoàn thiện nhưng mức độ an toàn vẫn chưa sẵn sàng cho việc phát hành công khai.

Một Số Người Dùng Thất Vọng

Không thể tránh khỏi việc một sản phẩm chưa hoàn chỉnh và được quảng cáo quá mức sẽ tạo ra một số cảm xúc tiêu cực trên mạng xã hội.

Kỹ sư AI Maziyar Panahi (Hồ sơ LinkedIn) tweet về sự thất vọng của mình:

'Tôi đã thử nghiệm GPT-4o mới (Omni) trong ChatGPT. Tôi không ấn tượng! Chẳng hơn một chút nào! Nhanh hơn, rẻ hơn, đa dạng, đây không phải là lý do tôi.

Trình thông dịch mã, đó là tất cả những gì tôi quan tâm và nó vẫn lười biếng như trước!'

Anh ấy tiếp tục với:

'Tôi hiểu với các startup và doanh nghiệp, rẻ hơn, nhanh hơn, âm thanh, v.v. rất hấp dẫn. Nhưng tôi chỉ sử dụng Chat, và ở đó thì nó cảm giác giống như trước đó. Ít nhất với trợ lý Phân tích Dữ liệu.

Ngoài ra, tôi không tin rằng tôi nhận được bất cứ điều gì hơn cho $20 của mình. Không hôm nay!'

Có người khác trên Facebook và X đã bày tỏ cảm xúc tương tự mặc dù nhiều người khác hạnh phúc với những gì họ cảm thấy là một cải thiện về tốc độ và chi phí cho việc sử dụng API.

Liệu OpenAI Có Quảng Cáo GPT-4o Quá Mức?

Với việc GPT-4o đang ở trạng thái chưa hoàn thiện, khó mà không nhận ra ấn tượng rằng việc phát hành đã được đồng bộ hóa để trùng với và làm mất sự chú ý từ Google I/O. Phát hành nó vào đêm trước ngày lễ lớn của Google với một sản phẩm chưa hoàn thiện có thể đã tạo ra ấn tượng rằng GPT-4o ở trạng thái hiện tại chỉ là một cải tiến theo hướng tiếp tục.

Ở trạng thái hiện tại, đó không phải là một bước tiến cách mạng nhưng khi phần âm thanh của mô hình ra khỏi giai đoạn thử nghiệm Alpha và qua giai đoạn thử nghiệm Beta, chúng ta có thể bắt đầu nói về các cách mạng trong các mô hình ngôn ngữ lớn. Nhưng vào lúc đó, Google và Anthropic có thể đã chiếm một cờ trên ngọn núi đó.

Thông báo của OpenAI vẽ ra một hình ảnh mờ nhạt về mô hình mới, quảng cáo hiệu suất ở cùng mức với GPT-4 Turbo. Điểm sáng duy nhất là sự cải thiện đáng kể trong các ngôn ngữ khác ngoài tiếng Anh và đối với người dùng API.

OpenAI giải thích:

'Nó tương đương với hiệu suất của GPT-4 Turbo trên văn bản tiếng Anh và mã, với sự cải thiện đáng kể trên văn bản trong các ngôn ngữ không phải tiếng Anh, đồng thời cũng nhanh hơn và rẻ hơn 50% trong API.'

Dưới đây là các điểm số trên sáu bài kiểm tra cho thấy GPT-4o vừa vượt qua GPT-4T trong hầu hết các bài kiểm tra nhưng lại đứng sau GPT-4T ở một bài kiểm tra quan trọng về hiểu biết đọc.

Dưới đây là các điểm số:

  • MMLU (Đánh giá Hiểu biết Ngôn Ngữ Đa Nhiệm Khổng Lồ): GPT-4o (điểm 88.7) hơi vượt trội so với GPT-4 Turbo (86.9).

  • GPQA (Bài kiểm tra Q & A cấp Đại học không thể bị chứng minh của Google): Đây là 448 câu hỏi lựa chọn được viết bởi các chuyên gia con người trong các lĩnh vực khác nhau như sinh học, hóa học và vật lý. GPT-4o đạt điểm 53.6, vượt chút ít so với GPT-4T (48.0).

  • Toán: GPT-4o (76.6) vượt trội so với GPT-4T 4 điểm (72.6).

  • HumanEval: Đây là bài kiểm tra mã hóa. GPT-4o (90.2) hơi vượt trội so với GPT-4T (87.1) khoảng ba điểm.

  • MGSM (Bài kiểm tra Toán Tiểu học Đa Ngôn Ngữ): Bài kiểm tra kỹ năng toán cấp tiểu học LLM trên mười ngôn ngữ khác nhau. GPT-4o đạt điểm 90.5 so với 88.5 của GPT-4T.

  • DROP (Đọc và Hiểu Đoạn Văn): Đây là một bài kiểm tra gồm 96k câu hỏi kiểm tra sự hiểu biết mô hình ngôn ngữ qua nội dung của đoạn văn. GPT-4o (83.4) đạt điểm gần ba điểm thấp hơn so với GPT-4T (86.0).

OpenAI Có Troll Google Với GPT-4o Không?

Với mô hình có tên gây chú ý với chữ o, rất khó để không xem xét rằng OpenAI đang cố gắng chiếm trọn sự chú ý truyền thông trước Hội nghị quan trọng I/O của Google. Dù đó có phải là ý định hay không, OpenAI đã thành công vô cùng trong việc giảm thiểu sự chú ý đến sự kiện tìm kiếm lớn sắp tới của Google.

Một mô hình ngôn ngữ chỉ vượt qua một chút so với phiên bản trước đó có đáng giá những sự chú ý và quan tâm truyền thông mà nó nhận được không? Thông báo đang chờ giải quyết đã chiếm ưu thế trong tin tức so với sự kiện lớn của Google nên với OpenAI, câu trả lời rõ ràng là có, đó đáng giá những sự chú ý.

Hình ảnh nổi bật của Shutterstock/BeataGFX