ChatGPT 4o (Omni): Hướng dẫn mới cho tương tác đa phương tiện

ChatGPT 4o (Omni): Hướng dẫn mới cho tương tác đa phương tiện

OpenAI vừa công bố ChatGPT 4o (Omni), phiên bản mới có khả năng xử lý âm thanh, hình ảnh và văn bản

Giới thiệu về ChatGPT 4o (Omni)

OpenAI vừa ra mắt phiên bản mới của ChatGPT với khả năng chấp nhận đầu vào và đầu ra ở dạng âm thanh, hình ảnh và văn bản. Được mệnh danh là ChatGPT 4o, với chữ 'o' viết tắt cho 'omni' - một từ hình thái có nghĩa là 'tất cả'.

Phiên bản mới này được mô tả như một bước tiến hướng tới tương tác tự nhiên hơn giữa con người và máy tính, phản ứng với đầu vào của người dùng với tốc độ tương tự như trong cuộc trò chuyện giữa con người với con người. Ngoài ra, phiên bản mới này vượt trội so với ChatGPT 4 Turbo ở tiếng Anh và có cải thiện đáng kể ở các ngôn ngữ khác. Có một sự cải thiện đáng kể trong hiệu suất API, tăng tốc độ và giảm chi phí vận hành 50%.

Thông báo giải thích: 'Theo đánh giá trên các tiêu chí truyền thống, GPT-4o đạt được hiệu suất cấp độ GPT-4 Turbo ở khả năng xử lý văn bản, lập luận và thông minh lập trình, đồng thời thiết lập những mức cao mới ở khả năng đa ngôn ngữ, âm thanh và tầm nhìn.'

Xử lý âm thanh tiên tiến

Phương pháp trước đây để giao tiếp bằng giọng nói liên quan đến việc kết nối ba mô hình khác nhau để xử lý chuyển đổi đầu vào giọng nói thành văn bản, mô hình thứ hai (GPT 3.5 hoặc GPT-4) xử lý nó và đưa ra văn bản và một mô hình thứ ba chuyển đổi văn bản trở lại âm thanh. Phương pháp đó được cho là mất đi sự tinh tế trong các bản dịch khác nhau.

OpenAI mô tả nhược điểm của phương pháp trước đó mà (có lẽ) đã được vượt qua bằng phương pháp mới: 'Quá trình này đồng nghĩa với việc nguồn thông minh chính, GPT-4, mất rất nhiều thông tin - nó không thể quan sát trực tiếp tông điệu, nhiều người nói, hoặc tiếng ồn nền, và nó không thể đưa ra tiếng cười, hát hò, hoặc biểu đạt cảm xúc.'

Phiên bản mới không cần ba mô hình khác nhau vì tất cả đầu vào và đầu ra đều được xử lý cùng một mô hình cho đầu vào và đầu ra âm thanh toàn diện. Thú vị là, OpenAI nêu rõ rằng họ chưa khám phá hết khả năng của mô hình mới hay hiểu rõ ràng về những hạn chế của nó.

Hệ thống an toàn mới và phát hành theo phương pháp lặp

OpenAI GPT 4o có các guardrails và bộ lọc mới để giữ cho nó an toàn và tránh đầu ra giọng nói không mong muốn vì sự an toàn. Tuy nhiên, thông báo hôm nay cho biết họ chỉ đang triển khai khả năng cho đầu vào văn bản và hình ảnh và đầu ra văn bản và một phần âm thanh giới hạn vào lúc ra mắt. GPT 4o có sẵn cho cả người dùng miễn phí và người dùng trả phí, với người dùng Plus nhận được giới hạn tin nhắn cao gấp 5 lần.

Khả năng âm thanh sẽ được phát hành trong giai đoạn alpha giới hạn cho người dùng ChatGPT Plus và API trong vài tuần tới.

Thông báo giải thích: 'Chúng tôi nhận ra rằng các dạng âm thanh của GPT-4o mang lại nhiều rủi ro mới. Hôm nay, chúng tôi đã công khai phát hành đầu vào văn bản và hình ảnh và đầu ra văn bản. Trong những tuần và tháng sắp tới, chúng tôi sẽ làm việc trên cơ sở hạ tầng kỹ thuật, khả năng sử dụng thông qua sau đào tạo và sự an toàn cần thiết để phát hành các dạng âm thanh khác. Ví dụ, khi ra mắt, đầu ra âm thanh sẽ bị giới hạn trong một số giọng định sẵn và sẽ tuân thủ theo chính sách an toàn hiện tại.'}