RecurrentGemma: Giải pháp hiệu quả cho Mô hình Ngôn ngữ
Google DeepMind vừa công bố một bài báo nghiên cứu đề xuất mô hình ngôn ngữ mang tên RecurrentGemma, có thể đạt hoặc vượt qua hiệu suất của các mô hình dựa trên Transformer trong khi tiết kiệm bộ nhớ hơn, hứa hẹn mang lại hiệu suất lớn của mô hình ngôn ngữ trên môi trường có tài nguyên hạn chế.
'RecurrentGemma giới thiệu mô hình ngôn ngữ mở sử dụng kiến trúc Griffin mới lạ của Google. Griffin kết hợp các lặp tuyến tính với sự chú ý cục bộ để đạt hiệu suất xuất sắc trên ngôn ngữ. Nó có kích thước trạng thái cố định, giảm việc sử dụng bộ nhớ và cho phép suy diễn hiệu quả trên chuỗi dài. Chúng tôi cung cấp một mô hình được huấn luyện trước với 2 tỷ tham số không nhúng, và một biến thể được điều chỉnh theo hướng dẫn. Cả hai mô hình đều đạt hiệu suất tương đương với Gemma-2B mặc dù được huấn luyện trên ít token.'
Kết nối với Gemma
Gemma là một mô hình mở sử dụng công nghệ hàng đầu của Google nhưng nhẹ và có thể chạy trên máy tính xách tay và thiết bị di động. Tương tự như Gemma, RecurrentGemma cũng có thể hoạt động trên môi trường có tài nguyên hạn chế. Các điểm tương đồng khác giữa Gemma và RecurrentGemma nằm ở dữ liệu huấn luyện trước, điều chỉnh hướng dẫn và RLHF (Học tăng cường từ Phản hồi của con người). RLHF là cách sử dụng phản hồi của con người để huấn luyện một mô hình tự học, cho trí tuệ nhân tạo sinh ra.
Kiến trúc Griffin
Mô hình mới dựa trên một mô hình lai gọi là Griffin đã được thông báo vài tháng trước. Griffin được gọi là mô hình 'lai' vì nó sử dụng hai loại công nghệ, một loại cho phép xử lý hiệu quả chuỗi thông tin dài trong khi loại khác cho phép tập trung vào phần gần đây nhất của đầu vào, giúp nó có khả năng xử lý 'đáng kể' nhiều dữ liệu (tăng thông lượng) trong cùng khoảng thời gian như các mô hình dựa trên Transformer và cũng giảm thời gian chờ đợi (độ trễ).
Bài báo nghiên cứu Griffin đề xuất hai mô hình, một gọi là Hawk và một gọi là Griffin. Bài báo nghiên cứu Griffin giải thích vì sao đây là một đột phá:
'...chúng tôi xác thực thực nghiệm ưu điểm về thời gian suy luận của Hawk và Griffin và quan sát thấy độ trễ giảm và thông lượng tăng đáng kể so với các mô hình cơ sở Transformer của chúng tôi. Cuối cùng, Hawk và Griffin có khả năng mở rộng trên chuỗi dài hơn so với việc họ được huấn luyện và có khả năng học hiệu quả để sao chép và truy xuất dữ liệu qua các đường chéo dài. Các kết quả này mạnh mẽ cho thấy rằng các mô hình đề xuất của chúng tôi cung cấp một lựa chọn mạnh mẽ và hiệu quả hơn so với Transformers với sự chú ý toàn cầu.'
Sự khác biệt giữa Griffin và RecurrentGemma nằm ở một sửa đổi liên quan đến cách mô hình xử lý dữ liệu đầu vào (nhúng đầu vào).
Đột phá
Bài báo nghiên cứu cho biết rằng RecurrentGemma cung cấp hiệu suất tương đương hoặc tốt hơn so với mô hình transformer Gemma-2b truyền thống hơn (đã được huấn luyện trên 3 nghìn tỷ token so với 2 nghìn tỷ cho RecurrentGemma). Đây là một phần lý do bài báo nghiên cứu được đặt tên là 'Vượt qua các mô hình Transformer' vì nó cho thấy một cách để đạt hiệu suất cao hơn mà không cần tài nguyên cao của kiến trúc transformer.
Một chiến thắng khác trước các mô hình transformer nằm ở việc giảm bộ nhớ sử dụng và tăng tốc độ xử lý. Bài báo nghiên cứu giải thích:
'Một ưu điểm chính của RecurrentGemma là nó có kích thước trạng thái đáng kể nhỏ hơn so với các transformer trên chuỗi dài. Trong khi bộ nhớ cache của Gemma tăng theo chiều dài chuỗi, trạng thái của RecurrentGemma được giới hạn, và không tăng khi chuỗi dài hơn kích thước cửa sổ chú ý cục bộ là 2k token. Do đó, trong khi mẫu dài nhất mà Gemma có thể tạo ra tự động hóa bị giới hạn bởi bộ nhớ có sẵn trên máy chủ, RecurrentGemma có thể tạo ra các chuỗi có độ dài tùy ý.'
RecurrentGemma cũng vượt qua mô hình transformer Gemma trong thông lượng (số lượng dữ liệu có thể xử lý, càng cao càng tốt). Thông lượng của các mô hình transformer giảm khi độ dài chuỗi tăng lên (tăng số token hoặc từ) nhưng không phải với RecurrentGemma có thể duy trì thông lượng cao.
Bài báo nghiên cứu cho thấy:
'Trong Hình 1a, chúng tôi biểu diễn thông lượng đạt được khi lấy mẫu từ một gợi ý của 2k token cho một loạt độ dài sinh ra. Thông lượng tính số lượng token tối đa chúng ta có thể lấy mẫu mỗi giây trên một thiết bị TPUv5e duy nhất.
...RecurrentGemma đạt được thông lượng cao hơn ở tất cả các độ dài chuỗi được xem xét. Thông lượng đạt được bởi RecurrentGemma không giảm khi độ dài chuỗi tăng, trong khi thông lượng đạt được bởi Gemma giảm khi bộ nhớ cache tăng.'
Giới hạn của RecurrentGemma
Bài báo nghiên cứu chỉ ra rằng phương pháp này đi kèm với giới hạn riêng khi hiệu suất thua kém so với các mô hình transformer truyền thống.
Các nhà nghiên cứu nhấn mạnh một giới hạn trong việc xử lý chuỗi rất dài mà các mô hình transformer có thể xử lý.
Theo bài báo:
'Mặc dù các mô hình RecurrentGemma rất hiệu quả cho chuỗi ngắn, hiệu suất của họ có thể thấp hơn so với các mô hình transformer truyền thống như Gemma-2B khi xử lý các chuỗi cực kỳ dài vượt quá cửa sổ chú ý cục bộ.'
Ý nghĩa trong Thế giới Thực
Sự quan trọng của phương pháp này đối với các mô hình ngôn ngữ là nó gợi ý rằng có cách khác để cải thiện hiệu suất của các mô hình ngôn ngữ trong khi sử dụng ít tài nguyên tính toán trên một kiến trúc không phải là mô hình transformer. Điều này cũng cho thấy rằng một mô hình không phải là mô hình transformer có thể vượt qua một trong những giới hạn của kích thước cache của mô hình transformer mà thường tăng việc sử dụng bộ nhớ.
Điều này có thể dẫn đến ứng dụng của các mô hình ngôn ngữ trong tương lai gần có thể hoạt động trong môi trường có tài nguyên hạn chế.