Chiến lược AI của Google cho Tìm kiếm
Quyết định của Google để giữ SGE là một dự án Google Labs phù hợp với xu hướng rộng lớn trong lịch sử của Google khi thích tích hợp AI vào nền tảng.
Sự hiện diện của AI không luôn rõ ràng nhưng nó đã là một phần của Tìm kiếm Google trong nền tảng lâu hơn mọi người nghĩ.
Sự triển khai đầu tiên của AI trong tìm kiếm là một phần của thuật toán xếp hạng của Google, một hệ thống được biết đến với tên gọi RankBrain. RankBrain giúp các thuật toán xếp hạng hiểu cách từ trong các truy vấn tìm kiếm liên quan đến các khái niệm trong thế giới thực.
Sự triển khai tiếp theo là Neural Matching, giúp các thuật toán của Google hiểu các khái niệm rộng lớn trong các truy vấn tìm kiếm và trang web.
Và một trong những hệ thống AI nổi tiếng nhất mà Google triển khai là Multitask Unified Model, còn được biết đến với tên gọi Google MUM. MUM là một hệ thống AI đa phương tiện bao gồm việc hiểu hình ảnh và văn bản và có thể đặt chúng trong ngữ cảnh như được viết trong một câu hoặc truy vấn tìm kiếm.
SpamBrain, hệ thống chống spam của Google, có lẽ là một trong những triển khai quan trọng nhất của AI như một phần của thuật toán tìm kiếm của Google vì nó giúp loại bỏ các trang web chất lượng thấp.
Đây đều là những ví dụ về cách tiếp cận của Google trong việc sử dụng AI trong nền tảng để giải quyết các vấn đề khác nhau trong Tìm kiếm như một phần của Thuật toán Lõi lớn hơn.
Rất có thể rằng Google sẽ tiếp tục sử dụng AI trong nền tảng cho đến khi các mô hình ngôn ngữ lớn dựa trên transformer (LLM) có thể bước vào trước mặt.
Nhưng việc tích hợp ChatGPT của Microsoft vào Bing đã buộc Google phải thêm AI theo cách rõ ràng hơn với Trải nghiệm Tạo ra Tìm kiếm (SGE).
Tại sao giữ SGE trong Google Labs?
Xét đến việc Microsoft đã tích hợp ChatGPT vào Bing, có vẻ lạ rằng Google không thực hiện một bước tương tự và thay vào đó giữ SGE trong Google Labs. Có lý do chính đáng cho cách tiếp cận của Google.
Một trong những nguyên tắc hướng dẫn của Google cho việc sử dụng AI là chỉ sử dụng nó khi công nghệ đã được chứng minh là thành công và được triển khai một cách có thể tin cậy và đó là hai điều mà AI sáng tạo không thể thực hiện được ngày hôm nay.
Có ít nhất ba vấn đề lớn phải được giải quyết trước khi AI có thể được tích hợp thành công vào phần trước mặt của tìm kiếm:
1. LLMs không thể được sử dụng như một hệ thống truy xuất thông tin vì cần phải được đào tạo lại hoàn toàn để thêm dữ liệu mới.
2. Kiến trúc transformer không hiệu quả và tốn kém.
3. AI sáng tạo có xu hướng tạo ra các sự thật sai lầm, một hiện tượng được gọi là ảo giác.
Tại sao AI không thể được sử dụng như một công cụ tìm kiếm
Một trong những vấn đề quan trọng nhất cần giải quyết trước khi AI có thể được sử dụng như phần mềm sau và phía trước của một công cụ tìm kiếm là LLMs không thể hoạt động như một chỉ số tìm kiếm nơi dữ liệu mới được liên tục thêm vào.
Đơn giản, điều gì xảy ra là trong một công cụ tìm kiếm thông thường, việc thêm trang web mới là một quá trình mà công cụ tìm kiếm tính toán ý nghĩa ngữ nghĩa của các từ và cụm từ trong văn bản (một quá trình gọi là 'embedding'), làm cho chúng có thể tìm kiếm và sẵn sàng được tích hợp vào chỉ số.
Sau đó, công cụ tìm kiếm phải cập nhật toàn bộ chỉ số để hiểu (nói cách khác) nơi trang web mới phù hợp vào chỉ số tìm kiếm toàn cầu.
Việc thêm trang web mới có thể thay đổi cách mà công cụ tìm hiểu và liên kết tất cả các trang web khác mà nó biết, vì vậy nó phải đi qua tất cả các trang web trong chỉ số và cập nhật mối quan hệ của chúng với nhau nếu cần thiết. Đây là một sự đơn giản hóa vì mục đích truyền đạt ý nghĩa chung của việc thêm trang web mới vào chỉ số tìm kiếm.
Khác với công nghệ tìm kiếm hiện tại, LLMs không thể thêm trang web mới vào một chỉ số vì việc thêm dữ liệu mới yêu cầu đào tạo lại toàn bộ LLM.
Google đang nghiên cứu cách giải quyết vấn đề này để tạo ra một công cụ tìm kiếm LLM dựa trên transformer, nhưng vấn đề vẫn chưa được giải quyết, thậm chí còn chưa gần gũi.
Để hiểu tại sao điều này xảy ra, có ích để nhìn nhanh qua một bài báo nghiên cứu gần đây của Google mà có tác giả chung là Marc Najork và Donald Metzler (và một số tác giả khác). Tôi đề cập đến tên họ vì cả hai nhà nghiên cứu này gần như luôn liên quan đến một số nghiên cứu quan trọng nhất đang được công bố từ Google. Vì vậy, nếu có tên của họ, thì nghiên cứu có lẽ rất quan trọng.
Trong giải thích sau đây, chỉ số tìm kiếm được gọi là bộ nhớ vì chỉ số tìm kiếm là bộ nhớ về những gì đã được chỉ mục.
Bài báo nghiên cứu có tiêu đề: 'DSI++: Cập nhật Bộ nhớ Transformer với Tài liệu Mới' (PDF)
Sử dụng LLMs như là công cụ tìm kiếm là một quá trình sử dụng một công nghệ gọi là Chỉ số Tìm kiếm Khả biến (DSIs). Công nghệ chỉ số tìm kiếm hiện tại được tham chiếu là bộ mã hóa kép.
Bài báo nghiên cứu giải thích: '...xây dựng chỉ số bằng cách sử dụng DSI liên quan đến việc đào tạo một mô hình Transformer. Do đó, mô hình phải được đào tạo lại từ đầu mỗi khi bộ sưu tập cơ bản được cập nhật, do đó gây ra chi phí tính toán rất cao so với bộ mã hóa kép.'
Bài báo tiếp tục khám phá cách giải quyết vấn đề của LLMs 'quên' nhưng cuối cùng của nghiên cứu họ chỉ tuyên bố rằng họ chỉ tiến triển hơn trong việc hiểu rõ hơn những gì cần phải giải quyết trong nghiên cứu tương lai.
Họ kết luận: 'Trong nghiên cứu này, chúng tôi khám phá hiện tượng quên liên quan đến việc thêm tài liệu mới và khác biệt vào chỉ mục. Quan trọng là lưu ý rằng khi một tài liệu mới bác bỏ hoặc sửa đổi một tài liệu đã được chỉ mục trước đó, hành vi của mô hình trở nên không thể dự đoán, đòi hỏi phân tích thêm.
Ngoài ra, chúng tôi kiểm tra hiệu quả của phương pháp đề xuất của chúng tôi trên một tập dữ liệu lớn hơn, như tập dữ liệu MS MARCO đầy đủ. Tuy nhiên, đáng lưu ý là với tập dữ liệu lớn hơn này, phương pháp thể hiện sự quên đáng kể. Do đó, cần có nghiên cứu bổ sung để nâng cao hiệu suất của mô hình, đặc biệt khi xử lý với các tập dữ liệu quy mô lớn.'
LLMs không thể tự kiểm chứng Sự thật