Thời gian xử lý thay đổi trên trang web lớn
Trong quá trình nghiên cứu gần đây, tôi đã đọc một điều thú vị về thời gian mà Google cần để hiểu rõ những trang web cập nhật liên quan đến toàn bộ Internet. Một bài báo nghiên cứu đã đề cập đến việc cần phải tính toán lại ý nghĩa ngữ nghĩa của những trang web cập nhật (các embeddings) và sau đó thực hiện điều đó đối với toàn bộ tài liệu.
Bài báo nghiên cứu đã đề cập đến quá trình thêm tài liệu mới vào chỉ mục tìm kiếm:
"Hãy xem xét kịch bản thực tế trong đó tài liệu mới liên tục được thêm vào tập lưu trữ đã chỉ mục. Cập nhật chỉ mục trong phương pháp dựa trên bộ mã hai bộ phận yêu cầu tính toán embeddings cho tài liệu mới, tiếp theo là việc chỉ mục lại tất cả các embeddings tài liệu.
Ngược lại, việc xây dựng chỉ mục bằng cách sử dụng mô hình Transformer yêu cầu việc huấn luyện lại mô hình. Do đó, mô hình phải được huấn luyện lại từ đầu mỗi khi tập lưu trữ cơ bản được cập nhật, do đó gây ra chi phí tính toán cấm kỵ so với bộ mã hai bộ phận."
Tôi đề cập đoạn trích đó vì vào năm 2021, John Mueller từ Google đã nói rằng có thể mất nhiều tháng đối với Google để đánh giá chất lượng và mức độ liên quan của một trang web và đề cập đến cách Google cố gắng hiểu cách một trang web phù hợp với toàn bộ web.
Theo lời ông nói vào năm 2021:
"Tôi nghĩ rằng điều đó khó hơn nhiều khi nói đến những vấn đề liên quan đến chất lượng nói chung, nơi đánh giá chất lượng tổng thể và mức độ liên quan của một trang web không phải là điều dễ dàng.
Điều đó mất rất nhiều thời gian cho chúng tôi để hiểu cách một trang web phù hợp với toàn bộ Internet.
Và đó là điều có thể mất, tôi không biết, một vài tháng, một nửa năm, đôi khi thậm chí còn lâu hơn nửa năm, để chúng tôi nhận ra những thay đổi đáng kể trong chất lượng tổng thể của trang web.
Bởi vì chúng tôi về cơ bản quan sát… làm thế nào trang web này phù hợp với ngữ cảnh của web tổng thể và điều đó chỉ mất rất nhiều thời gian.
Vậy là điều mà tôi muốn nói, so với các vấn đề kỹ thuật, nó mất rất nhiều thời gian để mọi thứ được cập nhật trong lĩnh vực đó."
Phần đó về việc đánh giá cách một trang web phù hợp trong ngữ cảnh của web tổng thể là một tuyên bố tò mò và bất thường.
Mueller còn tiếp tục câu trả lời của mình:
"Một câu hỏi meta hơn có thể là liệu bạn có thấy đủ kết quả từ cài đặt phức tạp này để xứng đáng với việc dành thời gian duy trì nó như vậy, liệu bạn có thể loại bỏ cài đặt hreflang, hoặc bạn có thể thậm chí loại bỏ phiên bản quốc gia và đơn giản hóa hơn.
Độ phức tạp không luôn mang lại giá trị, và mang đến chi phí lâu dài cùng với nó.
Tạo ra các trang web với đơn giản hóa càng nhiều càng tốt đã là điều tôi làm trong hơn hai mươi năm. Mueller đúng. Nó làm cho việc cập nhật và cải tiến dễ dàng hơn rất nhiều.