Giải Mã Vấn Đề Về Crawl Budget Trên Google

Giải Mã Vấn Đề Về Crawl Budget Trên Google

Trong bài viết này, chúng ta sẽ cùng tìm hiểu về vấn đề về crawl budget trên Google qua câu chuyện trên Reddit và câu trả lời từ John Mueller. Điều này sẽ giúp bạn hiểu rõ hơn về cơ chế hoạt động của Google khi crawl website của bạn.

Khám Phá Về Crawl Budget

Google's John Mueller đã trả lời một câu hỏi trên subreddit SEO về nguyên nhân của vấn đề về crawl budget.

Một người trên Reddit đăng một câu hỏi về vấn đề 'crawl budget' của họ và hỏi liệu một số lượng lớn các redirect 301 đến các phản ứng lỗi 410 có làm cho Googlebot cạn kiểm tra của họ. John Mueller của Google đã đưa ra một lý do để giải thích tại sao người đăng trên Reddit có thể trải qua một mẫu crawl không hiệu quả và làm rõ một điểm về crawl budget nói chung.

Crawl Budget

Đó là một ý tưởng được chấp nhận rộng rãi rằng Google có một crawl budget, một ý tưởng mà các chuyên gia SEO đã phát minh ra để giải thích tại sao một số trang web không được crawl đủ. Ý tưởng là mỗi trang web được phân bổ một số lượng crawl cụ thể, một giới hạn về việc crawl mà một trang web đủ điều kiện.

Điều quan trọng là hiểu nguồn gốc của ý tưởng về crawl budget vì nó giúp hiểu rõ thực sự nó là gì. Google đã lâu đã khẳng định rằng không có một thứ gì đó tại Google có thể gọi là crawl budget, mặc dù cách Google crawl một trang web có thể tạo ra ấn tượng rằng có một giới hạn về việc crawl.

Một kỹ sư hàng đầu của Google (tại thời điểm đó) tên Matt Cutts đã ám chỉ điều này về crawl budget trong một cuộc phỏng vấn năm 2010.

Matt đã trả lời một câu hỏi về crawl budget của Google bằng cách trước tiên giải thích rằng không có một giới hạn indexation thực sự. Nhiều người nghĩ rằng một miền chỉ sẽ được index một số trang nhất định, và đó không phải là cách mà nó hoạt động thực sự.

Cũng không có một giới hạn cứng về việc crawl của chúng tôi.

Vấn Đề Về Crawl Rate Trên Reddit

Người trên Reddit muốn biết liệu các trang web giá trị thấp mà họ tạo ra có ảnh hưởng đến crawl budget của Google. Một yêu cầu cho một URL không bảo mật của một trang web không còn tồn tại sẽ chuyển hướng đến phiên bản bảo mật của trang web bị thiếu sót đó và phục vụ một phản ứng lỗi 410 (nghĩa là trang không còn tồn tại).

Đó là một câu hỏi hợp lệ.

Đây là những gì họ hỏi:

'Tôi đang cố quên Googlebot crawl một số URL không HTTPS rất cũ, vẫn đang được crawl sau 6 năm. Và tôi đặt một phản hồi 410, trong bên HTTPS, trong các URL rất cũ đó.

Vì vậy Googlebot đang tìm thấy một chuyển hướng 301 (từ HTTP sang HTTPS), và sau đó là một 410.

http://example.com/old-url.php?id=xxxx -301-> https://example.com/old-url.php?id=xxxx (410 response)

Hai câu hỏi. G**** hài lòng với 301+410 này không?

Tôi đang gặp 'vấn đề crawl budget', và tôi không biết liệu hai phản ứng này có làm cho Googlebot cạn kiểm tra không

Phản ứng 410 có hiệu quả không? Tôi có nghĩa, tôi có nên trả lời 410 trực tiếp, mà không có một 301 đầu tiên?'

John Mueller của Google trả lời:

G*?

301s là tốt, một 301/410 kết hợp là tốt.

Lý Do Không Được Crawl Đủ

Mueller đáp lại rằng 'chắc chắn' Google không thấy giá trị trong việc crawl thêm trang web. Điều đó có nghĩa là có lẽ các trang web có thể cần được xem xét để xác định tại sao Google có thể quyết định rằng những trang đó không đáng để crawl.

Một số chiến lược SEO phổ biến có xu hướng tạo ra các trang web giá trị thấp thiếu tính độc đáo. Ví dụ, một thực hành SEO phổ biến là xem xét các trang web được xếp hạng cao để hiểu những yếu tố trên những trang đó giải thích tại sao những trang đó đang xếp hạng, sau đó lấy thông tin đó để cải thiện trang web của họ bằng cách sao chép những gì đang hoạt động trong kết quả tìm kiếm.

Điều đó nghe có lý nhưng không tạo ra điều gì đó giá trị. Nếu bạn nghĩ về nó như một lựa chọn nhị phân Một và Không, nơi Không là những gì đã có trong kết quả tìm kiếm và Một đại diện cho điều gì đó độc đáo và khác biệt, chiến lược SEO phổ biến của việc mô phỏng những gì đã có trong kết quả tìm kiếm đang bị định đoạt tạo ra một Zero khác, một trang web không cung cấp thêm bất kỳ điều gì ngoài những gì đã có trong SERPs.

Rõ ràng có những vấn đề kỹ thuật có thể ảnh hưởng đến tỷ lệ crawl như sức khỏe của máy chủ và các yếu tố khác.

Nhưng trong các khía cạnh được hiểu như là crawl budget, đó là một điều mà Google đã lâu đã quản lý là một yếu tố quan trọng cho các trang web lớn và không dành cho các trang web kích thước nhỏ đến trung bình.

Đọc cuộc thảo luận trên Reddit để hiểu thêm về vấn đề crawl budget trên Google.