Cuộc Trò Chuyện Về Robots.txt Của John Mueller
Robots.txt của John Mueller đã trở thành chủ đề gây tranh cãi trong tuần qua vì sự lạ lùng của các chỉ thị không chuẩn mà ông sử dụng trong đó.
Không ai có thể tránh khỏi việc Robots.txt của Mueller bị kiểm tra kỹ lưỡng và lan truyền rộng rãi trong cộng đồng tiếp thị tìm kiếm.
Chỉ Thị Noindex
Mọi thứ có trong robots.txt được gọi là chỉ thị. Một chỉ thị là yêu cầu đối với một web crawler mà nó phải tuân thủ (nếu nó tuân thủ các chỉ thị robots.txt).
Có các tiêu chuẩn về cách viết một chỉ thị robots.txt và bất cứ điều gì không tuân thủ các tiêu chuẩn đó có thể bị bỏ qua. Một chỉ thị không chuẩn trong robots.txt của Mueller đã thu hút sự chú ý của ai đó quyết định đăng một câu hỏi về nó cho John Mueller qua LinkedIn, để biết liệu Google có hỗ trợ chỉ thị không chuẩn đó hay không.
Đó là một câu hỏi hay vì dễ dàng giả định rằng nếu một Googler đang sử dụng nó thì có lẽ Google hỗ trợ nó.
Chỉ thị không chuẩn đó là noindex. Noindex là một phần của tiêu chuẩn meta robots nhưng không phải tiêu chuẩn robots.txt. Mueller không chỉ có một trường hợp của chỉ thị noindex, ông có 5.506 chỉ thị noindex.
Chuyên gia SEO đã đặt câu hỏi, Mahek Giri, viết:
'Trong tệp robots.txt của John Mueller,
có một lệnh không bình thường:
'noindex:'
Lệnh này không phải là một phần của định dạng robots.txt chuẩn,
Vậy bạn nghĩ rằng nó sẽ ảnh hưởng đến cách mà công cụ tìm kiếm index trang của ông không?
John Mueller tò mò về noindex: trong robots.txt'
Tại Sao Chỉ Thị Noindex Trong Robots.txt Không Được Google Hỗ Trợ
John Mueller từ Google trả lời rằng nó không được hỗ trợ.
Mueller trả lời:
'Dây là một chỉ thị không được hỗ trợ, nó không làm gì cả.'
Mueller sau đó tiếp tục giải thích rằng Google đã từng xem xét việc hỗ trợ chỉ thị noindex từ trong robots.txt vì nó sẽ cung cấp một cách cho nhà xuất bản ngăn chặn Google cả từ việc crawl và index nội dung cùng một lúc.
Hiện tại có thể ngăn chặn crawl trong robots.txt hoặc ngăn chặn index với chỉ thị meta robots noindex. Nhưng bạn không thể ngăn chặn index với chỉ thị meta robots và ngăn chặn crawl trong robots.txt cùng một lúc vì một khối trên crawl sẽ ngăn crawler 'nhìn thấy' chỉ thị meta robots.
Mueller giải thích lý do Google quyết định không tiến xa hơn với ý tưởng hỗ trợ chỉ thị noindex trong robots.txt.
Ông viết:
'Có rất nhiều cuộc thảo luận về việc liệu nó nên được hỗ trợ như một phần của tiêu chuẩn robots.txt hay không. Ý tưởng đằng sau là rằng sẽ tốt nếu có thể ngăn chặn cả việc crawl và index cùng một lúc. Với robots.txt, bạn có thể ngăn chặn crawl, hoặc bạn có thể ngăn chặn index (với một thẻ meta robots, nếu bạn cho phép crawl). Ý tưởng là bạn có thể có một 'noindex' trong robots.txt nữa, và ngăn chặn cả hai.
Thật không may, vì nhiều người sao chép & dán các tệp robots.txt mà không xem xét chi tiết (ít người nhìn xa như bạn đã làm!), rất dễ cho ai đó xóa bỏ các phần quan trọng của một trang web một cách tình cờ. Và vì vậy, quyết định rằng điều này không nên là một chỉ đạo được hỗ trợ, hoặc một phần của tiêu chuẩn robots.txt... có lẽ hơn 10 năm trước đây.'
Tại Sao Có Noindex Trong Robots.txt của Mueller
Mueller đã làm rõ rằng khó có thể Google sẽ hỗ trợ thẻ đó và điều này đã được xác nhận khoảng mười năm trước. Sự phát hiện về những cuộc thảo luận nội bộ đó thú vị nhưng cũng làm sâu thêm cảm giác kỳ lạ về robots.txt của Mueller.
Xem thêm: 8 Vấn Đề Thông Thường Với Robots.txt Và Cách Khắc Phục Chúng
Ảnh Được Đề Xuất Bởi Shutterstock/Kues