Sự Quan Trọng Của Bối Cảnh: Hệ Thống Lưu Trữ AI Tài Liệu
Tài liệu rò rỉ liên quan đến một nền tảng công cộng của Google gọi là Hệ thống Lưu trữ AI Tài liệu, được sử dụng để phân tích, tổ chức, tìm kiếm và lưu trữ dữ liệu. Tài liệu rò rỉ này được cho là 'phiên bản nội bộ' của tài liệu công khai trên trang Hệ thống Lưu trữ AI Tài liệu.
Ảnh Chụp Màn Hình: Hệ Thống Lưu Trữ AI Tài Liệu
@DavidGQuaid đã đăng trên Twitter:
'Tôi nghĩ rằng rõ ràng đó là một API hướng ra ngoài để xây dựng một kho tài liệu theo như tên gọi'
Điều đó dường như làm cho ý tưởng rò rỉ dữ liệu không phải là thông tin nội bộ về Tìm kiếm Google.
Rò Rỉ Dữ Liệu Nội Bộ?
Bài viết gốc trên SparkToro không nói rằng dữ liệu xuất phát từ Tìm kiếm Google. Nó nói rằng người gửi dữ liệu cho Rand Fishkin mới là người đã đưa ra tuyên bố đó.
Một trong những điều tôi ngưỡng mộ về Rand Fishkin là sự chính xác tỉ mỉ trong viết văn, đặc biệt khi đề cập đến các lưu ý. Rand chính xác ghi chú rằng người cung cấp dữ liệu mới là người tuyên bố dữ liệu xuất phát từ Tìm kiếm Google. Không có bằng chứng, chỉ là một tuyên bố.
Anh viết:
'Tôi đã nhận được một email từ một người tuyên bố có quyền truy cập vào một lượng lớn tài liệu API từ bên trong bộ phận Tìm kiếm của Google.'
Fishkin chính anh không xác nhận rằng dữ liệu đã được xác nhận bởi các cựu nhân viên Google là xuất phát từ Tìm kiếm Google. Anh viết rằng người gửi dữ liệu đã đưa ra tuyên bố đó.
'Trong email cũng tuyên bố rằng những tài liệu rò rỉ này đã được xác nhận là chính thống bởi các cựu nhân viên Google, và rằng những người cựu nhân viên và người khác đã chia sẻ thêm thông tin, không phải dữ liệu công khai, về hoạt động tìm kiếm của Google.'
Fishkin viết về một cuộc họp video sau đó nơi người rò rỉ tiết lộ rằng liên hệ của anh với các cựu nhân viên Google là trong bối cảnh gặp họ tại một sự kiện ngành tìm kiếm. Một lần nữa, chúng ta phải tin lời của người rò rỉ về các cựu nhân viên Google và rằng những gì họ nói sau khi xem xét cẩn thận dữ liệu và không phải là một bình luận không chính thức.
Fishkin viết rằng anh đã liên hệ với ba cựu nhân viên Google về vấn đề này. Đáng chú ý là những cựu nhân viên Google đó không xác nhận rõ ràng rằng dữ liệu là nội bộ của Tìm kiếm Google. Họ chỉ xác nhận rằng dữ liệu giống với thông tin nội bộ của Google, không phải là xuất phát từ Tìm kiếm Google.
Fishkin viết về những gì các cựu nhân viên Google nói với anh:
'Tôi không có quyền truy cập vào mã này khi tôi làm việc ở đó. Nhưng điều này chắc chắn trông giống chính thống.'
'Đó là một API dựa trên Java. Và có ai đó đã dành rất nhiều thời gian tuân thủ các tiêu chuẩn nội bộ của Google về tài liệu và đặt tên.'
'Tôi cần thêm thời gian để chắc chắn, nhưng điều này phù hợp với tài liệu nội bộ mà tôi quen thuộc.'
'Không có gì trong một xem xét ngắn gọn gợi ý rằng đây không phải là gì ngoài chính thống.'
Nói rằng một cái gì đó xuất phát từ Tìm kiếm Google và nói rằng nó xuất phát từ Google là hai khái niệm khác nhau.
Giữ Tâm Trí Mở
Quan trọng là giữ tâm trí mở về dữ liệu vì có nhiều thông tin chưa được xác nhận. Ví dụ, không biết liệu đây có phải là tài liệu của Nhóm Tìm kiếm nội bộ không. Vì vậy, có lẽ không nên lấy bất kỳ điều gì từ dữ liệu này làm hướng dẫn SEO cụ thể.
Cũng không khuyến khích phân tích dữ liệu để xác nhận các niềm tin đã lưu giữ lâu dài. Đó là cách mà một người trở thành nạn nhân của Thiên Tích Xác Nhận.
Một định nghĩa về Thiên Tích Xác Nhận:
'Thien Tich Xac Nhan là xu hướng tìm kiếm, diễn giải, ưa thích và ghi nhớ thông tin theo cách xác nhận hoặc ủng hộ niềm tin hoặc giá trị trước đó của mình.'
Thiên Tích Xác Nhận sẽ dẫn đến việc một người phủ nhận những điều mà theo lý thuyết là đúng. Ví dụ, có ý tưởng từ nhiều thập kỷ rằng Google tự động ngăn chặn một trang web mới từ xếp hạng, một lý thuyết gọi là Hòn Đảo. Mỗi ngày, mọi người báo cáo rằng trang web mới và trang mới gần như ngay lập tức xếp hạng trong top mười của tìm kiếm Google.
Nhưng nếu bạn là một người tin mạnh vào Hòn Đảo thì trải nghiệm thực tế như vậy sẽ bị vùi dập, dù có bao nhiêu người chứng kiến trải nghiệm ngược lại.
Brenda Malone, Chuyên gia Chiến Lược Kỹ Thuật SEO Senior Độc Lập và Nhà Phát Triển Web (hồ sơ LinkedIn), đã nhắn tin cho tôi về các tuyên bố về Hòn Đảo:
'Tôi cá nhân biết, từ trải nghiệm thực tế, rằng lý thuyết Hòn Đảo là sai. Tôi chỉ cần index trong hai ngày một blog cá nhân với hai bài viết. Không có cách nào một trang web hai bài viết nhỏ như vậy nên đã được index theo lý thuyết Hòn Đảo.'
Điều quan trọng ở đây là nếu tài liệu này được xác định xuất phát từ Tìm kiếm Google, cách không đúng để phân tích dữ liệu là đi săn tìm xác nhận của niềm tin đã lưu giữ lâu dài.
Dữ Liệu Rò Rỉ Google Là Gì?
Có năm điều cần xem xét về dữ liệu bị rò rỉ:
- Bối cảnh của thông tin rò rỉ chưa biết. Liên quan đến Tìm kiếm Google không? Hoặc là cho mục đích khác?
- Mục đích của dữ liệu. Thông tin được sử dụng cho kết quả tìm kiếm thực sự không? Hay được sử dụng cho quản lý hoặc xử lý dữ liệu bên trong?
- Cựu nhân viên Google không xác nhận rằng dữ liệu cụ thể cho Tìm kiếm Google. Chỉ xác nhận rằng dữ liệu dường như đến từ Google.
- Giữ tâm trí mở. Nếu bạn đi săn tìm sự xác nhận của niềm tin đã lưu giữ lâu dài, đoán xem điều gì? Bạn sẽ tìm thấy chúng, ở mọi nơi. Đây được gọi là Thiên Tích Xác Nhận.
- Bằng chứng cho thấy dữ liệu liên quan đến một API hướng ra ngoài để xây dựng một kho tài liệu.
Những Gì Người Khác Nói Về 'Tài Liệu Rò Rỉ'
Ryan Jones, một người không chỉ có kinh nghiệm SEO sâu rộng mà còn có hiểu biết vững về khoa học máy tính chia sẻ một số quan sát hợp lý về 'rò rỉ dữ liệu' đó.
Ryan tweet:
'Chúng ta không biết nếu đây là cho sản xuất hay cho thử nghiệm. Đoán của tôi là đa số là để thử nghiệm các thay đổi tiềm năng.
Chúng ta không biết cái gì được sử dụng cho web hoặc cho các lĩnh vực khác. Một số thứ có thể chỉ được sử dụng cho Google home hoặc tin tức v.v.
Chúng ta không biết cái gì là đầu vào cho thuật toán ML và cái gì được sử dụng để huấn luyện. Đoán của tôi là click không phải là đầu vào trực tiếp mà được sử dụng để huấn luyện một mô hình để dự đoán tính có thể click. (ngoài việc tăng cường xu hướng)
Tôi cũng đoán rằng một số trường hợp chỉ áp dụng cho bộ dữ liệu huấn luyện và không phải tất cả các trang web.
Tôi có nói Google không nói dối chứ? Không chắc. Nhưng hãy xem xét rò rỉ này một cách khách quan và không có bất kỳ định kiến nào.'
@DavidGQuaid tweet:
'Chúng ta cũng không biết nếu đây là cho Tìm kiếm Google hay cho truy xuất tài liệu cloud của Google
APIs dường như chọn lựa - đó không phải là cách tôi mong đợi thuật toán được chạy - nếu một kỹ sư muốn bỏ qua tất cả các kiểm tra chất lượng đó - điều này giống như tôi muốn xây dựng một ứng dụng kho tài liệu cho cơ sở kiến thức doanh nghiệp của tôi'
Liên Quan Dữ Liệu 'Rò Rỉ' Đến Tìm Kiếm Google?
Tại thời điểm này, không có bằng chứng cứng rắn cho việc dữ liệu 'rò rỉ' này thực sự từ Tìm kiếm Google. Có một lượng lớn sự mơ hồ về mục đích của dữ liệu. Đáng chú ý là có gợi ý rằng dữ liệu này chỉ là 'một API hướng ra ngoài để xây dựng một kho tài liệu' và không liên quan đến cách trang web được xếp hạng trong Tìm kiếm Google.
Kết luận rằng dữ liệu này không xuất phát từ Tìm kiếm Google không chắc chắn tại thời điểm này nhưng đó là hướng mà dấu vết của bằng chứng dường như đang hướng tới.
Hình ảnh nổi bật từ Shutterstock/Jaaak
Ảnh Chụp Màn Hình