Đằng sau biểu mẫu – Google, Thu thập thông tin web sâu và ảnh hưởng đến khả năng hiển thị của công cụ tìm kiếm
Đằng sau biểu mẫu – Google, Thu thập thông tin web sâu và ảnh hưởng đến khả năng hiển thị của công cụ tìm kiếm
– Cập nhật kiến thức mới nhất năm 2023
Những điều điên rồ mà các công ty thực sự giàu có làm
Giống như một anh chàng kỳ lạ trong bữa tiệc với cây đàn ghita acoustic và chiếc áo sơ mi Pink Floyd, Google đang nhận được sự SÂU RỒI. Một số người sẽ nói rằng … sâu một cách khó chịu. Sau một năm vốn đã bận rộn, trong đó Google đã phát hành một hệ điều hành di động mã nguồn mở và một trình duyệt đang nhanh chóng chiếm thị phần, gần đây họ đã thông báo rằng họ đã lập bản đồ đáy biển, bao gồm cả rãnh Mariana. Và này, tại sao không tìm thấy một trường học có một số bộ óc khoa học vĩ đại nhất ngoài kia và xem điều gì sẽ xảy ra?
Vì vậy, gần đây của Google xuất hiện nhiều hơn bao giờ hết và không nghi ngờ gì rằng điều này sẽ tiếp tục khi họ nhúng tay vào ngày càng nhiều dự án – nhưng hãy thả xuống một vài tầng và xem xét điều gì đó sẽ ảnh hưởng đáng kể đến cách các chương trình lập chỉ mục của Google ( “nhện” hoặc “trình thu thập thông tin”) thu thập dữ liệu, phân tích trang web và trình bày kết quả. ), bản thân các chương trình spider khá dễ hiểu: đánh vào chỉ mục trang của trang web, kiểm tra cấu trúc và nội dung và so sánh với những gì Google đã xác định là “có liên quan” hoặc “phổ biến”.
Nhưng do cách các chương trình này được viết, có những khu vực nhất định mà chúng đơn giản là không thể tiếp cận … cụ thể là các trang yêu cầu thông tin, đầu vào hoặc hành động của con người. Ví dụ cơ bản, thường có một trang xác nhận sau khi người dùng gửi biểu mẫu “Liên hệ với chúng tôi” hoặc “Đăng ký nhận bản tin” – biểu mẫu này có thể chứa mã khuyến mại hoặc một số loại dữ liệu duy nhất khác. là một trang kết quả tìm kiếm, tính toán hoặc chuyển đổi, thậm chí là kết quả của một công cụ triệu chứng trên một trang web y tế) đơn giản là không tồn tại cho đến khi người dùng tạo ra nó! Tùy thuộc vào biểu mẫu bạn đã điền, trang kết quả là của bạn và của riêng bạn – vì vậy hãy cố gắng bỏ qua cảm giác toàn năng đó vào lần tới khi bạn Google điều gì đó.
Nhưng trình thu thập thông tin công cụ tìm kiếm không thể hiểu biểu mẫu đang yêu cầu những gì hoặc thông tin được gửi đến người dùng – và ngay cả khi họ có thể, làm thế nào họ sẽ tìm ra những gì cần chèn để tạo ra bất kỳ nội dung phù hợp nào? Các hộp thả xuống, lựa chọn danh mục, nhập mã zip – bất kỳ biểu mẫu nào trong số này đều có thể ngăn không cho dữ liệu được lập chỉ mục. Nói chung, dữ liệu bị chặn này được gọi là “Deep Web”. Theo một số ước tính, Deep Web chứa một lượng dữ liệu đáng kinh ngạc – nhiều hơn vài bậc so với những gì hiện có thể tìm kiếm được. Vì chúng chủ yếu dựa vào bản đồ trang web và siêu liên kết, trình thu thập thông tin của công cụ tìm kiếm không thể tìm ra cách truy cập thông tin.
Vì vậy, Google có thể thực sự mong đợi để tìm, ghi lại và diễn giải dữ liệu này không? Chà, giữa việc lập bản đồ đại dương và mở một trường học có thể khám phá ra ý nghĩa của cuộc sống trước bữa trưa, Google đã làm được điều đó. Làm việc với các nhà khoa học từ Cornell và UCSD, các nhà nghiên cứu của Google (những người mà tôi chỉ có thể hy vọng sẽ không trở thành siêu nhân vào một lúc nào đó) đã nghĩ ra một phương pháp để nhện của họ hoàn thành và gửi các biểu mẫu HTML có nội dung thông minh. Các trang kết quả sau đó được lập chỉ mục và được coi là dữ liệu được lập chỉ mục thông thường và được hiển thị trong kết quả tìm kiếm – trên thực tế, tại thời điểm này, nội dung thu thập từ phía sau một biểu mẫu HTML được hiển thị trên trang đầu tiên của các truy vấn tìm kiếm của Google 1000 lần mỗi giây. Các phương pháp mà các bot đang sử dụng khá tuyệt, nhưng tôi là Nerd McNerdleson về kiểu đó. Vì vậy, chúng tôi sẽ không đi sâu vào các nội dung kỹ thuật ở đây, nhưng hãy xem bài viết nếu bạn quan tâm đến nó.
Thật tuyệt … NERD. Nhưng nó có nghĩa gì?
Mọi người đều biết Google yêu thích sự liên quan – toàn bộ mô hình kinh doanh của họ được xây dựng dựa trên nó. Công nghệ này là lấy chính xác những gì người dùng đang tìm kiếm và cung cấp ngay lập tức mà không yêu cầu họ truy cập bất kỳ trang nào bên ngoài trang kết quả của Google! Ma quái.
Nói rằng bạn đang cảm thấy dưới thời tiết. Thay vì gõ “công cụ kiểm tra triệu chứng” và tìm trang kiểu WebMD, bạn gõ trực tiếp “ho, sổ mũi, sưng tấy giống như bệnh dịch hạch lạ” vào công cụ tìm kiếm. Google – người đã cho nhện của họ truy cập vào mọi biểu mẫu triệu chứng y tế ngoài đó, truy vấn chúng bằng vô số loại và kết hợp và xác định mức độ liên quan và mức độ phổ biến của kết quả – ngay lập tức quay lại với “You’ve got the Black Death” and you ‘ đặt lại (hoặc … có thể không).
Từ quan điểm bán lẻ, nhiều trang web có chức năng tạo danh sách sản phẩm dựa trên đầu vào của người dùng. Hiện tại, một người mua sắm đang tìm kiếm một chiếc xe tải nhỏ màu đỏ, do Mỹ sản xuất với quãng đường dưới 30K dặm sẽ tìm thấy trang web phù hợp, nhập tiêu chí của họ, sau đó trang web sẽ truy vấn cơ sở dữ liệu và trả về kết quả. Nếu Google tiếp tục tiến hành thu thập dữ liệu web sâu của họ, thông tin này có thể được hiển thị trực tiếp thông qua cửa hàng mà họ lựa chọn mà người dùng không bao giờ truy cập vào bất kỳ trang web nào ngoài Google (nếu người dùng mua hàng, Google có bị cắt giảm không? Hừm .. .)
Rõ ràng, đây là một bước tiến lớn trong công nghệ tìm kiếm và, trong một ngành công nghiệp dường như thay đổi hàng giờ, đại diện cho một phương pháp thu thập và trình bày thông tin mới. Là các nhà tiếp thị web, đây là một biến số khác, một thách thức khác cần xem xét trong công việc của chúng tôi – làm thế nào chúng tôi có thể tối ưu hóa các trang có thể được tạo theo một số cách dường như vô hạn? Với việc các công cụ tìm kiếm ngày càng trở nên mạnh mẽ hơn và khả năng khai thác dữ liệu của chúng ngày càng sâu rộng, liệu có lúc nào tất cả dữ liệu được trình bày thông qua một cổng tổng hợp không? Điều này có thể kéo dài nhiều năm, nhưng công nghệ và nền tảng hiện đang ở đây; các doanh nghiệp có tư duy tương lai và các nhà tiếp thị web cũng cần phải có mặt ở đó.
Kết thúc
Ngoài các bài viết tin tức, bài báo hàng ngày của SEMTEK, nguồn nội dung cũng bao gồm các bài viết từ các cộng tác viên chuyên gia đầu ngành về chuỗi kiến thức Kinh doanh, chiến lược tiếp thị, kiến thức quản trị doanh nghiệp và kiến thức quản lý, phát triển tổ chức doanh nghiệp,.. được chia sẽ chủ yếu từ nhiều khía cạnh liên quan chuỗi kiến thức này.
Bạn có thể dành thời gian để xem thêm các chuyên mục nội dung chính với các bài viết tư vấn, chia sẻ mới nhất, các tin tức gần đây từ chuyên gia và đối tác của Chúng tôi. Cuối cùng, với các kiến thức chia sẻ của bài viết, hy vọng góp phần nào kiến thức hỗ trợ cho độc giả tốt hơn trong hoạt động nghề nghiệp cá nhân!
* Ý kiến được trình bày trong bài viết này là của tác giả khách mời và không nhất thiết phải là SEMTEK. Nhân viên tác giả, cộng tác viên biên tập sẽ được liệt kê bên cuối bài viết.
Trân trọng,
Các chuyên mục nội dung liên quan
- Bản tin số mới nhất | Góc chia sẻ kiến thức số hóa & Chiến lược kinh doanh
- Trang chủ
- Marketing tổng thể
- SEO
- Thiết kế Website
- Web Hosting
- VPS