Marketing tổng thểSEO

Tìm tài nguyên lớn hơn 15 MB để Googlebot thu thập thông tin tốt hơn – Bài viết kiến thức mới nhất 2024

Tìm tài nguyên lớn hơn 15 MB để Googlebot thu thập thông tin tốt hơn
– Cập nhật kiến thức mới nhất năm 2024

Googlebot là một hệ thống thu thập thông tin web tự động và luôn hoạt động để giữ cho chỉ mục của Google được làm mới.

Trang web worldwidewebsize.com ước tính chỉ mục của Google là hơn 62 tỷ trang web.

Chỉ mục tìm kiếm của Google có kích thước “hơn 100.000.000 gigabyte.”

Googlebot và các biến thể (điện thoại thông minh, tin tức, hình ảnh, v.v.) có những ràng buộc nhất định đối với tần suất hiển thị JavaScript hoặc kích thước của tài nguyên.

Google sử dụng các ràng buộc thu thập thông tin để bảo vệ các tài nguyên và hệ thống thu thập thông tin của riêng mình.

Ví dụ: nếu một trang web tin tức làm mới các bài viết được đề xuất sau mỗi 15 giây, Googlebot có thể bắt đầu bỏ qua các phần được làm mới thường xuyên – vì chúng sẽ không liên quan hoặc hợp lệ sau 15 giây.

Cách đây nhiều năm, Google đã thông báo rằng họ không thu thập dữ liệu hoặc sử dụng tài nguyên lớn hơn 15 MB.

Vào ngày 28 tháng 6 năm 2022, Google đã xuất bản lại bài đăng trên blog này bằng cách tuyên bố rằng nó không sử dụng phần tài nguyên dư thừa sau 15 MB để thu thập thông tin.

Để nhấn mạnh rằng điều đó hiếm khi xảy ra, Google tuyên bố rằng “kích thước trung bình của tệp HTML nhỏ hơn 500 lần” là 15 MB.

dòng thời gian của byte htmlẢnh chụp màn hình của tác giả, tháng 8 năm 2022

Ở trên, HTTPArchive.org hiển thị kích thước tệp HTML trung bình trên máy tính để bàn và thiết bị di động. Do đó, hầu hết các trang web không gặp vấn đề về giới hạn 15 MB để thu thập thông tin.

Nhưng, web là một nơi rộng lớn và hỗn loạn.

Hiểu bản chất của giới hạn thu thập dữ liệu 15 MB và cách phân tích giới hạn này là quan trọng đối với người làm SEO.

Hình ảnh, video hoặc lỗi có thể gây ra sự cố thu thập dữ liệu và thông tin SEO ít được biết đến này có thể giúp các dự án bảo vệ giá trị tìm kiếm không phải trả tiền của họ.

Tìm tài nguyên lớn hơn 15 MB để Googlebot thu thập thông tin tốt hơn

Có phải giới hạn thu thập thông tin 15 MB của Googlebot chỉ dành cho tài liệu HTML không?

Không.

Giới hạn thu thập dữ liệu 15 MB của Googlebot dành cho tất cả các tài liệu có thể lập chỉ mục và thu thập thông tin, bao gồm Google Earth, Hancom Hanword (.hwp), văn bản OpenOffice (.odt) và Định dạng văn bản đa dạng thức (.rtf) hoặc các loại tệp khác được Googlebot hỗ trợ.

Kích thước hình ảnh và video có được tổng hợp với tài liệu HTML không?

Không, mọi tài nguyên được đánh giá riêng theo giới hạn thu thập thông tin 15 MB.

Nếu tài liệu HTML là 14,99 MB và hình ảnh nổi bật của tài liệu HTML lại là 14,99 MB, thì cả hai đều sẽ được Googlebot thu thập thông tin và sử dụng.

Kích thước của tài liệu HTML không được tính bằng các tài nguyên được liên kết qua các thẻ HTML.

Kích thước tài liệu HTML nội tuyến CSS, JS, hoặc URI dữ liệu có làm phồng lên không?

Có, CSS, JS nội tuyến hoặc URI dữ liệu được tính và sử dụng trong kích thước tài liệu HTML.

Do đó, nếu tài liệu vượt quá 15 MB do các tài nguyên và lệnh nội tuyến, nó sẽ ảnh hưởng đến khả năng thu thập thông tin của tài liệu HTML cụ thể.

Google có ngừng thu thập thông tin tài nguyên nếu nó lớn hơn 15 MB không?

Không, hệ thống thu thập thông tin của Google không ngừng thu thập dữ liệu các tài nguyên lớn hơn giới hạn 15 MB.

Họ tiếp tục tìm nạp tệp và chỉ sử dụng phần nhỏ hơn 15 MB.

Đối với hình ảnh lớn hơn 15 MB, Googlebot có thể chia nhỏ hình ảnh cho đến 15 MB với sự trợ giúp của “phạm vi nội dung”.

Phạm vi nội dung là một tiêu đề phản hồi giúp Googlebot hoặc các trình thu thập thông tin và người yêu cầu khác thực hiện các yêu cầu một phần.

Làm thế nào để kiểm tra quy mô tài nguyên theo cách thủ công?

Bạn có thể sử dụng Công cụ dành cho nhà phát triển của Google Chrome để kiểm tra kích thước tài nguyên theo cách thủ công.

Làm theo các bước bên dưới trên Google Chrome.

  • Mở tài liệu trang web qua Google Chrome.
  • Nhấn F12.
  • Chuyển đến tab Mạng.
  • Làm mới trang web.
  • Thứ tự các tài nguyên theo Thác.
  • Kiểm tra kích thước trên hàng đầu tiên, hiển thị kích thước của tài liệu HTML.

Dưới đây, bạn có thể xem ví dụ về tài liệu HTML trên trang chủ searchhenginejournal.com, lớn hơn 77 KB.

kết quả html trang chủ tạp chí công cụ tìm kiếmẢnh chụp màn hình của tác giả, tháng 8 năm 2022

Làm thế nào để kiểm tra kích thước tài nguyên một cách tự động và số lượng lớn?

Sử dụng Python để kiểm tra kích thước tài liệu HTML một cách tự động và hàng loạt. Advertools và Pandas là hai Thư viện Python hữu ích để tự động hóa và mở rộng các nhiệm vụ SEO.

Làm theo hướng dẫn dưới đây.

  • Nhập Công cụ quảng cáo và Gấu trúc.
  • Thu thập tất cả các URL trong sơ đồ trang web.
  • Thu thập thông tin tất cả các URL trong sơ đồ trang web.
  • Lọc các URL bằng Kích thước HTML của chúng.
import advertools as adv

import pandas as pd

df = adv.sitemap_to_df("

adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})

df = pd.read_json("output.jl", lines=True)

df[["url", "size"]].sort_values(by="size", ascending=False)

Khối mã ở trên trích xuất các URL của sơ đồ trang web và thu thập thông tin chúng.

Dòng cuối cùng của mã chỉ để tạo khung dữ liệu với thứ tự giảm dần dựa trên các kích thước.

kích thước và url của holisticseo.comHình ảnh do tác giả tạo ra, tháng 8 năm 2022

Bạn có thể xem các kích thước của tài liệu HTML như trên.

Tài liệu HTML lớn nhất trong ví dụ này là khoảng 700 KB, là một trang danh mục.

Vì vậy, trang web này an toàn với các ràng buộc 15 MB. Nhưng, chúng ta có thể kiểm tra ngoài điều này.

Làm thế nào để kiểm tra kích thước của tài nguyên CSS và JS?

Puppeteer được sử dụng để kiểm tra kích thước của CSS và JS Resources.

Puppeteer là một gói NodeJS để điều khiển Google Chrome với chế độ không dùng đầu để tự động hóa trình duyệt và kiểm tra trang web.

Hầu hết các chuyên gia SEO đều sử dụng API Lighthouse hoặc Page Speed ​​Insights để kiểm tra hiệu suất của họ. Tuy nhiên, với sự trợ giúp của Puppeteer, mọi khía cạnh kỹ thuật và mô phỏng đều có thể được phân tích.

Làm theo khối mã bên dưới.

const puppeteer = require('puppeteer');

const XLSX = require("xlsx");

const path = require("path");




(async () => {

    const browser = await puppeteer.launch({

        headless: false

    });




    const page = await browser.newPage();

    await page.goto('

    console.log('Page loaded');

    const perfEntries = JSON.parse(

        await page.evaluate(() => JSON.stringify(performance.getEntries()))

      );

     

      console.log(perfEntries);

     

      const workSheetColumnName = [

          "name",

          "transferSize",

          "encodedSize",

          "decodedSize"

          ]

          const urlObject = new URL("

          const hostName = urlObject.hostname

          const domainName = hostName.replace("www.|.com", "");

          console.log(hostName)

          console.log(domainName)

          const workSheetName = "Users";

          const filePath = `./${domainName}`;

          const userList = perfEntries;

         

         

          const exportPerfToExcel = (userList) => {

              const data = perfEntries.map(url => {

                  return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];

              })

              const workBook = XLSX.utils.book_new();

              const workSheetData = [

                  workSheetColumnName,

                  ...data

              ]

              const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);

              XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);

              XLSX.writeFile(workBook, path.resolve(filePath));

              return true;

         

          }

          exportPerfToExcel(userList)

       

          //browser.close();

   

})();

Nếu bạn không biết JavaScript hoặc chưa hoàn thành bất kỳ loại hướng dẫn Puppeteer nào, bạn có thể khó hiểu các khối mã này hơn một chút. Nhưng, nó thực sự đơn giản.

Về cơ bản, nó sẽ mở một URL, lấy tất cả các tài nguyên và cung cấp cho chúng “transferSize”, “encodedSize” và “decodedSize”.

Trong ví dụ này, “decodedSize” là kích thước mà chúng ta cần tập trung vào. Dưới đây, bạn có thể xem kết quả ở dạng tệp XLS.

Kích thước tài nguyênKích thước byte của các tài nguyên từ trang web.

Nếu bạn muốn tự động hóa lại các quy trình này cho mọi URL, bạn sẽ cần sử dụng vòng lặp for trong lệnh “await.page.goto ()”.

Theo sở thích của bạn, bạn có thể đặt mọi trang web vào một trang tính khác hoặc đính kèm nó vào cùng một trang tính bằng cách thêm vào.

Sự kết luận

Hạn chế thu thập dữ liệu 15 MB của Googlebot là một khả năng hiếm có sẽ chặn các quy trình SEO kỹ thuật của bạn ngay bây giờ, nhưng HTTPArchive.org cho thấy rằng kích thước video, hình ảnh và JavaScript trung bình đã tăng lên trong vài năm qua.

Kích thước hình ảnh trung bình trên màn hình đã vượt quá 1 MB.

Timeseries of Image BytesẢnh chụp màn hình của tác giả, tháng 8 năm 2022

Tổng số byte video vượt quá 5 MB.

Thời gian của byte videoẢnh chụp màn hình của tác giả, tháng 8 năm 2022

Nói cách khác, đôi khi, những tài nguyên này – hoặc một số phần của những tài nguyên này – có thể bị Googlebot bỏ qua.

Vì vậy, bạn sẽ có thể kiểm soát chúng tự động, với các phương pháp số lượng lớn để tiết kiệm thời gian và không bỏ qua.

Nhiêu tai nguyên hơn:


Ảnh nổi bật: BestForBest / Shutterstock

Kết thúc

Ngoài các bài viết tin tức, bài báo hàng ngày của SEMTEK, nguồn nội dung cũng bao gồm các bài viết từ các cộng tác viên chuyên gia đầu ngành về chuỗi kiến thức Kinh doanh, chiến lược tiếp thị, kiến thức quản trị doanh nghiệp và kiến thức quản lý, phát triển tổ chức doanh nghiệp,.. được chia sẽ chủ yếu từ nhiều khía cạnh liên quan chuỗi kiến thức này.

Bạn có thể dành thời gian để xem thêm các chuyên mục nội dung chính với các bài viết tư vấn, chia sẻ mới nhất, các tin tức gần đây từ chuyên gia và đối tác của Chúng tôi. Cuối cùng, với các kiến thức chia sẻ của bài viết, hy vọng góp phần nào kiến thức hỗ trợ cho độc giả tốt hơn trong hoạt động nghề nghiệp cá nhân!

* Ý kiến được trình bày trong bài viết này là của tác giả khách mời và không nhất thiết phải là SEMTEK. Nhân viên tác giả, cộng tác viên biên tập sẽ được liệt kê bên cuối bài viết.

Trân trọng,

Các chuyên mục nội dung liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai.

Back to top button