Marketing News

Cách sử dụng Máy học để Nghiên cứu Đối thủ SEO

Với sự khao khát ngày càng tăng của các chuyên gia SEO để học Python , chưa bao giờ có thời gian tốt hơn hoặc thú vị hơn để dành tận dụng các khả năng của máy học (ML) và áp dụng chúng vào SEO.

Điều này đặc biệt đúng trong nghiên cứu đối thủ cạnh tranh của bạn.

Trong cột này, bạn sẽ tìm hiểu cách học máy giúp giải quyết những thách thức phổ biến trong nghiên cứu đối thủ cạnh tranh SEO, cách thiết lập và đào tạo mô hình ML của bạn, cách tự động hóa phân tích của bạn và hơn thế nữa.

Làm thôi nào!

Tại sao chúng ta cần máy học trong nghiên cứu đối thủ cạnh tranh SEO

Hầu hết nếu không phải là tất cả SEO những chuyên gia làm việc trong các thị trường cạnh tranh sẽ phân tích SERP và các đối thủ kinh doanh của họ để tìm hiểu xem trang web của họ đang làm gì để đạt được thứ hạng cao hơn.

Quay lại 2003, chúng tôi đã sử dụng bảng tính để thu thập dữ liệu từ SERP, với các cột đại diện cho các khía cạnh khác nhau của cuộc thi như số lượng liên kết đến trang chủ, số lượng trang, v.v.

Nhìn lại, ý tưởng là đúng nhưng việc thực thi là vô vọng do những hạn chế của Excel trong việc thực hiện một phân tích thống kê mạnh mẽ trong thời gian ngắn cần thiết.

Quảng cáo
Tiếp tục đọc bên dưới

Và nếu các giới hạn của bảng tính là không đủ, thì bối cảnh đã thay đổi khá nhiều kể từ đó như bây giờ chúng ta có:

  • SERP trên thiết bị di động.
  • Truyền thông xã hội.
  • Trải nghiệm Google Tìm kiếm phức tạp hơn nhiều.
  • Tốc độ trang.
  • Tìm kiếm được cá nhân hóa.
  • Lược đồ.
  • Các khuôn khổ Javascript và các công nghệ web mới khác.

Trên đây không phải là danh sách đầy đủ các xu hướng nhưng phục vụ cho việc minh họa -tăng thêm nhiều yếu tố có thể giải thích lợi thế của các đối thủ được xếp hạng cao hơn của bạn trong Google.

Học máy trong bối cảnh SEO

Rất may, với các công cụ như Python / R , chúng tôi không còn tuân theo các giới hạn của bảng tính. Python / R có thể xử lý hàng triệu đến hàng tỷ hàng dữ liệu.

Nếu có gì thì giới hạn là chất lượng dữ liệu mà bạn có thể đưa vào mô hình ML của mình và các câu hỏi thông minh của bạn. yêu cầu dữ liệu của bạn.

Là một chuyên gia SEO, bạn có thể tạo ra sự khác biệt quyết định cho chiến dịch SEO của mình bằng cách loại bỏ những ồn ào và sử dụng máy học trên dữ liệu của đối thủ cạnh tranh để khám phá:

Quảng cáo
Tiếp tục Đọc Dưới đây
  • Yếu tố xếp hạng nào có thể giải thích tốt nhất sự khác biệt về thứ hạng giữa các trang web.
  • Điểm chuẩn trúng tuyển là bao nhiêu.
  • Một sự thay đổi đơn vị trong hệ số có giá trị bao nhiêu về thứ hạng.

Giống như bất kỳ nỗ lực (dữ liệu) khoa học nào, có một số lượng câu hỏi cần được trả lời trước khi chúng tôi có thể bắt đầu viết mã.

Loại nào của ML Vấn đề là Phân tích đối thủ cạnh tranh?

ML giải quyết một số vấn đề cho dù nó đang phân loại thứ (phân loại) hoặc dự đoán một số liên tục (hồi quy).

Trong trường hợp cụ thể của chúng tôi, vì chất lượng SEO của đối thủ cạnh tranh được biểu thị bằng thứ hạng của nó trong Google, và hạng là một số liên tục, thì bài toán ML là một trong những hồi quy.

Chỉ số Kết quả

Cho rằng chúng ta biết bài toán ML là một trong những phép hồi quy, chỉ số kết quả là xếp hạng. Điều này hợp lý vì một số lý do:

  • Xếp hạng sẽ không bị ảnh hưởng bởi tính thời vụ; thứ hạng của một thương hiệu kem cho các tìm kiếm trên sẽ không giảm giá vì đó là mùa đông, không giống như chỉ số “người dùng”.
  • Xếp hạng của đối thủ cạnh tranh là dữ liệu của bên thứ ba và có sẵn bằng cách sử dụng các công cụ SEO thương mại, không giống như lưu lượng người dùng và chuyển đổi của họ.

Các tính năng là gì?

Biết số liệu kết quả, bây giờ chúng ta phải xác định các biến độc lập hoặc đầu vào mô hình cũng đã biết như các tính năng. Các kiểu dữ liệu cho tính năng sẽ khác nhau, ví dụ:

  • Màu sơn đầu tiên được tính bằng giây sẽ là một số.
  • Tình cảm với các loại tích cực, trung tính và tiêu cực sẽ là một yếu tố.

Đương nhiên, bạn muốn bao gồm nhiều tính năng có ý nghĩa nhất có thể bao gồm kỹ thuật, nội dung / UX và ngoại vi nghiên cứu toàn diện về đối thủ cạnh tranh.

Toán học là gì?

Cho rằng thứ hạng là số và chúng tôi muốn giải thích sự khác biệt về thứ hạng, thì bằng thuật ngữ toán học :

 xếp hạng ~ w_1 tính năng_1 + w_2 tính năng_2 + … + W_n feature_n

~ (được gọi là “dấu ngã” ) có nghĩa là “được giải thích bởi”

n là đối tượng địa lý thứ n

w là trọng số của đối tượng địa lý

Sử dụng Máy học để Khám phá Bí mật của Đối thủ cạnh tranh

Với câu trả lời cho những câu hỏi này trong tay, chúng tôi đã sẵn sàng để xem học máy có thể tiết lộ bí mật gì về đối thủ cạnh tranh của bạn.

Tại thời điểm này, chúng tôi sẽ giả định rằng dữ liệu của bạn (trong ví dụ này được gọi là “serps_data”) đã được kết hợp, chuyển đổi, làm sạch và hiện đã sẵn sàng để tạo mô hình.

Quảng cáo
Tiếp tục đọc bên dưới

Tối thiểu, dữ liệu này sẽ chứa Google xếp hạng và dữ liệu tính năng bạn muốn kiểm tra.

Ví dụ: các cột của bạn có thể bao gồm:

  • Google_rank.
  • Tốc độ trang.
  • Tình cảm.
  • Flesch_kincaid_read ing_ease.
  • Amp_version_available.
  • Site_depth.
  • Internal_page_rank.
  • Số lượng tên_chơi_người giới thiệu.
  • avg_domain_authority_backlinks.
  • title_keyword_string_distance.

Đào tạo mô hình ML của bạn

Để đào tạo mô hình của bạn, chúng tôi đang sử dụng XGBoost vì nó có xu hướng mang lại kết quả tốt hơn các mô hình ML khác.

Các lựa chọn thay thế bạn có thể muốn dùng thử song song là LightGBM (đặc biệt đối với các bộ dữ liệu lớn hơn nhiều), RandomForest và Adaboost.

Hãy thử sử dụng Python sau mã cho XGBoost cho tập dữ liệu SERPs của bạn:

# nhập các thư viện

 nhập xgboost dưới dạng xgb nhập gấu trúc dưới dạng pd serps_data = pd.re  ad_csv ('serps_data.csv')

# đặt các biến mô hình

# dữ liệu SERPs của bạn với mọi thứ trừ cột google_rank

 serp_features = serps_data.drop (cột = ['Google_rank'])

# dữ liệu SERPs của bạn chỉ với cột google_rank

 rank_actual = serps_data.Google_rank

# Khởi tạo mô hình

 serps_model = xgb .XGBRegressor (mục tiêu = 'reg: tuyến tính', random_state = 1231)

# phù hợp với mô hình

 serps_model.fit (serp_features, rank_actual)

# tạo dự đoán mô hình

 rank_pred = serps_model.p Dự đoán (serp_features)

# evalu ăn mòn độ chính xác của mô hình

 mse = mean_squared_error (rank_actual, rank_pred )

Lưu ý rằng phần trên là rất cơ bản. Trong một tình huống khách hàng thực, bạn muốn thử một số thuật toán mô hình trên một mẫu dữ liệu đào tạo (về 80% dữ liệu), đánh giá (sử dụng phần còn lại 20% data), và chọn mô hình tốt nhất.

Quảng cáo
Tiếp tục đọc bên dưới

Vậy chiếc máy này có thể có những bí mật gì mô hình học tập cho chúng ta biết?

Các yếu tố thúc đẩy xếp hạng được dự đoán nhiều nhất

Biểu đồ hiển thị các tính năng SERP có ảnh hưởng nhất hoặc các yếu tố xếp hạng theo thứ tự mức độ quan trọng giảm dần.

” sizes=”(max-width: 3000px) 100vw, 3000px” alt=”Most influential SERP features or ranking factors in order of importance.” width=”3000″ height=”2400″ data-srcset=”https://semtek.com.vn/wp-content/uploads/2021/07/model_priorities-60ae9b11080d4.png 3000w, https://semtek.com.vn/wp-content/uploads/2021/07/model_priorities-60ae9b11080d4-480×384.png 480w, https://semtek.com.vn/wp-content/uploads/2021/07/model_priorities-60ae9b11080d4-680×544.png 680w, https://semtek.com.vn/wp-content/uploads/2021/07/1_model_priorities-60ae9b11080d4-768×614.png 768w, https://semtek.com.vn/wp-content/uploads/2021/07/1_model_priorities-60ae9b11080d4-1024×819.png 1024w, https://semtek.com.vn/wp-content/uploads/2021/07/model_priorities-60ae9b11080d4-1600×1280.png 1600w” data-src=”https://semtek.com.vn/wp-content/uploads/2021/07/model_priorities-60ae9b11080d4.png” />

Trong trường hợp cụ thể này, yếu tố quan trọng nhất là “title_keyword_dist” đo khoảng cách chuỗi giữa thẻ tiêu đề và từ khóa mục tiêu. Hãy coi đây là mức độ liên quan của thẻ tiêu đề với từ khóa.

Quảng cáo
Tiếp tục Đọc Dưới đây

Không có gì ngạc nhiên đối với người hành nghề SEO, tuy nhiên, giá trị ở đây là cung cấp bằng chứng thực nghiệm cho đối tượng doanh nghiệp không phải chuyên gia không hiểu sự cần thiết phải tối ưu hóa thẻ tiêu đề .

Các yếu tố cần lưu ý khác trong ngành này là:

  • no_cookies : Số lượng cookie.
  • dom_ready_time_ms : Thước đo tốc độ trang.
  • no_template_words : Đếm số từ bên ngoài phần nội dung chính.
  • link_root_domains_links : Số lượng liên kết đến miền gốc.
  • no_scaled_images : Số lượng hình ảnh được chia tỷ lệ mà trình duyệt cần chia tỷ lệ để hiển thị.

Mọi thị trường hoặc ngành đều khác nhau, vì vậy ở trên không phải là kết quả chung cho toàn bộ SEO!

Xếp hạng của một yếu tố xếp hạng có giá trị bao nhiêu

Trong một trường hợp thị trường khác, chúng tôi cũng có thể xem có bao nhiêu thứ hạng sẽ được phân phối.

” sizes=”(max-width: 3000px) 100vw, 3000px” alt=”Forecast rank change.” width=”3000″ height=”2400″ data-srcset=”https://semtek.com.vn/wp-content/uploads/2021/07/model_rank-60ae9b4670f23.png 3000w, https://semtek.com.vn/wp-content/uploads/2021/07/model_rank-60ae9b4670f23-480×384.png 480w, https://semtek.com.vn/wp-content/uploads/2021/07/model_rank-60ae9b4670f23-680×544.png 680w, https://semtek.com.vn/wp-content/uploads/2021/07/1_model_rank-60ae9b4670f23-768×614.png 768w, https://semtek.com.vn/wp-content/uploads/2021/07/1_model_rank-60ae9b4670f23-1024×819.png 1024w, https://semtek.com.vn/wp-content/uploads/2021/07/model_rank-60ae9b4670f23-1600×1280.png 1600w” data-src=”https://semtek.com.vn/wp-content/uploads/2021/07/model_rank-60ae9b4670f23.png” />

Trong biểu đồ trên, chúng ta có một danh sách các yếu tố và sự thay đổi thứ hạng đối với mọi thay đổi đơn vị tích cực trong yếu tố đó.

Quảng cáo
Tiếp tục đọc bên dưới

Ví dụ: đối với mỗi đơn vị, độ dài mô tả meta tăng thêm 1 ký tự, thứ hạng trên Google giảm tương ứng là 0,1.

Bị đưa ra khỏi ngữ cảnh, điều này nghe có vẻ nực cười. Tuy nhiên, với hầu hết mô tả meta được điền vào, điều đó có nghĩa là một đơn vị thay đổi so với độ dài trung bình của mô tả meta sau đó sẽ dẫn đến việc giảm xếp hạng của Google Tìm kiếm.

Điểm chuẩn chiến thắng cho một yếu tố xếp hạng

Dưới đây là biểu đồ vẽ chiều dài thẻ tiêu đề trung bình cho một ngành khác với ngành ở trên, cũng bao gồm một dòng phù hợp nhất:

” sizes=”(max-width: 1894px) 100vw, 1894px” alt=”Graph plotting the average title tag length.” width=”1894″ height=”1452″ data-srcset=”https://semtek.com.vn/wp-content/uploads/2021/07/title_length-60ae9abd58d1e.png 1894w, https://semtek.com.vn/wp-content/uploads/2021/07/title_length-60ae9abd58d1e-480×368.png 480w, https://semtek.com.vn/wp-content/uploads/2021/07/title_length-60ae9abd58d1e-680×521.png 680w, https://semtek.com.vn/wp-content/uploads/2021/07/1_title_length-60ae9abd58d1e-768×589.png 768w, https://semtek.com.vn/wp-content/uploads/2021/07/1_title_length-60ae9abd58d1e-1024×785.png 1024w, https://semtek.com.vn/wp-content/uploads/2021/07/title_length-60ae9abd58d1e-1600×1227.png 1600w” data-src=”https://semtek.com.vn/wp-content/uploads/2021/07/title_length-60ae9abd58d1e.png” />

Mặc dù khuyến nghị thực hành SEO tốt nhất là sử dụng tối đa 70 ký tự cho độ dài thẻ tiêu đề, dữ liệu được vẽ ở trên cho thấy độ dài tối ưu thực tế trong ngành này là 60 nhân vật.

Quảng cáo
Tiếp tục Đọc Dưới đây

Nhờ máy học, chúng tôi không chỉ có thể chỉ ra những yếu tố quan trọng nhất mà khi đi sâu vào nghiên cứu cũng có thể thấy điểm chuẩn chiến thắng.

Tự động hóa phân tích đối thủ cạnh tranh SEO của bạn với Học máy

Ứng dụng học máy ở trên rất hữu ích để lấy một số ý tưởng để phân chia bài kiểm tra AB và cải thiện Chương trình SEO với các yêu cầu thay đổi dựa trên bằng chứng.

Cũng cần phải nhận ra rằng phân tích này được thực hiện mạnh mẽ hơn khi nó đang diễn ra.

Tại sao?

Bởi vì phân tích ML chỉ là một bản chụp nhanh của SERP cho một thời điểm duy nhất.

Có một luồng thu thập và phân tích dữ liệu liên tục có nghĩa là bạn có được bức tranh chân thực hơn về thực sự xảy ra với SERPs cho ngành của bạn.

Đây là nơi các hệ thống bảng điều khiển và kho dữ liệu được xây dựng cho mục đích SEO trở nên hữu ích và các sản phẩm này đã có sẵn ngày hôm nay.

Những gì các hệ thống này làm là:

  • Nhập dữ liệu của bạn từ các công cụ SEO yêu thích của bạn hàng ngày.
  • Kết hợp dữ liệu.
  • Sử dụng ML để hiển thị thông tin chi tiết như trên trong giao diện người dùng mà bạn chọn như Google Data Studio.
Quảng cáo
Tiếp tục đọc bên dưới

Để xây dựng hệ thống tự động của riêng bạn, bạn sẽ triển khai vào cơ sở hạ tầng đám mây như Amazon Web Services (AWS) hoặc Google Cloud Platform (GCP ) cái được gọi là ETL tức là trích xuất, biến đổi và tải.

Để giải thích:

  • Trích xuất – Gọi hàng ngày các API công cụ SEO của bạn.
  • Chuyển đổi – Làm sạch và phân tích dữ liệu của bạn bằng cách sử dụng ML như được mô tả ở trên.
  • Tải – Lưu kết quả đã hoàn thành vào kho dữ liệu của bạn.

Vì vậy, dữ liệu của bạn thu thập, phân tích và trực quan hóa được tự động hóa ở một nơi.

TL; DR?

Việc nghiên cứu và phân tích đối thủ cạnh tranh trong SEO là rất khó vì có quá nhiều yếu tố xếp hạng cần kiểm soát.

Các công cụ bảng tính không phù hợp với nó, do số lượng dữ liệu liên quan (chưa kể đến các khả năng thống kê mà các ngôn ngữ khoa học dữ liệu như Python cung cấp).

Khi tiến hành Phân tích đối thủ cạnh tranh SEO bằng cách sử dụng máy học, nó điều quan trọng cần hiểu rằng đây là một vấn đề hồi quy, biến mục tiêu là xếp hạng của Google và các giả thuyết là yếu tố xếp hạng.

Sử dụng ML trên đối thủ cạnh tranh của bạn có thể cho bạn biết điều gì các động lực chính là, xác định các điểm chuẩn chiến thắng trong số đó và thông báo mức độ tăng xếp hạng mà các tối ưu hóa của bạn có thể mang lại.

Quảng cáo
Tiếp tục đọc bên dưới

Phân tích chỉ là một bản chụp nhanh, do đó, để luôn dẫn đầu các đối thủ cạnh tranh, hãy tự động hóa quá trình này bằng cách sử dụng Trích xuất, Biến đổi, Tải (ETL).

Nhiêu tai nguyên hơn:

  • Tại sao nên học SEO và học máy ning Đang Tham gia Lực lượng
  • Giới thiệu Thực tế về Học máy dành cho Chuyên gia SEO
  • Hướng dẫn hoàn chỉnh về SEO: Những điều bạn cần biết

Tín dụng hình ảnh

Tất cả ảnh chụp màn hình được chụp bởi tác giả, tháng 6 2021

Back to top button