Marketing News

Phân tích người tiêu dùng bằng NLP và AI trong HPC Cloud

Khách hàng và người mua sắm đã được hưởng lợi rất nhiều từ những tiến bộ trong kết nối Internet trong những năm gần đây. Các công ty thương mại điện tử đang phát triển nhanh chóng đã mang lại dữ liệu lớn thực tế là kết quả của những phát triển này. Sự phổ biến rộng rãi của dữ liệu lớn trên phương tiện truyền thông xã hội cho phép người mua bày tỏ ý kiến ​​và quan điểm của họ về một loạt các chủ đề, chẳng hạn như tình trạng của nền kinh tế, hoặc bày tỏ sự không hài lòng của họ với các sản phẩm hoặc dịch vụ cụ thể hoặc bày tỏ niềm vui với mua hàng. Một số lượng đáng kể nhận xét của người tiêu dùng và đánh giá sản phẩm cung cấp nhiều thông tin hữu ích và gần đây đã trở thành nguồn lực quan trọng cho cả người tiêu dùng và doanh nghiệp. Người tiêu dùng thường xuyên tìm kiếm thông tin chất lượng từ các bài đánh giá trực tuyến trước khi mua sản phẩm và nhiều doanh nghiệp sử dụng các bài đánh giá trực tuyến làm đầu vào quan trọng cho sản phẩm, tiếp thị và quản lý quan hệ khách hàng của họ. Do đó, hiểu được tâm lý đằng sau hành vi của người tiêu dùng trực tuyến đã trở thành chìa khóa để cạnh tranh trong các thị trường ngày nay được đặc trưng bởi sự cạnh tranh ngày càng gia tăng và toàn cầu hóa. Phân tích cảm xúc và phân tích văn bản là ứng dụng của phân tích dữ liệu lớn, nhằm mục đích tổng hợp và trích xuất cảm xúc và cảm xúc từ nhiều loại đánh giá. Những dữ liệu lớn đang phát triển theo cấp số nhân này chủ yếu có sẵn ở định dạng phi cấu trúc, khiến cho việc giải thích không thể xảy ra với nỗ lực của con người. Do đó, việc sử dụng học máy xử lý ngôn ngữ tự nhiên (NLP), tập trung vào việc thu thập dữ kiện và ý kiến ​​từ lượng thông tin khổng lồ có sẵn trên internet, là rất quan trọng. Bài viết này, dựa trên một nghiên cứu điển hình UberCloud mở rộng hơn, trình bày việc áp dụng mô hình NLP – máy học để dự đoán cảm xúc dựa trên các đánh giá nhận xét sản phẩm của người tiêu dùng được lấy từ các trang web thương mại điện tử và truyền thông xã hội. Quy trình NLP bao gồm một số bước: Xử lý trước dữ liệu và trích xuất tính năng, theo đó văn bản của bạn được chuyển đổi thành định dạng có thể dự đoán và phân tích được cho nhiệm vụ của bạn. Nó cũng có thể giúp bạn trích xuất các tính năng để hiểu sự phân bố của văn bản đánh giá. Mã hóa, viết hoa thấp hơn, loại bỏ ngắt từ, viết gốc, lemmatization và gắn thẻ các phần của giọng nói là một số giai đoạn liên quan đến quá trình xử lý trước dữ liệu và trích xuất tính năng. Phân tích tình cảm được thực hiện trên mỗi bài đánh giá, phân loại nó là xuất sắc hoặc kém, và sau đó cảm xúc được tạo ra. Điểm tình cảm là một hàm của tính phân cực và tính chủ quan. Cả hai thông số đều được trích xuất từ ​​văn bản đánh giá bằng thuật toán NLP để hiểu được cảm xúc tổng thể. Dấu hiệu của điểm phân cực thường được sử dụng để suy ra liệu tình cảm tổng thể là tích cực, trung tính hay tiêu cực. Polarity là một số nổi trong phạm vi , trong đó 1 đại diện cho một tuyên bố tích cực và -1 đại diện cho một tuyên bố tiêu cực. Câu chủ quan thường đề cập đến quan điểm, cảm xúc hoặc phán đoán cá nhân, trong khi câu khách quan đề cập đến thông tin thực tế. Lập mô hình chủ đề được sử dụng để tìm chủ đề quan tâm từ một tập hợp dữ liệu đánh giá. Đây là những khía cạnh và có thể có nhiều từ cho cùng một khía cạnh. Nó cho phép các công cụ tìm kiếm tập trung vào các chủ đề quan trọng nhất trong tài liệu. Thuật toán Phân bổ Dirichlet tiềm ẩn (LDA), một kiểu học không giám sát coi tài liệu là một túi từ, được sử dụng để phân tích các chủ đề và tạo ra xác suất xuất hiện của các chủ đề trong tài liệu dựa trên các từ đó. Từ tất cả các bước của quy trình NLP tổng thể, mô hình hóa chủ đề (thuật toán LDA) cho đến nay là phần tính toán chuyên sâu nhất của quy trình và trong khi các bước khác (làm sạch dữ liệu và kỹ thuật tính năng, trực quan hóa dữ liệu, phân tích cảm tính và phân tích dự đoán ) hầu như không phụ thuộc vào số lượng đánh giá, nỗ lực cho việc lập mô hình chủ đề tăng lên theo cấp số nhân với số lượng đánh giá ngày càng tăng. Do đó, chúng tôi đang tìm kiếm một phiên bản song song cao của thuật toán LDA có thể chạy hiệu quả cao trên các hệ thống HPC tại cơ sở hoặc trong HPC Cloud (ví dụ: AWS, Azure, Google GCP, xem bên dưới). Phát triển thuật toán hoặc tạo mô hình dự đoán có thể dự đoán và phân loại bất kỳ câu lệnh đánh giá đầu vào nào bằng cách sử dụng kỹ thuật máy học tận dụng các phương pháp thống kê để tính toán điểm số cảm nhận. Họ tinh chỉnh các quy tắc của riêng mình bằng cách đào tạo lặp lại dựa trên dữ liệu đào tạo mà họ được cung cấp. Độ chính xác và xác nhận của mô hình trở thành tiêu chí quan trọng để lựa chọn thuật toán. Mô hình dự đoán có thể được phát triển bằng cách sử dụng cả phương pháp học có giám sát và không giám sát. Nghiên cứu này giải quyết thách thức cơ bản về hành vi của khách hàng bằng cách sử dụng các thuật toán học máy nâng cao nhằm dân chủ hóa và cho phép truy cập theo thời gian thực vào những thông tin chi tiết chính cho thị trường ngách của bạn. Đây là một tài nguyên hữu ích để đánh giá thông tin tình cảm trong các nền tảng xã hội và kênh thương mại điện tử, vì nó không chỉ dựa vào các từ khóa theo miền cụ thể mà còn dựa trên kiến ​​thức thông thường cho phép ngoại suy thông tin nhận thức và tình cảm được kết nối với văn bản ngôn ngữ tự nhiên. Đo điểm chuẩn hiệu suất trên máy trạm và đám mây HPC NLP – thuật toán học máy cho thương mại điện tử là một kỹ thuật tính toán chuyên sâu, đặc biệt là thuật toán LDA, như đã đề cập ở trên. Do đó, để hoàn thành nghiên cứu, trước tiên chúng tôi phải chạy phân tích hiệu suất bằng cách sử dụng một máy tính để bàn hiệu suất cao có 16 Lõi CPU và 32 GB RAM. Phân tích hiệu suất được thực hiện để nghiên cứu yêu cầu của hệ thống máy tính để chạy tối đa 20 triệu dữ liệu đánh giá với các kết quả điểm chuẩn sau: mô hình chủ đề tăng theo cấp số nhân, do thuật toán LDA. Để khắc phục nhược điểm đó, chúng tôi đã tìm ra các phương pháp mô hình hóa chủ đề LDA song song, ví dụ dựa trên kiến ​​trúc MapReduce bằng cách sử dụng mô hình lập trình phân tán, nghĩa là việc triển khai song song mô hình chủ đề LDA bằng cách sử dụng nền tảng tính toán song song Hadoop. Kết quả cho thấy rằng, khi xử lý một lượng lớn các bài đánh giá, phương pháp song song này có thể có được tốc độ tăng tốc gần như tuyến tính, rất phù hợp cho các tài nguyên HPC và HPC tại chỗ trên đám mây. Môi trường HPC có nền tảng Anaconda dựa trên Python, hỗ trợ phân tích dữ liệu và xây dựng các mô hình dự đoán. Như chúng tôi đã trình bày, xử lý khối lượng dữ liệu lớn như vậy là một thách thức thực sự đối với dự án NLP này và đòi hỏi một lượng sức mạnh tính toán đáng kể. Do đó, chúng tôi nhận thấy rằng việc xử lý và tăng tốc xử lý một lượng lớn dữ liệu như vậy được thực hiện một cách lý tưởng bằng cách mở rộng thuật toán trên đám mây HPC. Các thí nghiệm tiếp theo được thực hiện trong môi trường đám mây HPC sẽ chứng minh khả năng thiết lập và chạy phân tích dữ liệu lớn từ xa cũng như xây dựng các mô hình AI trên đám mây. Tiếp theo, các yêu cầu thiết lập mô hình học máy AI sẽ được cài đặt sẵn trong các vùng chứa ứng dụng HPC trên Nền tảng mô phỏng kỹ thuật UberCloud, cho phép người dùng truy cập và chạy quy trình làm việc NLP mà không cần cài đặt bất kỳ loại thiết lập trước nào. Lời cảm ơn: Các tác giả xin cảm ơn Praveen Bhat, cố vấn công nghệ HPC / Python, đã hỗ trợ ông trong quá trình triển khai và đo điểm chuẩn của ứng dụng NLP. Giới thiệu về tác giả: Veena Mokal là Chuyên gia Khoa học Dữ liệu có bằng MBA về Phân tích Kinh doanh tại Học viện Công nghệ Quản lý ở Ấn Độ. Wolfgang Gentzsch là đồng sáng lập và chủ tịch của UberCloud, công ty phát triển Nền tảng mô phỏng kỹ thuật tự động và tùy chỉnh cho các mô phỏng đa vật lý kỹ thuật phức tạp, AI / Machine learning, cặp song sinh kỹ thuật số, phân tích dữ liệu, chăm sóc sức khỏe cá nhân hóa và xử lý ngôn ngữ tự nhiên. Các mục liên quan: Dự án Uber-Cloud làm nổi các Đề xuất phim về dữ liệu lớn với tính năng lọc cộng tác Spark Phát hiện tín hiệu của người tiêu dùng trong 90% Kinh tế Trang chủ Tiếp thị nội dung Chiến lược tiếp thị kỹ thuật số Chiến lược tiếp thị kỹ thuật số Chiến lược tiếp thị kỹ thuật số PPC SEO Xây dựng xã hội phát triển web WordPress Khoa học dữ liệu

Back to top button