Data science

Trực quan hóa dòng văn bản – Tất cả những gì tốt hơn để xem bạn cùng!

Nhấp để tìm hiểu thêm về đồng tác giả Andisa Dewi. Nhấp để tìm hiểu thêm về đồng tác giả Kilian Thiel. Trên thực tế, mọi người đều đã nghe nói về Cô bé quàng khăn đỏ, một câu chuyện cổ tích về cuộc gặp gỡ giữa một cô gái trẻ và Sói xấu số. Một trong những phiên bản phổ biến nhất của câu chuyện này được viết bởi Anh em nhà Grimm. Nhưng một câu chuyện dân gian đơn giản có liên quan gì đến hình dung dòng văn bản? Và trực quan hóa luồng là gì? Biểu đồ vùng xếp chồng, hoặc trực quan hóa luồng, rất hữu ích để hiển thị cách các chủ đề trong một hoặc một tập hợp tài liệu thay đổi và phát triển theo thời gian. Mỗi tài liệu được gán cho một thời điểm duy nhất – ví dụ: ngày xuất bản và sau đó là các chủ đề hoặc từ khóa cụ thể, có thể được trực quan hóa “xếp chồng lên nhau” dựa trên tần suất của chúng. Một biểu đồ thường dựa trên nhiều tài liệu. Vậy bạn nghĩ gì khi đọc truyện Cô bé quàng khăn đỏ qua hình ảnh suối? Lấy các nhân vật chính của câu chuyện làm từ khóa của chúng tôi, hình ảnh sẽ hiển thị bất cứ khi nào các nhân vật xuất hiện và cùng xuất hiện, cho thấy tầm quan trọng tương ứng của họ. Điều này sẽ cung cấp cho bạn một ý tưởng về diễn biến của câu chuyện mà không thực sự đọc nó! Lý do Little Red Riding Hood là một ví dụ là nó có cốt truyện khá đơn giản với chỉ năm nhân vật chính: Little Red Riding Hood, mẹ của cô, bà của cô, Big Bad Wolf và một thợ săn. Hình dung câu chuyện Để kể lại những ký ức của bạn: Câu chuyện bắt đầu với một cô bé tên là Cô bé quàng khăn đỏ, được mẹ kể đến thăm bà ngoại đang bị bệnh đang sống trong rừng. Trên đường đến đó, cô gặp một con sói. Con sói lừa cô dừng lại và hái một số bông hoa trước khi đến nhà bà ngoại. Trong khi Cô bé quàng khăn đỏ đang hái hoa, con sói đi đến nhà bà ngoại và ăn thịt bà, nuốt chửng bà một hơi. Sau đó, cậu cải trang thành bà ngoại và đợi Cô bé quàng khăn đỏ đến. Anh ta lừa được cô bé và ăn thịt cô bé, ngủ thiếp đi sau đó. Rất may một người thợ săn đi ngang qua và tìm thấy con sói. Anh ta mở bụng con sói đang ngủ bằng một con dao. Cả bà và cô gái đều ra ngoài và giúp người thợ săn lấp đầy những viên đá nặng vào bụng con sói. Anh ta chết! Thời gian trôi qua và khi Cô bé quàng khăn đỏ đến thăm bà ngoại một lần nữa, cô bé gặp một con sói độc ác khác cũng đang lên kế hoạch ăn thịt cô. Lần này cô chăm sóc và trực tiếp về nhà bà ngoại. Ở đó cô và bà của mình cùng nhau lập ra một kế hoạch và giết con sói. Và tất cả (trừ bầy sói) đều sống hạnh phúc mãi mãi. Trong Hình 1, bạn có thể thấy hình dung của chúng tôi về sự xuất hiện của các nhân vật trong câu chuyện dọc theo dòng thời gian của câu chuyện. Chúng tôi xác định dòng thời gian của câu chuyện bằng cách chia câu chuyện thành các thùng được sắp xếp theo thứ tự thời gian, trong đó mỗi thùng chứa một số câu. Mỗi ngăn thể hiện một bước rời rạc theo thời gian trong tài liệu. Ví dụ, thùng thứ nhất chứa bốn câu đầu tiên, thùng thứ hai chứa bốn câu tiếp theo, và cứ tiếp tục như vậy cho đến câu cuối cùng. Các thùng này được hiển thị dọc theo trục X đại diện cho tiến trình hoặc dòng thời gian của câu chuyện. Trục Y là tần suất xuất hiện của các ký tự (tức là số lần mỗi ký tự được đề cập trong mỗi thùng). Trong biểu đồ, mỗi ký tự được mô tả bằng một màu sắc. Người bà màu xanh lam, con sói màu da cam, người thợ săn màu xanh lá cây, chiếc mũ trùm đầu nhỏ màu đỏ và bà mẹ màu tím. Hình 1: Hình ảnh hóa dòng văn bản của Cô bé quàng khăn đỏ với bốn câu trên mỗi ô. Cao trào của câu chuyện xoay quanh Bin 16 và 17, đó là khi người thợ săn xuất hiện và cứu Cô bé quàng khăn đỏ và bà ngoại. Ví dụ, biểu đồ cho thấy rằng người mẹ chỉ được nhắc đến ở phần đầu và một lần nữa ở phần cuối. Ngược lại, người bà, Cô bé quàng khăn đỏ và con sói thường xuyên được nhắc đến cùng nhau và có mối tương quan cao với nhau trong toàn bộ dòng thời gian. Các mức tăng đột biến tương quan với nơi câu chuyện bắt đầu và các sự kiện quan trọng diễn ra. Ví dụ, xung quanh thùng 3 đến thùng 5 có một dòng suối dành cho bà ngoại, Cô bé quàng khăn đỏ và con sói. Trong câu chuyện, đây là khi Cô bé quàng khăn đỏ lần đầu tiên gặp con sói và họ nói về bà của cô bé. Một đợt tăng đột biến khác xảy ra ở xung quanh bin 12, trùng với một trong những cao trào của câu chuyện khi con sói cải trang thành bà và ăn thịt Cô bé quàng khăn đỏ. Hình ảnh trực quan cho thấy rằng câu chuyện lại tiếp tục xung quanh thùng 16 để 17, đó là khi người thợ săn xuất hiện và cứu Cô bé quàng khăn đỏ và bà ngoại. Đây cũng là phần duy nhất mà thợ săn được nhắc đến trong truyện. Sau đó, câu chuyện dần đi đến kết luận, được phản ánh trong biểu đồ bởi lượt đề cập giảm dần của tất cả các nhân vật. Sự tăng đột biến ngay ở phần cuối nối tiếp phần thứ hai của câu chuyện, nơi Cô bé quàng khăn đỏ gặp một con sói khác và sau đó giết chết anh ta. Quy trình làm việc Hình 2 cho thấy tổng quan về quy trình làm việc. Đầu tiên, truyện Cô bé quàng khăn đỏ được đọc từ một bảng dữ liệu. Chúng tôi đã áp dụng một số bước tiền xử lý liên quan đến chuyển đổi thành chữ thường và trích xuất câu. Tiếp theo, nút Auto-Binner được sử dụng để chia câu chuyện thành các thùng. Số lượng câu được đặt trong một thùng khác nhau tùy thuộc vào câu chuyện và người dùng có thể thay đổi. Trong quy trình làm việc, bạn có thể thấy hai ví dụ: Một chia câu chuyện thành 86 trong đó mỗi thùng chứa một câu, trong khi ví dụ thứ hai chia câu chuyện thành 21 thùng trong đó mỗi thùng chứa bốn câu. Trong Hình 1, bạn có thể thấy biểu đồ dựa trên 21 thùng và Hình 3 dưới đây cho thấy biểu đồ dựa trên 86 thùng. Bạn có thể tải xuống quy trình làm việc của Topic River Red Riding Hood từ Trung tâm của chúng tôi tại đây. Hình 2: Tổng quan về quy trình làm việc: Trong nhánh trên cùng, bốn câu được sử dụng cho mỗi thùng. Nhánh giữa hiển thị trực quan với một câu trên mỗi thùng. Ở nhánh dưới cùng, một vòng lặp đã được thực hiện từ một câu trên mỗi thùng, hai câu, v.v., tổng cộng chỉ có ba thùng. Dựa trên các kết quả trực quan hóa vòng lặp khác nhau, chúng tôi có thể xác định cài đặt câu trên mỗi ngăn tốt nhất. Hình 3: Hình ảnh hóa dòng văn bản của Cô bé quàng khăn đỏ với một câu trên mỗi thùng. Khó có thể nhìn thấy sự đồng xuất hiện của các ký tự, so với Hình 1. Một câu trên mỗi thùng thường quá chi tiết, dẫn đến dao động tần số cao từ thùng này sang thùng khác. Khi các câu được chia đều vào các thùng, chúng tôi sử dụng nút GroupBy để nối tất cả các câu trong mỗi thùng và chuyển chúng thành tài liệu, cung cấp cho chúng tôi một tài liệu cho mỗi thùng. Bây giờ đã đến lúc gắn thẻ các nhân vật chính và đếm số lần xuất hiện của chúng, bằng cách sử dụng nút Trình gắn thẻ từ điển, và tạo một túi các từ và tính toán tần suất thuật ngữ, bằng cách sử dụng nút TF. Tại thời điểm này, chúng ta đã có tất cả dữ liệu mà chúng ta cần – tần số tuyệt đối của mỗi ký tự trong mỗi bin – nhưng chúng vẫn chưa ở đúng định dạng. Chúng tôi muốn các tên ký tự là tên cột và các hàng để chứa các giá trị tần số trong mỗi bin. Chúng tôi đã sử dụng nút Pivoting cho việc này. Toàn bộ quá trình được thể hiện trong Hình 4. Bây giờ việc xử lý dữ liệu đã kết thúc, nút Biểu đồ vùng xếp chồng có thể được áp dụng để trực quan hóa dòng văn bản. Hình 4: Phân loại, lọc và tính toán tần số của các tên ký tự được trích xuất. Việc xác định có bao nhiêu câu hữu ích trong một thùng phụ thuộc vào câu chuyện và có thể khác nhau giữa các tài liệu. Trong trường hợp Cô bé quàng khăn đỏ, có tổng cộng 86 câu, chúng tôi thấy rằng bốn câu trong mỗi thùng dẫn đến hình dung giải thích câu chuyện ổn. Việc lặp lại các thiết lập khác nhau rất hữu ích để tìm giá trị nào mang lại hình ảnh tốt nhất. Kết luận Tóm lại, hình ảnh hóa luồng không chỉ có thể được áp dụng cho một bộ tài liệu mà còn cho một tài liệu duy nhất để trực quan hóa tiến trình của nó. Đó là một cách tiện dụng để tìm ra phần nào của tài liệu mà các chủ đề được đề cập, hoặc những ký tự nào được đề cập, mà không cần phải đọc văn bản.

  • Trang chủ
  • CRM
  • Email doanh nghiệp
  • Email marketing
  • Marketing News
  • Marketing tổng thể
  • SEO
  • Thiết kế Website
  • Web Hosting
  • Chatbot
  • Data science
  • Back to top button