Data science

Lưu trữ nhật ký được 'Chaotic' cho Công ty truyền thông

Là nhà cung cấp WiFi chuyên dụng cho hệ thống tàu điện ngầm Toronto, BAI Communications tạo ra một lượng dữ liệu nhật ký hợp lý để lưu trữ và phân tích bằng cách sử dụng dòng sản phẩm Elastic, bao gồm Logstash và Kibana. Nhưng khi bị buộc phải lưu trữ dữ liệu nhật ký trị giá của một năm cho các mục đích quản lý, nó đã chuyển sang một công ty dịch vụ và phần mềm mới nổi có tên ChaosSearch để có một giải pháp hợp lý hơn. BAI Communications thiết kế, xây dựng và vận hành mạng lưới liên lạc cho hệ thống tàu điện ngầm ở các thành phố lớn, bao gồm Toronto, Thành phố New York và Luân Đôn. Trước COVID, nó đã cung cấp kết nối Internet có hỗ trợ quảng cáo tới 150, 000 người dùng mỗi ngày thay mặt cho Ủy ban Giao thông Toronto. Trên toàn thế giới, con số gần bằng 600, 000 người dùng mỗi ngày. Tại Toronto (nơi BAI có trụ sở), công ty ghi nhật ký về 10, 000 sự kiện mỗi giây trên mạng của nó, lên tới khoảng 50 GB mỗi ngày. Dữ liệu nhật ký này, bắt nguồn từ bộ định tuyến, siwtches, tường lửa và điểm truy cập, chảy đến một cụm Elastic tại chỗ, mà công ty sử dụng để khắc phục sự cố mạng, trong số các trường hợp sử dụng khác, theo Trưởng phòng phân tích dữ liệu của BAI, Jeremy Foran, ai đã cài đặt hệ thống. Foran nói: “Tôi là một chàng trai đàn hồi rất lớn. “Tôi đã là một chàng trai Elasticsearch kể từ ngày 2.4. Tôi không cố khoe khoang, nhưng bây giờ họ đang ở mức 7.x ”. Foran phát hiện ra Elastic và ELK Stack (bây giờ chỉ được gọi là Elastic Stack) trở lại 2015, khi anh được giao nhiệm vụ xây dựng BAI's hệ thống quản lý nhật ký. Chưa từng xây dựng hệ thống quản lý nhật ký trước đây, anh ấy đã làm điều mà bất kỳ chuyên gia công nghệ tự trọng nào cũng sẽ làm: Anh ấy sử dụng Google Googled. Kết quả tìm kiếm cho “máy chủ nhật ký hệ thống tốt nhất” đã hướng anh ta đến một video của người sáng tạo Logstash Jordan Sissel và anh ta đang trên đường đến. “Chính anh chàng đã viết Logstash, đưa ra một minh chứng về tất cả những vấn đề bạn gặp phải và cách anh ấy giải quyết chúng cho tôi,” Foran nói với Datanami. “Thật tuyệt. Đó là Logstash thực hiện việc nâng nặng, và Elastic giao diện để điều tra. Vì vậy, gốc rễ của chúng tôi là ở Elasticsearch và chúng tôi có rất nhiều trường hợp sử dụng khác cho Elasticsearch. ” BAI cung cấp Wi-Fi cho Tàu điện ngầm Toronto (Iakov-Filimonov / Shutterstock) Hành trình của Foran đến Elastic Stack không khác gì hành trình của hàng triệu người khác, ngoại trừ việc thiếu các trường hợp sử dụng bảo mật (BAI cung cấp dịch vụ bảo mật cho một công ty bên ngoài) . Sự phổ biến của Elastic lớn đến mức các chuyên gia CNTT, chuyên gia bảo mật và nhà phân tích dữ liệu, đến nỗi cuối cùng nó đã trở thành một công ty đại chúng tại 2018, và ngày nay nó có giá trị vốn hóa thị trường khoảng $ 14 tỷ. Tại một số thời điểm, nhu cầu của BAI phát triển và Foran được giao một nhiệm vụ khác: tìm ra cách lưu trữ tất cả dữ liệu nhật ký hệ thống trong ít nhất một năm. Tình trạng của công ty với tư cách là một công ty tuân thủ PCI- và ISO 27001 – được xác định dựa trên kho lưu trữ này đang được xây dựng và duy trì. Khi Foran bắt đầu chạy các con số trong dự án lưu trữ đó, một vấn đề đã xuất hiện. Việc cài đặt và chạy các mảng đĩa mới cần thiết để duy trì dữ liệu có giá trị hàng năm trong cụm Elastic sẽ rất tốn kém. “Chúng tôi có một số đĩa quay, một vài mảng,” Foran nói. “Chúng tôi đã phải đi từ những gì chúng tôi cần trong hoạt động, có thể là hai hoặc ba tuần '[worth of data], đến hơn một năm. Chi phí ghi lại nhiều như vậy đã tăng lên đáng kể. Chúng tôi sẽ không đủ khả năng mua tất cả những chiếc đĩa đó. ” Vào khoảng thời gian đó, Foran bắt đầu nghe về một công ty mới tên là ChaosSearch. Được thành lập bởi nhà khoa học máy tính Thomas Hazel, ChaosSearch về cơ bản cung cấp một lớp trừu tượng giữa các sản phẩm Elastic Stack của khách hàng và cơ sở dữ liệu NoSQL làm nền tảng cho cụm Elastic. Bằng cách lưu trữ dữ liệu nhật ký ở trạng thái nén cao trên hồ dữ liệu AWS S3, đồng thời duy trì khả năng tương thích của API với các sản phẩm Elastic, nó cho phép khách hàng về cơ bản “nâng và chuyển” hệ thống Elastic của họ lên đám mây. Foran thừa nhận rằng anh ấy đã nghi ngờ khi lần đầu tiên nghe về những gì mà Hazel, CTO, tuyên bố rằng ChaosSearch có thể làm được. “Lần đầu tiên tôi gặp Thomas, anh ấy đã nói,“ Ồ, bạn có thể lưu trữ nó trong S3 và nó sẽ giúp bạn tiết kiệm tiền, ”Foran nói. “Và tôi đã nghĩ, nếu tôi ném nó vào thùng S3, nó sẽ giúp tôi tiết kiệm tiền như thế nào? “Anh ấy nói, 'Chà, chúng tôi có 80 thuật toán nén%,' Foran tiếp tục. “Và tôi giống như, tôi không tin ông, thưa ông. Người ta viết tiến sĩ về nén. Và nếu bạn thực sự đạt được điều đó, bạn sẽ không ở đây cố gắng đánh lừa tôi phần mềm. Anh ấy nói, không, không, không, hãy tin tôi. Và khi chúng tôi vào cuộc, đá lốp xe, anh ấy đã đúng ”. Tin chắc rằng ChaosSearch sẽ cắt giảm chi phí lưu trữ, Foran đã đăng ký BAI cho dịch vụ phân tích hồ dữ liệu đám mây. Ý tưởng ban đầu chỉ là giữ dữ liệu ở đó cho các mục đích tuân thủ. Nhưng công ty đã tìm thấy cách sử dụng khác cho dữ liệu. Foran nói: “Mọi người viết những thứ trên Twitter, chẳng hạn như 'WiFi tệ quá'. “Thực sự không có nhiều thông tin khắc phục sự cố phong phú ở đó, vì vậy chúng tôi cần phải có một hệ thống và xác nhận hiệu quả, đã có sự thay đổi nào chưa? Và một số xu hướng bạn không thể phát hiện trong hai hoặc ba ngày. Bạn cần có cách tiếp cận rộng hơn nhiều ”. Giám đốc truyền thông của BAI Jeremy Foran Với đội ngũ phân tích của mình đã tham gia rất nhiều vào Elastic Stack, BAI có thể phân tích hàng terabyte dữ liệu nhật ký mà nó đã lưu trữ trong ChaosSearch để tìm câu trả lời cho các câu hỏi. Nền tảng đám mây của công ty cung cấp một môi trường quen thuộc cho nhân viên BAI làm việc. “Hóa ra họ đang sử dụng Kibana và Elasticsearch trên đầu thùng S3. Họ đã viết các trình điều khiển để tương tác với dữ liệu nén của họ, vì vậy đó là một giao diện quen thuộc, ”Foran nói. “Chúng tôi đã xây dựng các bảng điều khiển ở đây [for the on-prem Elastic cluster]. Chúng tôi cũng có thể xây dựng chúng ở đây [for the hosted ChaosSearch environment]. Theo một cách nào đó, nó được tiêu chuẩn hóa trên Elasticsearch. Nó chỉ xảy ra rằng phần phụ trợ rẻ hơn do ChaosSearch. ” ChaosSearch gần đây đã thêm giao diện SQL, mang đến cho khách hàng khả năng truy vấn dữ liệu nhật ký của họ bằng các công cụ BI quen thuộc, như Looker của Google và PowerBI của Microsoft. Nhưng bạn sẽ không bắt gặp Foran khi sử dụng giao diện SQL, vì anh ấy thích sử dụng ngôn ngữ tìm kiếm tài liệu của Elastic “Có thể ai đó trong nhóm của tôi muốn sử dụng điều đó,” anh ấy nói. “Tôi là một anh chàng DSL khó tính hơn, để vào đó với các truy vấn tìm kiếm Elastic. SQL là – tôi không biết. Nó đã có từ khi 70. Nó có vẻ không đủ hiện đại. Tôi biết sẽ có một số nhà khoa học dữ liệu muốn đâm tôi sau đó. ” Ngoài việc tuân thủ các quy định về dữ liệu của ngành, BAI đã tiết kiệm được kha khá tiền bằng cách áp dụng hệ thống ChaosSearch. Công ty vẫn duy trì cụm Elastic tại chỗ, vì lý do đơn giản là hệ thống phân tích dựa trên Internet không được sử dụng nhiều để khắc phục sự cố tại sao mạng bị sập. Nhưng để kiểm tra các xu hướng dài hạn trong dữ liệu, cũng như duy trì tuân thủ quy định, ChaosSearch cung cấp một phương tiện giá cả phải chăng mà BAI dự định lái trong một thời gian. “Vào cuối ngày, nếu chúng tôi muốn đưa nó vào Elasticsearch, thì con số này sẽ là hàng chục ngàn đô la mỗi tháng,” Foran nói. “Nếu chúng tôi đưa nó vào ChaosSearch, thì đó là hàng trăm đô la một tháng. Đó là một thứ tự của sự khác biệt về độ lớn. Đó là sự khác biệt giữa việc thuê Uber và mua một chiếc xe hơi. ” Các mục liên quan: ChaosSearch mở rộng khu vực cho Data Lake Analytics Momentum xây dựng để phá vỡ Bế tắc cấp phép Elasticsearch Suy nghĩ lại về phân tích nhật ký ở quy mô đám mây

Back to top button