Data science

Tabular tìm cách làm lại các hồ dữ liệu đám mây trong hình ảnh của tảng băng trôi

Những người sáng tạo ra định dạng bảng Apache Iceberg đã ra mắt một công ty mới vào mùa hè này có tên là Tabular nhằm mục đích làm lại cách các công ty lưu trữ dữ liệu trên đám mây. Nếu công ty làm theo cách của mình, phần lớn chi tiết nhỏ về cách dữ liệu được lưu trữ trong hồ dữ liệu, cũng như việc bảo trì và tối ưu hóa dữ liệu đó, sẽ được tự động hóa, giảm bớt gánh nặng cho các kỹ sư dữ liệu và nhà phân tích dữ liệu. Iceberg là một định dạng dữ liệu mở ban đầu được thiết kế tại Netflix và Apple để giảm bớt những hạn chế trong việc sử dụng bảng Apache Hive để lưu trữ và truy vấn các tập dữ liệu lớn sử dụng nhiều công cụ. Hive ban đầu được xây dựng như một kho lưu trữ SQL phân tán cho Hadoop, nhưng trong nhiều trường hợp, các công ty tiếp tục sử dụng Hive như một kho lưu trữ, mặc dù họ đã ngừng sử dụng nó như một kho dữ liệu. Mục tiêu số một của Iceberg là đảm bảo tính chính xác của dữ liệu, vì Hive không đưa ra sự đảm bảo nào như vậy, điều này gây ra sự tàn phá khi nhiều dịch vụ và công cụ truy cập và sửa đổi bảng Hive. Nhưng Iceberg cũng mang lại những lợi ích khác, bao gồm giải quyết vấn đề tệp nhỏ, đơn giản hóa việc bảo trì dữ liệu liên tục, tối ưu hóa quyền truy cập dữ liệu và nói chung là giảm bớt khối lượng công việc cho các kỹ sư dữ liệu làm việc quá sức. Ryan Blue, người đồng sáng lập Iceberg và đồng sáng lập kiêm CEO của Tabular, cho biết mục tiêu của Tabular là xây dựng một dịch vụ quản lý dữ liệu đầy đủ trên đỉnh Iceberg. Blue nói: “Những gì chúng tôi đang nghĩ là loại quản lý cấp nền tảng dữ liệu mà chúng tôi đang cung cấp tại Netflix, nhưng dành cho tất cả mọi người. “Bất kỳ công ty nào cũng có thể đến và cung cấp thứ gì đó quản lý dữ liệu của họ ở định dạng Iceberg, trong nhóm của họ và hoạt động trên mọi động cơ”. Là một kỹ sư cấp cao tại Netflix, Blue đã tạo ra Iceberg cùng với Dan Weeks, người là giám đốc kỹ thuật về tính toán dữ liệu lớn tại gã khổng lồ phim trực tuyến. Các bảng Iceberg được truy cập bởi nhiều công cụ và dịch vụ tính toán, bao gồm Presto, Trino, Spark và Flink. Blue cho biết, kích hoạt kiểu mở của công cụ máy tính là mục tiêu của Tabular. (Sitthiphong / Shutterstock) “Chúng tôi nghĩ rằng Tabular sẽ trở thành mọi thứ ở dưới cấp độ động cơ – trung tâm, quản lý lưu trữ, các dịch vụ duy trì dữ liệu của bạn – tất cả các thành phần cơ sở hạ tầng khó xây dựng và duy trì và chạy , ”Anh ấy nói với Datanami. “Về cơ bản, nền tảng dữ liệu Netflix không có lớp tính toán, nhưng là một dịch vụ được quản lý được lưu trữ.” Iceberg Metastore Nhóm Tabular đang làm việc trên kiểu mẫu đầu tiên và Blue không mong đợi dịch vụ sẽ có sẵn cho đến sớm 2022. Trước tiên, nó sẽ được cung cấp dưới dạng dịch vụ được lưu trữ tại AWS, sau đó là tính khả dụng trên các nền tảng đám mây khác, ông nói. Công ty, đã nhận được vòng tài trợ Series A từ Andreessen Horowitz vào tháng 7, hiện đang tuyển dụng. Định dạng bảng Iceberg là một nơi tốt để bắt đầu khi xây dựng kho dữ liệu dựa trên đám mây để chứa dữ liệu ở các định dạng Parquet, ORC và Avro. Nó cung cấp tính nhất quán rất cần thiết để đảm bảo rằng dữ liệu không bị thất thoát. Nhưng nó vẫn yêu cầu các kỹ sư dữ liệu tích cực làm việc với nó và triển khai nó, và đó là yếu tố mà Tabular hy vọng sẽ loại bỏ với dịch vụ mới của mình. Blue nói: “Tôi coi chúng tôi là nửa dưới của cơ sở dữ liệu – công cụ lưu trữ đó cần theo dõi những bảng nào tồn tại, chúng ở đâu… là tất cả mọi thứ về bảng đó. “Chúng tôi muốn theo dõi dữ liệu, theo dõi cách bạn đang sử dụng dữ liệu và tối ưu hóa dữ liệu đó để sử dụng trên bất kỳ số lượng công cụ nào… cho dù bạn đang sử dụng Trino do chính bạn tạo ra và bạn đang chạy Kubernetes . Chúng tôi muốn trở thành lớp cơ sở mà mọi thứ đều nói chuyện [with] để tương tác với dữ liệu của bạn. ” Trước khi áp dụng Iceberg, Netflix dựa rất nhiều vào các kỹ sư dữ liệu để xây dựng và duy trì các bảng cho người dùng phía dưới. Điều đó đòi hỏi họ phải đưa ra một số lượng lớn quyết định về các bảng ảnh hưởng đến khả năng sử dụng, hiệu suất và chi phí của họ đối với Netflix, Blue, người đã rời gã khổng lồ công nghệ vào đầu năm nay để thành lập Tabular cùng với Weeks và Jason Reid, cựu giám đốc dữ liệu của Netflix. khoa học và kĩ thuật. Blue nói: “Chúng tôi có các kỹ sư dữ liệu và chúng tôi mong họ hiểu các bảng mà họ đang làm việc. “Chúng tôi đặt ra rất nhiều trách nhiệm cho các kỹ sư dữ liệu ở đó để hiểu tất cả các khía cạnh đó. Bàn được phân vùng như thế nào? Người tiêu dùng hạ nguồn của tôi sẽ chọn sản phẩm nào? Và ngay cả những thứ như cột [sort] nào sẽ làm cho dữ liệu của tôi nhỏ hơn? Cột số lượng cao là gì? Tất cả những thứ đó phải là thứ mà chúng ta có thể nhận được từ môi trường [Tabular]. ” DBA In a Box Blue đang học những bài học mà anh ấy học được từ cách tiếp cận của Netflix đối với việc quản lý bảng và đang tìm cách tự động hóa về cơ bản các chức năng mà các kỹ sư dữ liệu đã làm cho Netflix với dịch vụ Tabular. Theo một cách nào đó, nó giống như một quản trị viên cơ sở dữ liệu tự động (DBA). Ryan Blue là Giám đốc điều hành và đồng sáng lập của Tabular “Một điều mà Iceberg làm là chúng tôi đang tạo ra ngày càng nhiều thứ hơn về cấu hình bảng,” Blue nói. “Vậy thứ tự sắp xếp. Tôi muốn phân cụm dữ liệu của mình như thế nào? Tôi muốn kích thước tệp nào? Về cơ bản, bạn tuyên bố trong Iceberg rằng, đây là trạng thái lý tưởng của tôi. Mọi thứ được sắp xếp như thế này. Mọi thứ đều ở định dạng này bằng cách sử dụng các cài đặt này. Sau đó, điều đó cho chúng tôi một mục tiêu để bắn. ” Ví dụ: giả sử một khách hàng vừa viết 10, 000 mỗi tệp có kích thước 5KB vào một bảng. “Chà, đó sẽ là một hiệu suất khủng khiếp,” Blue nói. “Chúng tôi có thể áp dụng thứ tự sắp xếp và nhóm dữ liệu của bạn một cách chính xác, viết lại dữ liệu trong nền khá nhanh và làm cho hoạt động của bạn hiệu quả hơn mà bạn không cần phải có một kỹ sư dữ liệu đắt tiền, người hiểu cách thực hiện điều đó ngay từ đầu.” Nếu một bảng không có thứ tự sắp xếp rõ ràng, dịch vụ Tabular sẽ có thể suy ra thứ tự sắp xếp dựa trên khóa chính của bảng và lược đồ phân vùng, Blue nói. Ông nói: “Chúng tôi cũng có thể xem mọi người thực sự đang làm gì khi chọn từ bảng này. “Và nếu chúng ta biết điều đó, chúng ta có thể tìm ra, đây là những cột mà mọi người có xu hướng chọn và chúng ta có thể điền vào đó.” Cuối cùng, Tabular có thể mang lại một số AI để giải quyết vấn đề. Ví dụ: tại Netflix, Blue đã giúp triển khai hệ thống đề xuất có thể tìm cài đặt tối ưu cho bảng nhất định bằng cách viết lại nó 20 hoặc lần và xem cài đặt nào hoạt động tốt nhất. Cuối cùng công ty có thể xây dựng loại hệ thống đó. Nhưng trước hết, công ty tập trung vào việc xây dựng và triển khai dịch vụ cốt lõi. Blue nói: “Những gì chúng tôi muốn là một giải pháp rất đơn giản, dễ dàng, hiệu quả với các bảng Iceberg. “Và nếu bạn là khách hàng mới, người chuyển sang đám mây hoặc người nào đó đã xây dựng Hive hiện có, để có thể bắt đầu sử dụng dịch vụ của chúng tôi một cách rất dễ dàng.” Hồ dữ liệu mở Theo cách Martin Casado của Andressen Horowitz mô tả nó, Tabular đang xây dựng “một nền tảng dữ liệu đám mây độc lập”. “Nó sẽ thay thế các hồ dữ liệu thô bằng một dịch vụ ẩn phần lớn sự phức tạp cơ bản và tự động hóa các tác vụ quản lý dữ liệu phổ biến,” Casado đã viết trong một bài đăng blog gần đây về a 16 z trang web. “Tabular cung cấp nhiều tính năng giúp kho dữ liệu dễ sử dụng – giao dịch nguyên tử, tiến hóa lược đồ, du hành thời gian, phân vùng, v.v. – cho bất kỳ hệ thống xử lý dữ liệu dựa trên đám mây nào muốn hỗ trợ nó, bao gồm cả kho dữ liệu. Theo nghĩa này, nó thực hiện mô hình kiến ​​trúc 'ngôi nhà hồ' đang ngày càng phổ biến. Nhưng nó áp dụng một bộ tiêu chuẩn hoàn toàn mở để tất cả các hệ thống có thể xây dựng trên một nền tảng chung và chia sẻ dữ liệu theo một định dạng chung ”. Lần đầu tiên được phổ biến với Hadoop, các hồ dữ liệu ngày nay đang phát triển mạnh mẽ trên đám mây, nơi chúng được triển khai trên S3 và các hệ thống lưu trữ đối tượng khác. Sự kết hợp giữa lưu trữ giá rẻ và sự tách biệt giữa máy tính và lưu trữ có nghĩa là các công ty có thể mở rộng các hồ dữ liệu của họ thành phạm vi petabyte. Nhưng có sự phức tạp ẩn trong hồ buộc khách hàng phải trở thành chuyên gia trong những “giới hạn kỳ quặc”, Tabular nói. Sự phổ biến của Snowflake và Databricks cho thấy có một thị trường cho các dịch vụ đơn giản hóa việc quản lý hồ dữ liệu. Với Tabular, Blue hy vọng sẽ phản ánh các loại dịch vụ đó, đồng thời cho phép khách hàng tự do cắm bất kỳ công cụ nào vào bộ lưu trữ dữ liệu lớn của họ. Blue nói: “Snowflake chắc chắn đã xây dựng nửa dưới của cơ sở dữ liệu khá tốt. “Databricks cũng đã xây dựng nửa dưới của cơ sở dữ liệu, với định dạng hồ Delta của họ.” Cả Databricks và Snowflake sẽ chạy các dịch vụ bảo trì trên dữ liệu khách hàng, chẳng hạn như nén dữ liệu để giảm thiểu chi phí lưu trữ. Tuy nhiên, cả hai dịch vụ đó đều nhằm mục đích giữ bạn trong hệ sinh thái tương ứng của chúng, Blue nói. Ông nói: “Những gì chúng tôi muốn là trở nên bất khả tri đối với công cụ truy vấn. “Chúng tôi muốn cả Databricks và Snowflake và Starburst cũng như bất kỳ ai làm việc với chúng tôi và có thể truy cập dữ liệu đó một cách nguyên bản và với hiệu suất thực sự tuyệt vời… Chúng tôi nghĩ rằng mọi người muốn có nhiều sự linh hoạt trong công cụ truy vấn và không cần di chuyển dữ liệu của họ . ” Các mục liên quan: Sơ lược về tương lai của Kiến trúc Dữ liệu Mở Khách hàng có muốn Nền tảng Dữ liệu Mở không? Apache Iceberg: Trung tâm của một Hệ sinh thái Dịch vụ Dữ liệu Mới nổi?

Back to top button