Data science

Ống thở của Trình gắn nhãn dữ liệu tự động AI thu được 85 triệu đô la trong Nguồn vốn VC

Đối với nhiều doanh nghiệp sử dụng AI, một trong những trở ngại lớn nhất tiếp tục là khó khăn trong việc đưa tất cả dữ liệu quan trọng của họ vào các nhóm được phân loại và dán nhãn rõ ràng để nó có thể được sử dụng để thúc đẩy giá trị doanh nghiệp. Phần lớn dữ liệu đó vẫn phải được sắp xếp theo cách thủ công thành từng nhóm trước khi được sử dụng, điều này tốn rất nhiều thời gian và tài nguyên và khiến các dự án mất nhiều thời gian hơn để hoàn thành. Snorkel AI muốn thay đổi điều đó bằng cách sử dụng nền tảng AI lấy dữ liệu làm trung tâm, Snorkel Flow, giúp các nhà khoa học dữ liệu và chuyên gia phi kỹ thuật giảm đáng kể thời gian dành cho việc lập mô hình AI bằng cách tự động hóa việc ghi nhãn và phân nhóm dữ liệu bằng cách sử dụng sức mạnh của AI. Để tiếp tục phát triển công việc này, Snorkel AI đã thông báo về việc nhận được vòng tài trợ Series C mới 85 triệu đô la Mỹ vào ngày 8 tháng 8. 9 (Thứ Hai) sẽ được sử dụng để phát triển hơn nữa đội ngũ kỹ thuật và bán hàng, đồng thời mang lại nhiều cải tiến hơn cho nền tảng của mình. Alex Ratner, Giám đốc điều hành của Snorkel AI Alex Ratner, người đồng sáng lập và Giám đốc điều hành của Snorkel AI, nói với EnterpriseAI rằng ý tưởng về công nghệ của công ty bắt đầu từ 2015 trong một trung tâm nghiên cứu tại Phòng thí nghiệm AI Stanford, nơi nhóm AI Snorkel sau đó đã được tách ra. Ông nói, mỗi ngày, các nhà khoa học, bác sĩ và những người khác đến văn phòng của họ và than thở rằng họ thất vọng vì một vấn đề được chia sẻ – rằng quá khó và mất quá nhiều thời gian để có được tất cả dữ liệu của họ trước khi họ có thể sử dụng nó. cho công việc của họ. Các nhiệm vụ kéo dài hàng tuần hoặc hàng tháng, đúng hơn là hàng giờ hoặc hàng ngày, đó là những gì họ cần để có thể thúc đẩy dự án của mình về phía trước. Ratner nói: “Tất cả họ đều vướng vào cùng một thứ. “Họ đã có một khoảng thời gian dễ dàng hơn bao giờ hết trên các mô hình và cơ sở hạ tầng… trở nên hàng hóa hơn, nhưng tất cả đều bị mắc kẹt trong dữ liệu.” Các vấn đề liên quan đến quân đoàn, chẳng hạn như làm cách nào để họ dán nhãn nhanh hơn 100, 000 hình ảnh y tế cần thiết để bắt đầu với AI, ông nói. “Tôi nghĩ rằng chúng ta đã thấy vấn đề này xuất hiện sớm hơn một chút so với những người khác. Chúng tôi đã có một vài năm để làm việc về cách thực hiện AI tập trung vào dữ liệu, nơi dữ liệu này là trọng tâm đầu tiên và quan trọng nhất và vì vậy nó thực sự là thực tế. ” Sử dụng Snorkel Flow, thay vì phải mất hàng tháng để gắn nhãn 100, 000 hình ảnh y tế, người dùng có thể ngồi xuống với nền tảng trong vài giờ và hiển thị lặp đi lặp lại một số mẫu mong muốn cho mô hình, sau đó học cách ngoại suy nó. Ratner cho biết nhu cầu từ dữ liệu. “Thách thức của dữ liệu phi cấu trúc là mức độ phức tạp của nó, nhưng điều quan trọng là bạn có thể hiển thị cho nó một số ví dụ trong Snorkel Flow và đào tạo một mô hình để tổng quát hóa nó.” Điều này có thể được thực hiện bằng cách sử dụng hàng chục phần dữ liệu thay vì hàng nghìn phần bằng cách sử dụng công nghệ của Snorkel trong nhiều phiên, ông nói thêm. “Snorkel Flow cung cấp một cách tự động hơn, có lập trình hơn để thực hiện điều đó,” anh nói. “Người dùng đưa ra các kinh nghiệm hoặc quy tắc thô sơ hoặc các tín hiệu khác để thực sự thúc đẩy quá trình này thay vì phải gắn nhãn riêng lẻ cho từng hợp đồng trong vài tuần hoặc vài tháng để có thể dạy AI. Con người vẫn còn vướng mắc trong quan niệm của chúng ta về quy trình phát triển AI thực tế của chúng ta. Con người chỉ đang đưa ra những thứ như quy tắc hoặc khuôn mẫu, chứ không phải là những ví dụ riêng lẻ ”. Ví dụ, nhiều doanh nghiệp cần phân loại các tài liệu phức tạp hoặc trích xuất thông tin từ các tài liệu đó. Sử dụng Snorkel Flow, một nhà phân tích pháp lý tại một ngân hàng có thể tìm kiếm một cụm từ chính trong tiêu đề hoặc một cụm từ trước một điều khoản mà họ đang cố gắng trích xuất, thay vì tiến hành các tìm kiếm như vậy theo cách thủ công trong nhiều tuần hoặc nhiều tháng, Ratner nói. Yêu cầu có thể được thực hiện bằng cách sử dụng bất kỳ loại dữ liệu nào, từ ảnh, văn bản đến PDF, HTML và hơn thế nữa. Nền tảng này rút ngắn chu kỳ phát triển và cải thiện chất lượng ứng dụng, đồng thời giúp quản lý sai lệch dữ liệu AI. Một khách hàng, ba ngân hàng hàng đầu của Hoa Kỳ, cho biết họ đã sử dụng Snorkel Flow để phát triển một ứng dụng xử lý hợp đồng trong thời gian ít hơn 24 số giờ tạo ra độ chính xác khi luyện tập hơn 99 phần trăm, theo Snorkel AI. Trong một nghiên cứu điển hình khác, một công ty công nghệ sinh học lớn cho biết họ đã tiết kiệm được khoảng 10 triệu đô la khi trích xuất dữ liệu phi cấu trúc, đạt được 99. Độ chính xác 1 phần trăm với Snorkel Flow. Vòng tài trợ mới nhất của Snorkel AI được đồng dẫn đầu bởi nhà đầu tư mới, Addition, cũng như từ các quỹ và tài khoản được quản lý bởi BlackRock, một nhà đầu tư trước đó, công ty cho biết. Cũng tham gia còn có các nhà đầu tư trước đó, bao gồm Greylock, GV, Lightspeed Venture Partners, Nepenthe Capital và Walden. Công ty, được thành lập tại 2019, hiện đã nhận được tổng số tiền là $ 135 triệu tiền tài trợ. Sumit Agarwal, nhà phân tích Sumit Agarwal, một nhà phân tích của Gartner, nói với EnterpriseAI rằng việc gắn nhãn dữ liệu là nền tảng cho sự phát triển của quy trình làm việc AI, vốn phụ thuộc vào khối lượng lớn dữ liệu được gắn nhãn. Agarwal nói: “Dán nhãn thường là một nỗ lực thủ công, đơn điệu liên quan đến thuê ngoài hoặc thuê ngoài cộng đồng. “Giải pháp của Snorkel AI làm cho nhiệm vụ này dễ quản lý hơn trong một tổ chức. Khả năng bắt đầu với một lượng nhỏ dữ liệu được gắn nhãn thủ công bằng cách sử dụng AI để gắn nhãn các bộ dữ liệu lớn hơn là rất mạnh mẽ. ” Soyeb Barot, nhà phân tích Soyeb Barot, một nhà phân tích khác của Gartner, người phụ trách phân tích dữ liệu và AI, cho biết rằng phương pháp của Snorkel AI kết hợp hai phương pháp [most common] được tìm thấy trong ghi nhãn dữ liệu – chú thích con người trong vòng lặp và các thuật toán thực hiện rất nhiều tự động gắn nhãn và học hỏi từ chú thích của con người theo thời gian. Barot nói: “Snorkel kết hợp hai dịch vụ này lại với nhau và quan trọng nhất là giải pháp SaaS có thể được triển khai nội bộ. “Điều này rất quan trọng vì nhiều tổ chức không thoải mái khi chuyển dữ liệu đến các nhà cung cấp dịch vụ đám mây công cộng và hoặc tận dụng lực lượng nhân công bên ngoài tổ chức của họ để bảo mật.” Đối với khách hàng, dữ liệu của họ là yếu tố quan trọng giúp tất cả hoạt động tốt, Barot nói. “Đến với nước sốt bí mật, nó thường không phải là thuật toán – Netflix công khai chia sẻ các thuật toán mà họ sử dụng để cá nhân hóa – đó là dữ liệu giúp xây dựng các mô hình tốt để tự động dán nhãn. Dữ liệu được quản lý theo miền cụ thể đóng một vai trò quan trọng trong việc bạn có thể xây dựng một mô hình / thuật toán tốt như thế nào. ” Kevin Petrie, nhà phân tích Một nhà phân tích khác, Kevin Petrie của Tập đoàn Eckerson, cho biết Snorkel AI “nhắm vào điểm đau chính đối với các nhóm AI doanh nghiệp cần đào tạo các mô hình học máy có giám sát. Họ cần gắn nhãn kết quả lịch sử trong tập dữ liệu lớn, điều này đòi hỏi chuyên môn về miền của chủ sở hữu doanh nghiệp. Bằng cách lập trình quy trình ghi nhãn này, các nhà khoa học dữ liệu có thể gắn nhãn nhiều dữ liệu hơn nhưng lại mất ít thời gian của chủ doanh nghiệp hơn. Điều này giúp tạo ra các mô hình ML chính xác hiệu quả hơn ”. Petrie cho biết công ty cạnh tranh với một số nhà cung cấp khác trong không gian vòng đời của máy học. “Tuy nhiên, Snorkel tạo sự khác biệt với cách tiếp cận ghi nhãn theo chương trình,” ông nói thêm.

Back to top button