Data science

Yandex tìm ra cách tốt hơn để đào tạo mô hình ML qua Internet

Một đề xuất mới từ gã khổng lồ công nghệ Yandex đã vượt qua một rào cản lớn trong quá trình phát triển máy học bằng cách đưa quy trình này đến với đại chúng, để bất kỳ ai có máy tính gia đình đều có thể giúp đào tạo một mạng nơ-ron lớn. Các ứng dụng học sâu hiện đại yêu cầu nhiều GPU, điều này có thể tốn kém và do đó thường chỉ có thể truy cập được đối với các công ty và tổ chức được tài trợ tốt. Để đảm bảo đào tạo mô hình ML không trở thành lĩnh vực độc quyền của các tổ chức lớn có đủ khả năng cung cấp công nghệ cần thiết, các nhà phát triển đã thử nghiệm với việc tổng hợp các tài nguyên máy tính của một nhóm tình nguyện viên. Máy tính dạng lưới hoặc máy tình nguyện là một ý tưởng hay, nhưng có những vấn đề xung quanh độ trễ cao, băng thông không đối xứng và những thách thức cụ thể đối với máy tính tình nguyện. Yandex đang đề xuất một giải pháp được gọi là Học sâu phân tán trong cộng tác mở (DeDLOC) nhằm giải quyết những thách thức đó bằng cách lấy các thuộc tính tốt nhất của tính song song dữ liệu trong GPU và cải thiện các kỹ thuật đào tạo phân tán phổ biến. DeDLOC giúp bất kỳ ai trong cộng đồng ML đều có thể thực hiện khóa đào tạo trước phân tán trên quy mô lớn với bạn bè của họ. Khung thuật toán mới tự thích ứng với các thiết lập mạng và phần cứng khác nhau của những người tham gia để truyền dữ liệu hiệu quả. DeDLOC đã được thử nghiệm thành công – nhóm các nhà nghiên cứu của Yandex, cùng với Hugging Face, một giáo sư từ Đại học Toronto và những người khác, đã sử dụng phương pháp này để thử nghiệm sahajBERT, một mô hình cho ngôn ngữ Bengali, với 40 tình nguyện viên. Trong các tác vụ xuôi dòng, mô hình đạt được chất lượng tương đương với các mô hình lớn hơn nhiều bằng cách sử dụng hàng trăm bộ gia tốc bậc cao.DeDLOC cũng có thể quan trọng đối với NLP đa ngôn ngữ. Giờ đây, cộng đồng cho bất kỳ ngôn ngữ nào cũng có thể đào tạo các mô hình của riêng họ mà không cần đến các nguồn tài nguyên tính toán khổng lồ tập trung tại một nơi. Bạn có thể tìm thấy repo GitHub được liên kết với DeDLOC TẠI ĐÂY. Có thể tìm thấy bài nghiên cứu DeDLOC tại đây: https://arxiv.org/abs/2106.10207 Đăng ký nhận bản tin InsideBIGDATA miễn phí. Tham gia với chúng tôi trên Twitter: @ InsideBigData1 – https://twitter.com/InsideBigData1

  • Trang chủ
  • CRM
  • Email doanh nghiệp
  • Email marketing
  • Marketing News
  • Marketing tổng thể
  • SEO
  • Thiết kế Website
  • Web Hosting
  • Chatbot
  • Data science
  • Back to top button