Thiết kế Website

Tốt nhất của arXiv.org cho AI, Máy học và Học sâu – Tháng 8 năm 2021

Trong tính năng định kỳ hàng tháng này, chúng tôi lọc các bài nghiên cứu gần đây xuất hiện trên máy chủ in sẵn arXiv.org để tìm các chủ đề hấp dẫn liên quan đến AI, máy học và học sâu – từ các lĩnh vực bao gồm thống kê, toán học và khoa học máy tính – và cung cấp cho bạn những điều hữu ích “tốt nhất trong danh sách ”trong tháng qua. Các nhà nghiên cứu từ khắp nơi trên thế giới đóng góp vào kho lưu trữ này như một bước mở đầu cho quá trình bình duyệt để xuất bản trên các tạp chí truyền thống. arXiv chứa một kho tàng thực sự về các phương pháp học thống kê mà bạn có thể sử dụng một ngày nào đó để giải các bài toán khoa học dữ liệu. Các bài viết được liệt kê dưới đây đại diện cho một phần nhỏ của tất cả các bài báo xuất hiện trên máy chủ in sẵn. Chúng được liệt kê không theo một thứ tự cụ thể nào với một liên kết đến mỗi bài báo cùng với một cái nhìn tổng quan ngắn gọn. Liên kết đến các kho lưu trữ GitHub được cung cấp khi có sẵn. Đặc biệt là các bài viết có liên quan được đánh dấu bằng biểu tượng “thích”. Hãy cân nhắc rằng đây là những bài báo nghiên cứu học thuật, thường hướng đến sinh viên sau đại học, tài liệu đăng bài và các chuyên gia dày dạn kinh nghiệm. Chúng thường chứa một mức độ cao của toán học vì vậy hãy chuẩn bị. Thưởng thức! Về Cơ hội và Rủi ro của Mô hình Nền tảng AI đang trải qua một sự thay đổi mô hình với sự gia tăng của các mô hình (ví dụ: BERT, DALL-E, GPT-3) được đào tạo trên dữ liệu rộng ở quy mô lớn và có thể thích ứng với một loạt các nhiệm vụ cơ bản . Những mô hình này có thể được coi là mô hình nền tảng để nhấn mạnh tính chất trọng tâm nhưng chưa hoàn thiện của chúng. Bài báo này cung cấp một tài khoản kỹ lưỡng về các cơ hội và rủi ro của các mô hình nền tảng, từ khả năng của chúng (ví dụ: ngôn ngữ, tầm nhìn, robot, suy luận, tương tác với con người) và các nguyên tắc kỹ thuật (ví dụ: kiến ​​trúc mô hình, quy trình đào tạo, dữ liệu, hệ thống, bảo mật , đánh giá, lý thuyết) đối với các ứng dụng của chúng (ví dụ: luật, chăm sóc sức khỏe, giáo dục) và tác động xã hội (ví dụ: sự không công bằng, lạm dụng, tác động kinh tế và môi trường, cân nhắc pháp lý và đạo đức). Mặc dù các mô hình nền tảng dựa trên học tập sâu và học tập chuyển giao tiêu chuẩn, quy mô của chúng dẫn đến các khả năng mới xuất hiện và hiệu quả của chúng trên rất nhiều nhiệm vụ khuyến khích sự đồng nhất. Đồng nhất hóa cung cấp đòn bẩy mạnh mẽ nhưng đòi hỏi sự thận trọng, vì các khiếm khuyết của mô hình nền tảng được thừa hưởng bởi tất cả các mô hình đã điều chỉnh ở hạ lưu. Bất chấp việc các mô hình nền tảng sắp được triển khai rộng rãi, chúng tôi hiện vẫn chưa hiểu rõ về cách chúng hoạt động, khi nào chúng thất bại và thậm chí chúng có khả năng làm được gì do các đặc tính mới nổi của chúng. Để giải quyết những câu hỏi này, phần lớn các nghiên cứu quan trọng về các mô hình nền tảng sẽ yêu cầu sự hợp tác liên ngành sâu sắc tương xứng với bản chất công nghệ xã hội cơ bản của chúng. Vision Transformers có thấy giống như mạng nơ-ron không? Cho đến nay, mạng nơ-ron chuyển đổi (CNN) vẫn là mô hình thực tế cho dữ liệu trực quan. Nghiên cứu gần đây đã chỉ ra rằng các mô hình Máy biến áp (ViT) (ViT) có thể đạt được hiệu suất tương đương hoặc thậm chí vượt trội trong các nhiệm vụ phân loại hình ảnh. Điều này đặt ra một câu hỏi trọng tâm: Vision Transformers đang giải quyết những nhiệm vụ này như thế nào? Chúng hoạt động giống như mạng phức hợp hay học các cách biểu diễn hình ảnh hoàn toàn khác nhau? Phân tích cấu trúc biểu diễn bên trong của ViT và CNN trên các tiêu chuẩn phân loại hình ảnh, người ta đã tìm thấy sự khác biệt nổi bật giữa hai kiến ​​trúc, chẳng hạn như ViT có các biểu diễn đồng nhất hơn trên tất cả các lớp. Bài báo này khám phá cách những khác biệt này phát sinh, tìm ra những vai trò quan trọng do sự tự chú ý đóng vai trò quan trọng, cho phép tổng hợp sớm thông tin toàn cầu và các kết nối dư ViT, giúp truyền bá mạnh mẽ các tính năng từ lớp thấp hơn lên lớp cao hơn. Bài báo nghiên cứu các phân nhánh đối với bản địa hóa không gian, chứng minh ViT bảo tồn thành công thông tin không gian đầu vào, với các tác động đáng chú ý từ các phương pháp phân loại khác nhau. Cuối cùng, bài báo nghiên cứu ảnh hưởng của thang đo tập dữ liệu (đào tạo trước) đối với các tính năng trung gian và việc học chuyển giao, và kết thúc bằng một cuộc thảo luận về kết nối với các kiến ​​trúc mới như MLP-Mixer. Paint Transformer: Feed Forward Neural Painting with Stroke Dự đoán Vẽ tranh thần kinh đề cập đến quy trình tạo ra một loạt các nét vẽ cho một hình ảnh nhất định và tái tạo nó một cách không thực tế bằng cách sử dụng mạng lưới thần kinh. Trong khi các tác nhân dựa trên việc học tăng cường (RL) có thể tạo ra một trình tự hành trình từng bước cho nhiệm vụ này, nhưng không dễ để đào tạo một tác nhân RL ổn định. Mặt khác, các phương pháp tối ưu hóa đột quỵ tìm kiếm một tập hợp các tham số đột quỵ lặp đi lặp lại trong một không gian tìm kiếm lớn; hiệu quả thấp như vậy đã hạn chế đáng kể tính phổ biến và tính thực tiễn của chúng. Khác với các phương pháp trước đây, bài báo này xây dựng nhiệm vụ như một bài toán dự đoán đặt và đề xuất một khung dựa trên Máy biến áp mới, được đặt tên là Máy biến áp sơn, để dự đoán các thông số của một bộ đột quỵ với mạng chuyển tiếp. Bằng cách này, mô hình có thể tạo ra một tập hợp các nét vẽ song song và có được bức tranh cuối cùng có kích thước 512 512 trong thời gian gần thực. Quan trọng hơn, vì không có bộ dữ liệu nào có sẵn để đào tạo Máy biến áp sơn, nghiên cứu đưa ra một đường dẫn tự đào tạo để nó có thể được đào tạo mà không cần bất kỳ bộ dữ liệu nào có sẵn trong khi vẫn đạt được khả năng tổng quát hóa tuyệt vời. Các thử nghiệm chứng minh rằng phương pháp của chúng tôi đạt được hiệu suất vẽ tốt hơn các phương pháp trước với chi phí đào tạo và suy luận rẻ hơn. Bạn có thể tìm thấy repo GitHub được liên kết với bài báo này TẠI ĐÂY. Phác thảo GAN của riêng bạn Người dùng có thể tạo một mô hình tổng quát sâu sắc bằng cách phác thảo một ví dụ duy nhất không? Theo truyền thống, việc tạo ra một mô hình GAN đòi hỏi phải thu thập một bộ dữ liệu quy mô lớn về các mẫu và kiến ​​thức chuyên môn về học sâu. Ngược lại, phác thảo có thể là cách dễ tiếp cận nhất để truyền tải một khái niệm trực quan. Bài báo này trình bày một phương pháp, GAN Sketching, để viết lại các GAN bằng một hoặc nhiều bản phác thảo, giúp cho việc đào tạo GAN dễ dàng hơn cho người dùng mới làm quen. Đặc biệt, trọng lượng của một mô hình GAN ban đầu được thay đổi theo bản phác thảo của người dùng. Đầu ra của mô hình được khuyến khích để phù hợp với bản phác thảo của người dùng thông qua sự mất mát đối nghịch giữa các miền. Hơn nữa, các phương pháp điều chỉnh khác nhau được khám phá để bảo toàn tính đa dạng và chất lượng hình ảnh của mô hình gốc. Các thí nghiệm đã chỉ ra rằng phương pháp này có thể tạo khuôn GAN để phù hợp với các hình dạng và tư thế được chỉ định bởi các bản phác thảo trong khi vẫn duy trì tính chân thực và đa dạng. Bạn có thể tìm thấy repo GitHub được liên kết với bài báo này TẠI ĐÂY. Ánh sáng, máy quay, diễn! Khuôn khổ để cải thiện độ chính xác của NLP đối với tài liệu OCR Số hóa tài liệu là điều cần thiết cho quá trình chuyển đổi kỹ thuật số của xã hội chúng ta, nhưng một bước quan trọng trong quá trình, Nhận dạng ký tự quang học (OCR), vẫn chưa hoàn hảo. Ngay cả các hệ thống OCR thương mại cũng có thể tạo ra đầu ra có vấn đề tùy thuộc vào độ trung thực của các tài liệu được quét. Bài báo này trình bày một khuôn khổ hiệu quả để giảm thiểu lỗi OCR cho bất kỳ nhiệm vụ NLP nào dưới đây, sử dụng Nhận dạng đối tượng được đặt tên (NER) làm ví dụ. Giải quyết đầu tiên là vấn đề khan hiếm dữ liệu để đào tạo mô hình bằng cách xây dựng một đường ống tổng hợp tài liệu, tạo ra dữ liệu thực tế nhưng bị suy giảm với các nhãn NER. Sự sụt giảm độ chính xác của NER được ước tính ở các mức độ suy giảm khác nhau và cho thấy rằng một mô hình khôi phục văn bản, được đào tạo dựa trên dữ liệu bị giảm chất lượng, đã đóng lại đáng kể khoảng cách về độ chính xác NER do lỗi OCR gây ra, bao gồm cả trên tập dữ liệu ngoài miền. Vì lợi ích của cộng đồng, quy trình tổng hợp tài liệu được cung cấp dưới dạng một dự án mã nguồn mở. Bạn có thể tìm thấy repo GitHub được liên kết với bài báo này TẠI ĐÂY. Giới thiệu cơ bản về hình học thông tin Khảo sát này mô tả cấu trúc vi phân-hình học cơ bản của đa tạp thông tin, nêu định lý cơ bản của hình học thông tin và minh họa một số trường hợp sử dụng của đa tạp thông tin này trong khoa học thông tin. Bài giải trình bày là khép kín bằng cách giới thiệu một cách ngắn gọn các khái niệm cần thiết của hình học vi phân, nhưng phần chứng minh bị bỏ qua cho ngắn gọn. Phát hiện tuyên truyền có thể diễn giải trong các bài báo Người dùng trực tuyến ngày nay đang tiếp xúc với các bài báo và bài đăng trên phương tiện truyền thông sai lệch và mang tính tuyên truyền cao hàng ngày. Để chống lại điều đó, một số cách tiếp cận đã được thiết kế nhằm mục đích đạt được mức tiêu thụ tin tức và phương tiện truyền thông trực tuyến lành mạnh và an toàn hơn. Hệ thống tự động có thể hỗ trợ con người phát hiện nội dung đó; Tuy nhiên, một trở ngại lớn đối với việc áp dụng rộng rãi của chúng là bên cạnh tính chính xác, các quyết định của các hệ thống như vậy cũng cần phải được giải thích để được người dùng tin tưởng và chấp nhận rộng rãi. Vì nội dung gây hiểu lầm và tuyên truyền ảnh hưởng đến người đọc thông qua việc sử dụng một số kỹ thuật đánh lừa, bài báo này đề xuất phát hiện và chỉ ra việc sử dụng các kỹ thuật đó như một cách để cung cấp khả năng diễn giải. Con người so với Máy móc: AutoML và Vai trò của các Chuyên gia Con người trong Phát hiện Phishing Học máy (ML) đã phát triển nhanh chóng trong vài năm qua và đã được sử dụng thành công cho một loạt các nhiệm vụ, bao gồm cả phát hiện lừa đảo. Tuy nhiên, việc xây dựng một hệ thống phát hiện dựa trên ML hiệu quả không phải là một nhiệm vụ tầm thường và đòi hỏi các nhà khoa học dữ liệu có kiến ​​thức về lĩnh vực liên quan. Các khung công tác Học máy tự động (AutoML) đã nhận được rất nhiều sự chú ý trong những năm gần đây, cho phép các chuyên gia không phải ML trong việc xây dựng mô hình học máy. Điều này dẫn đến một câu hỏi hấp dẫn về việc liệu AutoML có thể làm tốt hơn kết quả mà các nhà khoa học dữ liệu con người đạt được hay không. Bài báo này so sánh hiệu suất của sáu khuôn khổ AutoML nổi tiếng, hiện đại trên mười tập dữ liệu lừa đảo khác nhau để xem liệu các mô hình dựa trên AutoML có thể hoạt động tốt hơn các mô hình học máy được tạo thủ công hay không. Kết quả chỉ ra rằng các mô hình dựa trên AutoML có thể hoạt động tốt hơn các mô hình học máy được phát triển thủ công trong các nhiệm vụ phân loại phức tạp, cụ thể là trong các tập dữ liệu mà các tính năng không hoàn toàn phân biệt và các tập dữ liệu có các lớp chồng chéo hoặc mức độ phi tuyến tính tương đối cao. Nhận dạng khuôn mặt 3D: Khảo sát Nhận dạng khuôn mặt là một trong những chủ đề nghiên cứu được nghiên cứu nhiều nhất trong cộng đồng. Trong những năm gần đây, nghiên cứu về nhận dạng khuôn mặt đã chuyển sang sử dụng bề mặt 3D, vì các đặc điểm phân biệt hơn có thể được biểu thị bằng thông tin hình học 3D. Cuộc khảo sát này tập trung vào việc xem xét các kỹ thuật nhận dạng khuôn mặt 3D được phát triển trong mười năm qua thường được phân loại thành các phương pháp thông thường và phương pháp học sâu. Các kỹ thuật được phân loại được đánh giá bằng cách sử dụng mô tả chi tiết của các tác phẩm đại diện. Ưu điểm và nhược điểm của các kỹ thuật này được tóm tắt về độ chính xác, độ phức tạp và độ chắc chắn đối với sự thay đổi của khuôn mặt (biểu cảm, tư thế và khớp cắn, v.v.). Đóng góp chính của cuộc khảo sát này là nó bao gồm toàn diện cả phương pháp thông thường và phương pháp học sâu về nhận dạng khuôn mặt 3D. Ngoài ra, một đánh giá về cơ sở dữ liệu khuôn mặt 3D hiện có được cung cấp, cùng với thảo luận về những thách thức và hướng nghiên cứu trong tương lai. Hiểu được sự tổng quát hóa của Adam trong mạng lưới thần kinh học với sự điều tiết thích hợp Các phương pháp gradient thích ứng như Adam đã ngày càng trở nên phổ biến trong việc tối ưu hóa học sâu. Tuy nhiên, người ta đã quan sát thấy rằng so với sự giảm dần gradient (ngẫu nhiên), Adam có thể hội tụ đến một giải pháp khác với lỗi kiểm tra tồi tệ hơn đáng kể trong nhiều ứng dụng học sâu như phân loại hình ảnh, ngay cả với chính quy được tinh chỉnh. Bài báo này cung cấp một giải thích lý thuyết cho hiện tượng này: nó được chỉ ra rằng trong thiết lập không lồi của việc học các mạng nơron tích chập hai lớp quá tham số bắt đầu từ cùng một lần khởi tạo ngẫu nhiên, đối với một lớp phân phối dữ liệu (lấy cảm hứng từ dữ liệu hình ảnh), Adam và gradient descent (GD) có thể hội tụ đến các giải pháp toàn cục khác nhau của mục tiêu đào tạo với các lỗi tổng quát hóa khác nhau có thể chứng minh được, ngay cả với chính quy phân rã trọng lượng. Ngược lại, nó được chỉ ra rằng nếu mục tiêu đào tạo là lồi và sử dụng chính quy phân rã trọng lượng, thì bất kỳ thuật toán tối ưu hóa nào bao gồm Adam và GD sẽ hội tụ về cùng một giải pháp nếu quá trình đào tạo thành công. Điều này cho thấy rằng hiệu suất tổng quát hóa kém hơn của Adam về cơ bản gắn liền với bối cảnh không lồi của tối ưu hóa học sâu. Đăng ký nhận bản tin InsideBIGDATA miễn phí. Tham gia với chúng tôi trên Twitter: @ InsideBigData1 – https://twitter.com/InsideBigData1

  • Trang chủ
  • CRM
  • Email doanh nghiệp
  • Email marketing
  • Marketing News
  • Marketing tổng thể
  • SEO
  • Thiết kế Website
  • Web hosting
  • Chatbot
  • Khoa học dữ liệu
  • Back to top button