Data science

Nghiên cứu cho thấy rằng ngay cả những hệ thống nhận dạng giọng nói tốt nhất cũng thể hiện sự sai lệch

Bài viết này ban đầu xuất hiện trên VentureBeat và được sao chép với sự cho phép. Ngay cả các thuật toán nhận dạng giọng nói tự động (ASR) tiên tiến nhất cũng phải vật lộn để nhận ra giọng của những người từ một số khu vực nhất định trên thế giới. Đó là phát hiện hàng đầu của một nghiên cứu mới được công bố bởi các nhà nghiên cứu tại Đại học Amsterdam, Viện Ung thư Hà Lan và Đại học Công nghệ Delft. và các nước xuất xứ tốt hơn những nước khác. Nhận dạng giọng nói đã có một chặng đường dài kể từ máy Shoebox của IBM và búp bê Julie của Worlds of Wonder. Nhưng bất chấp những tiến bộ mà AI đạt được, các hệ thống nhận dạng giọng nói ngày nay tốt nhất là không hoàn hảo – và phân biệt đối xử tồi tệ nhất. Trong một nghiên cứu do Washington Post ủy quyền, những chiếc loa thông minh phổ biến do Google và Amazon sản xuất có khả năng hiểu không cao hơn 30% – Giọng Mỹ hơn giọng của người dùng bản ngữ. Gần đây hơn, dự án Xóa giọng nói của Liên minh Công lý Thuật toán phát hiện ra rằng các hệ thống nhận dạng giọng nói của Apple, Amazon, Google, IBM và Microsoft nói chung đạt được tỷ lệ lỗi từ là 35% cho giọng người Mỹ gốc Phi so với 19% cho giọng da trắng. Các đồng tác giả của nghiên cứu mới nhất này bắt đầu điều tra xem hệ thống ASR dành cho người Hà Lan nhận dạng giọng nói từ các nhóm người nói khác nhau tốt như thế nào. Trong một loạt các thử nghiệm, họ đã quan sát xem liệu hệ thống ASR có thể chống lại sự đa dạng trong giọng nói theo các khía cạnh giới tính, tuổi tác và giọng nói hay không. Các nhà nghiên cứu bắt đầu bằng cách để một hệ thống ASR nhập dữ liệu mẫu từ CGN, một ngữ liệu có chú thích được sử dụng để đào tạo các mô hình ngôn ngữ AI để nhận dạng tiếng Hà Lan. CGN chứa các bản ghi âm được nói bởi những người trong độ tuổi từ 18 đến 65 tuổi đến từ Hà Lan và vùng Flanders của Bỉ, bao gồm các phong cách nói bao gồm cả tin tức truyền hình và các cuộc trò chuyện qua điện thoại. CGN có số giờ phát biểu khổng lồ 483 do 1 người nói, 185 phụ nữ và 1, 678 nam giới. Nhưng để làm cho hệ thống mạnh mẽ hơn nữa, các đồng tác giả đã áp dụng các kỹ thuật nâng cao dữ liệu để tăng tổng số giờ đào tạo dữ liệu “gấp chín lần”. Khi các nhà nghiên cứu chạy hệ thống ASR được đào tạo thông qua một bộ thử nghiệm bắt nguồn từ CGN, họ nhận thấy rằng nó nhận dạng giọng nói của nữ giới đáng tin cậy hơn giọng nói của nam giới bất kể phong cách nói. Hơn nữa, hệ thống gặp khó khăn trong việc nhận dạng giọng nói của những người lớn tuổi so với những người trẻ hơn, có thể là do nhóm trước đây không khớp rõ ràng. Và nó có thời gian dễ dàng hơn khi phát hiện giọng nói từ người bản ngữ so với người không phải là người bản ngữ. Thật vậy, bài nói tiếng mẹ đẻ được công nhận là tệ nhất – của trẻ em Hà Lan – có tỷ lệ lỗi từ cao hơn khoảng 20% so với của nhóm tuổi không phải bản địa tốt nhất. Nhìn chung, kết quả cho thấy bài phát biểu của thanh thiếu niên được hệ thống diễn giải chính xác nhất, tiếp theo là người cao niên '(trên độ tuổi 65) và trẻ em. Điều này được tổ chức ngay cả đối với những người không phải là người bản xứ, những người rất thông thạo từ vựng và ngữ pháp tiếng Hà Lan. Như các nhà nghiên cứu đã chỉ ra, mặc dù không thể loại bỏ sự thiên vị len lỏi vào các tập dữ liệu, nhưng một giải pháp là giảm thiểu sự thiên vị này ở cấp độ thuật toán. “ định hình vấn đề, phát triển thành phần nhóm và quá trình thực hiện từ quan điểm dự đoán, chủ động phát hiện và phát triển các chiến lược giảm thiểu thành kiến ​​ái kỷ [to address bias in ASR systems], ”các nhà nghiên cứu viết trong một bài báo mô tả chi tiết công việc của họ. “Một chiến lược giảm thiểu thiên vị trực tiếp liên quan đến việc đa dạng hóa và hướng tới sự đại diện cân bằng trong tập dữ liệu. Một chiến lược giảm thiểu thành kiến ​​gián tiếp đề cập đến thành phần nhóm đa dạng: sự đa dạng về độ tuổi, khu vực, giới tính, v.v. cung cấp thêm các lăng kính bổ sung để phát hiện sự thiên vị tiềm ẩn trong thiết kế. Cùng nhau, họ có thể giúp đảm bảo một môi trường phát triển toàn diện hơn cho ASR. ”

Back to top button