Mặc dù Ngôn ngữ ký hiệu Hoa Kỳ (ASL) đã là một công cụ giao tiếp chính cho cộng đồng người câm điếc trong hơn hai thế kỷ, việc thông thạo ngôn ngữ này vẫn còn rất hiếm trong số đông công chúng.
Và mặc dù các cuộc đàm phán về khả năng tiếp cận ngày càng tăng trong công nghệ, chúng tôi vẫn chưa thấy một sản phẩm phổ biến rộng rãi thực sự trực quan cho phép người dùng ASL thể hiện bản thân thông qua phần mềm với tốc độ và hiệu quả của các công cụ như phần mềm nhận dạng giọng nói hoặc trình dịch ngôn ngữ.
Đây là lý do tại sao một phát minh của một sinh viên ở Ấn Độ đã khiến mọi người khá ấn tượng.
Priyanjali Gupta, một sinh viên năm thứ ba Khoa học tổng hợp tại Học viện Công nghệ Vellore của Tamil Nadu, gần đây đã chia sẻ trên hồ sơ LinkedIn của mình về cách cô quản lý để phát triển một mô hình trí tuệ nhân tạo (AI) có thể dịch các bản ký ASL sang tiếng Anh ngay lập tức.
Cô tiết lộ rằng cô đã phát triển mô hình bằng cách sử dụng API phát hiện đối tượng TensorFlow – một giao diện phần mềm được xây dựng dựa trên một trong những thư viện học máy phổ biến nhất thế giới do Google thiết kế. Cho đến nay, mô hình này đã có thể dịch các dấu hiệu bằng cách sử dụng phương pháp học chuyển giao từ một mô hình được đào tạo trước có tên là ssd_mobilenet.
Trong bài đăng của mình, cô ấy đã trình diễn khả năng của mô hình của mình bằng cách ký tay vào một vài từ ASL phổ biến, được AI chọn và ngay lập tức dịch sang các từ tiếng Anh.
“Tập dữ liệu được tạo thủ công bằng cách chạy tệp Python Bộ sưu tập hình ảnh thu thập hình ảnh từ webcam của bạn cho tất cả các dấu hiệu được đề cập bên dưới bằng Ngôn ngữ ký hiệu Hoa Kỳ: Xin chào, tôi yêu bạn, Cảm ơn bạn, Vui lòng, Có và Không,” cô giải thích .
Bài đăng của cô trên LinkedIn cho đến nay đã nhận được hơn 60.000 phản ứng, với nhiều người tò mò về thiết kế và phương pháp luận được sử dụng để tạo ra mô hình.
Trả lời một bình luận phê bình, cô thừa nhận rằng mặc dù cô đã tận dụng tối đa một mô hình được đào tạo trước để tạo ra mô hình của riêng mình, cô tự tin rằng cộng đồng nguồn mở cuối cùng sẽ có thể xây dựng dựa trên những khái niệm như vậy để hy vọng phát triển một AI phù hợp hơn cho các nhiệm vụ phức tạp hơn trong cùng một hệ thống.
“Để xây dựng một mô hình học sâu từ đầu chỉ để phát hiện dấu hiệu là một vấn đề thực sự khó, nhưng không phải là không thể,” cô viết. “Và hiện tại tôi chỉ là một sinh viên nghiệp dư nhưng tôi đang học hỏi và tôi tin rằng sớm muộn gì cộng đồng mã nguồn mở của chúng ta, những người có kinh nghiệm và học hỏi nhiều hơn tôi sẽ tìm ra giải pháp và có lẽ chúng ta chỉ có thể có các mô hình học sâu cho các ngôn ngữ ký hiệu. ”
Vì vậy, mặc dù có vẻ như thiết kế không ở gần mức cần thiết để áp dụng rộng rãi, nhưng vẫn khá tuyệt khi thấy các nhà đổi mới trẻ đang thực hiện các động thái có ý thức như thế nào để đáp ứng nhu cầu thích hợp cho những người có trở ngại trong giao tiếp.
Hy vọng rằng đây có thể là một chỉ báo cho thấy công nghệ cần thiết để giúp cộng đồng người câm điếc dễ dàng và nhanh chóng trò chuyện với phần còn lại của thế giới sẽ sớm thành hiện thực.