Có vẻ như các công ty AI bao gồm Microsoft, OpenAI và Cohere đang làm mọi thứ có thể để tìm dữ liệu tổng hợp nhằm đào tạo các sản phẩm AI của họ. Trích dẫn tính khả dụng hạn chế của dữ liệu “hữu cơ” do con người tạo ra trên mạng toàn cầu, các công ty này nhắm đến việc sử dụng dữ liệu (tổng hợp) do AI tạo ra trong một loại vòng lặp vô hạn, nơi đào tạo đạt được trên dữ liệu đã được tạo ra một cách tổng quát.
Aidan Gomez, giám đốc điều hành của công ty khởi nghiệp LLM trị giá 2 tỷ đô la Cohere cho biết: “Nếu bạn có thể lấy tất cả dữ liệu mình cần từ trang web thì điều đó thật tuyệt vời. “Trên thực tế, web quá ồn ào và lộn xộn nên nó không thực sự đại diện cho dữ liệu mà bạn muốn. Web không làm mọi thứ chúng ta cần.”
Và cũng có vấn đề về chi phí, vì dữ liệu do con người tạo ra, theo Gomez, là “cực kỳ tốn kém”. Điều này đã dẫn đến việc thành lập một số công ty “dữ liệu tổng hợp”, chẳng hạn như Gretel.ai, chuyên sản xuất các bộ dữ liệu tổng hợp sau đó được bán cho mục đích đào tạo.
Vấn đề về nguồn gốc và tính sẵn có của dữ liệu là một trong những yếu tố hạn chế lớn nhất trong kỷ nguyên AI hiện tại của chúng ta. Ngày nay, có những rủi ro thực sự trong việc đào tạo các mạng AI với dữ liệu tổng hợp đã được chính các AI “nhai” và tạo ra. Thứ nhất, có vấn đề về sự thiếu sót phức tạp trong dữ liệu huấn luyện cơ sở: nếu tập dữ liệu huấn luyện ban đầu, không tổng hợp đã bị sai lệch, thì những sai lệch tương tự đó sẽ được đưa vào, tiêu hóa và khuếch đại trong các lần lặp lại huấn luyện tiếp theo, làm tăng mức độ liên quan của nó.
Nhưng một vấn đề khác, có lẽ còn nghiêm trọng hơn nhiều bắt nguồn từ một giới hạn mới được phát hiện gần đây: chất lượng đầu ra xuống cấp nghiêm trọng sau năm vòng đào tạo về dữ liệu tổng hợp do AI tạo ra. Liệu điều kiện “MAD” này có đưa ra giới hạn mềm hay cứng đối với đào tạo AI hay không có vẻ như là một câu hỏi trọng tâm về ý định đào tạo đệ quy mạng AI của Microsoft và OpenAI. Tuy nhiên, đây là một không gian có thể sẽ chứng kiến một loạt các nghiên cứu; Ví dụ: Microsoft Research đã xuất bản các bài báo về các truyện ngắn được tạo đệ quy (có nghĩa là một mô hình được đào tạo dựa trên các câu chuyện được tạo bởi một mô hình khác) và mạng AI mã hóa được đào tạo về tài liệu do AI tạo xung quanh lập trình Python. Việc xác minh rủi ro suy thoái dữ liệu trong các mô hình này và các mô hình có kích thước lớn hơn (chẳng hạn như Llama 2 có tham số 70B, được Meta phát hành gần đây thành mã nguồn mở) sẽ là chìa khóa để biết AI phát triển bao xa (và nhanh như thế nào) trong tương lai gần.
Với việc các công ty hướng đến AI đang đòi hỏi ngày càng nhiều dữ liệu, điều hợp lý là họ sẽ cố gắng tạo đệ quy các bộ dữ liệu chất lượng cao. Điều này có thể được thực hiện theo nhiều cách, nhưng có lẽ cách có khả năng thành công cao hơn là chỉ cần để hai mạng AI tương tác với nhau, trong đó một mạng đóng vai gia sư và mạng kia đóng vai học sinh. Tuy nhiên, sự can thiệp của con người sẽ (và sẽ luôn luôn) là cần thiết để loại bỏ các điểm dữ liệu chất lượng thấp hơn và kiểm tra “ảo giác” (AI khẳng định không trung thực).
Có một số trở ngại trên con đường đến với giấc mơ công nghệ về một AI tự phát triển, tự học; các mô hình có thể thảo luận nội bộ, khám phá nội bộ và tạo ra kiến thức mới không chỉ đơn thuần là pha trộn và kết hợp (mặc dù xét cho cùng thì đó cũng là một trong những đặc điểm nổi bật của đầu ra sáng tạo).
Tất nhiên, chúng ta phải ghi nhớ rằng không phải giấc mơ nào cũng dễ chịu. Chúng ta đã gặp khó khăn khi đối phó với những cơn ác mộng do con người gây ra; không thể biết được “cơn ác mộng” của máy móc có thể ảnh hưởng đến mức nào.