Trong những tháng gần đây, đã có rất nhiều bằng chứng mang tính giai thoại và những lời xì xào chung liên quan đến sự suy giảm chất lượng của các phản hồi ChatGPT. Một nhóm các nhà nghiên cứu từ Stanford và UC Berkeley đã quyết định xác định xem liệu có thực sự có sự xuống cấp hay không và đưa ra các số liệu để đo lường quy mô của sự thay đổi bất lợi. Tóm lại, việc giảm chất lượng ChatGPT chắc chắn là ngoài sức tưởng tượng.
Ba học giả nổi tiếng, Matei Zaharia, Lingjiao Chen và James Zou, đứng sau bài báo nghiên cứu được xuất bản gần đây Hành vi của ChatGPT thay đổi theo thời gian như thế nào? (PDF) Đầu ngày hôm nay, Giáo sư Khoa học Máy tính tại UC Berkeley, Zaharia, đã lên Twitter để chia sẻ những phát hiện. Anh ấy đã nhấn mạnh một cách đáng ngạc nhiên rằng “Tỷ lệ thành công của GPT -4 trên ‘số này có phải là số nguyên tố không? Nghĩ từng bước một’ đã giảm từ 97,6% xuống 2,4% từ tháng 3 đến tháng 6.”
GPT-4 đã phổ biến rộng rãi khoảng hai tuần trước và được OpenAI coi là mô hình tiên tiến và có khả năng nhất. Nó nhanh chóng được phát hành cho các nhà phát triển API trả tiền, tuyên bố rằng nó có thể cung cấp năng lượng cho một loạt sản phẩm AI sáng tạo mới. Do đó, thật đáng buồn và đáng ngạc nhiên khi nghiên cứu mới cho thấy họ rất mong muốn nhận được phản hồi có chất lượng khi đối mặt với một số truy vấn khá đơn giản.
Chúng tôi đã đưa ra một ví dụ về tỷ lệ thất bại cao nhất của GPT-4 trong các truy vấn số nguyên tố ở trên. Nhóm nghiên cứu đã thiết kế các nhiệm vụ để đo lường các khía cạnh định tính sau của các mô hình ngôn ngữ lớn (LLM) cơ bản của ChatGPT là GPT-4 và GPT-3.5. Các nhiệm vụ được chia thành bốn loại, đo lường một loạt các kỹ năng AI trong khi tương đối đơn giản để đánh giá hiệu suất.
- Giải bài toán
- Trả lời câu hỏi nhạy cảm
- Tạo mã
- lý luận trực quan
Tổng quan về hiệu suất của Open AI LLM được cung cấp trong biểu đồ bên dưới. Các nhà nghiên cứu đã định lượng các bản phát hành GPT-4 và GPT-3.5 trong các bản phát hành vào tháng 3 năm 2023 và tháng 6 năm 2023.
Rõ ràng là dịch vụ LLM “giống nhau” trả lời các truy vấn khá khác nhau theo thời gian. Sự khác biệt đáng kể được nhìn thấy trong khoảng thời gian tương đối ngắn này. Vẫn chưa rõ các LLM này được cập nhật như thế nào và liệu những thay đổi nhằm cải thiện một số khía cạnh hiệu suất của chúng có thể tác động tiêu cực đến những khía cạnh khác hay không. Xem phiên bản mới nhất của GPT-4 ‘tệ hơn’ bao nhiêu so với phiên bản tháng 3 trong ba hạng mục thử nghiệm. Nó chỉ được hưởng một lợi nhuận nhỏ trong suy luận trực quan.
Một số có thể không bận tâm về chất lượng thay đổi được quan sát thấy trong ‘các phiên bản giống nhau’ của các LLM này. Tuy nhiên, các nhà nghiên cứu lưu ý: “Do tính phổ biến của ChatGPT, cả GPT-4 và GPT-3.5 đã được người dùng cá nhân và một số doanh nghiệp áp dụng rộng rãi.” Do đó, không có khả năng một số thông tin do GPT tạo ra có thể ảnh hưởng đến của bạn mạng sống.
Các nhà nghiên cứu đã bày tỏ ý định tiếp tục đánh giá các phiên bản GPT trong một nghiên cứu dài hơn. Có lẽ Open AI nên theo dõi và xuất bản các bài kiểm tra chất lượng thường xuyên của riêng mình cho các khách hàng trả tiền của mình. Nếu không thể hiểu rõ hơn về điều này, thì các tổ chức chính phủ hoặc doanh nghiệp có thể cần phải kiểm tra một số chỉ số chất lượng cơ bản cho các LLM này, những chỉ số này có thể có tác động đáng kể đến thương mại và nghiên cứu.
Không, chúng tôi không làm cho GPT-4 trở nên ngu ngốc hơn. Hoàn toàn ngược lại: chúng tôi làm cho mỗi phiên bản mới thông minh hơn phiên bản trước. Giả thuyết hiện tại: Khi bạn sử dụng nó nhiều hơn, bạn bắt đầu nhận thấy các vấn đề mà trước đây bạn không thấy.Ngày 13 tháng 7 năm 2023
Công nghệ AI và LLM không còn xa lạ với các vấn đề đáng ngạc nhiên và với các tuyên bố ăn cắp dữ liệu của ngành và các vũng lầy PR khác, hiện tại nó dường như là biên giới ‘miền tây hoang dã’ mới nhất trong cuộc sống và thương mại được kết nối.