Trong vài tháng qua, chúng ta đã thấy cách các mô hình ngôn ngữ lớn như ChatGPT có thể tạo bản sao văn bản, cách các trình tạo hình ảnh như Khuếch tán ổn định có thể tạo ảnh theo yêu cầu và thậm chí cách một số có thể chuyển văn bản thành giọng nói. Một nhà phát triển dám nghĩ dám làm tên là Pizza Later, đã kết hợp năm mô hình AI khác nhau để tạo ra một quảng cáo hành động trực tiếp cho một nhà hàng pizza hư cấu có tên là “Pepperoni Hug Spot”.
Video kết quả mà tôi đã nhúng bên dưới vừa kinh khủng vừa ấn tượng. Quảng cáo có hình ảnh người thật đang ăn, nấu ăn và mang đến một số bánh pizza xúc xích cay rất ngon miệng. Nó thậm chí còn có hộp thoại âm thanh của con người và nhạc nền phù hợp. Tuy nhiên, nét mặt và ánh mắt chết chóc của một số nhân vật hơi nhiều.
Rõ ràng, chất lượng của đầu ra để lại một cái gì đó được mong muốn. Đôi khi, các đối tượng dường như hòa trộn vào nhau; con trai tôi nói rằng có vẻ như mọi người đang ăn bánh pizza mọc ra khỏi đĩa.
Tất cả mọi người trông giống như cư dân của thung lũng kỳ lạ. Và phần chữ viết hơi rời rạc giống như văn bản từ một ngôn ngữ khác được dịch sang tiếng Anh không chính xác (mặc dù không phải vậy).
Tuy nhiên, thật ấn tượng khi thấy những công nghệ này chuẩn bị sẵn sàng cho thời điểm quan trọng như thế nào. Chúng ta có thể thấy, trong một thời gian ngắn, những hình ảnh video chân thực có thể trở nên thuyết phục hơn rất nhiều.
Công bằng mà nói, video này đã yêu cầu một số chỉnh sửa của con người. Pizza Sau đó nói với chúng tôi rằng họ đã sử dụng năm mô hình khác nhau để tạo nhiều nội dung khác nhau cho video và sau đó dành thời gian sử dụng Adobe After Effects để ghép video, hộp thoại, nhạc và một số hình ảnh tùy chỉnh lại với nhau. Nhìn chung, họ mất 3 giờ để hoàn thành dự án.
Pizza Later cho biết họ có ý tưởng cho quảng cáo sau khi có quyền truy cập vào Runway Gen-2 (mở trong tab mới), mô hình chuyển văn bản thành video ở phiên bản beta riêng tư. Trong một cuộc phỏng vấn qua email, nhà phát triển nói với tôi rằng gợi ý ban đầu của họ về video chỉ là “một người đàn ông/phụ nữ/gia đình hạnh phúc đang ăn một lát bánh pizza trong một nhà hàng, quảng cáo trên truyền hình.” Đường băng Gen-1 (mở trong tab mới)tạo video dựa trên cảnh quay hiện có, hiện có sẵn để dùng thử miễn phí trên web hoặc qua một ứng dụng iOS hoàn toàn mới (mở trong tab mới).
Sau khi thấy chất lượng video cao mà Runway Gen-2 tạo ra, Pizza Later đã sử dụng GPT-4 (công cụ đằng sau ChatGPT và Bing Chat) để đặt tên cho cửa hàng bánh pizza hư cấu (Pepperoni Hug Spot) và viết kịch bản . Sau đó, nhà phát triển đã sử dụng ElevenLabs Prime Voice AI (mở trong tab mới) để cung cấp tường thuật thực tế với một giọng nam. Họ đã sử dụng MidJourney (mở trong tab mới) để tạo một số hình ảnh xuất hiện trong video, bao gồm cả hình ảnh bên ngoài nhà hàng và một số mẫu bánh pizza. Họ cũng đã sử dụng Soundraw (mở trong tab mới) để tạo nhạc nền.
Hầu hết các công cụ mà Pizza Sau này sử dụng đều phải trả phí, nhưng cung cấp một số loại bản dùng thử miễn phí, tài khoản miễn phí cấp thấp hơn hoặc bộ tín dụng miễn phí ban đầu. Rõ ràng, đây không phải là hoạt động cắm và chạy vì nhà phát triển phải ghép các kết quả cuối cùng lại với nhau.
Có lẽ, trong tương lai không xa, một công cụ đa mô hình như Microsoft Jarvis sẽ có thể thực hiện tất cả các tác vụ này thông qua một dấu nhắc trò chuyện duy nhất. Hoặc có thể một tác nhân tự quản chẳng hạn như AutoGPT (xem cách sử dụng AutoGPT) sẽ tạo quảng cáo nếu bạn đặt cho nó mục tiêu rộng lớn là tiếp thị nhà hàng. Tuy nhiên, hiện tại, video này thực sự ấn tượng, ngay cả khi biết rằng nó cần có sự chỉnh sửa của con người.