Discord Bot tạo các video AI ấn tượng từ các yêu cầu trò chuyện

Chuyển văn bản thành video là điều quan trọng tiếp theo trong AI. Cách đây vài tuần, chúng ta đã thấy quảng cáo Pepperoni Hugspot do AI tạo ra tuyệt vời như thế nào (và hơi đáng sợ). Pizza Sau đó, người đã phát triển video đó, nói với chúng tôi rằng họ đã sử dụng một công cụ có tên là Runway Gen-2 (mở trong tab mới) để làm những hình ảnh chuyển động trong dự án đó. Với công cụ chuyển văn bản thành video, họ có thể đưa ra những lời nhắc đơn giản như “một người đàn ông/phụ nữ/gia đình hạnh phúc đang ăn một lát bánh pizza trong nhà hàng, quảng cáo trên truyền hình” và nhận được nội dung chân thực bằng hình ảnh.

Tôi vừa có quyền truy cập vào phiên bản beta công khai của Runway Gen-2 và tôi thực sự ấn tượng với bản chất thực tế của đầu ra. Mặc dù mỗi video chỉ ngắn 4 giây nhưng chất lượng hình ảnh rất ấn tượng và tất cả đều hoạt động thông qua việc gửi các yêu cầu ngắn tới một bot trên máy chủ Discord của Runway ML.

Bằng cách gửi một vài từ văn bản tới bot @Gen-2, tôi có thể nhận được các clip ngắn, có ảnh chân thực (hoặc theo phong cách hoạt hình) về mọi thứ, từ một gia đình đang thưởng thức bữa tối sushi đến một rô-bốt mắc chứng nghiện rượu nghiêm trọng. Đầu ra thường không chính xác như những gì tôi yêu cầu, nhưng nó luôn thú vị và vượt trội so với Sân chơi chuyển văn bản thành video trên Internet thần kinh mà tôi đã viết vào tuần trước.

Mặc dù bất kỳ ai cũng có thể tham gia máy chủ, nhưng bạn sẽ chỉ thấy danh sách các phòng trò chuyện Gen-2 sau khi bạn có quyền truy cập vào chương trình beta (nhiều người trong danh sách chờ). Có một số phòng nơi bạn có thể trò chuyện và chia sẻ dự án với những người dùng khác, sau đó có ba phòng có tên Tạo một, Tạo hai và Tạo ba nơi bạn có thể gửi lời nhắc trực tiếp đến bot @Gen-2. Người điều hành khuyến khích bạn tiếp tục đưa ra lời nhắc cho cùng một chủ đề để không làm xáo trộn từng phòng chat.

Thúc đẩy Runway Gen-2

Lời nhắc Runway Gen-2 có thể giống như “@Gen-2 Một người máy hình người say rượu đang nhìn vào máy quay và nôn ra những con ốc vít nhỏ ra khỏi miệng.” Bot sẽ ngay lập tức phản hồi lại bằng lời nhắc của bạn và một số thông số mà nó đang sử dụng (ví dụ: “nâng cấp”) mà bạn có thể thay đổi bằng cách đưa ra lời nhắc mới (sẽ nói thêm về điều đó sau). Sau đó, vài phút sau, bạn sẽ nhận được một video dài 4 giây dựa trên lời nhắc của mình.

Đây là những gì robot say rượu của tôi trông như thế nào. Tất cả các video đều có thể phát được từ bên trong Discord và bạn có thể tải chúng xuống dưới dạng tệp MP4. Tôi đã chuyển đổi riêng tất cả các mẫu video được hiển thị trong bài viết này thành GIF động để chúng ta có thể xem chúng dễ dàng hơn (và không có quảng cáo đầu video).

Bạn sẽ nhận thấy rằng clip trên không chính xác như những gì tôi yêu cầu. Robot không nôn ra ốc vít như tôi dự định. Thay vào đó, nó chỉ nhìn chằm chằm vào cốc bia một cách đe dọa. Những nỗ lực khác của tôi tại lời nhắc này cũng không chính xác như những gì tôi muốn. Khi tôi bỏ từ “say” ra, tôi có một con rô-bốt há miệng ra nhưng không phun ra thứ gì.

Sử dụng hình ảnh với lời nhắc Runway Gen-2

Bạn cũng có thể cung cấp hình ảnh cho bot bằng cách sao chép và dán chúng vào Discord cùng với lời nhắc văn bản hoặc đặt URL của hình ảnh vào lời nhắc. Tuy nhiên, Runway Gen-2 sẽ không thực sự sử dụng hình ảnh bạn đã tải lên. Nó sẽ chỉ lấy cảm hứng từ hình ảnh trong việc tạo video của riêng mình. Tôi đã tải lên hình ảnh của mình nhiều lần và nó đưa cho tôi video về những người trông hơi giống tôi, nhưng chắc chắn không phải tôi.

Ví dụ: khi tôi tải lên một bức ảnh của chính mình và không cung cấp thêm thông tin, nó cho thấy một người đàn ông trung niên hói đầu, đeo kính râm, không phải tôi, đang đứng cạnh một con sông và một số tòa nhà. Miệng anh chuyển động và nước chuyển động.

Bot Runway Gen-2 tốt hơn trong việc sao chép cảm xúc hoặc chủ đề của hình ảnh bạn cung cấp. Tôi cho nó xem hình ảnh khuôn mặt của tôi có vẻ kinh tởm và yêu cầu “anh chàng này đang nhìn vào máy ảnh và miệng ‘ôi trời’.”

Rất nhiều người dùng trên máy chủ Discord nói rằng họ đã đạt được kết quả tuyệt vời bằng cách tạo một hình ảnh tĩnh bằng một công cụ AI khác như Midjourney hoặc Stable Diffusion, sau đó đưa hình ảnh đó vào CLIP Interrogator 2.1 trên Hugging Face, một công cụ xem xét hình ảnh và sau đó cung cấp cho bạn lời nhắc mà nó cho là liên quan đến hình ảnh đó.

Tôi đã thử quy trình đó, yêu cầu Stable Diffusion tạo cho tôi hình ảnh một cậu bé trên vỉa hè chơi với rô-bốt đồ chơi vào những năm 1980. Sau đó, tôi đưa hình ảnh vào CLIP Interrogator và nhận được một số lời nhắc mẫu cho nó, khá rõ ràng chẳng hạn như “cậu bé đứng cạnh rô-bốt”. Tuy nhiên, việc đưa cùng một hình ảnh vào dấu nhắc không hoàn toàn mang lại cho tôi những gì tôi muốn. Tôi có một cậu bé với hai con rô-bốt đứng trước một con phố, nhưng đó không phải là cùng một con phố hay cậu bé.

Di chuyển hay không di chuyển

Bản thân giới hạn thời gian thường có nghĩa là không có nhiều thời gian cho chuyển động trong mỗi clip. Nhưng trên hết, tôi thấy rằng nhiều clip có rất ít chuyển động trong đó. Thông thường, đó chỉ là đầu của ai đó nhấp nhô hoặc chất lỏng nào đó chảy ra hoặc khói bốc lên từ đám cháy.

Một cách hay để có thêm chuyển động là đặt một dấu nhắc trong đó yêu cầu tua nhanh thời gian hoặc xoay theo kiểu nào đó. Khi tôi yêu cầu tua nhanh thời gian một Núi lửa ở Iceland hoặc một bức ảnh chụp toàn cảnh tàu điện ngầm ở New York, tôi nhận được một số kết quả khá tốt. Khi tôi yêu cầu chụp toàn cảnh đường chân trời của Đài Bắc, tôi thấy các đám mây di chuyển nhưng không bị lia máy và thành phố chắc chắn không phải là Đài Bắc.

Đường chân trời Đài Bắc (nhưng trông không giống như vậy)

Yêu cầu chạy, rượt đuổi hoặc cưỡi ngựa có thể hoàn thành hoặc không hoàn thành công việc. Khi tôi gợi ý về trò “trượt ván rùa”, tôi thấy một loại động vật giống rùa kỳ lạ nào đó lăn xuống đường với tốc độ chóng mặt. Nhưng khi tôi yêu cầu các võ sĩ của Intel và AMD đấu với nhau, tôi nhận được hình ảnh hai võ sĩ không hề di chuyển (và cũng không có logo của Intel hay AMD).

Runway Gen-2 tốt và xấu ở điểm nào

Giống như các trình tạo hình ảnh AI khác, Runway Gen-2 không thực hiện tốt công việc tái tạo các ký tự, sản phẩm hoặc địa điểm rất cụ thể, có thương hiệu. Khi tôi hỏi nó về Mario và Luigi đấm bốc, tôi nhận được hai nhân vật trông giống như các nhân vật của Nintendo. Tôi đã nhiều lần yêu cầu các video về Godzilla và nhận được một số con thằn lằn khổng lồ mà ngay cả một người hâm mộ bình thường nhất cũng không thể nhầm lẫn với Vua của các loài quái vật.

Nó tốt hơn một chút với các tài liệu tham khảo Minecraft. Khi tôi yêu cầu một creeper và một enderman ăn pizza và một lần nữa cho một creeper đang ăn ở McDonald’s, tôi nhận được những creeper trông đẹp mắt nhưng một enderman không chính xác. Yêu cầu một gia đình creeper ăn pizza đã cho tôi một gia đình hình người trông giống như họ đến từ Minecraft. Bất cứ ai đã chơi Minecraft đều biết rằng creeper là những con quái vật màu xanh lá cây có đốm đen.

Công cụ này rất tệ với logo. Tôi đã đưa cho nó logo của Tom’s Hardware và yêu cầu nó sử dụng logo đó trong quảng cáo và nó đã trả lại cho tôi thứ kỳ lạ này.

Khi tôi yêu cầu CPU AMD Ryzen bị cháy, tôi nhận được một thứ trông hơi giống một chiếc PCU có logo mà bạn phải tự mình nhìn thấy (bên dưới).

Điều Runway Gen-2 thực sự làm rất tốt là cung cấp cho bạn những hình ảnh chung về mọi người và gia đình đang làm những việc như ăn uống. Bạn có thể hoặc không thể bắt chúng ăn chính xác những gì bạn muốn. Khi tôi yêu cầu một gia đình ăn giun sống, tôi nhận được một gia đình trông giống như đang ăn salad hơn. Một gia đình đang ăn sushi trong một nhà hàng pizza những năm 1970 trông đặc biệt chân thực.

Tôi cảm thấy buộc phải chỉ ra rằng tôi hầu như luôn nhận được người da trắng khi tôi yêu cầu một người mà không nêu rõ dân tộc của họ. Lần duy nhất tôi gặp một gia đình (hoặc một người) không phải da trắng mà không yêu cầu cụ thể là khi tôi yêu cầu gia đình đó ăn sushi. Đây là một vấn đề nổi tiếng với dữ liệu đào tạo trên nhiều mô hình AI tổng quát.

Thông số đặc biệt

Có một số tham số bạn có thể thêm vào cuối lời nhắc trong Runway Gen-2 để thay đổi đầu ra một chút. Tôi đã không đùa giỡn với những điều này rất nhiều.

–cao cấp mang lại độ phân giải cao hơn
–nội suy giúp video mượt hơn
–cfg [number] kiểm soát mức độ sáng tạo của AI. Giá trị cao hơn gần với những gì bạn yêu cầu.
–màn hình xanh xuất video có vùng màn hình màu xanh lá cây mà bạn có thể sử dụng để chỉnh sửa
–hạt giống là một con số giúp xác định kết quả. Theo mặc định, đó là một số ngẫu nhiên mỗi lần, nhưng nếu bạn sử dụng lại cùng một số, bạn sẽ nhận được kết quả tương tự.

Khâu tất cả lại với nhau

Nếu bạn tìm kiếm trên Internet các ví dụ về video Runway Gen-2, bạn có thể nhận thấy rất nhiều video dài hơn 4 giây và có âm thanh. Mọi người tạo những video này bằng cách ghép nhiều clip dài 4 giây khác nhau lại với nhau trong trình chỉnh sửa video và thêm âm thanh cũng như âm nhạc mà họ có được ở nơi khác.

Một trong những video nổi tiếng nhất trong số các video Runway Gen-2 này là quảng cáo bánh pizza Pepperoni Hugspot mà tôi đã đề cập ở trên. Tuy nhiên, trong Runway ML Discord, tôi thấy rất nhiều người đăng liên kết YouTube tới tác phẩm của họ. một trong những sở thích của tôi là “Khủng bố mỳ Ý” đã được đăng lên Twitter bởi Andy McNamara. Và quảng cáo luật sư mới của Pizza Later là một trò lừa bịp.

Runway Gen-2 đang ở giai đoạn thử nghiệm riêng tư khi tôi viết bài này, nhưng công ty đã cho biết họ dự định sẽ sớm cung cấp tính năng này cho mọi người, như đã có với sản phẩm Gen-1. Là một bản trình diễn công nghệ, nó thực sự ấn tượng và tôi có thể thấy ai đó sử dụng các clip ngắn của nó thay cho video có sẵn hoặc GIF động có sẵn.

Ngay cả khi thời gian được kéo dài đến 60 giây, có vẻ như công cụ này không thể sớm thay thế video quay chuyên nghiệp (hoặc thậm chí nghiệp dư). Nó không có khả năng tái tạo chính xác những địa điểm và con người rất cụ thể là một nhược điểm lớn, nhưng đó cũng là một hạn chế mà tôi đã thấy ở mọi AI tạo hình ảnh cho đến nay. Tuy nhiên, công nghệ đã sẵn sàng và khi dữ liệu đào tạo mở rộng quy mô, điều này có thể còn ấn tượng hơn nữa.