Cách tạo Clip chuyển văn bản thành video AI trong vài giây

Mặc dù các LLM như ChatGPT sẽ cung cấp cho bạn bất kỳ văn bản nào bạn muốn và các trình tạo đồ họa như Khuếch tán ổn định sẽ tạo hình ảnh dựa trên lời nhắc, nhưng AI chuyển văn bản thành video vẫn là một lĩnh vực mới nổi. Đầu tuần này, chúng tôi đã báo cáo về Quảng cáo Pizza AI sử dụng công cụ chuyển văn bản thành video có tên Runway Gen-2 (mở trong tab mới) cho video của nó. Tuy nhiên, hiện tại, Runway Gen-2 đang ở giai đoạn thử nghiệm chỉ dành cho những người được mời. Vì vậy, trừ khi bạn được mời, bạn không thể dùng thử.

May mắn thay, có một công cụ hoàn toàn miễn phí và dễ sử dụng trên Hugging Face (cổng thông tin hàng đầu dành cho nhà phát triển AI) có tên là NeuralInternet Text-to-Video Playground, nhưng nó chỉ giới hạn trong hai giây, vừa đủ cho một ảnh GIF động. Bạn thậm chí không cần phải có tài khoản Ôm mặt để sử dụng nó. Đây là cách.

Cách tạo Clip văn bản AI dài 2 giây

1. Điều hướng đến Sân chơi chuyển văn bản thành video (mở trong tab mới) trong trình duyệt của bạn.

2. Nhập lời nhắc vào hộp nhắc hoặc thử một trong các gợi ý Ví dụ ở cuối trang (ví dụ: “An Phi hành gia cưỡi ngựa”)

Nhập lời nhắc

(Nguồn: Phần cứng của Tom)

3. Nhập số Seed của bạn. Seed là một số (từ -1 đến 1.000.000) mà AI sử dụng làm điểm bắt đầu để tạo hình ảnh. Điều này có nghĩa là nếu bạn sử dụng hạt giống là 1, bạn sẽ nhận được cùng một đầu ra mỗi lần với cùng một lời nhắc. Tôi khuyên bạn nên sử dụng hạt giống -1, cung cấp cho bạn một số hạt giống ngẫu nhiên mỗi lần.

Nhập hạt giống

(Nguồn: Phần cứng của Tom)

4. Nhấp vào Chạy.

Nhấp vào Chạy

(Nguồn: Phần cứng của Tom)

Sau đó, Sân chơi chuyển văn bản thành video sẽ mất vài phút để tạo kết quả. Bạn có thể xem tiến trình bằng cách nhìn vào cửa sổ Kết quả. Tùy thuộc vào lưu lượng truy cập của máy chủ, có thể mất nhiều thời gian hơn.

cửa sổ kết quả

(Nguồn: Phần cứng của Tom)

5. Nhấp vào nút phát để phát video của bạn.

nhấp vào nút Phát

(Nguồn: Phần cứng của Tom)

6. Nhấp chuột phải vào video của bạn và chọn Lưu video dưới dạng để tải video (dưới dạng MP4) xuống PC của bạn.

Lưu video dưới dạng

(Nguồn: Phần cứng của Tom)

Mô hình nó đang sử dụng và kết quả

Sân chơi Chuyển văn bản thành video đang sử dụng mô hình chuyển văn bản thành video từ một công ty Trung Quốc có tên ModelScope, tuyên bố rằng mô hình của họ có 1,7 tỷ tham số (mở trong tab mới). Giống như nhiều mô hình AI xử lý hình ảnh, mô hình ModelScope có một số hạn chế, ngoài thời gian chạy hai giây.

Trước hết, rõ ràng là tập dữ liệu đào tạo lấy từ rất nhiều hình ảnh trên web, bao gồm một số hình ảnh có bản quyền và hình mờ. Trong một số ví dụ, nó cho thấy một phần của Shutterstock (mở trong tab mới) hình mờ trên các đối tượng trong video. Shutterstock là nhà cung cấp hình ảnh miễn phí bản quyền hàng đầu yêu cầu tư cách thành viên trả phí, nhưng có vẻ như dữ liệu đào tạo đã lấy hình ảnh của nó mà không được phép.

Hình mờ Shutterstock. Vòng tròn là của tôi

Hình mờ Shutterstock. Vòng tròn là của tôi (Nguồn: Phần cứng của Tom)

Ngoài ra, không phải mọi thứ trông như nó nên. Ví dụ: những người hâm mộ kaiju sắc sảo sẽ nhận thấy rằng video Godzilla ăn pizza của tôi dưới đây cho thấy một con quái vật là một con thằn lằn xanh khổng lồ nhưng không có bất kỳ đặc điểm nào khác biệt của con quái vật Nhật Bản mà mọi người yêu thích.

Godzilla Ăn Pizza, Video AI 2 Giây

Video này được tạo bằng sân chơi chuyển văn bản thành video và sau đó được chuyển đổi thành GIF để dễ dàng hiển thị tại đây. (Nguồn: Tương lai)

Cuối cùng, và có lẽ điều này không cần phải nói, nhưng không có âm thanh trong các video này. Cách sử dụng tốt nhất cho những thứ này có thể là chuyển đổi chúng thành GIF động mà bạn có thể gửi cho bạn bè của mình. Hình ảnh trên là một GIF động mà tôi đã tạo từ một trong những video Godzilla-ăn-pizza dài hai giây của mình.

Nếu bạn muốn tìm hiểu thêm về cách tạo trong AI, hãy xem các bài viết của chúng tôi về cách sử dụng Auto-GPT để tạo tác nhân tự trị hoặc cách sử dụng BabyAGI.