Lưu trữ Gemini - Let's Learning

Google vẽ truyện tranh cực đỉnh với Gemini

Ứng dụng Gemini của Google vừa chạy đua công nghệ khi biến trí tưởng tượng thành sách minh họa sống động, tích hợp giọng đọc, mở ra một kỷ nguyên mới cho giáo dục và giải trí gia đình. Google vừa công bố một tính năng mới đầy hấp dẫn cho ứng dụng Gemini, cho […]

Ứng dụng Gemini của Google vừa chạy đua công nghệ khi biến trí tưởng tượng thành sách minh họa sống động, tích hợp giọng đọc, mở ra một kỷ nguyên mới cho giáo dục và giải trí gia đình.

Google vừa công bố một tính năng mới đầy hấp dẫn cho ứng dụng Gemini, cho phép người dùng dễ dàng tạo ra các cuốn sách minh họa hoặc truyện tranh cá nhân hóa. Điều đặc biệt là ứng dụng còn tích hợp phần kể chuyện bằng giọng nói, làm cho trải nghiệm đọc trở nên sống động hơn bao giờ hết.

Tính năng mới này được thiết kế để hỗ trợ các gia đình trong việc tạo ra những câu chuyện gần gũi và dễ tiếp cận cho trẻ em. Người dùng chỉ cần nhập mô tả nội dung câu chuyện mà họ mong muốn, sau đó Gemini sẽ chịu trách nhiệm phát triển nội dung, tạo minh họa và lồng tiếng. Đặc biệt, ứng dụng có khả năng sử dụng chính ảnh hoặc tệp do người dùng cung cấp để làm tư liệu xây dựng câu chuyện.

Có thể kể đến một số ví dụ thú vị như tạo truyện giải thích hệ mặt trời cho trẻ 5 tuổi, dạy trẻ 7 tuổi bài học về lòng tốt thông qua nhân vật chính là một chú voi, hoặc sử dụng ảnh vẽ tay của trẻ để xây dựng một câu chuyện dựa trên trí tưởng tượng. Ngoài ra, người dùng cũng có thể biến các khoảnh khắc đáng nhớ như chuyến đi chơi gia đình thành truyện phiêu lưu thú vị dành riêng cho con em mình.

Quy trình tạo truyện diễn ra trực quan: sau khi nhập yêu cầu, người dùng sẽ thấy bản xem trước văn bản kèm theo tùy chọn “Have Gemini create a storybook for you”. Sau một vài giây xử lý, giao diện chia đôi màn hình giống Canvas sẽ xuất hiện, với phần nội dung câu chuyện ở bên phải và khung trò chuyện bên trái để người dùng tùy chỉnh thêm. Người dùng có thể chọn các phong cách nghệ thuật đa dạng như pixel, truyện tranh, hoạt hình đất sét (claymation), móc len (crochet), sách tô màu…

Mỗi cuốn truyện tạo ra sẽ có độ dài khoảng 10 trang, bao gồm hình minh họa do AI tạo và âm thanh kể chuyện với tùy chọn giọng cao hoặc thấp. Người dùng có thể chia sẻ qua đường link hoặc tải về để in thành sách vật lý.

Tính năng tạo sách kể chuyện hiện đã hỗ trợ hơn 45 ngôn ngữ và được triển khai trên toàn cầu qua ứng dụng Gemini, cả trên thiết bị di động lẫn máy tính. Đây được xem là một công cụ hữu ích không chỉ để giáo dục mà còn giúp các bậc phụ huynh tạo thêm thời gian gắn kết với con trẻ thông qua những câu chuyện mang đậm dấu ấn cá nhân.

Google đang biến Gemini thành một hệ điều hành

Tại hội nghị Google I/O 2025 vừa diễn ra vào ngày 20/5/2025, Google đã gây ấn tượng mạnh mẽ khi công bố hàng loạt nâng cấp cho Gemini, biến nó từ một mô hình ngôn ngữ lớn (LLM) thành một hệ điều hành AI toàn diện. Với những tính năng đột phá, từ tạo video […]

Với những tính năng đột phá, từ tạo video có âm thanh, hỗ trợ nghiên cứu chuyên sâu, đến tích hợp sâu hơn vào hệ sinh thái Google, Gemini đang mở ra một kỷ nguyên mới cho trí tuệ nhân tạo, hứa hẹn thay đổi cách chúng ta làm việc, học tập và sáng tạo. Những công bố này không chỉ khẳng định tham vọng của Google trong cuộc đua AI mà còn đặt nền móng cho một tương lai nơi AI trở thành trợ lý cá nhân không thể thiếu.

Gemini Live: Trợ Lý Thông Minh Trên Mọi Thiết Bị

Một trong những điểm sáng đầu tiên tại Google I/O 2025 là Gemini Live, giờ đây được cung cấp miễn phí trên cả Android và iOS. Tính năng này cho phép người dùng bật camera, hướng vào bất kỳ vật thể nào và trò chuyện với Gemini theo thời gian thực. Chẳng hạn, bạn có thể chỉ vào một món đồ trong cửa hàng và hỏi về giá cả, hoặc nhờ Gemini hướng dẫn sửa một thiết bị ngay tại chỗ.

Điểm nổi bật là Gemini Live đã được tích hợp sâu với các ứng dụng Google như Maps, Calendar, Tasks và Keep, giúp việc lên kế hoạch, mua sắm hay quản lý công việc trở nên thông minh hơn bao giờ hết. Theo thông tin từ Engadget, tính năng chia sẻ màn hình và camera của Gemini Live đã được triển khai rộng rãi trên mọi thiết bị, không chỉ giới hạn ở dòng Pixel, đánh dấu bước tiến lớn trong việc phổ biến AI đến người dùng toàn cầu.

Imagen 4: Sáng Tạo Hình Ảnh Chuyên Nghiệp Trong Tầm Tay

Tiếp nối thành công của các phiên bản trước, Google đã ra mắt Imagen 4 – mô hình tạo hình ảnh tốt nhất từ trước đến nay của hãng. Imagen 4 mang đến khả năng tạo hình ảnh độ phân giải cao với tốc độ ấn tượng, từ poster quảng cáo đến slide thuyết trình, tất cả đều đạt chất lượng chuyên nghiệp.

Theo bài viết trên blog của Google, Imagen 4 có thể tái hiện chi tiết tinh xảo như kết cấu vải, giọt nước hay lông động vật, đồng thời hỗ trợ cả phong cách ảnh thực tế và trừu tượng với độ phân giải lên đến 2K. Đáng chú ý, Google còn hé lộ một phiên bản nhanh hơn của Imagen 4, dự kiến nhanh gấp 10 lần Imagen 3, hứa hẹn giúp người dùng khám phá ý tưởng sáng tạo một cách nhanh chóng và hiệu quả hơn.

Veo 3: Đột Phá Trong Tạo Video Với Âm Thanh Tích Hợp

Một điểm nhấn không thể bỏ qua là Veo 3, mô hình tạo video tiên tiến nhất của Google, lần đầu tiên tích hợp âm thanh gốc. Với Veo 3, người dùng chỉ cần viết một câu lệnh để tạo ra video sống động, kèm theo âm thanh nền, hiệu ứng và thậm chí cả hội thoại nhân vật.

Theo Google DeepMind, Veo 3 không chỉ cải thiện chất lượng hình ảnh so với Veo 2 mà còn mang đến khả năng tạo âm thanh tự nhiên, từ tiếng chim hót trong công viên đến tiếng ồn ào của đường phố. Tính năng này hiện đã có mặt trên ứng dụng Gemini cho người dùng gói AI Ultra tại Mỹ, mở ra tiềm năng lớn cho các nhà làm phim và sáng tạo nội dung. Hơn nữa, Veo 3 được tích hợp vào Flow, công cụ làm phim AI mới của Google, cho phép người dùng dễ dàng tạo các đoạn phim điện ảnh với sự hỗ trợ của Imagen và Gemini.

Deep Research: Trợ Thủ Đắc Lực Cho Nghiên Cứu

Không dừng lại ở sáng tạo hình ảnh và video, Google còn nâng cấp Deep Research, biến Gemini thành một trợ lý nghiên cứu mạnh mẽ. Người dùng giờ đây có thể tải lên tài liệu PDF, ảnh chụp màn hình hoặc ghi chú, và Gemini sẽ kết hợp dữ liệu này với thông tin công khai để tạo ra báo cáo chi tiết, đầy đủ ngữ cảnh.

Tính năng Deep Research mới

Tính năng này đặc biệt hữu ích cho học sinh, nhân viên văn phòng hay nhà phân tích thị trường, giúp tiết kiệm thời gian và nâng cao hiệu quả nghiên cứu. Theo TechCrunch, Deep Research là một phần trong nỗ lực của Google nhằm biến Gemini thành một công cụ đa năng, hỗ trợ người dùng trong mọi khía cạnh của công việc và học tập.

Canvas: Studio Sáng Tạo Mới Từ Gemini

Với Canvas, Google giới thiệu một không gian sáng tạo đa năng, nơi người dùng có thể tạo ra mã lập trình, bài kiểm tra, infographic hay thậm chí podcast chỉ bằng những câu lệnh đơn giản.

Tính năng Canvas tăng cường sáng tạo cho người dùng

Được hỗ trợ bởi Gemini 2.5 Pro, Canvas mang đến tốc độ xử lý nhanh hơn và kết quả thông minh hơn, giúp biến ý tưởng thành hiện thực một cách dễ dàng. Đây là công cụ lý tưởng cho những ai muốn thử sức với sáng tạo mà không cần kỹ năng chuyên môn sâu, từ giáo viên thiết kế bài giảng đến nhà tiếp thị xây dựng nội dung trực quan.

Tích Hợp Gemini Vào Chrome: Trải Nghiệm Duyệt Web Thông Minh

Gemini giờ được tích hợp trong Chrome

Bắt đầu từ ngày 21/5/2025, Gemini sẽ chính thức được tích hợp vào trình duyệt Chrome, mang đến trải nghiệm duyệt web thông minh hơn. Người dùng có thể yêu cầu Gemini tóm tắt bài viết, trả lời câu hỏi hoặc trong tương lai gần, tự động điều hướng tab và thực hiện các tác vụ duyệt web. Tính năng này không chỉ tiết kiệm thời gian mà còn mở ra tiềm năng tự động hóa các công việc trực tuyến, từ nghiên cứu thông tin đến quản lý công việc hàng ngày.

Interactive Quizzes và Gemini 2.5 Flash: công cụ hỗ trợ giáo dục

Google cũng không quên hỗ trợ lĩnh vực giáo dục với tính năng Interactive Quizzes. Người dùng chỉ cần yêu cầu “Tạo bài kiểm tra về nhiệt động lực học”, Gemini sẽ cung cấp câu hỏi, phản hồi tức thì và thậm chí tạo thêm bài kiểm tra cá nhân hóa dựa trên những phần người dùng còn yếu.

Hỗ trợ giáo dục tốt hơn nhờ Gemini 2.5 Flash

Bên cạnh đó, Gemini 2.5 Flash được thiết lập làm phiên bản mặc định, nổi bật với tốc độ nhanh, hiệu suất cao và hoàn toàn miễn phí. Đây là lựa chọn lý tưởng cho các tác vụ hàng ngày, đảm bảo hiệu quả mà không tốn kém.

Gói AI Pro và Ultra: Mở Ra Tính Năng Cao Cấp

Để phục vụ nhu cầu đa dạng, Google đã ra mắt hai gói đăng ký mới: AI Pro với giá 19,99 USD/tháng, cung cấp quyền truy cập vào các công cụ như Flow và NotebookLM, cùng gói AI Ultra giá 249,99 USD/tháng, mang đến trải nghiệm cao cấp với các tính năng như Veo 3 và chế độ Deep Think.

Theo thông tin từ Google DeepMind, Deep Think là chế độ suy luận nâng cao, giúp Gemini 2.5 Pro xử lý các vấn đề toán học và lập trình phức tạp một cách hiệu quả hơn, hiện đã được triển khai cho một số người dùng thử nghiệm.

Agent Mode: Tương Lai Của AI Tự Hành

Cuối cùng, Google hé lộ Agent Mode, tính năng sắp ra mắt, cho phép Gemini tự động thực hiện các tác vụ phức tạp. Chẳng hạn, khi bạn yêu cầu “Giúp tôi tìm và đặt thuê một căn hộ”, Gemini sẽ phân tích yêu cầu, tìm kiếm danh sách, chọn lọc lựa chọn phù hợp và thậm chí gửi email cho đại lý. Đây là bước tiến lớn hướng đến AI tự hành, tích hợp chặt chẽ vào hệ sinh thái Google, mở ra viễn cảnh về một trợ lý AI toàn năng.

Với những nâng cấp vượt trội này, Gemini không chỉ dừng lại ở một chatbot mà đang dần trở thành một hệ điều hành AI thực thụ – trực quan, đa năng và chủ động. Google I/O 2025 đã chứng minh rằng Gemini không chỉ là một công cụ, mà là một người bạn đồng hành, sẵn sàng hỗ trợ chúng ta trong mọi khía cạnh của cuộc sống. Khi AI ngày càng tiến gần đến khả năng tương tác giống con người, câu hỏi đặt ra là: chúng ta sẽ tận dụng công nghệ này như thế nào để định hình tương lai?

Google giới thiệu mô hình trí tuệ nhân tạo tiên tiến Gemini mới

Google đã giới thiệu mô hình trí tuệ nhân tạo tiên tiến Gemini của họ, có khả năng xử lý video, âm thanh và văn bản. Đây là một bước đột phá trong công nghệ AI.

Google hôm 6.12 đã giới thiệu mô hình trí tuệ nhân tạo tiên tiến nhất của mình, một mô hình có khả năng xử lý các dạng thông tin khác nhau như video, âm thanh và văn bản.

Trí tuệ nhân tạo mới của Google đã được ra mắt. Ảnh: Chụp màn hình

Alphabet, công ty mẹ của Google cho biết, mô hình AI được gọi là Gemini mới của công ty đã rất được mong đợi trong thời gian gần đây với khả năng suy luận và hiểu thông tin phức tạp. Đồng thời, nó có thể trả lời bằng nhiều sắc thái hơn so với công nghệ trước đây của Google.

Sundar Pichai – CEO của Alphabet – viết trong một bài đăng trên blog: “Mô hình mới này đại diện cho một trong những nỗ lực khoa học và kỹ thuật lớn nhất mà chúng tôi đã thực hiện với tư cách là một công ty”.

Kể từ khi ChatGPT của OpenAI ra mắt khoảng một năm trước, Google đã nỗ lực chạy đua để sản xuất một mô hình AI cạnh tranh với nó.

Google đã bổ sung một phần công nghệ của mô hình Gemini mới vào trợ lý AI Bard và cho biết, họ có kế hoạch phát hành phiên bản Gemini tiên tiến nhất thông qua Bard vào đầu năm tới.

Alphabet cũng thông tin thêm rằng, họ đang tạo ra ba phiên bản Gemini khác nhau, mỗi phiên bản được thiết kế để sử dụng một lượng sức mạnh xử lý khác nhau.

Theo đó, phiên bản mạnh nhất được thiết kế để chạy trong các trung tâm dữ liệu và phiên bản nhỏ nhất sẽ chạy hiệu quả trên thiết bị di động.

Gemini là mô hình AI lớn nhất mà đơn vị DeepMind AI của Google từng tạo ra, nhưng chi phí vận hành của nó lại rẻ hơn đáng kể so với các mô hình trước đây của công ty, Phó Chủ tịch DeepMind Eli Collins cho biết.

“Nó không chỉ có khả năng cao hơn mà còn hoạt động hiệu quả hơn nhiều” – ông Collins nói.

Alphabet cũng đã công bố thế hệ chip AI mới của mình. Chip Cloud TPU v5p được thiết kế để đào tạo các mô hình AI lớn và được ghép lại với nhau thành các nhóm gồm 8.960 chip nhỏ.