ElevenLabs, “ông lớn” trong lĩnh vực AI giọng nói, vừa lặng lẽ trình làng ứng dụng iOS mới toanh mang tên ElevenMusic. Đây không chỉ là một bước tiến đơn thuần mà còn là động thái chiến lược đầy tham vọng, khẳng định vị thế của ElevenLabs trong cuộc đua định hình tương lai của âm nhạc trí tuệ nhân tạo (AI), sẵn sàng cạnh tranh trực tiếp với các nền tảng đình đám như Suno và Udio.
Sự xuất hiện của ElevenMusic trên App Store vào ngày 1 tháng 4, sau vài tuần rò rỉ, cho thấy ElevenLabs muốn vươn xa hơn vai trò một công ty mô hình giọng nói. Công ty coi các công cụ sử dụng AI để tạo nhạc và các loại hình truyền thông khác là một con đường để tăng trưởng và bảo vệ mình khỏi sự “hàng hóa hóa” không thể tránh khỏi của các mô hình âm thanh AI theo thời gian. Đây là một tầm nhìn chiến lược nhằm đảm bảo vị thế dẫn đầu trong kỷ nguyên công nghệ AI đang phát triển nhanh chóng.
ElevenMusic hiện đang được cung cấp miễn phí, cho phép người dùng thỏa sức sáng tạo lên đến bảy bài hát mỗi ngày chỉ bằng cách nhập các câu lệnh ngôn ngữ tự nhiên. Với ứng dụng tạo nhạc AI này, bạn có thể dễ dàng tùy chỉnh độ dài bài hát, quyết định liệu bài hát có lời hay không, và thậm chí là điều chỉnh phong cách sáng tác để tạo ra những bản nhạc AI độc đáo theo ý muốn.
Không chỉ dừng lại ở việc tạo nhạc AI, ElevenMusic còn là một nền tảng khám phá âm nhạc AI sôi động. Người dùng có thể dễ dàng tìm kiếm những bản nhạc do người khác tạo ra và biến tấu chúng theo ý mình qua các câu lệnh văn bản – tất nhiên, những bản remix này vẫn tính vào giới hạn tạo nhạc hàng ngày của bạn. Ứng dụng tích hợp các đài phát nhạc trực tiếp (live stations), album có sẵn, và các danh sách phát hàng ngày theo tâm trạng đa dạng như Focus (Tập trung), Energy (Năng lượng), Relax (Thư giãn), Late Night (Đêm muộn), Cosmic (Không gian) và Chill (Thư thái). Giống như các ứng dụng stream nhạc quen thuộc như Spotify hay Apple Music, ElevenMusic cũng có các bảng xếp hạng top hit, mục nhạc thịnh hành và các bản phát hành mới, giúp bạn luôn cập nhật những xu hướng âm nhạc AI mới nhất.
Đối với những người dùng có nhu cầu sáng tạo cao hơn, ElevenLabs cung cấp gói Pro với mức giá 9,99 USD mỗi tháng hoặc 95,90 USD mỗi năm. Gói đăng ký này mở ra cánh cửa sáng tạo không giới hạn với khả năng tạo ra tới 500 bản nhạc mỗi tháng, không gian lưu trữ khổng lồ lên đến hơn 500 GB, và quyền truy cập vào tất cả các phong cách và tâm trạng âm nhạc độc đáo mà ElevenMusic cung cấp, mang lại trải nghiệm tối ưu cho việc sáng tạo âm nhạc AI chuyên nghiệp.
Việc ra mắt ElevenMusic không phải là một sự kiện đơn lẻ mà nằm trong chiến lược dài hạn của ElevenLabs nhằm chiếm lĩnh thị trường công nghệ AI sáng tạo. Công ty đã huy động thành công 500 triệu USD trong vòng Series C vào tháng 2 với định giá 11 tỷ USD và không ngừng đầu tư vào các mô hình và công cụ sáng tạo trong nhiều tháng qua. Từ việc ra mắt mô hình tạo nhạc AI đầu tiên vào tháng 8 năm ngoái (được tuyên bố an toàn cho mục đích thương mại), hợp tác với các nhà sản xuất âm nhạc hàng đầu để phát hành album được tạo ra bằng AI, cho đến việc giới thiệu một bộ công cụ sáng tạo đa năng hỗ trợ tạo quảng cáo, lồng tiếng, dịch thuật, tạo hình ảnh, video, nhân bản giọng nói và tạo âm thanh – ElevenLabs đang từng bước khẳng định vị thế của mình như một người tiên phong trong lĩnh vực AI sáng tạo đa phương tiện.
Trước đây, ElevenLabs đã có các công cụ hướng tới người tiêu dùng như công cụ tạo giọng nói và ElevenReader. Công ty cũng đã triển khai chương trình cho phép các tác giả kiếm tiền bản quyền bằng cách chuyển đổi và phân phối sách của họ trên nền tảng ElevenReader. Với việc đang tuyển dụng vị trí lãnh đạo tiếp thị âm nhạc tiêu dùng, ElevenLabs có thể sẽ tiếp tục đưa ra các ưu đãi về tiền bản quyền hoặc các khuyến khích khác để thu hút người dùng tạo ra nhiều âm nhạc hơn trên nền tảng của mình, xây dựng một hệ sinh thái sáng tạo AI thịnh vượng và bền vững.
“`Microsoft AI, phòng thí nghiệm nghiên cứu công nghệ hàng đầu, vừa chính thức công bố ra mắt ba mô hình AI nền tảng đột phá. Các mô hình mới này có khả năng tạo ra văn bản, giọng nói và hình ảnh, hứa hẹn mở ra kỷ nguyên mới cho việc sáng tạo nội dung và tương tác với trí tuệ nhân tạo (AI).
Việc ra mắt những mô hình AI này một lần nữa khẳng định cam kết mạnh mẽ của Microsoft trong việc xây dựng hệ sinh thái AI đa phương thức riêng, đồng thời cạnh tranh trực tiếp với các phòng thí nghiệm AI hàng đầu khác trên thế giới.
Microsoft AI đã giới thiệu một bộ ba mô hình AI ấn tượng, mỗi mô hình được thiết kế để giải quyết các nhu cầu khác nhau trong lĩnh vực sáng tạo nội dung và xử lý dữ liệu.
MAI-Transcribe-1 nổi bật với khả năng chuyển đổi giọng nói thành văn bản trên 25 ngôn ngữ khác nhau. Điểm ấn tượng là tốc độ xử lý nhanh hơn 2.5 lần so với dịch vụ Azure Fast hiện tại của Microsoft, mang lại hiệu quả vượt trội cho các tác vụ phiên âm. Mô hình này được kỳ vọng sẽ cách mạng hóa các lĩnh vực như ghi chép cuộc họp, phụ đề video và tổng đài dịch vụ khách hàng.
MAI-Voice-1 là mô hình tạo âm thanh/giọng nói mạnh mẽ, cho phép người dùng tạo ra 60 giây âm thanh chỉ trong một giây. Đặc biệt, người dùng có thể tùy chỉnh và tạo ra giọng nói riêng biệt, mở ra nhiều ứng dụng tiềm năng từ thuyết minh tự động, phát thanh, đến trợ lý ảo cá nhân hóa. Công nghệ tạo giọng nói này mang đến sự linh hoạt và cá nhân hóa chưa từng có.
MAI-Image-2 là mô hình tạo hình ảnh và video tiên tiến, biến ý tưởng thành các sản phẩm trực quan sống động. Ban đầu được giới thiệu trên MAI Playground vào tháng 3, giờ đây cả ba mô hình đều đã có mặt trên Microsoft Foundry. Riêng MAI-Transcribe-1 và MAI-Voice-1 cũng đã được tích hợp vào MAI Playground, giúp các nhà phát triển dễ dàng tiếp cận và thử nghiệm các công cụ AI sáng tạo này.
Các mô hình AI đột phá này được phát triển bởi đội ngũ MAI Superintelligence của Microsoft, một nhóm nghiên cứu AI tinh nhuệ do Mustafa Suleyman, CEO của Microsoft AI, dẫn dắt. Đội ngũ này được thành lập vào tháng 11 năm 2025 với sứ mệnh định hình tương lai của trí tuệ nhân tạo.
Ông Suleyman nhấn mạnh tầm nhìn “Humanist AI” của Microsoft: “Tại Microsoft AI, chúng tôi xây dựng AI Nhân bản. Chúng tôi có một quan điểm riêng biệt khi tạo ra các mô hình AI – đặt con người làm trung tâm, tối ưu hóa cách mọi người giao tiếp thực tế và đào tạo cho mục đích sử dụng thực tiễn.” Ông cũng tiết lộ rằng sẽ có thêm nhiều mô hình AI khác sớm xuất hiện trên Foundry và trực tiếp trong các sản phẩm, trải nghiệm của Microsoft.
Trong một thị trường LLM (mô hình ngôn ngữ lớn) ngày càng cạnh tranh, Microsoft AI kỳ vọng một trong những điểm bán hàng chủ lực của các mô hình này là chi phí cạnh tranh hơn so với các đối thủ như Google và OpenAI. Cụ thể, MAI-Transcribe-1 có giá khởi điểm chỉ 0.36 USD mỗi giờ. MAI-Voice-1 là 22 USD cho 1 triệu ký tự, và MAI-Image-2 có giá từ 5 USD cho 1 triệu token đầu vào văn bản hoặc 33 USD cho 1 triệu token đầu ra hình ảnh. Đây là một chiến lược thông minh để thu hút người dùng và nhà phát triển, giúp công nghệ AI trở nên dễ tiếp cận hơn.
Mặc dù tích cực phát triển các mô hình AI riêng, ông Suleyman vẫn khẳng định cam kết của Microsoft đối với mối quan hệ đối tác chiến lược với OpenAI. Một thỏa thuận tái đàm phán gần đây đã cho phép Microsoft mạnh dạn theo đuổi nghiên cứu siêu trí tuệ này, trong khi vẫn duy trì sự hợp tác quan trọng với OpenAI.
Microsoft đã đầu tư hơn 13 tỷ USD vào phòng thí nghiệm nghiên cứu AI của OpenAI và tích hợp các mô hình của họ vào nhiều sản phẩm của mình thông qua mối quan hệ đối tác lâu dài. Chiến lược này tương tự cách Microsoft tiếp cận với chip: vừa tự sản xuất, vừa mua sắm từ các nhà cung cấp bên ngoài, thể hiện tầm nhìn linh hoạt và đa chiều trong phát triển công nghệ AI. Điều này cho thấy Microsoft không đặt cược vào một chiến lược duy nhất mà hướng đến việc tối ưu hóa cả khả năng nội bộ và sức mạnh từ các đối tác hàng đầu.
“` Next PostGoogle Vids, ứng dụng chỉnh sửa video sử dụng trí tuệ nhân tạo (AI) đầy tiềm năng, vừa nhận được một loạt cập nhật đáng chú ý. Với những tính năng mới này, việc tạo ra các video chuyên nghiệp trở nên dễ dàng và trực quan hơn bao giờ hết. Giờ đây, người dùng có thể điều khiển và tùy chỉnh avatar bằng lệnh văn bản, tích hợp mô hình Veo 3.1 mạnh mẽ, xuất video trực tiếp lên YouTube và thậm chí ghi màn hình ngay trên trình duyệt Chrome.
Một trong những điểm nhấn của bản cập nhật lần này là khả năng tương tác với avatar bằng ngôn ngữ tự nhiên. Người dùng có thể sử dụng các câu lệnh đơn giản để hướng dẫn avatar “diễn” trong một cảnh quay cụ thể, ví dụ như tương tác với sản phẩm, đạo cụ hoặc thiết bị. Điều đặc biệt là dù tạo ra những cảnh quay động và đa dạng, Google Vids vẫn đảm bảo sự nhất quán về diện mạo của nhân vật.
Không chỉ dừng lại ở việc điều khiển hành động, Google Vids còn cho phép cá nhân hóa avatar dựa trên chủ đề video. Người dùng có thể tinh chỉnh ngoại hình, thay đổi trang phục và thậm chí tạo ra các phông nền mới thông qua các câu lệnh văn bản. Điều này mở ra khả năng sáng tạo không giới hạn cho mọi loại nội dung video, từ marketing, giáo dục cho đến giải trí.
Tháng trước, Google đã tích hợp các mô hình tạo nhạc Lyria 3 và Lyria 3 Pro vào Vids, cho phép người dùng thêm hiệu ứng âm thanh hoặc âm nhạc vào clip của mình. Với bản cập nhật mới nhất, Google tiếp tục mang đến mô hình tạo video Veo 3.1, có khả năng tạo ra các clip dài 8 giây ngay trong công cụ chỉnh sửa. Tất cả người dùng sẽ được tặng 10 lượt tạo miễn phí mỗi tháng, trong khi các tài khoản Google AI Ultra và Workspace AI Ultra có thể tạo tới 1.000 video Veo mỗi tháng, mở rộng đáng kể tiềm năng sản xuất video AI.
Mô hình Veo 3.1 là một bước tiến lớn, giúp người dùng nhanh chóng tạo ra các đoạn video ngắn chất lượng cao chỉ với vài thao tác. Đây là công cụ lý tưởng cho việc sản xuất nội dung mạng xã hội, quảng cáo ngắn hoặc các đoạn giới thiệu sản phẩm, dịch vụ một cách nhanh chóng và hiệu quả.
Google Vids không chỉ cải thiện khả năng sáng tạo mà còn tối ưu hóa quy trình làm việc, giúp người dùng tiết kiệm thời gian và công sức đáng kể.
Giờ đây, bạn có thể xuất các video đã hoàn thiện trực tiếp lên YouTube mà không cần phải tải xuống rồi tải lên lại thủ công. Tính năng này giúp loại bỏ các bước rườm rà, đẩy nhanh quá trình đưa nội dung của bạn đến với khán giả. Tất cả các video được xuất mặc định ở chế độ riêng tư, cho phép bạn xem lại và kiểm duyệt kỹ lưỡng trước khi công khai.
Để hoàn thiện bộ công cụ làm video của mình, Google cũng bổ sung tiện ích mở rộng ghi màn hình mới dành cho trình duyệt Chrome. Tính năng này cho phép người dùng quay lại màn hình máy tính kèm theo âm thanh hoặc video, cực kỳ hữu ích cho việc tạo video hướng dẫn, thuyết trình, bài giảng trực tuyến hoặc các nội dung cần minh họa trực quan.
Kể từ khi ra mắt lần đầu tiên vào năm 2024, hướng đến việc tạo nội dung cho doanh nghiệp, Google đã không ngừng bổ sung các tính năng cho Vids. Năm ngoái, ứng dụng này đã tích hợp avatar AI và mở rộng quyền truy cập cho người dùng phổ thông. Vào tháng 2 vừa qua, Vids tiếp tục thêm các avatar phong cách hoạt hình 2D và 3D, đồng thời bổ sung hỗ trợ 7 ngôn ngữ lồng tiếng mới, bao gồm tiếng Pháp, Đức, Ý, Hàn Quốc, Bồ Đào Nha, Tây Ban Nha và Nhật Bản. Những nỗ lực này cho thấy cam kết của Google trong việc phát triển Vids thành một công cụ làm video AI toàn diện và dễ tiếp cận.
Trong thị trường chỉnh sửa video AI đang phát triển mạnh mẽ, Google Vids đang phải đối mặt với sự cạnh tranh từ nhiều tên tuổi lớn như Synthesia, HeyGen, D-ID và Lemon Slice. Tuy nhiên, với những cải tiến liên tục và sự tích hợp sâu rộng vào hệ sinh thái Google (Google Workspace, YouTube), Vids hứa hẹn sẽ là một đối thủ đáng gờm, mang lại giá trị cao và tiềm năng lớn cho cả người dùng cá nhân lẫn doanh nghiệp trong việc sản xuất nội dung video chất lượng cao.
“`© 2025 by AI2ez