Tìm hiểu ý nghĩa của việc mua lại Databricks đối với các công ty đang xem xét các mô hình nền tảng AI tổng quát công khai hoặc tư nhân.
MosaicML sẽ gia nhập gia đình Databricks trong một thỏa thuận trị giá 1,3 tỷ đô la và cung cấp “nhà máy” của họ để xây dựng các mô hình trí tuệ nhân tạo tổng quát độc quyền, Databricks đã công bố vào thứ Hai. Các công ty có thể sử dụng AI như thế này để giảm bớt lo ngại về vi phạm quyền sở hữu trí tuệ.
Sự kết hợp giữa công nghệ quản lý dữ liệu của Databricks và khả năng xây dựng mô hình AI của MosaicML sẽ cho phép các công ty tạo nền tảng ngôn ngữ lớn của riêng họ thay vì dựa vào AI tạo ra công khai như ChatGPT của OpenAI.
MosaicML đã tạo ra hai mô hình nền tảng AI chung: MPT-7 (với 6,7 tỷ tham số) và MPT-13 (với 29,9 tỷ tham số). Các mô hình nền tảng MPT sẽ tham gia các LLM mã nguồn mở riêng của Databricks: Dolly 1 và 2.
Chuyển đến:
Tại sao Databricks chọn MosaicML
MosaicML là lựa chọn đúng đắn cho việc mua lại Databricks vì nó có “nhà máy dễ sử dụng nhất trên thị trường”, Giám đốc điều hành và đồng sáng lập Databricks Ali Ghodsi cho biết tại hội nghị thượng đỉnh Databricks + AI vào thứ Ba.
Anh ấy cũng trích dẫn văn hóa công ty cạnh tranh, tương tự là lý do tại sao MosaicML rất phù hợp.
Việc mua lại vẫn đang được phê duyệt theo quy định; thỏa thuận dự kiến sẽ kết thúc vào cuối tháng Bảy. Ghodsi cho biết Databricks sẽ có thêm thông tin về cách các sản phẩm suy luận và đào tạo AI của MosaicML sẽ tích hợp với phần mềm Databricks sau khi quá trình đó hoàn tất.
Databricks là gì?
Databricks chủ yếu cung cấp phần mềm quản lý dữ liệu và lưu trữ dữ liệu cho các tổ chức doanh nghiệp, cũng như xử lý việc di chuyển nền tảng dữ liệu và phân tích dữ liệu. Databricks có quan hệ đối tác với AWS và các nhà cung cấp dịch vụ và phần mềm doanh nghiệp lớn khác.
Tại sao Databricks lên kế hoạch cho một tương lai đầy AI riêng tư
Ghodsi chỉ ra rằng công ty của ông sẽ sử dụng tài nguyên của MosaicML để cung cấp “nhà máy” nơi khách hàng có thể xây dựng và đào tạo LLM theo thông số kỹ thuật của riêng họ. Điều này có nghĩa là các công ty sẽ không phải trả tiền cho các kết nối giao diện lập trình ứng dụng hoặc chia sẻ dữ liệu độc quyền với bất kỳ ai khác sử dụng mô hình; cái sau đã trở thành mối quan tâm của các công ty sử dụng ChatGPT hoặc Google Bard. Khách hàng của Databricks sẽ có thể chọn giữa các dòng Dolly và MPT hoặc xây dựng một AI tổng quát tùy chỉnh trên một trong các mô hình hiện có.
XEM: Mẹo về cách quyết định xem mô hình AI tổng quát công khai hay riêng tư phù hợp với tổ chức của bạn (TechRepublic)
Ghodsi cho biết việc sử dụng các mô hình nền tảng AI nguồn đóng hay nguồn mở là cuộc chiến trong tâm trí của mọi người ngày nay. Databricks chắc chắn đứng về phía nguồn mở.
“Chúng tôi nghĩ rằng sẽ tốt hơn cho mọi người nếu có nghiên cứu mở về việc hiểu các mô hình này,” Ghodsi nói trong phiên hỏi đáp tại hội nghị thượng đỉnh. “Điều quan trọng là chúng ta hiểu điểm mạnh, điểm yếu, thành kiến của họ, v.v.
“Nhưng chúng tôi cũng nghĩ rằng, quan trọng nhất là các công ty muốn sở hữu mô hình của riêng họ… Họ không muốn chỉ sử dụng một mô hình mà ai đó đã cung cấp, bởi vì đó là tài sản trí tuệ. Và nó có tính cạnh tranh.”
Khách hàng muốn kiểm soát IP của chính họ và khóa dữ liệu của họ, Ghodsi nói.
Junaid Saiyed, giám đốc công nghệ của công ty phần mềm phân tích và quản lý dữ liệu Alation, cũng nhận thấy khách hàng hỏi về AI tổng quát. Tuy nhiên, điều quan trọng là các tổ chức phải biết dữ liệu mà họ đang cung cấp cho mô hình đào tạo là tốt, ông nói trong một email gửi tới TechRepublic.
Saiyed cho biết: “Sự phổ biến của các nguồn dữ liệu và khối lượng dữ liệu ngày càng tăng đã khiến mọi người khó tìm kiếm và khám phá dữ liệu được quản lý, đáng tin cậy mà họ cần để đào tạo các mô hình AI của mình”. “Để thực sự hiệu quả, các mô hình tổng quát phải được tinh chỉnh trên các danh mục dữ liệu dành riêng cho miền và con người nên xem xét đầu ra của chúng.”
Cách quyết định giữa AI công khai hoặc độc quyền
Umesh Sachdev, đồng sáng lập và giám đốc điều hành của công ty tự động hóa và AI đàm thoại Uniphore, khuyến nghị các nhà lãnh đạo doanh nghiệp hãy tự hỏi mình những câu hỏi sau khi quyết định xây dựng AI của riêng họ trên mô hình nền tảng như của MosaicML hay sử dụng AI công khai như dòng GPT:
- Nhà cung cấp mô hình sẽ tính phí cho tôi là bao nhiêu và chi phí cơ sở hạ tầng sẽ tăng bao nhiêu do GPU?
- Với các cuộc đàm phán về quy định vẫn đang ở giai đoạn đầu, chúng ta nên nghiêng về phía trước bao nhiêu? Nếu doanh nghiệp của chúng tôi sử dụng ChatGPT, thì chúng tôi có khả năng nằm trong tầm ngắm pháp lý của các nhà cung cấp nội dung đang thách thức quyền sở hữu hoặc đào tạo dữ liệu một cách hợp pháp không?
- Nếu chúng tôi không muốn sử dụng thứ gì đó đã được đào tạo trên dữ liệu mở hoặc công khai mà là các bộ dữ liệu độc quyền hơn từ ngành của chúng tôi, chúng tôi có thể hỏi liệu tất cả dữ liệu của chúng tôi đã sẵn sàng ở một nơi chưa.
- Nếu chúng tôi thí điểm thành công, liệu nó có mở rộng quy mô không? Còn việc kết nối tất cả các hệ thống cũ của chúng tôi với lớp AI này thì sao?
Mục tiêu là làm cho việc đào tạo, xoay chuyển và xây dựng AI trở nên dễ dàng hơn
“Đối với hầu hết các tổ chức, họ có những nhiệm vụ chuyên biệt mà họ muốn thực hiện… và để làm được điều đó, chúng tôi muốn họ có thể đào tạo và điều chỉnh các mô hình cụ thể,” Ghodsi cho biết tại hội nghị thượng đỉnh Databricks + AI.
Ghodsi cho biết, các khách hàng doanh nghiệp cần một ngưỡng kỹ năng kỹ thuật nhất định để xây dựng AI tổng quát. Anh ấy dự đoán rằng MosaicML có thể đáp ứng nhu cầu về một cách dễ dàng hơn để xây dựng và đào tạo công nghệ AI.
“Hy vọng rằng, cuối cùng, chúng tôi sẽ biến nó thành thứ mà bạn có thể thực hiện với một vài cú nhấp chuột,” Ghodsi nói tại hội nghị thượng đỉnh.
Sachdev cho biết trong một email gửi tới TechRepublic: “Công nghệ này (AI thế hệ mới) đang ở giai đoạn sơ khai và còn rất nhiều điều cần được khám phá về chủ quyền dữ liệu, khả năng mở rộng và chi phí. “Các công ty đang nhanh chóng đưa ra thông báo và quyết định, nhưng giống như hầu hết các làn sóng công nghệ lớn, các cơ hội sẽ mở ra trong làn sóng phát triển thứ hai hoặc thứ ba.”
Saiyed cho biết: “Sự chuyển đổi AI này tiết lộ cho các nhà lãnh đạo doanh nghiệp và công nghệ về trạng thái thực sự của môi trường dữ liệu của họ. “Các tổ chức có nền tảng dữ liệu thông minh và quản trị dữ liệu được liên kết sẽ có thể tận dụng sức mạnh của GenAI trước những tổ chức hiện chỉ mới đầu tư vào hiện đại hóa. [their] chiến lược quản lý dữ liệu.”
Đối thủ cạnh tranh của MosaicML là ai?
Cạnh tranh trong lĩnh vực đào tạo AI rất khốc liệt; MosaicML cạnh tranh với NVIDIA, OpenAI, Anthropic và Google. Vào thứ Hai, NVIDIA đã công bố hợp tác với Snowflake để bổ sung nền tảng phát triển NVIDIA NeMo LLM và điện toán tăng tốc GPU NVIDIA vào Đám mây dữ liệu Snowflake.
Thêm tin tức từ Hội nghị thượng đỉnh Databricks + AI
Bốn bản cập nhật lớn khác được đưa ra từ hội nghị thượng đỉnh Databricks + AI:
- Các Khung lưu trữ mã nguồn mở Delta Lake giờ đây sẽ có sẵn trong phiên bản 3.0, bổ sung Định dạng chung (UniForm), Kernel cho trình kết nối Delta và bố cục dữ liệu Liquid Clustering để truy cập dễ dàng hơn.
- LakehouseIQ là một AI trò chuyện bằng ngôn ngữ tự nhiên chạy trong Databricks Unity Catalog.
- nhà hồ trí tuệ nhân tạo là bộ công cụ dành cho LLM trên nền tảng dữ liệu Lakehouse;
- Liên đoàn Lakehouse là một công cụ để thống nhất kiến trúc lưới dữ liệu đã được đóng gói trước đó.