Sora: Những điều cần biết về trình tạo video AI mới của OpenAI

Sam Altman lại một lần nữa khiến ngành công nghiệp AI chấn động. Lần này, không phải vì những tranh cãi xung quanh việc ông rời OpenAI, cũng chẳng liên quan đến ChatGPT. Mà là nhờ một mô hình AI hoàn toàn mới mang tên Sora.

Sora là gì?

Được giới thiệu vào thứ Năm, Sora lấy cảm hứng từ tiếng Nhật, có nghĩa là "bầu trời", có khả năng tạo video dài tới một phút chỉ từ văn bản. Mục tiêu của OpenAI với Sora là "dạy AI hiểu và mô phỏng thế giới vật lý chuyển động, nhằm đào tạo các mô hình giúp con người giải quyết các vấn đề đòi hỏi tương tác thực tế."

Nghe có vẻ khô khan, nhưng thực tế khả năng của Sora vượt xa. Nó có thể tạo ra video độ nét cao về mọi thứ, từ California thời kỳ đào vàng thế kỷ 19 đến hoạt hình 3D giống như sản phẩm của Dreamworks. Tất cả những gì nó yêu cầu là một đoạn văn bản đơn giản.

Mặc dù, đây không phải lần đầu tiên công nghệ này xuất hiện. Trước đó, Startup Runway có trụ sở tại New York, được hỗ trợ bởi Google và Nvidia, đã có một công cụ AI tạo video từ văn bản. Meta cũng có một công cụ tương tự mang tên Emu Video. Tháng trước, Google cũng không kém cạnh khi công bố phiên bản text-to-video của mình có tên Lumiere.

Tuy nhiên sức hút xung quanh chúng không thể so sánh với Sora. Một phần là do vị trí lãnh đạo OpenAI, một công ty tư nhân, cho phép Altman tự do quảng bá công nghệ - mặc dù nó vẫn đang được thử nghiệm về các vấn đề tiềm ẩn. (Lưu ý: Việc phát hành Sora chỉ giới hạn cho "red teamers" - những người sẽ kiểm tra rủi ro và một số nghệ sĩ và nhà làm phim được chọn lọc.)

Sora hoạt động như thế nào?

Ngay khi vừa được giới thiệu Sora đã gây bão trong thế giới AI. Mặc dù các hoạt động bên trong đầy đủ vẫn được giữ kín, nhưng khi tổng hợp nhiều nguồn tin, chúng ta có thể nắm được phần nào các nguyên tắc cốt lõi của nó.

Giống như các mô hình trí tuệ nhân tạo tạo hình ảnh từ văn bản như DALL·E 3, StableDiffusion và Midjourney, Sora là một mô hình khuếch tán. Điều đó có nghĩa là nó bắt đầu với từng khung hình của video bao gồm nhiễu tĩnh, và sử dụng học máy để dần dần biến đổi hình ảnh thành thứ gì đó tương tự như mô tả trong lời nhắc.

Công nghệ nền tảng:

Khả năng chính:

Để sử dụng và tạo video bằng Sora, người dùng chỉ cần nhập một vài câu dưới dạng lời nhắc, giống như trình tạo hình ảnh AI. Người dùng cũng có thể chọn giữa phong cách quang học hoặc phong cách hoạt hình, tạo ra kết quả gây sốc chỉ trong vài phút.

Những hạn chế mà Sora có thể gặp phải

Vì là một sản phẩm mới, thế nên OpenAI cũng đã lưu ý một số hạn chế mà phiên bản Sora hiện tại có thể gặp phải. Sora có thể không có hiểu biết sâu sắc về vật lý, và vì vậy các quy tắc vật lý trong "thế giới thực" có thể không phải lúc nào cũng được tuân thủ.

Ví dụ, bạn muốn tạo video một người đang ăn bánh quy. Điều này Sora có thể làm được, tuy nhiên ngay sau đó, chiếc bánh quy đó có thể không có vết cắn. Hoặc một video về quả bóng rổ lọt vào lưới. Quả bóng có thể lọt qua lưới nhưng theo một cách “phi thực tế” - chẳng hạn như xuyên qua khung sắt…

Tương tự, vị trí không gian của các vật thể có thể thay đổi không tự nhiên. Ví dụ bạn một có một video hoa nở nhưng sự xuất hiện và nở của các bông hoa có thể bị trùng vào nhau, gây rối mắt.

Ứng dụng và rủi ro của Sora mà bạn nên cân nhắc

Tương tự như các công cụ AI khác, Sỏa hứa hẹn sẽ mang đến nhiều trải nghiệm thú vị nhưng đồng thời cũng đi kèm một số rủi ro đáng ngại.

Các ứng dụng của Sora:

Rủi ro của Sora:

Tuy vậy, về cơ bản chúng ta cũng có thể nhìn thấy những bước tiến mới của công nghệ. Mô hình Sora hứa hẹn sẽ là một bước nhảy vọt về chất lượng của video tổng hợp mang đến nhiều tiện ích hơn cho con người.

Theo Makeitvietnam

Link nội dung: https://song247.vn/sora-nhung-dieu-can-biet-ve-trinh-tao-video-ai-moi-cua-openai-a41258.html