ByteDance, tập đoàn nổi tiếng với vai trò là công ty mẹ của TikTok, vừa giới thiệu OmniHuman-1, một mô hình trí tuệ nhân tạo (AI) hoàn toàn mới có khả năng tạo ra các video con người sống động chỉ từ một bức ảnh duy nhất. Sự đổi mới này vượt xa hầu hết các phương pháp “deepfake” hiện có khi nó không chỉ tập trung vào biểu cảm khuôn mặt mà còn kích hoạt động toàn bộ cơ thể—bao gồm cả cử chỉ, chuyển động đầu và tương tác của tay—mang đến hiệu ứng chân thực hơn.

Nguyên lý và Ý nghĩa của OmniHuman-1
OmniHuman-1 tận dụng kiến trúc dựa trên khuếch tán quy mô lớn, cho phép nó “bắt” được chuyển động tự nhiên từ các đầu vào tối thiểu như hình ảnh tĩnh, tín hiệu âm thanh hay video tham khảo. Nhờ đó, mô hình mở ra nhiều khả năng cho các nhà sáng tạo nội dung, đạo diễn phim và chuyên gia tiếp thị, những người đang tìm kiếm giải pháp sản xuất các nhân vật kỹ thuật số sống động hoặc các đoạn video hư cấu một cách dễ dàng và hiệu quả.
Các phương pháp dựa trên AI trước đây thường gặp khó khăn trong việc tạo ra chuyển động toàn diện và mạch lạc cho con người. Thông thường, chúng chỉ tập trung vào việc làm động các phần khuôn mặt hoặc phần trên cơ thể, dẫn đến hiện tượng chuyển động ngôn ngữ cơ thể và cử chỉ trở nên gượng gạo hoặc không nhất quán. OmniHuman-1 đã giải quyết vấn đề này bằng cách tạo ra chuyển động toàn thân mượt mà, điều chỉnh linh hoạt theo tín hiệu đầu vào của người dùng.
Hơn nữa, mô hình này có khả năng mở rộng linh hoạt đối với các tỷ lệ khung hình và tỷ lệ cơ thể khác nhau. Nó không bị giới hạn ở góc nhìn chân dung như một số hệ thống trước đó. Việc hỗ trợ nhiều định dạng cho phép OmniHuman-1 trở thành một công cụ đa năng cho nhiều dự án truyền thông, từ video dạng ngắn trên điện thoại di động đến các sản phẩm điện ảnh màn ảnh rộng.
Nền tảng Kỹ thuật
OmniHuman-1 được vận hành bởi kiến trúc AI tiên tiến, được thiết kế để xử lý các chuyển động phức tạp và việc tạo ra video. Hệ thống sáng tạo này kết hợp giữa mô hình khuếch tán (diffusion model) và các kỹ thuật huấn luyện đa phương thức (multimodal training) nhằm tạo ra các chuyển động con người có tính chân thực cao.

Chi tiết về kiến trúc, chiến lược huấn luyện và hiệu suất của OmniHuman-1 được trình bày trong bài báo nghiên cứu chính thức, được đăng trên arXiv với tiêu đề OmniHuman-1: Generating Human Videos from a Single Image and Motion Signals.
Chúng ta cùng phân tích các thành phần cốt lõi của hệ thống này và cách chúng phối hợp để đẩy xa ranh giới của công nghệ video do AI tạo ra.
1. Diffusion Transformer (DiT)
Trọng tâm của hiệu suất OmniHuman-1 chính là Diffusion Transformer (DiT). Các mô hình khuếch tán đã được chứng minh hiệu quả trong việc tạo ra các hình ảnh và video chất lượng cao. Khi được kết hợp với kiến trúc Transformer, chúng có khả năng chú ý đến nhiều yếu tố theo thời gian, xử lý đồng thời cả chi tiết cục bộ (như đặc điểm khuôn mặt) và ngữ cảnh tổng thể (như chuyển động của toàn bộ cơ thể).
2. Huấn luyện với “Omni-Conditions”
Một phần quan trọng trong chiến lược huấn luyện của OmniHuman-1 là việc kết hợp các “omni-conditions” (điều kiện toàn diện), nghĩa là nó hòa trộn các tín hiệu mạnh—chẳng hạn như dữ liệu tư thế chính xác—với các tín hiệu yếu hơn—như gợi ý từ âm thanh hoặc văn bản—trong quá trình huấn luyện. Phương pháp này cho phép mô hình giữ lại và học hỏi từ một tập dữ liệu đa dạng, thay vì loại bỏ những video không có chú thích tham chiếu hoàn hảo. Kết quả là, mô hình phát triển một hiểu biết tổng quát hơn về chuyển động.
3. Kho dữ liệu 19.000 giờ
Quy mô của OmniHuman-1 cũng là một lý do khiến nó đạt hiệu suất ấn tượng. Các nhà nghiên cứu của ByteDance cho biết rằng họ đã sử dụng 19.000 giờ video để huấn luyện mô hình. Sự đa dạng và phong phú của dữ liệu chuyển động từ các tình huống khác nhau giúp mô hình có khả năng tạo ra các đoạn video chân thực ngay cả với các tư thế bất thường hoặc góc quay độc đáo.
Các Tính Năng Chính
- Chuyển từ Ảnh Tĩnh sang Video:
Một trong những điểm nổi bật là khả năng tạo ra một nhân vật chuyển động, nói chuyện và biểu đạt cử chỉ từ chỉ một bức ảnh duy nhất. Người dùng chỉ cần cung cấp một bức ảnh kèm theo một dải âm thanh, và mô hình sẽ tạo ra một video toàn thân, đồng bộ khẩu hình, cử chỉ và ngôn ngữ cơ thể với lời nói. - Đầu Vào Chuyển Động Đa Dạng:
- Dựa trên âm thanh: Tạo chuyển động phù hợp với lời nói, bao gồm cả khẩu hình và cử chỉ.
- Dựa trên video tham khảo: Mô phỏng hoặc điều chỉnh chuyển động dựa trên một video tham khảo sẵn có.
- Kết hợp đa dạng: Người dùng có thể kết hợp các tín hiệu, ví dụ sử dụng âm thanh để tạo khẩu hình và video tham khảo để tạo cử chỉ tay hoặc động tác nhảy múa.
- Hỗ Trợ Tỷ Lệ Khung Hình và Tỷ Lệ Cơ Thể Đa Dạng:
Cho dù cần video dạng chân dung phục vụ cho mạng xã hội hay video màn ảnh rộng cho phim ảnh, OmniHuman-1 đều có thể thích ứng linh hoạt. Ngoài ra, nó còn xử lý tốt các đặc điểm về dáng người khác nhau, tạo nên sự linh hoạt trong bối cảnh nghệ thuật hay nội dung câu chuyện. - Tùy Chỉnh Phong Cách:
OmniHuman-1 không chỉ giới hạn ở khả năng tạo ra hình ảnh theo kiểu photorealism (chân thực) mà còn có thể tạo ra các hoạt hình, nhân vật theo phong cách nghệ thuật hoặc thậm chí là các nhân vật nhân hóa. Đối với ngành game, các influencer ảo hay các nhà làm phim sáng tạo, tùy chọn thay đổi phong cách hình ảnh là một điểm hấp dẫn.
Đánh Giá Hiệu Suất
ByteDance đã công bố một số chỉ số so sánh OmniHuman-1 với các phương pháp tạo hoạt hình AI khác (như Loopy, CyberHost và DiffTED). Một số điểm nổi bật bao gồm:
- Độ chính xác khẩu hình (Lip-Sync Accuracy) (giá trị cao hơn biểu thị hiệu suất tốt hơn):
- OmniHuman-1: 5.255
- CyberHost: 6.627
- Loopy: 4.814
- Khoảng cách Fréchet Video (FVD) (giá trị thấp hơn biểu thị hiệu suất tốt hơn):
- OmniHuman-1: 15.906
- Loopy: 16.134
- DiffTED: 58.871
- Mức độ biểu đạt cử chỉ (Gesture Expressiveness – HKV):
- OmniHuman-1: 47.561
- CyberHost: 24.733
- DiffGest: 23.409
- Độ tin cậy của các điểm khóa tay (Hand Keypoint Confidence – HKC) (giá trị cao hơn tốt hơn):
- OmniHuman-1: 0.898
- CyberHost: 0.884
- DiffTED: 0.769
OmniHuman-1 thể hiện hiệu suất mạnh mẽ trên tất cả các chỉ số chính. Nó có chất lượng video tổng thể vượt trội với giá trị FVD thấp nhất và đạt điểm cao nhất về biểu đạt cử chỉ và độ tin cậy của các điểm khóa tay, cho thấy các chuyển động được tạo ra tự nhiên và chính xác. Mặc dù độ chính xác khẩu hình của nó hơi kém hơn CyberHost, nhưng vẫn duy trì vị trí cạnh tranh trong hạng mục này.
Các Hạn Chế
- Ảnh hưởng của chất lượng ảnh đầu vào:
Ảnh có độ phân giải thấp hoặc chất lượng kém có thể dẫn đến việc tạo ra các tư thế không tự nhiên hoặc chi tiết khuôn mặt bị mờ trong video đầu ra. - Xử lý các chuyển động phức tạp:
Các chuỗi chuyển động đặc biệt phức tạp, như các pha nhào lộn hoặc động tác hiếm gặp, có thể dẫn đến sự méo mó hoặc xuất hiện các hiện tượng sai lệch (artifacts). - Yêu cầu tài nguyên tính toán cao:
Việc huấn luyện và vận hành mô hình đòi hỏi hệ thống tính toán mạnh mẽ, từ đó có thể hạn chế khả năng tiếp cận của một số người dùng hoặc tổ chức.
Ứng Dụng Trong Thực Tế
1. Sản xuất Nội dung Số:
OmniHuman-1 có thể cách mạng hóa sản xuất nội dung cho mạng xã hội và quảng cáo. Các influencer và chuyên gia tiếp thị có thể tạo ra những video nhanh chóng, thu hút bằng cách biến một bức ảnh duy nhất thành nhiều đoạn video động. Từ việc tạo ra những nhân vật ảo cá nhân hóa cho đến việc mô phỏng các buổi giới thiệu sản phẩm, công nghệ này giúp giảm chi phí sản xuất và độ phức tạp mà không làm giảm tính sáng tạo hay chất lượng hình ảnh.
Các thương hiệu có thể nhanh chóng tạo ra nội dung phù hợp với từng khu vực bằng cách điều chỉnh các chi tiết như cử chỉ, trang phục hoặc phông nền để phù hợp với văn hóa địa phương. Tương tự, các nghệ sĩ âm nhạc có thể sản xuất video âm nhạc hoạt hình với hình ảnh bản thân hoặc các nhân vật hư cấu thực hiện các điệu múa có sắp đặt, từ đó mở rộng khả năng sáng tạo cho các chiến dịch quảng cáo kỹ thuật số.
2. Phim và Hoạt Hình:
Quy trình sản xuất phim truyền thống, đặc biệt là các quy trình thu bắt chuyển động toàn thân, thường tốn kém thời gian và chi phí. OmniHuman-1 cung cấp một giải pháp thay thế mạnh mẽ bằng cách tự động hóa việc tạo ra các chuyển động phức tạp trong khi vẫn cho phép đạo diễn và họa sĩ hoạt hình duy trì quyền kiểm soát về mặt nghệ thuật. Mô hình có thể tạo ra những chuyển động nhân vật chân thực hoặc mang tính nghệ thuật cao, có thể được tinh chỉnh thêm nếu cần, từ đó rút ngắn thời gian hậu kỳ.
Đối với các nhà làm phim thử nghiệm và các nhà sáng tạo độc lập, điều này mở ra cơ hội sản xuất các tác phẩm điện ảnh có giá trị sản xuất cao với chi phí thấp hơn. Khả năng thích ứng với các phong cách nghệ thuật khác nhau cũng tạo điều kiện cho các sản phẩm lai, kết hợp giữa hiện thực và yếu tố giả tưởng hay hình ảnh trừu tượng.
3. Giáo dục và Kể Chuyện Ảo:
OmniHuman-1 có thể làm cho việc giáo dục và kể chuyện trở nên sống động hơn thông qua việc tạo ra các nhân vật lịch sử hoặc hư cấu từ các bức chân dung hay ảnh chụp. Các bảo tàng và tổ chức giáo dục có thể sử dụng công nghệ này để “hồi sinh” các hiện vật, tạo ra những trải nghiệm tương tác nơi các nhân vật lịch sử thực hiện bài giảng hoặc kể lại các sự kiện.
Trong môi trường học trực tuyến, các giảng viên hoạt hình có thể tăng cường sự tương tác của học viên qua việc cung cấp các minh họa trực quan cho các khái niệm hoặc câu chuyện. Các nhà làm nội dung dành cho trẻ em cũng có thể tạo ra những nhân vật hoạt hình với cảm giác chân thực, góp phần làm tăng tính giải trí và hiệu quả giảng dạy.
4. Hiện Diện Ảo:
Với sự phát triển của các nền tảng thực tế ảo và thực tế tăng cường, OmniHuman-1 có thể định hình lại cách con người tương tác trong các môi trường ảo này. Thay vì dựa vào các avatar chung chung, người dùng có thể tạo ra những đại diện số mang tính cá nhân cao chỉ từ một bức ảnh tự chụp và đầu vào âm thanh. Những avatar này sẽ phản ánh chính xác các cử chỉ và biểu cảm của người dùng, từ đó tạo ra cảm giác tự nhiên cho các cuộc họp, hội nghị hay các sự kiện xã hội ảo.
Sự chân thực được nâng cao này cũng có thể cải thiện các ứng dụng giao tiếp từ xa cho doanh nghiệp. Ví dụ, các giám đốc điều hành có thể thuyết trình hoặc tổ chức các cuộc họp bằng avatar hoạt hình hoàn chỉnh, vừa thể hiện ngoại hình cá nhân vừa truyền đạt được ngôn ngữ cơ thể, qua đó tăng cường hiệu quả giao tiếp và thu hút sự chú ý của khán giả.
Các Vấn Đề Đạo Đức và Pháp Lý
Sự ra đời của OmniHuman-1 mang theo cả cơ hội và thách thức. Khi công nghệ deepfake ngày càng tinh vi, các mối lo ngại về quyền riêng tư, thông tin sai lệch và vấn đề quy định pháp lý cũng trở nên cấp bách hơn. Dưới đây là một số khía cạnh cần được xem xét:
1. Mối Lo Ngại về Deepfake:
Khả năng tạo ra video con người chân thực của OmniHuman-1 làm dấy lên những lo ngại về việc lạm dụng công nghệ deepfake, đặc biệt là trong lĩnh vực chính trị, tài chính và quấy rối trực tuyến. Những video giả mạo có động cơ chính trị, ví dụ như những đoạn video công khai cho thấy các nhân vật nổi tiếng phát ngôn sai sự thật, đã được sử dụng như công cụ hiệu quả trong các chiến dịch thông tin sai lệch. Tương tự, các video giả mạo quảng cáo hoặc chứng thực cũng có thể bị lợi dụng nhằm lừa đảo nhà đầu tư bằng cách mạo danh các người nổi tiếng.
Một mối quan tâm lớn khác là việc sử dụng hình ảnh cá nhân mà không có sự đồng ý, đặc biệt là trong các nội dung khiêu dâm hoặc bôi nhọ danh dự. Tác động về mặt tinh thần và tâm lý đối với nạn nhân của những deepfake như vậy có thể rất nghiêm trọng. Do đó, nhiều nhà phê bình kêu gọi cần có những biện pháp bảo vệ pháp lý và sự thay đổi về nhận thức văn hóa để đối phó hiệu quả với các tác hại này.
2. Môi Trường Quy Định Pháp Lý:
Một số quốc gia đã bắt đầu ban hành các quy định nhằm kiểm soát lạm dụng công nghệ deepfake. Ví dụ, Hàn Quốc đã thông qua luật hình sự hóa việc tạo ra và phân phối các deepfake gây hại, tập trung vào nội dung khiêu dâm. Trong khi đó, Liên minh Châu Âu đã thực hiện Đạo luật Trí tuệ Nhân tạo (Artificial Intelligence Act), trong đó có các quy định nhằm hạn chế sự lan truyền của các nội dung do AI tạo ra mang tính lừa đảo.
Tuy nhiên, việc thực thi các quy định này gặp nhiều khó khăn do số lượng nội dung được sản xuất hàng ngày rất lớn và khả năng của AI không ngừng phát triển. Việc phát hiện deepfake trong thời gian thực đòi hỏi một hệ thống hạ tầng công nghệ mạnh mẽ, điều mà nhiều cơ quan quản lý vẫn đang trong quá trình xây dựng. Các chuyên gia cho rằng nỗ lực này cần được triển khai ở quy mô toàn cầu vì nội dung do AI tạo ra thường vượt qua biên giới quốc gia.
3. Tác Động Cá Nhân và Xã Hội:
Bên cạnh các mối lo về pháp lý, tác động xã hội của công nghệ deepfake tiên tiến cũng rất đáng lưu ý. Niềm tin của công chúng vào các bằng chứng video và âm thanh đang dần bị xói mòn, khi mà ngày càng nhiều người lo ngại rằng sẽ trở nên khó khăn hơn trong việc xác minh tính xác thực của các nội dung truyền thông. “Cuộc khủng hoảng tính xác thực” này có thể dẫn đến sự hoài nghi lan rộng đối với cả nội dung thật lẫn giả.
Đối với cá nhân, hậu quả còn nghiêm trọng hơn khi hình ảnh của họ bị sử dụng trong các video deepfake cho mục đích quấy rối hoặc lừa đảo. Người bị ảnh hưởng có thể gặp khó khăn trong việc minh oan danh tiếng của mình, đặc biệt khi các nội dung sai lệch lan truyền nhanh chóng trước khi có biện pháp khắc phục. Do đó, các nhà vận động quyền lợi đang kêu gọi các quy định đồng thuận rõ ràng hơn và cơ chế gỡ bỏ nội dung vi phạm nhanh chóng nhằm bảo vệ nạn nhân khỏi những hậu quả tiêu cực.
Bên cạnh đó, việc giáo dục công chúng về các nguy cơ và dấu hiệu nhận biết deepfake ngày càng trở nên cần thiết. Khi các công cụ phát hiện deepfake được cải tiến, việc nâng cao nhận thức kỹ thuật số sẽ giúp người dùng đánh giá một cách chính xác hơn các nội dung trực tuyến, giảm thiểu tác động tiêu cực của thông tin sai lệch.
Kết Luận
OmniHuman-1 đánh dấu một bước tiến vượt bậc trong lĩnh vực tạo video chuyển động con người dựa trên AI. Bằng cách kết hợp Diffusion Transformer với chiến lược huấn luyện “omni-conditions” và kho dữ liệu video khổng lồ, ByteDance đã tạo ra một công cụ có thể biến một bức ảnh tĩnh thành một video chuyển động toàn thân sống động và chân thực. Khả năng thích ứng với nhiều tỷ lệ cơ thể, tỷ lệ khung hình và phong cách hoạt hình khác nhau khiến mô hình này trở thành lựa chọn hấp dẫn đối với các nhà làm phim, chuyên gia tiếp thị, nhà phát triển trò chơi và nhiều lĩnh vực sáng tạo khác.
Tuy nhiên, bên cạnh những tiềm năng mạnh mẽ, OmniHuman-1 cũng làm nổi bật những rủi ro tiềm ẩn của công nghệ deepfake tiên tiến. Khi những mô hình như vậy ngày càng trở nên dễ tiếp cận, các vấn đề về tính xác thực, an ninh và trách nhiệm pháp lý sẽ càng trở nên phức tạp. Trong những năm tới, thách thức sẽ là tìm cách cân bằng giữa những đột phá công nghệ và khung pháp lý, đạo đức cũng như các biện pháp phát hiện cần thiết để ngăn chặn lạm dụng. Hiện nay, OmniHuman-1 đứng như một minh chứng ấn tượng cho sự tiến bộ của công nghệ tạo video bằng AI và mở ra những hướng đi mới cho tương lai.