Những công nghệ AI đang có tác động lớn đến các ngành công nghiệp, bao gồm truyền thông và giải trí, ô tô, dịch vụ khách hàng,… Đối với các nhà phát triển game, những tiến bộ này đang mở đường cho việc tạo ra các trải nghiệm in-game chân thực và hấp dẫn hơn.
Từ việc tạo ra các nhân vật sống động như thật truyền tải cảm xúc đến chuyển đổi văn bản đơn giản thành hình ảnh quyến rũ, các mô hình nền tảng (foundation models) đang trở nên thiết yếu trong việc tăng tốc quy trình làm việc của nhà phát triển đồng thời giảm chi phí tổng thể. Những mô hình AI mạnh mẽ này đã mở ra vô số khả năng, hỗ trợ các nhà thiết kế và nhà phát triển game xây dựng trải nghiệm gaming chất lượng cao hơn.
Mô hình nền tảng là gì?
Mô hình nền tảng là một mạng nơ-ron nhân tạo (neural network) được đào tạo dựa trên lượng dữ liệu khổng lồ – và sau đó được điều chỉnh để giải quyết nhiều tác vụ khác nhau. Chúng có khả năng thực hiện một loạt các tác vụ chung, chẳng hạn như tạo văn bản, hình ảnh và âm thanh. Trong năm qua, mức độ phổ biến và sử dụng các mô hình nền tảng đã tăng lên nhanh chóng, với hàng trăm mô hình hiện có sẵn.
Chẳng hạn như GPT-4 là một mô hình đa phương thức lớn do OpenAI phát triển, có thể tạo ra văn bản giống con người dựa trên ngữ cảnh và các cuộc hội thoại trong quá khứ. Một cái khác, DALL-E 3, có thể tạo ra hình ảnh và tác phẩm nghệ thuật chân thực từ mô tả được viết bằng ngôn ngữ tự nhiên.
Các mô hình nền tảng mạnh mẽ như mô hình NVIDIA NeMo và Edify trong NVIDIA Picasso giúp các công ty và nhà phát triển dễ dàng đưa AI vào quy trình công việc hiện có của họ. Ví dụ, bằng cách sử dụng framework NVIDIA NeMo, các tổ chức có thể nhanh chóng đào tạo, tùy chỉnh và triển khai các mô hình Generative AI theo quy mô. Và bằng cách sử dụng NVIDIA Picasso, các team có thể tinh chỉnh các mô hình Edify được đào tạo trước với dữ liệu doanh nghiệp của riêng họ để xây dựng các sản phẩm và dịch vụ tùy chỉnh cho hình ảnh, video, 3D assets, vật liệu kết cấu và 360 HDRi đối với Generative AI.
Các mô hình nền tảng được xây dựng như thế nào?
Các mô hình nền tảng có thể được sử dụng làm cơ sở cho các hệ thống AI – có thể thực hiện nhiều tác vụ. Các tổ chức có thể dễ dàng và nhanh chóng sử dụng một lượng lớn dữ liệu chưa được gắn nhãn để tạo ra các mô hình nền tảng của riêng mình.
Bộ dữ liệu (dataset) phải lớn và đa dạng nhất có thể, vì quá ít dữ liệu hoặc dữ liệu chất lượng kém có thể dẫn đến thông tin không chính xác – đôi khi được gọi là ảo giác – hoặc khiến các chi tiết nhỏ hơn bị thiếu trong những kết quả đầu ra được tạo.
Tiếp theo, bộ dữ liệu cần phải được chuẩn bị. Điều này bao gồm làm sạch dữ liệu, loại bỏ lỗi và định dạng dữ liệu theo cách mà mô hình có thể hiểu được. Thiên kiến (bias) là một vấn đề phổ biến khi chuẩn bị một bộ dữ liệu, vì vậy điều quan trọng là phải đo lường, giảm thiểu và giải quyết những sự mâu thuẫn và không chính xác này.
Việc đào tạo một mô hình nền tảng có thể tốn nhiều thời gian, đặc biệt là với kích thước của mô hình và lượng dữ liệu cần thiết. Phần cứng như những GPU NVIDIA A100 hoặc H100 Tensor Core, cùng với các hệ thống dữ liệu hiệu suất cao như NVIDIA DGX SuperPOD, có thể tăng tốc quá trình đào tạo. Ví dụ, ChatGPT-3 đã được đào tạo trên hơn 1000 GPU NVIDIA A100 trong khoảng 34 ngày.
Ba yêu cầu của một mô hình nền tảng thành công.
Sau khi đào tạo, mô hình nền tảng được đánh giá về chất lượng, tính đa dạng và tốc độ. Có một số phương pháp để đánh giá hiệu suất, ví dụ:
- Các công cụ và framework định lượng mức độ mô hình dự đoán mẫu văn bản.
- Các số liệu so sánh kết quả đầu ra được tạo với một hoặc nhiều tham chiếu và đo lường sự tương đồng giữa chúng.
- Người đánh giá con người (human evaluator) đánh giá chất lượng đầu ra được tạo theo các tiêu chí khác nhau.
Một khi mô hình vượt qua các thử nghiệm và đánh giá liên quan, chúng có thể được triển khai để sản xuất.
Khám phá các mô hình nền tảng trong game
Các mô hình nền tảng được đào tạo trước có thể được các nhà phát triển phần mềm trung gian, công cụ và trò chơi tận dụng cả trong quá trình sản xuất và hoạt động. Để đào tạo một mô hình cơ sở, cần có nguồn lực và thời gian – cùng với trình độ chuyên môn nhất định. Hiện tại, nhiều nhà phát triển trong lĩnh vực gaming đang khám phá các mô hình sẵn có nhưng cần các giải pháp tùy chỉnh phù hợp với trường hợp sử dụng cụ thể của họ. Họ cần các mô hình được đào tạo về dữ liệu an toàn về mặt thương mại và được tối ưu hóa để đạt hiệu suất theo thời gian thực mà không phải trả chi phí triển khai quá cao. Khó khăn trong việc đáp ứng các yêu cầu này đã làm chậm việc áp dụng các mô hình nền tảng.
Tuy nhiên, sự đổi mới trong không gian Generative AI diễn ra nhanh chóng và khi các rào cản lớn được giải quyết, các nhà phát triển thuộc mọi quy mô – từ các công ty khởi nghiệp đến các studio AAA – sẽ sử dụng các mô hình nền tảng để đạt được hiệu quả mới trong phát triển game và tăng tốc tạo nội dung. Ngoài ra, những mô hình này có thể giúp tạo trải nghiệm chơi game hoàn toàn mới.
Các trường hợp sử dụng hàng đầu trong ngành tập trung vào các tác nhân thông minh cũng như hoạt động tạo nội dung và hoạt hình được hỗ trợ bởi AI. Nhiều nhà sáng tạo ngày nay đang khám phá các mô hình để tạo ra các nhân vật hoặc NPC thông minh không thể chơi được.
Các mô hình ngôn ngữ lớn (LLMs) tùy chỉnh được tinh chỉnh theo biệt ngữ và truyền thuyết của các game cụ thể có thể tạo ra văn bản giống con người, hiểu ngữ cảnh và phản hồi lời nhắc (prompt) một cách mạch lạc. Chúng được thiết kế để học các mẫu (patterns) và cấu trúc ngôn ngữ cũng như hiểu những thay đổi trong trạng thái trò chơi – đang phát triển và tiến bộ cùng với người chơi trong game.
Khi các NPC ngày càng trở nên năng động, cần có hoạt ảnh động và âm thanh thời gian thực đồng bộ với phản hồi của họ. Các nhà phát triển đang sử dụng NVIDIA Riva để tạo giọng nói biểu cảm cho nhân vật bằng AI giọng nói và dịch thuật. Và các nhà thiết kế đang khai thác NVIDIA Audio2Face để tạo hoạt ảnh khuôn mặt được hỗ trợ bởi AI.
Các mô hình nền tảng cũng đang được sử dụng để tạo asset và hoạt ảnh. Việc tạo asset trong giai đoạn tiền sản xuất và sản xuất của quá trình phát triển game có thể tốn thời gian, tẻ nhạt và tốn kém.
Với các mô hình diffusion hiện đại, các nhà phát triển có thể lặp lại nhanh hơn, giải phóng thời gian để dành cho những khía cạnh quan trọng nhất của quy trình nội dung, chẳng hạn như phát triển các asset chất lượng cao hơn và lặp lại. Khả năng tinh chỉnh các mô hình này từ kho dữ liệu riêng của studio đảm bảo kết quả đầu ra được tạo tương tự với phong cách nghệ thuật và thiết kế của các game trước đây của họ.
Các mô hình nền tảng đã có sẵn và ngành công nghiệp game chỉ đang ở giai đoạn đầu để hiểu hết khả năng của chúng. Nhiều giải pháp khác nhau đã được xây dựng để mang lại trải nghiệm thời gian thực, nhưng các trường hợp sử dụng còn hạn chế. May mắn thay, hiện tại các nhà phát triển có thể dễ dàng truy cập các mô hình và các microservice thông qua các cloud API và khám phá cách AI có thể tác động đến game của họ cũng như mở rộng giải pháp của họ đến nhiều khách hàng và thiết bị hơn bao giờ hết.
Tương lai của các mô hình nền tảng trong gaming
Các mô hình nền tảng sẵn sàng giúp các nhà phát triển nhận ra tương lai của gaming. Các mô hình Diffusion và LLM đang trở nên nhẹ hơn nhiều khi các nhà phát triển tìm cách chạy chúng một cách tự nhiên trên nhiều cấu hình phần cứng, bao gồm các PC, console và thiết bị di động.
Độ chính xác và chất lượng của các mô hình này sẽ chỉ tiếp tục được cải thiện khi các nhà phát triển tìm cách tạo ra assets chất lượng cao mà không cần phải chỉnh sửa nhiều trước khi chuyển sang trải nghiệm chơi game AAA.
Các mô hình nền tảng cũng sẽ được sử dụng trong các lĩnh vực gây nhiều khó khăn cho các nhà phát triển chỉ với công nghệ truyền thống. Ví dụ, các tác nhân tự động có thể giúp phân tích và phát hiện không gian thế giới trong quá trình phát triển game, điều này sẽ đẩy nhanh các quy trình đảm bảo chất lượng.
Sự nổi lên của các mô hình nền tảng đa phương thức, có thể sử dụng kết hợp đồng thời văn bản, hình ảnh, âm thanh và các đầu vào khác, sẽ nâng cao hơn nữa khả năng tương tác của người chơi với các NPC thông minh và các hệ thống trò chơi khác. Ngoài ra, nhà phát triển có thể sử dụng các loại đầu vào bổ sung để cải thiện khả năng sáng tạo và nâng cao chất lượng của assets được tạo ra trong quá trình sản xuất.
Các mô hình đa phương thức cũng cho thấy nhiều hứa hẹn trong việc cải thiện hoạt ảnh của các nhân vật trong thời gian thực, một trong những quá trình tốn nhiều thời gian và tốn kém nhất của việc phát triển game. Chúng có thể giúp làm cho chuyển động của nhân vật giống hệt với các diễn viên ngoài đời thực, truyền tải phong cách và cảm nhận từ nhiều yếu tố đầu vào cũng như đơn giản hóa quá trình sắp xếp.
Tìm hiểu thêm về các mô hình nền tảng
Từ việc tăng cường đối thoại và tạo nội dung 3D đến tạo lối chơi tương tác, các mô hình nền tảng đã mở ra những cơ hội mới cho các nhà phát triển nhằm tạo dựng trải nghiệm gaming trong tương lai.
Tìm hiểu thêm về các mô hình nền tảng và các công nghệ khác hỗ trợ quy trình phát triển game.
Bài viết liên quan
- LLM: Lịch sử và tương lai của các mô hình ngôn ngữ lớn
- Hướng đến tương lai: Generative AI dành cho các giám đốc điều hành
- Xây dựng mô hình ngôn ngữ lớn (LLM) riêng tư, an toàn trên mạng 5G riêng
- HPE và NVIDIA công bố ‘NVIDIA AI Computing by HPE’ để thúc đẩy cuộc cách mạng AI tạo sinh
- Giải mã hiệu suất AI trên PC và Workstation RTX AI
- NVIDIA bắt đầu chứng nhận cho các loại hệ thống mới sẵn sàng cho Generative AI