Lazy loaded image
游戏中的生成式AI智能革命
字数 7864阅读时长 20 分钟
2023-12-5
2023-12-7
type
Post
status
Published
date
Dec 5, 2023
slug
summary
生成式人工智能是机器学习的一个类别,计算机可以根据用户的提示生成原创的新内容。如今,文本和图像是这项技术最成熟的应用,但几乎每个创意领域都在进行工作,从动画、音效、音乐,甚至创建具有完全充实个性的虚拟角色。
tags
ChatGPT相关
AI教程
AI知识库
AI发展
AI生活
AI思维
热门文章
category
ChatGPT
icon
password
Files & media
了解生成式人工智能将如何从根本上改变游戏,只要看看@emmanuel_2m最近发布的Twitter 帖子即可。在这篇文章中,他探索了使用稳定扩散 + Dreambooth(流行的 2D 生成 AI 模型)来为假设的游戏生成药水图像。
notion image
这项工作的变革性不仅在于它节省了时间和金钱,同时还提供了质量,从而打破了经典的“成本、质量或速度只能三者兼得”的三角关系。艺术家现在可以在几个小时内创建出高质量的图像,否则需要花费数周的时间才能手工生成。
真正具有变革性的是:
  • 现在,任何能够学习一些简单工具的人都可以使用这种创造力。
  • 这些工具可以以高度迭代的方式创建无数的变体。
  • 一旦训练完成,该过程就是实时的——几乎可以立即获得结果。
自实时 3D 以来,还没有一种技术能够对游戏产生如此革命性的影响。花任何时间与游戏创作者交谈,兴奋和惊奇的感觉是显而易见的。那么这项技术将走向何方呢?它将如何改变游戏业?首先,让我们回顾一下什么是生成式人工智能?

什么是生成式人工智能?

生成式人工智能是机器学习的一个类别,计算机可以根据用户的提示生成原创的新内容。如今,文本和图像是这项技术最成熟的应用,但几乎每个创意领域都在进行工作,从动画、音效、音乐,甚至创建具有完全充实个性的虚拟角色。
当然,人工智能在游戏中并不是什么新鲜事。即使是早期的游戏,如 Atari 的 Pong,也有计算机控制的对手来挑战玩家。然而,这些虚拟敌人并没有运行我们今天所知的人工智能。它们只是游戏设计师精心编写的脚本程序。他们模拟了一个人工智能对手,但他们无法学习,而且他们的表现只能与构建它们的程序员一样好。
现在不同的是可用的计算能力,这要归功于更快的微处理器和云。有了这种能力,就可以构建大型神经网络来识别高度复杂领域中的模式和表示。

这篇博文有两个部分:

  • 第一部分包括我们对游戏生成人工智能领域的观察和预测。
  • 第二部分是我们的市场地图,概述了各个细分市场并确定了每个细分市场的关键公司。

第一部分——观察和预测

假设

首先,让我们探讨一下本文其余部分的一些假设:

1. 通用人工智能领域的研究量将继续增长,创造出更有效的技术

考虑一下arXiv 档案中每月发表的有关机器学习或人工智能的学术论文数量的图表:
notion image
正如您所看到的,论文数量呈指数级增长,而且没有放缓的迹象。这仅包括已发表的论文——许多研究甚至从未发表过,直接进入开源模型或产品研发。其结果是兴趣和创新的爆发。

2. 在所有娱乐中,游戏将受到生成式人工智能的影响最大

就涉及的资产类型(2D 艺术、3D 艺术、音效、音乐、对话等)的绝对数量而言,游戏是最复杂的娱乐形式。游戏也是最具互动性的,非常注重实时体验。这为新游戏开发者设置了巨大的进入壁垒,也为制作一款现代的、位居榜首的游戏带来了高昂的成本。它还为生成式人工智能颠覆创造了巨大的机会。
notion image
以《荒野大镖客 2》这样的游戏为例,它是有史以来最昂贵的游戏之一,制作成本接近 5 亿美元。原因很容易理解——它拥有市场上所有游戏中最美丽、最完全实现的虚拟世界之一。它还花了近 8 年的时间来打造,拥有超过 1,000 个非玩家角色(每个角色都有自己的个性、艺术作品和配音演员)、面积近 30 平方英里的世界、分为 6 个章节的 100 多个任务,以及由 100 多名音乐家创作的近 60 小时的音乐。这个游戏的一切都很大。
notion image
现在将 Red Dead Redemption 2 与Microsoft Flight Simulator进行比较,后者不仅大,而且非常巨大。Microsoft Flight Simulator 使玩家能够环绕整个地球(1.97 亿平方英里)飞行。微软是如何打造如此庞大的游戏的?让人工智能来做这件事。微软与blackshark.ai合作,训练人工智能从 2D 卫星图像生成逼真的 3D 世界
notion image
这是一个如果不使用人工智能就不可能构建游戏的例子,而且,随着时间的推移,这些模型可以不断改进,这一事实也让游戏受益匪浅。例如,他们可以增强“高速公路立体立交桥”模型,重新运行整个构建过程,突然之间,整个地球上所有的高速公路立交桥都得到了改进。

3.游戏制作中涉及的每一个资产都会有一个生成式AI模型

到目前为止,像 Stable Diffusion 或 MidJourney 这样的 2D 图像生成器已经引起了人们对生成式 AI 的广泛关注,因为它们生成的图像具有引人注目的性质。但实际上游戏中涉及的所有资产都已经有了生成式 AI 模型,从 3D 模型到角色动画,再到对话和音乐。本博文的后半部分包括一个市场地图,突出显示了一些专注于每种类型内容的公司。

4. 内容的价格将大幅下降,在某些情况下实际上会降到零

当与正在尝试将生成式人工智能集成到生产流程中的游戏开发者交谈时,最令人兴奋的是时间和成本的大幅减少。一位开发人员告诉我们,他们从开始到完成为单个图像生成概念艺术的时间已从 3 周缩短到一个小时:减少了 120 比 1。我们相信,在整个生产流程中也可以实现类似的节省。
需要明确的是,艺术家并没有面临被取代的危险。这确实意味着艺术家不再需要自己完成所有工作:他们现在可以设定最初的创作方向,然后将大部分耗时和技术执行工作交给人工智能。在这方面,他们就像手绘动画早期的赛璐珞画家,技术精湛的“墨匠”画出动画的轮廓,然后由成本较低的“画家”大军完成绘制动画的耗时工作。动画单元格,填充线条。这是游戏创建的“自动完成”。

5、这场革命还处于起步阶段,很多做法还需要完善

尽管最近令人兴奋,但我们仍处于起跑线。当我们弄清楚如何在游戏中利用这项新技术时,我们还有大量的工作要做,对于快速进入这一新领域的公司来说,将会产生巨大的机会。

预测

考虑到这些假设,以下是对游戏行业可能如何转型的一些预测:

1. 学习如何有效地使用生成式人工智能将成为一项有市场的技能

我们已经看到一些实验者比其他人更有效地使用生成式人工智能。要充分利用这项新技术,需要使用各种工具和技术,并了解如何在它们之间进行切换。我们预测这将成为一种有市场的技能,将艺术家的创造性视野与程序员的技术技能相结合。
克里斯·安德森(Chris Anderson)有句名言:“每一次丰富都会带来新的稀缺。” 随着内容变得丰富,我们相信知道如何与人工智能工具最有效地协作的艺术家将是最短缺的。
例如,使用生成式人工智能来制作艺术品会面临特殊的挑战,包括:
  • 连贯性。 对于任何生产资产,您都需要能够在以后对资产进行更改或编辑。使用人工智能工具,这意味着需要能够以相同的提示重现资产,以便您可以进行更改。这可能很棘手,因为相同的提示可能会产生截然不同的结果。
  • 风格。对于给定游戏中的所有艺术来说,具有一致的风格非常重要,这意味着您的工具需要接受特定风格的培训或以其他方式与您的给定风格相关联。

2. 降低壁垒将带来更多的冒险精神和创造性探索

我们可能很快就会进入游戏开发的新“黄金时代”,较低的进入门槛会导致更具创新性和创意的游戏激增。不仅因为较低的制作成本可以降低风险,还因为这些工具可以释放为更广泛的受众创建高质量内容的能力。这导致了下一个预测……

3、人工智能辅助的“微游戏工作室”兴起

有了生成式人工智能工具和服务,我们将开始看到只有 1 到 2 名员工的小型“微型工作室”制作出更多可行的商业游戏。小型独立游戏工作室的想法并不新鲜——热门游戏《Among Us》是由 Innersloth 工作室制作的,只有 5 名员工——但这些小型工作室可以制作的游戏的规模和规模将会增长。这将导致……

4. 每年发布的游戏数量增加

Unity 和 Roblox 的成功表明,提供强大的创意工具可以打造更多游戏。生成式人工智能将进一步降低门槛,创造更多数量的游戏。该行业已经面临发现挑战——仅去年一年就有超过10,000 款游戏被添加到 Steam 中——这将给发现带来更大的压力。然而我们也会看到……

5.创造出在生成人工智能之前不可能实现的新游戏类型

我们将看到新的游戏类型被发明,如果没有生成人工智能,这些游戏类型根本不可能出现。我们已经讨论过微软的飞行模拟器,但将会发明依赖于新内容实时生成的全新类型。
考虑Spellbrush《Arrowmancer》。这是一款角色扮演游戏,具有人工智能创建的角色,可带来几乎无限的新游戏玩法。
我们还知道另一家游戏开发商正在使用人工智能让玩家创建自己的游戏内头像。以前他们有一系列手绘的头像图像,玩家可以混合搭配来创建自己的头像——现在他们完全抛弃了这个,只是根据玩家的描述生成头像图像。让玩家通过人工智能生成内容比让玩家从头开始上传自己的内容更安全,因为人工智能可以经过训练以避免创建攻击性内容,同时仍然给玩家更大的主人翁感。

6. 行业特定的人工智能工具将产生价值,而不仅仅是基础模型

围绕“稳定扩散”和“中程”等基础模型的兴奋和讨论正在产生令人瞠目结舌的估值,但不断涌现的新研究确保了随着新技术的完善,新模型将会出现和消失。考虑 3 种流行的生成式 AI 模型的网站搜索流量:Dall-E、Midjourney 和 Stable Diffusion。每一款新车型都会成为人们关注的焦点。
notion image
另一种方法可能是构建行业一致的工具套件,专注于特定行业的生成人工智能需求,深入了解特定受众,并与现有生产流程(例如游戏的 Unity 或 Unreal)进行丰富集成。
Runway就是一个很好的例子,它通过视频编辑、绿屏去除、修复和运动跟踪等人工智能辅助工具来满足视频创作者的需求。像这样的工具可以建立特定的受众并从中获利,随着时间的推移添加新的模型。我们还没有看到像 Runway 这样的游戏套件出现,但我们知道这是一个积极开发的空间。

7. 法律挑战即将到来

所有这些生成式人工智能模型的共同点是,它们都是使用大量内容数据集进行训练的,这些数据集通常是通过抓取互联网本身创建的。例如,Stable Diffusion 是在从网络上抓取的超过 50 亿个图像/标题对上进行训练的。
目前,这些模型声称在“合理使用”版权原则下运作,但这一论点尚未在法庭上得到明确的检验。显然,法律挑战即将到来,这可能会改变生成人工智能的格局。
大型工作室可能会通过建立基于他们拥有明确权利和所有权的内部内容的专有模型来寻求竞争优势。例如,微软在这方面处于特别有利的地位,目前拥有 23 个第一方工作室,在收购动视之后又增加了 7 个。

8. 编程不会像艺术内容那样受到如此深刻的颠覆——至少现在还不会

软件工程是游戏开发的另一项主要成本,但正如我们 a16z Enterprise 团队的同事在他们最近的博客文章《艺术没有死,它只是机器生成》中分享的那样,使用 AI 模型生成代码需要更多的测试和验证,因此与生成创意资产相比,生产率的提高较小。像 Copilot 这样的编码工具可能会为工程师提供适度的性能改进,但不会产生相同的影响……至少在短期内不会。

建议

根据这些预测,我们提出以下建议:

1. 现在就开始探索生成式人工智能

我们需要一段时间才能弄清楚如何充分利用即将到来的生成式人工智能革命的力量。现在开始的公司以后就会有优势。我们知道有几家工作室正在进行内部实验项目,以探索这些技术如何影响制作。

2.寻找市场地图机会

我们市场地图的某些部分已经非常拥挤,例如动画或语音和对话,但其他领域则完全开放。我们鼓励对此领域感兴趣的企业家将精力集中在尚未探索的领域,例如“Runway for Games”。

第二部分——市场地图

市场现状

我们创建了一个市场地图,以捕获我们在每个类别中确定的公司列表,我们在这些类别中看到了生成人工智能对游戏的影响。这篇博文将详细介绍每个类别,并对其进行更详细的解释,并重点介绍每个类别中最令人兴奋的公司。
notion image

2D 图像

根据文本提示生成 2D 图像已经是生成式 AI 应用最广泛的领域之一。MidjourneyStable DiffusionDall-E 2等工具可以从文本生成高质量的 2D 图像,并且已经在游戏生命周期的多个阶段应用于游戏制作。

概念艺术

生成式人工智能工具非常擅长“构思”或帮助非艺术家(例如游戏设计师)快速探索概念和想法以生成概念艺术作品,这是制作过程的关键部分。例如,一家工作室(匿名)正在同时使用其中多个工具来从根本上加快其概念艺术流程,只需一天即可创建一幅图像,而以前需要长达 3 周的时间。
  • 首先,他们的游戏设计师使用 Midjourney 来探索不同的想法并生成他们认为鼓舞人心的图像。
  • 这些被移交给专业的概念艺术家,他将它们组装在一起并在结果上进行绘制以创建单个连贯的图像 - 然后将其输入稳定扩散以创建一堆变化。
  • 他们讨论这些变化,选择一个,手动进行一些编辑,然后重复这个过程,直到他们对结果感到满意。
  • 在此阶段,然后最后一次将此图像传递回稳定扩散以“升级”它以创建最终的艺术作品。

2D 制作艺术

一些工作室已经在尝试使用相同的工具来制作游戏内的艺术作品。例如,这里有一个来自 Albert Bozesan 的关于使用稳定扩散创建游戏内 2D 资产的精彩教程。

3D艺术作品

3D 资产是所有现代游戏以及即将到来的虚拟世界的构建模块。虚拟世界或游戏关卡本质上只是 3D 资产的集合,经过放置和修改以填充环境。然而,创建 3D 资源比创建 2D 图像更复杂,并且涉及多个步骤,包括创建 3D 模型以及添加纹理和效果。对于动画角色,它还涉及创建内部“骨架”,然后在该骨架上创建动画。
我们看到几家不同的初创公司正在从事 3D 资产创建过程的每个阶段,包括模型创建、角色动画和关卡构建。然而,这还不是一个已解决的问题——还没有任何解决方案准备好完全集成到生产中。

3D资产

尝试解决 3D 模型创建问题的初创公司包括KaedimMirageHypothetic。较大的公司也在关注这个问题,包括 Nvidia 的Get3D和 Autodesk 的ClipForge。Kaedim 和 Get3d 专注于图像转 3D;ClipForge 和 Mirage 专注于文本转 3D,而 Hypothetic 则对文本转 3D 搜索以及图像转 3D 感兴趣。

3D纹理

3D 模型看起来与应用于网格的纹理或材质一样真实。决定将哪种苔藓、风化的石头纹理应用于中世纪城堡模型可以完全改变场景的外观和感觉。纹理包含有关光如何对材质做出反应的元数据(即粗糙度、光泽度等)。允许艺术家根据文本或图像提示轻松生成纹理对于提高创作过程中的迭代速度非常有价值。包括BariumAIPonzuArmorLab在内的多个团队正在寻求这一机会。

动画片

制作出色的动画是游戏制作过程中最耗时、最昂贵且最需要技巧的部分之一。降低成本并创建更逼真动画的一种方法是使用动作捕捉,其中将演员或舞者穿上动作捕捉服,并在专门配备的动作捕捉舞台中记录他们的移动。
我们现在看到可以直接从视频中捕捉动画的生成式人工智能模型。这更加高效,既因为它不需要昂贵的动作捕捉设备,也因为这意味着您可以从现有视频中捕捉动画。这些模型的另一个令人兴奋的方面是它们还可以用于将过滤器应用于现有动画,例如使它们看起来喝醉了,或老了,或快乐。瞄准这一领域的公司包括KinetixDeepMotionRADiCALMove AiPlask

关卡设计和世界构建

游戏创作中最耗时的方面之一是构建游戏世界,生成式人工智能应该非常适合这项任务。像《我的世界》、《无人深空》和《暗黑破坏神》这样的游戏已经因使用程序技术来生成关卡而闻名,其中关卡是随机创建的,每次都不同,但遵循关卡设计师制定的规则。新的虚幻 5 游戏引擎的一大卖点是其用于开放世界设计的程序工具集,例如树叶放置。
我们已经看到了该领域的一些举措,例如PrometheanMLXAR或 Meta 的Builder Bot,并且认为生成技术很大程度上取代程序技术只是时间问题。该领域的学术研究已经有一段时间了,包括《我的世界》的生成技术《毁灭战士》的关卡设计
期待生成人工智能工具进行关卡设计的另一个令人信服的理由是能够以不同的风格创建关卡和世界。您可以想象使用工具来生成 1920 年摩登时代纽约的世界,而不是反乌托邦的银翼杀手式的未来,与托尔金式的奇幻世界。
以下概念是由 Midjourney 使用提示生成的,“一个游戏关卡的风格......”
notion image

声音的

声音和音乐是游戏体验的重要组成部分。我们开始看到公司使用生成式人工智能来生成音频,以补充图形方面已经发生的工作。

声音特效

音效对于人工智能来说是一个有吸引力的开放领域。已经有学术论文探讨了使用人工智能在电影中生成“拟音”(例如脚步声)的想法,但在游戏中的商业产品还很少。
我们认为这只是时间问题,因为游戏的交互性质使其成为生成人工智能的明显应用,既在制作过程中创建静态音效(“星球大战风格的激光枪声音”),又在运行时创建实时交互式音效。
考虑一些简单的事情,例如为玩家的角色生成脚步声。大多数游戏通过包含少量预先录制的脚步声来解决这个问题:在草地上行走、在砾石上行走、在草地上奔跑、在砾石上奔跑等。这些声音的生成和管理非常繁琐,并且在运行时听起来重复且不切实际。
更好的方法是用于拟音音效的实时生成 AI 模型,它可以动态生成适当的音效,每次都略有不同,这些音效响应游戏中的参数,例如地面、角色重量、步态、鞋类等

音乐

音乐一直是游戏的一个挑战。这很重要,因为它可以像电影或电视一样帮助设定情感基调,但由于游戏可以持续数百甚至数千小时,因此它很快就会变得重复或烦人。此外,由于游戏的互动性质,音乐很难在任何给定时间精确匹配屏幕上发生的事情。
二十多年来,自适应音乐一直是游戏音频领域的一个话题,可以追溯到微软用于创建交互式音乐的“ DirectMusic ”系统。DirectMusic 从未被广泛采用,主要是因为以该格式进行创作很困难。只有少数游戏,例如 Monolith 的《No One Lives Forever》,创造了真正的互动乐谱。
现在我们看到许多公司正在尝试创作人工智能生成的音乐,例如SoundfulMusicoHarmonaiInfinite AlbumAiva。虽然当今的一些工具(例如Open AI 的Jukebox)计算量很大且无法实时运行,但大多数工具在初始模型构建完成后都可以实时运行。

语音和对话

有很多公司试图为游戏中的角色创造逼真的声音。考虑到通过语音合成赋予计算机声音的悠久历史,这并不奇怪。公司包括SonanticCoquiReplica StudiosResemble.aiReadspeaker.ai等等。
使用生成式人工智能进行语音有多种优势,这在一定程度上解释了为什么这个领域如此拥挤:
  • 即时生成对话框。通常,游戏中的语音是由配音演员预先录制的,但这仅限于预先录制的预设语音。通过生成式人工智能对话,角色可以说任何话——这意味着他们可以对玩家正在做的事情做出充分的反应。结合针对 NPC 的更智能的 AI 模型(超出了本博客的范围,但目前是一个同样令人兴奋的创新领域),对玩家完全做出反应的游戏即将到来。
  • 角色扮演。许多玩家希望扮演与现实世界身份几乎没有相似之处的幻想角色。然而,一旦玩家用自己的声音说话,这种幻想就破灭了。使用与玩家的化身相匹配的生成声音来维持这种幻觉。
    • 控制。生成语音后,您可以控制声音的细微差别,例如音色、语调变化、情感共鸣、音素长度、口音等。
  • 本土化。允许将对话翻译成任何语言并以相同的声音说出。像Deepdub这样的公司专门专注于这个利基市场。

NPC 或玩家角色

许多初创公司正在考虑使用生成式人工智能来创建可以与之互动的可信角色,部分原因是这是一个在游戏之外具有广泛适用性的市场,例如虚拟助理或接待员。
创造可信角色的努力可以追溯到人工智能研究的开端。事实上,经典的人工智能“图灵测试”的定义是,人类应该无法区分与人工智能和人类的聊天对话。
目前有数百家公司在构建通用聊天机器人,其中许多都由类似 GPT-3 的语言模型提供支持。少数人专门尝试构建用于娱乐目的的聊天机器人,例如ReplikaAnima正在尝试构建虚拟朋友。正如电影《她》中所探讨的那样,与虚拟女友约会的概念可能比您想象的更接近。
我们现在看到这些聊天机器人平台的下一个迭代,例如Charisma.aiConvai.comInworld.ai,旨在为完全渲染的 3D 角色提供情感和代理,并通过工具让创作者能够赋予这些角色人物目标。如果它们要融入游戏或在推动情节发展中占有一席之地,而不是纯粹只是装饰门面,那么这一点很重要。

一体化平台

Runwayml.com是最成功的生成式 AI 工具之一,因为它将广泛的创作者工具集成在一个软件包中。目前还没有这样的平台提供视频游戏服务,我们认为这是一个被忽视的机会。
我们很乐意投资具有以下特点的解决方案:
  • 全套生成式人工智能工具,覆盖整个生产流程。(代码、资产生成、纹理、音频、描述等)
  • 与 Unreal 和 Unity 等流行游戏引擎紧密集成。
  • 专为适应典型的游戏制作流程而设计。

结论

对于游戏创作者来说,这是一个不可思议的时刻!部分归功于本博文中描述的工具,生成构建游戏所需的内容从未如此简单 - 即使您的游戏与整个星球一样大!
甚至有一天可以想象一款完全个性化的游戏,专门为玩家创建,完全基于玩家的需求。这在科幻小说中已经存在很长时间了——就像《安德的游戏》中的“人工智能智力游戏”,或者《星际迷航》中的全息甲板。但随着这篇博文中描述的工具发展得如此之快,不难想象这一现实即将到来。
如果您是创始人或潜在创始人,有兴趣建立一家游戏人工智能公司,请联系我们!我们希望听到您的意见!
💡
作者原文地址:https://a16z.com/the-generative-ai-revolution-in-games/
    上一篇
    Tansformer让我们了解GPT-3-BERT与T5模型
    下一篇
    OpenAI真正的想要什么?