上周,Nvidia推出了新版NvidiaBroadcast(在新标签页中打开)—深度学习和AI支持的软件,可以进行噪声抑制、背景移除/替换、相机取景,现在……目光接触。最后一个目前处于测试阶段,并且......可能应该保持在测试阶段。
人工智能和深度学习最近经常出现在新闻中,这是有充分理由的。像Dall-E、Midjourney和StableDiffusion这样的东西正在从文本中创造艺术,通常会产生相当惊人的结果。当然,在其他时候,您最终会遇到有两个半头和太多四肢的残缺突变生物。在文本方面,ChatGPT正在大量编写清晰的文字,许多人担心这意味着英语论文和新闻业的丧钟(不,它没有写这篇新闻文章)。
EyeContact背后的想法很简单:当您在网络广播或会议中时,通常您的视线会从镜头上移开。事实上,您很有可能总是将视线从摄像头上移开—因为它位于屏幕顶部,而您想看的东西都在屏幕上。但是,如果有一种方法可以让你看起来像是在看着你的相机,而不是看着你的相机呢?
如果您可以在人脸上训练AI模型并教它在没有直视镜头的情况下校正图像,会怎样?获取数百万张经过适当标记的图像,将其输入网络,然后弹出一个很棒的工具,对吧?
实施它并不那么简单。Nvidia一年多来一直在谈论其EyeContact功能,现在才公开(测试版)发布。世界各地无数面孔之间的差异使得“解决”成为一个棘手的问题,即使是现在,结果也……不完美(这说得很好)。
无论如何,我还是在带有RTX3090Ti的系统上进行了测试:
我在测试中注意到的一件事是,即使我的焦点停留在同一个地方,实时视频馈送也会在我看着相机和我看着别处之间来回摆动。我想这可能是故意的,因为在整个视频聊天过程中让某人直视镜头会有点令人毛骨悚然——但如果是这样,则需要对时间进行一些调整。
更难说的是,这种效果一开始是否有益。如果你想让自己看起来像是在看镜头,你或许应该学会看……看镜头。通过AI解决人为错误可能最终会助长不良习惯——如果你最终看到的视频无法纠正眼神交流会怎样?
无论如何,RTX所有者现在可以使用带有EyeContact的NvidiaBroadcast进行测试。我用RTX3090Ti对其进行了测试,但Nvidia将RTX2060列为入口点(据我所知,这应该包括移动RTX3050GPU)。从长远来看,我怀疑在某个时候Nvidia最终会推出一些比RTX2060更复杂且需要更快硬件的AI模型——就像DLSS3的帧生成功能需要RTX40系列显卡一样——但就目前而言过去四年制造的任何RTXGPU都可以支持此功能。
你喜欢这种效果,讨厌它,觉得它令人毛骨悚然,还是其他什么?在评论中让我们知道,以及您希望看到的其他效果。我个人非常期待有一天,我们都可以拥有像ToyJensen这样的虚拟卡通化身来代替真人说话,也许可以阅读由AI撰写的文章,视频和文章都由AI阅读。