其他優(yōu)勝作品包括 AI 驅(qū)動(dòng)的虛擬試衣應(yīng)用和一款能夠?qū)ふ疫z失物品的機(jī)器人等。
YouTube 機(jī)器人技術(shù)主播 Dave Niewinski 開發(fā)的機(jī)器人五花八門,從可駕駛的“La-Z-Boy”椅子到由 AI 引導(dǎo)的扔沙包機(jī)器人、馬車比賽機(jī)器人等。
他最近的交互式電子動(dòng)畫 GLaDOS 項(xiàng)目成為了 Hackster AI 創(chuàng)新挑戰(zhàn)賽的九個(gè)優(yōu)勝作品之一。約 100 名參賽者通過創(chuàng)建開源項(xiàng)目、推動(dòng) AI 在邊緣計(jì)算、機(jī)器人和物聯(lián)網(wǎng)領(lǐng)域的應(yīng)用,來角逐由 NVIDIA 與 Sparkfun 提供的獎(jiǎng)品。
Niewinski 根據(jù)視頻游戲開發(fā)商 Valve 的第一人稱解謎系列游戲《傳送門》(Portal)中的 GLaDOS 向?qū)?,設(shè)計(jì)出了一個(gè)創(chuàng)新機(jī)器人,該機(jī)器人贏得了生成式 AI 應(yīng)用組第一名。
另兩位優(yōu)勝者 Andrei Ciobanu 和 Allen Tao 分別獲得了邊緣生成式 AI 模型和邊緣 AI 應(yīng)用組的一等獎(jiǎng)。Ciobanu 利用生成式 AI 幫助實(shí)現(xiàn)虛擬試衣,而 Tao 所開發(fā)的基于 ROS 的機(jī)器人可通過繪制家庭內(nèi)部地圖來幫助尋找物品。
將 LLM 應(yīng)用于機(jī)器人
Niewinski 在其位于加拿大安大略省滑鐵盧的 Armoury Labs 開發(fā)定制化的機(jī)器人應(yīng)用。他使用 NVIDIA Jetson 平臺(tái)開發(fā)邊緣 AI 和機(jī)器人技術(shù),并根據(jù)自己的經(jīng)驗(yàn)創(chuàng)建開源教程和 YouTube 視頻。
為了給自己配備一名實(shí)驗(yàn)室私人助理,他制作了一個(gè)自己的 GLaDOS 交互機(jī)器人。該機(jī)器人使用基于 Transformer 的語音識(shí)別、文本轉(zhuǎn)語音和大語言模型(LLM)處理查詢,這些功能與模型均在 NVIDIA Jetson AGX Orin 上運(yùn)行,可與機(jī)械臂和攝像頭進(jìn)行交互。
GLaDOS 可以追蹤 Niewinski 在實(shí)驗(yàn)室中的行蹤,能夠朝不同的方向移動(dòng)來面對(duì)他,并對(duì)詢問作出快速反應(yīng)。
Niewinski 表示:“我喜歡用機(jī)器人做一些出乎人們意料的事情?!?/p>
他希望這個(gè)助手的聲音能像《傳送門》中的原版 GLaDOS 一樣,并且能夠迅速作出反應(yīng)。幸運(yùn)的是,游戲公司 Valve 把《傳送門》和《傳送門 2》中的所有語音臺(tái)詞都放在了自己的網(wǎng)站上,Niewinski 可以下載該音頻來訓(xùn)練模型。
他提到:“使用 Jetson 的話,一般的問答語音都能快速運(yùn)行?!?/p>
Niewinski 利用 NVIDIA 的開源 NeMo 套件對(duì) GLaDOS 的語音進(jìn)行了微調(diào),訓(xùn)練出一個(gè)名為 FastPitch 的頻譜生成器網(wǎng)絡(luò)和一個(gè)名為 HiFiGAN 的聲碼器網(wǎng)絡(luò)來提高音頻質(zhì)量。
這兩個(gè)網(wǎng)絡(luò)都被部署到搭載 NVIDIA Riva 的 Orin 上,將語音識(shí)別與合成功能的運(yùn)行速度優(yōu)化到數(shù)倍于語音的實(shí)時(shí)速度,使其能夠與 LLM 同步運(yùn)行并保持流暢的交互傳輸。
為了讓 GLaDOS 生成符合現(xiàn)實(shí)的回答,Niewinski 使用了一個(gè)名為 OpenChat 的本地托管 LLM,該模型在 Docker 中運(yùn)行,來自 jetson-containers。所有這些 AI 都在 Jetson 模塊上運(yùn)行,使用的是由 CUDA 和 JetPack 構(gòu)建的最新開源 ML 軟件堆棧。
為了讓 GLaDOS 能夠移動(dòng),Niewinski 專門為宇樹科技 Z1 機(jī)械臂開發(fā)了交互功能。GLaDOS 可以通過一個(gè)立體攝像頭和多個(gè)模型來觀察和追蹤人類語言,其機(jī)械臂周圍裝上了 3D 打印的 GLaDOS 頭部和身體外殼。
借助生成式 AI 試遍新款服裝
來自羅馬尼亞的 Winner Ciobanu 希望借助生成式 AI 提升虛擬試衣體驗(yàn),他的作品 EdgeStyle: Fashion Preview at the Edge 奪得了第一名。
他使用 YOLOv5、SAM、OpenPose 等 AI 模型,從圖像和視頻中提取并完善數(shù)據(jù),然后使用 Stable Diffusion 生成圖像,他表示Stable Diffusion是實(shí)現(xiàn)精準(zhǔn)虛擬試穿的關(guān)鍵所在。
Ciobanu 提到,這個(gè)系統(tǒng)教會(huì)了模型如何將衣服“穿”在不同姿勢(shì)的人身上,從而增強(qiáng)了試穿的真實(shí)感。
“這個(gè)系統(tǒng)非常方便,可以讓用戶不用真的去實(shí)際試穿,就能看到衣服穿在身上的效果?!?/p>
他表示,NVIDIA JetPack SDK 提供了在 Jetson Orin 上順利運(yùn)行 AI 模型所需的所有工具。
“AI 技術(shù)日新月異,擁有一套穩(wěn)定的工具非常有用。它確實(shí)為我們這些開發(fā)者節(jié)約了時(shí)間,減少了麻煩,讓我們能夠擺脫技術(shù)問題的困擾,把更多精力放在構(gòu)建很酷的東西上?!?/p>
讓機(jī)器人幫助尋找遺失物品
加拿大安大略省的獲獎(jiǎng)?wù)?Winner Tao 創(chuàng)造的機(jī)器人可以幫助人們?cè)诩抑袑ふ疫z失物品。他的 An Eye for an Item 項(xiàng)目贏得了 Hackster 挑戰(zhàn)賽的第一名。
Tao 提到:“尋找丟失的物品是一件苦差事,而近期零樣本物體檢測(cè)和 LLM 領(lǐng)域的最新進(jìn)展使計(jì)算機(jī)可以根據(jù)文字或圖片描述為我們檢測(cè)任意物體,這帶來了實(shí)現(xiàn)自動(dòng)化的可能性?!?/p>
Tao 表示自己需要機(jī)器人的計(jì)算能力來對(duì)任何非結(jié)構(gòu)化環(huán)境中的物體進(jìn)行分類,比如客廳、大型倉庫等。他還需要機(jī)器人執(zhí)行實(shí)時(shí)計(jì)算以進(jìn)行導(dǎo)航定位,并在更大規(guī)模的物體檢測(cè)模型上進(jìn)行推理。
他表示:“Jetson Orin 是一個(gè)絕佳的選擇,它支持從使用 NanoDB 查詢文本和圖像到實(shí)時(shí)里程反饋等一切功能,包括使用 Isaac ROS 的硬件來加速 AprilTag 檢測(cè)進(jìn)行漂移校正。”
審核編輯:劉清
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
27994瀏覽量
205553 -
語音識(shí)別
+關(guān)注
關(guān)注
38文章
1703瀏覽量
112422 -
ROS
+關(guān)注
關(guān)注
1文章
276瀏覽量
16919 -
邊緣計(jì)算
+關(guān)注
關(guān)注
22文章
3009瀏覽量
48286 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1248瀏覽量
24127
原文標(biāo)題:AI 大顯身手:GLaDOS 交互機(jī)器人入選 Hackster.io 挑戰(zhàn)賽 9 個(gè)優(yōu)勝作品之一
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論