電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>描述性人工智能相機的構(gòu)建

描述性人工智能相機的構(gòu)建

2079487 2023-07-06 | zip | 0.09 MB | 次下載 | 免費

資料介紹

描述

在這個項目中，我們將構(gòu)建一個自動描述它觀察到的內(nèi)容的相機。將部署在 Jetson Nano 等邊緣設(shè)備上運行的 AI 網(wǎng)絡(luò)，以便它持續(xù)提供所獲取幀的文本描述。為了保持實現(xiàn)簡單，雖然可以將注意力等高級功能添加到網(wǎng)絡(luò)中，但由于主腳本是相當(dāng)模塊化的，所以沒有實現(xiàn)它們。

1 / 2

將實施混合深度神經(jīng)網(wǎng)絡(luò)，使用簡單的 USB 攝像頭和 Jetson Nano 實時提供每一幀的字幕。

項目設(shè)計階段

該項目將分四期建設(shè)。在第一階段，我們將在配備獨立顯卡的主機上設(shè)置和訓(xùn)練網(wǎng)絡(luò)。第二階段包括設(shè)置 Jetson Nano 和實現(xiàn)從相機到 HDMI 監(jiān)視器的簡單圖像管道。第三階段包括將圖像字幕深度神經(jīng)網(wǎng)絡(luò)與第二階段的圖像流水線相結(jié)合。最后，在最后一個階段，我們將在真實世界的設(shè)置下測試網(wǎng)絡(luò)。

帶有 USB 攝像頭的 Jetson Nano 設(shè)置

硬件需要為 Jetson Nano 提供 2A 電源，因為從 USB 為其供電不足以在高性能模式下運行神經(jīng)模型。為此，請確保將跳線安裝在 Jetson Nano 的右側(cè)。然后插入 USB 攝像頭、帶有最新圖像的 SD 卡和以太網(wǎng)電纜。設(shè)置好硬件后，下一步就是設(shè)置先決條件框架。

主機設(shè)置

首先，我們將在主機筆記本電腦上定義和訓(xùn)練網(wǎng)絡(luò)。該項目將使用 Tensorflow 2.01、Keras 2.1 和 OpenCV 4.1。先決條件是安裝 Cuda10.0 和 Visual Studio Express 17.0 以利用 GPU 速度增益，以防筆記本電腦配備支持 NVIDIA 的 GPU。

我們將用于訓(xùn)練的數(shù)據(jù)集是 Flickr8K 圖像數(shù)據(jù)集。這是一個相對較小的數(shù)據(jù)集，允許在筆記本電腦級 GPU 上訓(xùn)練完整的 AI 流水線。人們還可以使用更大的數(shù)據(jù)集，這將以更高的訓(xùn)練時間為代價獲得更好的性能。數(shù)據(jù)集可以通過申請表從伊利諾伊大學(xué)下載。

下一個數(shù)據(jù)集是 Glove 數(shù)據(jù)集，它是一組從大型文本語料庫構(gòu)建的詞嵌入。該數(shù)據(jù)集本質(zhì)上充當(dāng)了 AI 從中獲取詞匯的字典。標(biāo)題文本清理完成后，下一步是加載 Glove 嵌入。嵌入是神經(jīng)網(wǎng)絡(luò)使用的單詞編碼。基本上單詞被投影為高維空間中的向量，然后表示為向量。從這里下載數(shù)據(jù)集：

https://nlp.stanford.edu/projects/glove/

然后創(chuàng)建一個名為 /Captioning 的頂級目錄，并在其中提取兩個壓縮文件。

1 / 2

另外創(chuàng)建一個名為 /data 的文件夾，用于保存訓(xùn)練階段生成的文件。接下來我們將定義網(wǎng)絡(luò)并訓(xùn)練網(wǎng)絡(luò)。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練

從高層次的角度來看，圖像字幕深度學(xué)習(xí)網(wǎng)絡(luò)由菊花鏈?zhǔn)竭B接在一起的深度 CNN (InceptionV3) 和 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)組成。CNN 的輸出是一個表示圖像類別的 x 維向量。輸出被發(fā)送到 LSTM，后者生成圖像中對象的文本描述。LSTM 基本上接收 x 維向量流。在此基礎(chǔ)上，它實時串接了對場景的描述。

可以在 Github 上找到訓(xùn)練網(wǎng)絡(luò)的 Ipython 筆記本。主網(wǎng)絡(luò)的設(shè)計基于 Jeff Heaton 的工作。它由一個 InceptionV3 CNN 和一個 LSTM 遞歸神經(jīng)網(wǎng)絡(luò)組成。

下一步是從 Flickr 字幕構(gòu)建數(shù)據(jù)集，并通過標(biāo)記化和預(yù)處理文本來清理所有描述。然后我們將 Flickr8K 數(shù)據(jù)集拆分為測試和訓(xùn)練圖像數(shù)據(jù)集。然后我們加載訓(xùn)練數(shù)據(jù)集描述并訓(xùn)練網(wǎng)絡(luò)。

如前所述，Inception 網(wǎng)絡(luò)用作網(wǎng)絡(luò)的第一階段。最后一個全連接層被移除，因此從第一階段 CNN 出來的數(shù)據(jù)是一個一維向量。Inception 只能接受分辨率為 299x299 像素的圖像，因此必須對相機圖像進行格式化。

inputs1 = Input(shape=(OUTPUT_DIM,))
fe1 = Dropout(0.5)(inputs1)
fe2 = Dense(256, activation='relu')(fe1)
inputs2 = Input(shape=(max_length,))
se1 = Embedding(vocab_size, embedding_dim, mask_zero=True)(inputs2)
se2 = Dropout(0.5)(se1)
se3 = LSTM(256)(se2)
decoder1 = add([fe2, se3])
decoder2 = Dense(256, activation='relu')(decoder1)
outputs = Dense(vocab_size, activation='softmax')(decoder2)
caption_model = Model(inputs=[inputs1, inputs2], outputs=outputs)

上面的代碼片段顯示了編輯后的 ??InceptionV3 CNN 與 LSTM 連接。這實現(xiàn)了編碼器-解碼器架構(gòu)。

完成后，我們必須循環(huán)遍歷訓(xùn)練和測試圖像文件夾，并對每張圖像進行預(yù)處理。

網(wǎng)絡(luò)的最后一部分是循環(huán)長短期記憶神經(jīng)網(wǎng)絡(luò)。(LSTM) 簡稱。該網(wǎng)絡(luò)獲取序列并嘗試預(yù)測序列中的下一個單詞。這些類型的網(wǎng)絡(luò)的工作由斯坦福大學(xué)的 A. Karpathy 完成，他指出它們對于此類任務(wù)來說是多么充分。

1 / 2

最后一步是訓(xùn)練網(wǎng)絡(luò)。對于這個項目，最初使用了 6 個 epoch，損失最初為 2.6%。然而，為了獲得可接受的結(jié)果，損失必須遠小于 1，因此必須訓(xùn)練至少 10-15 個時期。

訓(xùn)練網(wǎng)絡(luò)后，我們加載訓(xùn)練好的權(quán)重并在數(shù)據(jù)集的測試圖像以及不屬于原始數(shù)據(jù)集的圖像上測試網(wǎng)絡(luò)。

網(wǎng)絡(luò)在這里將孩子描述為“站在草地上的人”

如果圖像在風(fēng)格和內(nèi)容上與 Flickr9K 數(shù)據(jù)集中的圖像非常相似，則描述相對準(zhǔn)確。這也可以使用 OpenCV API 來完成。首先我們需要安裝正確的版本。

安裝OpenCV

OpenCv4.1 是從源代碼編譯的。這可能需要一段時間。要安裝 4.1 版，我使用了以下腳本：

curl -L https://github.com/opencv/opencv/archive/4.1.1.zip -o opencv-4.1.1.zip
curl -L https://github.com/opencv/opencv_contrib/archive/4.1.1.zip -o opencv_contrib-4.1.1.zip
unzip opencv-4.1.1.zip
unzip opencv_contrib-4.1.1.zip
cd opencv-4.1.1/
echo "** Building..."
mkdir release
cd release/
cmake -D WITH_CUDA=ON -D ENABLE_PRECOMPILED_HEADERS=OFF  -D CUDA_ARCH_BIN="5.3" -D CUDA_ARCH_PTX="" -D WITH_GTK=OFF -D WITH_QT=ON -D OPENCV_EXTRA_MODULES_PATH=../../opencv_contrib-4.1.1/modules -D WITH_GSTREAMER=ON -D WITH_LIBV4L=ON -D BUILD_opencv_python2=ON -D BUILD_opencv_python3=ON -D BUILD_TESTS=OFF -D BUILD_PERF_TESTS=OFF -D BUILD_EXAMPLES=OFF -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local ..
make -j3
sudo make install

請注意，GTK 已關(guān)閉，以避免在使用默認(rèn)設(shè)置編譯時發(fā)現(xiàn)的庫出現(xiàn)問題。

安裝 OpenCV 后，使用下面附帶的文件 test_openCV.py 測試程序。USB 攝像頭在 /dev 下顯示為 /video0。

捕獲幀后，可以使用以下函數(shù)將文本覆蓋在每個幀的頂部：

def __draw_label(img, text, pos, bg_color):
  font_face = cv2.FONT_HERSHEY_TRIPLEX
  scale = 1
  color = (255, 255, 255)
  thickness = cv2.FILLED
  margin = 5
  txt_size = cv2.getTextSize(text, font_face, scale, thickness)
  end_x = pos[0] + txt_size[0][0] + margin
  end_y = pos[1] - txt_size[0][1] - margin
  cv2.rectangle(img, pos, (end_x, end_y), bg_color, thickness)
  cv2.putText(img, text, pos, font_face, scale, color, 2, cv2.LINE_AA)

下圖顯示了從相機捕獲的幀，日期覆蓋在幀的頂部。

所有通過 OpenCv API 從相機拍攝的圖像都是 numpy 數(shù)組。因此，數(shù)組必須轉(zhuǎn)換為圖像，調(diào)整大小以匹配 InceptionV3 CNN 要求，然后再轉(zhuǎn)換回圖像并進一步預(yù)處理。使用具有多個可編程分辨率的相機可以避免這種情況。

與最新的 RTX 類 GPU 相比，Jetson Nano 沒有特別強大的 GPU，因此，訓(xùn)練網(wǎng)絡(luò)絕對應(yīng)該在主機筆記本電腦上完成。