肏人妻人妇视频小说,日产精品一线二线三线区

如第 14.9 節(jié)所述，語(yǔ)義分割在像素級(jí)別對(duì)圖像進(jìn)行分類。全卷積網(wǎng)絡(luò) (FCN) 使用卷積神經(jīng)網(wǎng)絡(luò)將圖像像素轉(zhuǎn)換為像素類( Long et al. , 2015 )。與我們之前在圖像分類或目標(biāo)檢測(cè)中遇到的 CNN 不同，全卷積網(wǎng)絡(luò)將中間特征圖的高度和寬度轉(zhuǎn)換回輸入圖像的高度和寬度：這是通過(guò) 14.10 節(jié)介紹的轉(zhuǎn)置卷積層實(shí)現(xiàn) 的. 因此，分類輸出和輸入圖像在像素級(jí)別具有一一對(duì)應(yīng)關(guān)系：任何輸出像素的通道維度都包含相同空間位置的輸入像素的分類結(jié)果。

						%matplotlib inline
import torch
import torchvision
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

						 

						%matplotlib inline
from mxnet import gluon, image, init, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

						 

14.11.1。該模型

在這里，我們描述了全卷積網(wǎng)絡(luò)模型的基本設(shè)計(jì)。如圖 14.11.1所示，該模型首先使用 CNN 提取圖像特征，然后通過(guò)1×1卷積層，最后通過(guò) 14.10 節(jié)介紹的轉(zhuǎn)置卷積將特征圖的高度和寬度轉(zhuǎn)換為輸入圖像的高度和寬度。因此，模型輸出與輸入圖像具有相同的高度和寬度，其中輸出通道包含相同空間位置的輸入像素的預(yù)測(cè)類別。

https://file.elecfans.com/web2/M00/A9/CD/poYBAGR9O_CARhOnAAfA_q5Ldd8563.svg

圖 14.11.1全卷積網(wǎng)絡(luò)。

下面，我們使用在 ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的 ResNet-18 模型來(lái)提取圖像特征并將模型實(shí)例表示為 pretrained_net。該模型的最后幾層包括全局平均池化層和全連接層：全卷積網(wǎng)絡(luò)不需要它們。

							pretrained_net = torchvision.models.resnet18(pretrained=True)
list(pretrained_net.children())[-3:]

							[Sequential(
  (0): BasicBlock(
   (conv1): Conv2d(256, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
   (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
   (relu): ReLU(inplace=True)
   (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
   (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
   (downsample): Sequential(
    (0): Conv2d(256, 512, kernel_size=(1, 1), stride=(2, 2), bias=False)
    (1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
   )
  )
  (1): BasicBlock(
   (conv1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
   (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
   (relu): ReLU(inplace=True)
   (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
   (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  )
 ),
 AdaptiveAvgPool2d(output_size=(1, 1)),
 Linear(in_features=512, out_features=1000, bias=True)]

						

							pretrained_net = gluon.model_zoo.vision.resnet18_v2(pretrained=True)
pretrained_net.features[-3:], pretrained_net.output

							(HybridSequential(
  (0): Activation(relu)
  (1): GlobalAvgPool2D(size=(1, 1), stride=(1, 1), padding=(0, 0), ceil_mode=True, global_pool=True, pool_type=avg, layout=NCHW)
  (2): Flatten
 ),
 Dense(512 -> 1000, linear))

						

接下來(lái)，我們創(chuàng)建全卷積網(wǎng)絡(luò)實(shí)例net。它復(fù)制了 ResNet-18 中的所有預(yù)訓(xùn)練層，除了最終的全局平均池化層和最接近輸出的全連接層。

							net = nn.Sequential(*list(pretrained_net.children())[:-2])

							 

							net = nn.HybridSequential()
for layer in pretrained_net.features[:-2]:
  net.add(layer)

							 

給定高度和寬度分別為 320 和 480 的輸入，正向傳播將net輸入高度和寬度減小到原始的 1/32，即 10 和 15。

							X = torch.rand(size=(1, 3, 320, 480))
net(X).shape

							torch.Size([1, 512, 10, 15])

						

							X = np.random.uniform(size=(1, 3, 320, 480))
net(X).shape

							(1, 512, 10, 15)

						

接下來(lái)，我們使用一個(gè)1×1卷積層將輸出通道的數(shù)量轉(zhuǎn)換為 Pascal VOC2012 數(shù)據(jù)集的類數(shù) (21)。最后，我們需要將特征圖的高度和寬度增加 32 倍，以將它們變回輸入圖像的高度和寬度。回想一下7.3 節(jié)中如何計(jì)算卷積層的輸出形狀。自從 (320?64+16×2+32)/32=10和 (480?64+16×2+32)/32=15，我們構(gòu)造一個(gè)轉(zhuǎn)置卷積層，步幅為32，將內(nèi)核的高度和寬度設(shè)置為64，填充到16. 一般來(lái)說(shuō)，我們可以看到對(duì)于 strides, 填充s/2 （假設(shè)s/2是一個(gè)整數(shù)），內(nèi)核的高和寬2s，轉(zhuǎn)置卷積將使輸入的高度和寬度增加s次。

							num_classes = 21
net.add_module('final_conv', nn.Conv2d(512, num_classes, kernel_size=1))
net.add_module('transpose_conv', nn.ConvTranspose2d(num_classes, num_classes,
                  kernel_size=64, padding=16, stride=32))

							 

							num_classes = 21
net.add(nn.Conv2D(num_classes, kernel_size=1),
    nn.Conv2DTranspose(
      num_classes, kernel_size=64, padding=16, strides=32))

							 

14.11.2。初始化轉(zhuǎn)置卷積層

我們已經(jīng)知道轉(zhuǎn)置卷積層可以增加特征圖的高度和寬度。在圖像處理中，我們可能需要對(duì)圖像進(jìn)行放大，即上采樣。雙線性插值是常用的上采樣技術(shù)之一。它也經(jīng)常用于初始化轉(zhuǎn)置卷積層。

為了解釋雙線性插值，假設(shè)給定一個(gè)輸入圖像，我們想要計(jì)算上采樣輸出圖像的每個(gè)像素。為了計(jì)算輸出圖像在坐標(biāo)處的像素(x,y), 第一張地圖(x,y)協(xié)調(diào)(x′,y′)在輸入圖像上，例如，根據(jù)輸入大小與輸出大小的比率。請(qǐng)注意，映射x′和y′是實(shí)數(shù)。然后，找到最接近坐標(biāo)的四個(gè)像素 (x′,y′)在輸入圖像上。最后，輸出圖像在坐標(biāo)處的像素(x,y)是根據(jù)輸入圖像上這四個(gè)最接近的像素及其與 (x′,y′).

雙線性插值的上采樣可以通過(guò)轉(zhuǎn)置卷積層實(shí)現(xiàn)，內(nèi)核由以下bilinear_kernel函數(shù)構(gòu)造。限于篇幅，bilinear_kernel下面只給出功能的實(shí)現(xiàn)，不討論其算法設(shè)計(jì)。

							def bilinear_kernel(in_channels, out_channels, kernel_size):
  factor = (kernel_size + 1) // 2
  if kernel_size % 2 == 1:
    center = factor - 1
  else:
    center = factor - 0.5
  og = (torch.arange(kernel_size).reshape(-1, 1),
     torch.arange(kernel_size).reshape(1, -1))
  filt = (1 - torch.abs(og[0] - center) / factor) * 
      (1 - torch.abs(og[1] - center) / factor)
  weight = torch.zeros((in_channels, out_channels,
             kernel_size, kernel_size))
  weight[range(in_channels), range(out_channels), :, :] = filt
  return weight

							 

							def bilinear_kernel(in_channels, out_channels, kernel_size):
  factor = (kernel_size + 1) // 2
  if kernel_size % 2 == 1:
    center = factor - 1
  else:
    center = factor - 0.5
  og = (np.arange(kernel_size).reshape(-1, 1),
     np.arange(kernel_size).reshape(1, -1))
  filt = (1 - np.abs(og[0] - center) / factor) * 
      (1 - np.abs(og[1] - center) / factor)
  weight = np.zeros((in_channels, out_channels, kernel_size, kernel_size))
  weight[range(in_channels), range(out_channels), :, :] = filt
  return np.array(weight)

							 

讓我們?cè)囼?yàn)一下由轉(zhuǎn)置卷積層實(shí)現(xiàn)的雙線性插值的上采樣。我們構(gòu)建了一個(gè)將高度和重量加倍的轉(zhuǎn)置卷積層，并使用該bilinear_kernel函數(shù)初始化其內(nèi)核。

							conv_trans = nn.ConvTranspose2d(3, 3, kernel_size=4, padding=1, stride=2,
                bias=False)
conv_trans.weight.data.copy_(bilinear_kernel(3, 3, 4));

							 

							conv_trans = nn.Conv2DTranspose(3, kernel_size=4, padding=1, strides=2)
conv_trans.initialize(init.Constant(bilinear_kernel(3, 3, 4)))

讀取圖像X并將上采樣輸出分配給Y。為了打印圖像，我們需要調(diào)整通道維度的位置。

							img = torchvision.transforms.ToTensor()(d2l.Image.open('../img/catdog.jpg'))
X = img.unsqueeze(0)
Y = conv_trans(X)
out_img = Y[0].permute(1, 2, 0).detach()

							 

							img = image.imread('../img/catdog.jpg')
X = np.expand_dims(img.astype('float32').transpose(2, 0, 1), axis=0) / 255
Y = conv_trans(X)
out_img = Y[0].transpose(1, 2, 0)

							 

正如我們所見(jiàn)，轉(zhuǎn)置卷積層將圖像的高度和寬度增加了兩倍。雙線性插值放大后的圖像與14.3節(jié)打印的原始圖像除了坐標(biāo)比例不同外，看起來(lái)是一樣的。

							d2l.set_figsize()
print('input image shape:', img.permute(1, 2, 0).shape)
d2l.plt.imshow(img.permute(1, 2, 0));
print('output image shape:', out_img.shape)
d2l.plt.imshow(out_img);

							 

							input image shape: torch.Size([561, 728, 3])
output image shape: torch.Size([1122, 1456, 3])

https://file.elecfans.com/web2/M00/AA/47/pYYBAGR9O_KARRwjAAGEqpbl5s8624.svg

							d2l.set_figsize()
print('input image shape:', img.shape)
d2l.plt.imshow(img.asnumpy());
print('output image shape:', out_img.shape)
d2l.plt.imshow(out_img.asnumpy());

							 

							input image shape: (561, 728, 3)
output image shape: (1122, 1456, 3)

在全卷積網(wǎng)絡(luò)中，我們使用雙線性插值的上采樣來(lái)初始化轉(zhuǎn)置卷積層。為了 1×1卷積層，我們使用 Xavier 初始化。

							W = bilinear_kernel(num_classes, num_classes, 64)
net.transpose_conv.weight.data.copy_(W);

							W = bilinear_kernel(num_classes, num_classes, 64)
net[-1].initialize(init.Constant(W))
net[-2].initialize(init=init.Xavier())

							 

14.11.3。讀取數(shù)據(jù)集

我們閱讀了第 14.9 節(jié)中介紹的語(yǔ)義分割數(shù)據(jù)集。隨機(jī)裁剪的輸出圖像形狀指定為320×480：高度和寬度都可以被整除32.

							batch_size, crop_size = 32, (320, 480)
train_iter, test_iter = d2l.load_data_voc(batch_size, crop_size)

							read 1114 examples
read 1078 examples

							batch_size, crop_size = 32, (320, 480)
train_iter, test_iter = d2l.load_data_voc(batch_size, crop_size)

							Downloading ../data/VOCtrainval_11-May-2012.tar from http://d2l-data.s3-accelerate.amazonaws.com/VOCtrainval_11-May-2012.tar...
read 1114 examples
read 1078 examples

						

14.11.4。訓(xùn)練

現(xiàn)在我們可以訓(xùn)練我們構(gòu)建的全卷積網(wǎng)絡(luò)了。這里的損失函數(shù)和精度計(jì)算與前面章節(jié)的圖像分類沒(méi)有本質(zhì)區(qū)別。因?yàn)槲覀兪褂棉D(zhuǎn)置卷積層的輸出通道來(lái)預(yù)測(cè)每個(gè)像素的類別，所以在損失計(jì)算中指定了通道維度。此外，準(zhǔn)確度是根據(jù)所有像素的預(yù)測(cè)類別的正確性計(jì)算的。

							def loss(inputs, targets):
  return F.cross_entropy(inputs, targets, reduction='none').mean(1).mean(1)

num_epochs, lr, wd, devices = 5, 0.001, 1e-3, d2l.try_all_gpus()
trainer = torch.optim.SGD(net.parameters(), lr=lr, weight_decay=wd)
d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs, devices)

							 

							loss 0.441, train acc 0.863, test acc 0.853
167.9 examples/sec on [device(type='cuda', index=0), device(type='cuda', index=1)]

https://file.elecfans.com/web2/M00/A9/CD/poYBAGR9O_aARwnIAAEBn5zqe4s240.svg

							num_epochs, lr, wd, devices = 5, 0.1, 1e-3, d2l.try_all_gpus()
loss = gluon.loss.SoftmaxCrossEntropyLoss(axis=1)
net.collect_params().reset_ctx(devices)
trainer = gluon.Trainer(net.collect_params(), 'sgd',
            {'learning_rate': lr, 'wd': wd})
d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs, devices)

							 

							loss 0.320, train acc 0.894, test acc 0.848
144.9 examples/sec on [gpu(0), gpu(1)]

https://file.elecfans.com/web2/M00/AA/47/pYYBAGR9O_qAGgWgAAEBiDnJ2-4309.svg

14.11.5。預(yù)言

在進(jìn)行預(yù)測(cè)時(shí)，我們需要對(duì)每個(gè)通道的輸入圖像進(jìn)行標(biāo)準(zhǔn)化處理，將圖像轉(zhuǎn)化為CNN需要的四維輸入格式。

							def predict(img):
  X = test_iter.dataset.normalize_image(img).unsqueeze(0)
  pred = net(X.to(devices[0])).argmax(dim=1)
  return pred.reshape(pred.shape[1], pred.shape[2])

							 

							def predict(img):
  X = test_iter._dataset.normalize_image(img)
  X = np.expand_dims(X.transpose(2, 0, 1), axis=0)
  pred = net(X.as_in_ctx(devices[0])).argmax(axis=1)
  return pred.reshape(pred.shape[1], pred.shape[2])

							 

為了可視化每個(gè)像素的預(yù)測(cè)類別，我們將預(yù)測(cè)類別映射回其在數(shù)據(jù)集中的標(biāo)簽顏色。

							def label2image(pred):
  colormap = torch.tensor(d2l.VOC_COLORMAP, device=devices[0])
  X = pred.long()
  return colormap[X, :]

							 

							def label2image(pred):
  colormap = np.array(d2l.VOC_COLORMAP, ctx=devices[0], dtype='uint8')
  X = pred.astype('int32')
  return colormap[X, :]

							 

測(cè)試數(shù)據(jù)集中的圖像大小和形狀各不相同。由于該模型使用了步長(zhǎng)為32的轉(zhuǎn)置卷積層，當(dāng)輸入圖像的高度或?qū)挾炔荒鼙?2整除時(shí)，轉(zhuǎn)置卷積層的輸出高度或?qū)挾葧?huì)偏離輸入圖像的形狀。為了解決這個(gè)問(wèn)題，我們可以在圖像中裁剪出多個(gè)高寬均為32整數(shù)倍的矩形區(qū)域，分別對(duì)這些區(qū)域的像素進(jìn)行前向傳播。請(qǐng)注意，這些矩形區(qū)域的并集需要完全覆蓋輸入圖像。當(dāng)一個(gè)像素被多個(gè)矩形區(qū)域覆蓋時(shí)，可以將同一像素在不同區(qū)域的轉(zhuǎn)置卷積輸出的平均值輸入到 softmax 操作中以預(yù)測(cè)類別。

為簡(jiǎn)單起見(jiàn)，我們只讀取了一些較大的測(cè)試圖像，并裁剪了一個(gè) 320×480從圖像的左上角開(kāi)始的預(yù)測(cè)區(qū)域。對(duì)于這些測(cè)試圖像，我們逐行打印它們的裁剪區(qū)域、預(yù)測(cè)結(jié)果和地面實(shí)況。

							voc_dir = d2l.download_extract('voc2012', 'VOCdevkit/VOC2012')
test_images, test_labels = d2l.read_voc_images(voc_dir, False)
n, imgs = 4, []
for i in range(n):
  crop_rect = (0, 0, 320, 480)
  X = torchvision.transforms.functional.crop(test_images[i], *crop_rect)
  pred = label2image(predict(X))
  imgs += [X.permute(1,2,0), pred.cpu(),
       torchvision.transforms.functional.crop(
         test_labels[i], *crop_rect).permute(1,2,0)]
d2l.show_images(imgs[::3] + imgs[1::3] + imgs[2::3], 3, n, scale=2);

							 

https://file.elecfans.com/web2/M00/A9/CD/poYBAGR9O_yAHBuoAAI1uB2HKv4586.svg

							voc_dir = d2l.download_extract('voc2012', 'VOCdevkit/VOC2012')
test_images, test_labels = d2l.read_voc_images(voc_dir, False)
n, imgs = 4, []
for i in range(n):
  crop_rect = (0, 0, 480, 320)
  X = image.fixed_crop(test_images[i], *crop_rect)
  pred = label2image(predict(X))
  imgs += [X, pred, image.fixed_crop(test_labels[i], *crop_rect)]
d2l.show_images(imgs[::3] + imgs[1::3] + imgs[2::3], 3, n, scale=2);

							 

https://file.elecfans.com/web2/M00/AA/47/pYYBAGR9O_6AVgqjAAI2AD9psJU710.svg

14.11.6. 概括

全卷積網(wǎng)絡(luò)首先使用 CNN 提取圖像特征，然后通過(guò)1×1卷積層，最后通過(guò)轉(zhuǎn)置卷積將特征圖的高度和寬度轉(zhuǎn)換為輸入圖像的高度和寬度。
在全卷積網(wǎng)絡(luò)中，我們可以使用雙線性插值的上采樣來(lái)初始化轉(zhuǎn)置卷積層。

14.11.7. 練習(xí)

如果我們?cè)趯?shí)驗(yàn)中對(duì)轉(zhuǎn)置的卷積層使用Xavier初始化，結(jié)果會(huì)有怎樣的變化？
你能否通過(guò)調(diào)整超參數(shù)進(jìn)一步提高模型的準(zhǔn)確性？
預(yù)測(cè)測(cè)試圖像中所有像素的類別。
最初的全卷積網(wǎng)絡(luò)論文也使用了一些中間 CNN 層的輸出（Long et al. , 2015）。嘗試實(shí)現(xiàn)這個(gè)想法。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
795

瀏覽量
13091
全卷積網(wǎng)絡(luò)

全卷積網(wǎng)絡(luò)

+關(guān)注

關(guān)注
0

文章
7

瀏覽量
2011

評(píng)論

相關(guān)推薦

搜索歷史

PyTorch教程-14.11. 全卷積網(wǎng)絡(luò)

14.11.1。該模型

14.11.2。初始化轉(zhuǎn)置卷積層

14.11.3。讀取數(shù)據(jù)集

14.11.4。訓(xùn)練

14.11.5。預(yù)言

14.11.6. 概括

14.11.7. 練習(xí)

評(píng)論

使用PyTorch深度解析卷積神經(jīng)網(wǎng)絡(luò)

全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)有什么區(qū)別

如何在PyTorch上學(xué)習(xí)和創(chuàng)建網(wǎng)絡(luò)模型呢？

全卷積網(wǎng)絡(luò)FCN進(jìn)行圖像分割

PyTorch教程7.1之從全連接層到卷積

PyTorch教程7.2之圖像卷積

PyTorch教程8.1之深度卷積神經(jīng)網(wǎng)絡(luò)(AlexNet)

PyTorch教程8.8之設(shè)計(jì)卷積網(wǎng)絡(luò)架構(gòu)

PyTorch教程14.10之轉(zhuǎn)置卷積

PyTorch教程14.11之全卷積網(wǎng)絡(luò)

PyTorch教程16.3之情感分析:使用卷積神經(jīng)網(wǎng)絡(luò)

PyTorch教程20.2之深度卷積生成對(duì)抗網(wǎng)絡(luò)

pytorch如何構(gòu)建網(wǎng)絡(luò)模型

全卷積神經(jīng)網(wǎng)絡(luò)的工作原理和應(yīng)用

基于PyTorch的卷積核實(shí)例應(yīng)用

搜索歷史

PyTorch教程-14.11. 全卷積網(wǎng)絡(luò)

14.11.1。該模型

14.11.2。初始化轉(zhuǎn)置卷積層

14.11.3。讀取數(shù)據(jù)集

14.11.4。訓(xùn)練

14.11.5。預(yù)言

14.11.6. 概括

14.11.7. 練習(xí)

評(píng)論

14.11.1。該模型

14.11.2。初始化轉(zhuǎn)置卷積層

14.11.3。讀取數(shù)據(jù)集