黄色美女免费,五月婷婷六月合,亚洲日本乱码中文在线电影亚洲

機(jī)器之心報(bào)道

機(jī)器之心感謝部

感謝中，來(lái)自南大、港大、英偉達(dá)等機(jī)構(gòu)得研究者提出了一個(gè)使用 transformer 進(jìn)行端到端全景分割得通用框架，不僅為語(yǔ)義分割與實(shí)例分割提供了統(tǒng)一得 mask 預(yù)測(cè)工作流程，而且使得全景分割 pipeline 更加簡(jiǎn)潔高效。

語(yǔ)義分割和實(shí)例分割是兩個(gè)重要且相互關(guān)聯(lián)得視覺(jué)問(wèn)題，它們之間得潛在聯(lián)系使得全景分割可以統(tǒng)一這兩個(gè)任務(wù)。在全景分割中，圖像信息被分成兩類(lèi)：Things 和 Stuff。其中 Things 是可數(shù)得實(shí)例 (例如，人、汽車(chē)、自行車(chē))，每個(gè)實(shí)例都有一個(gè)惟一得 id，以區(qū)別于其他實(shí)例。Stuff 是指無(wú)定形和不可數(shù)得區(qū)域 (如天空、草原和雪)，沒(méi)有實(shí)例 id。

Things 和 Stuff 之間得差異也導(dǎo)致了不同得處理方式。許多工作只是將全景分割分解為 Things 實(shí)例分割任務(wù)和 Stuff 語(yǔ)義分割任務(wù)。然而，這種分離處理策略會(huì)增加模型得復(fù)雜性和不必要得工件。雖然一些研究考慮自底向上得實(shí)例分割方法，但這種方法仍然保持了類(lèi)似得分離策略。還有一些方法在處理 Things 和 Stuff 任務(wù)時(shí)，試圖通過(guò)在一個(gè)統(tǒng)一得框架中來(lái)簡(jiǎn)化全景分割 pipeline 來(lái)實(shí)現(xiàn)。

來(lái)自南京大學(xué)、香港大學(xué)、英偉達(dá)等機(jī)構(gòu)得研究者提出了 Panoptic SegFormer，這是一個(gè)使用 Transformer 進(jìn)行端到端全景分割得通用框架。該方法擴(kuò)展了 Deformable DETR，并為 Things 和 Stuff 提供了統(tǒng)一得 mask 預(yù)測(cè)工作流程，使全景分割 pipeline 簡(jiǎn)潔高效。

論文地址：感謝分享arxiv.org/pdf/2109.03814v1.pdf

該研究使用 ResNet-50 作為網(wǎng)絡(luò)主干，在 COCO test-dev 拆分中實(shí)現(xiàn)了 50.0% 得 PQ，在無(wú)需附屬條件（bells and whistles）得情況下，結(jié)果顯著優(yōu)于 SOTA 方法。此外，使用性能更強(qiáng)得 PVTv2-B5 作為網(wǎng)絡(luò)主干，Panopoptic SegFormer 在 COCO val 和 test-dev 拆分上以單尺度輸入實(shí)現(xiàn)了 54.1%PQ 和 54.4%PQ 得新記錄。

論文感謝分享之一、英偉達(dá)研究院高級(jí)研究科學(xué)家 Zhiding Yu 表示：「目前，Panoptic SegFormer 在 COCO 2020 全景分割挑戰(zhàn)賽中位列第壹名。」

COCO 全景分割挑戰(zhàn)賽地址：感謝分享competitions.codalab.org/competitions/19507#learn_the_details-overview

方法研究

如圖 2 所示，Panoptic SegFormer 由三個(gè)關(guān)鍵模塊組成：transformer 編碼器、位置解碼器（location decoder）、掩碼解碼器（mask decoder）。其中：

（1）transformer 編碼器用于細(xì)化主干給出得多尺度特征圖；

（2）位置解碼器用于捕獲物體得位置線索；

（3）掩碼解碼器用于蕞終分類(lèi)和分割。

圖 2：Panoptic SegFormer 架構(gòu)。

Transformer 編碼器

分割任務(wù)中有兩個(gè)比較重要得因素：高分辨率和多尺度特征圖。由于多頭注意力層得計(jì)算成本很高，以前基于 transformer 得方法只能在編碼器中處理低分辨率得特征圖，這限制了分割性能。與這些方法不同，該研究使用可變形注意力層來(lái)實(shí)現(xiàn) transformer 編碼器。由于可變形注意層得計(jì)算復(fù)雜度較低，因此該研究得編碼器可以將位置編碼細(xì)化為高分辨率和多尺度特征映射。

位置解碼器

在全景分割任務(wù)中，位置信息在區(qū)分具有不同實(shí)例 id 得 things 方面起著重要作用。受此啟發(fā)，該研究設(shè)計(jì)了一個(gè)位置解碼器，將 things 和 stuff 位置信息引入到可學(xué)習(xí)得查詢中。

具體來(lái)說(shuō)，給定 N 個(gè)隨機(jī)初始化得查詢和由 Transformer 編碼器生成得細(xì)化特征 token，解碼器將輸出 N 個(gè)位置感知查詢。在訓(xùn)練階段，該研究在位置感知查詢之上應(yīng)用幫助 MLP 頭來(lái)預(yù)測(cè)目標(biāo)物體得中心位置和尺度，并使用位置損失 L_loc 進(jìn)行監(jiān)督預(yù)測(cè)。請(qǐng)注意，MLP 頭是一個(gè)幫助分支，在推理階段可以丟棄。

掩碼解碼器

如圖 3 所示，掩碼解碼器根據(jù)給定得查詢來(lái)預(yù)測(cè)物體類(lèi)別和掩碼。掩碼解碼器得查詢 Q 是來(lái)自位置解碼器得位置感知查詢，掩碼解碼器得鍵 K 和值 V 是來(lái)自 transformer 編碼器得細(xì)化特征 token F。

圖 3：掩碼解碼器架構(gòu)。

Mask-Wise 推理

全景分割要求為每個(gè)像素分配一個(gè)類(lèi)別標(biāo)簽（或空白）和一個(gè)實(shí)例 id（對(duì)于 stuff 忽略 id）。一種常用得后處理方法是啟發(fā)式過(guò)程，它采用類(lèi)似 NMS 得過(guò)程來(lái)生成 things 得非重疊實(shí)例分割，稱(chēng)之為 mask-wise 策略。

對(duì)于 stuff，該研究采用基于啟發(fā)式過(guò)程得 mask-wise 策略來(lái)生成非重疊結(jié)果，而不是 pixel-wise 策略。此外，該研究平等得對(duì)待 things 、stuff ，并通過(guò)它們得置信度分?jǐn)?shù)來(lái)解決所有掩碼之間得重疊，而不是在啟發(fā)式過(guò)程中（things 和 stuff 著兩者）傾向于 things，這標(biāo)志著該研究所用方法與其他方法之間得差異。Mask-Wise 推理過(guò)程如下所示：

Mask-Wise 推理過(guò)程。

實(shí)驗(yàn)

該研究在 COCO 上對(duì) Panoptic SegFormer 進(jìn)行評(píng)估，并將其與 SOTA 方法進(jìn)行比較。實(shí)驗(yàn)提供了全景分割得主要結(jié)果和一些可視化結(jié)果。

該研究在 COCO val set 和 test-dev set 上進(jìn)行實(shí)驗(yàn)。下表 1 和表 2 報(bào)告了 Panoptic SegFormer 與其他 SOTA 方法得對(duì)比結(jié)果。Panoptic SegFormer 在以 ResNet-50 作為主干和單尺度輸入得得情況下，在 COCO val 上獲得了 50.0% PQ，并且超過(guò)了之前得方法 PanopticFCN 和 DETR ，分別提高了 6.4% PQ 和 6.6% PQ。

表 1：在 COCO val set 上得實(shí)驗(yàn)。Panotic SegFormer 在以 ResNet-50 為主干得 COCO val 上實(shí)現(xiàn)了 50.0% 得 PQ，超過(guò)了之前得方法。

下表 2 中：在 COCO test-dev set 進(jìn)行實(shí)驗(yàn)，以 PVTv2-B5 作為主干，Panoptic SegFormer 在 COCO test-dev 上實(shí)現(xiàn)了 54.4% 得 PQ，超越 SOTA 方法 Max-Deeplabe-L 和競(jìng)爭(zhēng)級(jí)方法 Innovation，分別超過(guò) 3.1% PQ 和 0.9% PQ，且參數(shù)和計(jì)算成本更低。

下圖 4 顯示了在 COCO val set 得一些可視化結(jié)果。這些原始圖像是高度擁擠或被遮擋得場(chǎng)景，但是 Panoptic SegFormer 仍然可以得到令人信服得結(jié)果。

實(shí)例分割：下表 3 為在 COCO test-dev set 實(shí)例分割結(jié)果。為了公平比較，該研究使用 300 個(gè)查詢進(jìn)行實(shí)例分割，并且只使用 things 數(shù)據(jù)。以 ResNet-50 作為主干和單尺度輸入，Panoptic SegFormer 實(shí)現(xiàn)了 41.7 AP，超過(guò)了之前得 HTC 和 QueryInst SOTA 方法，且分別超過(guò)了 1.6 AP 和 1.1 AP。

下表 4 中展示了模型復(fù)雜性和推理效率，得出 Panoptic SegFormer 在可接受得推理速度下，能夠?qū)崿F(xiàn) SOTA 性能全景分割。

• _入門(mén)級(jí)賽車(chē)_搭載1.34升四缸發(fā)動(dòng)機(jī)_Rad	• _10.99萬(wàn)起_車(chē)機(jī)系統(tǒng)優(yōu)化/三套動(dòng)力可選_
• _全新前臉/1.5升動(dòng)力_奇瑞全新瑞虎3x到店	• 還在不敢開(kāi)車(chē)？這幾個(gè)開(kāi)車(chē)技巧實(shí)在又實(shí)用_新手
• 看過(guò)來(lái)_了解這幾個(gè)開(kāi)車(chē)技巧_安全駕駛不是夢(mèng)	• 江西小哥哥定制_圓切割_GIA_1.0克拉_H
• 激光切割機(jī)的切割效率和精度有哪些因素影響？	• A16仿生+靈動(dòng)島+6.7英寸_256G_iP
• _屏幕尺寸提升/增數(shù)字鑰匙_一汽豐田新款奕澤I	• 初中英語(yǔ)_一般現(xiàn)在時(shí)_用法及構(gòu)成（含答案解析）

欧美日韩午夜精品不卡综合-欧美日韩系列-欧美日韩小视频-欧美日韩性-成人五月网-成人五级毛片免费播放

VIP

推廣服務(wù)

拿transformer做E2E全景分割_這個(gè)