±à¼ÍƼö: |
Attention»úÖÆÔÚ½ü¼¸ÄêÀ´ÔÚͼÏñ£¬×ÔÈ»ÓïÑÔ´¦ÀíµÈÁìÓòÖж¼È¡µÃÁËÖØÒªµÄÍ»ÆÆ£¬±»Ö¤Ã÷ÓÐÒæÓÚÌá¸ßÄ£Ð͵ÄÐÔÄÜ¡£Attention»úÖÆ±¾ÉíÒ²ÊÇ·ûºÏÈËÄÔºÍÈËÑ۵ĸÐÖª»úÖÆ£¬Õâ´ÎÎÒÃÇÖ÷ÒªÒÔ¼ÆËã»úÊÓ¾õÁìÓòΪÀý£¬½²ÊöAttention»úÖÆµÄÔÀí£¬Ó¦ÓÃÒÔ¼°Ä£Ð͵ķ¢Õ¹¡£
±¾ÎÄÀ´×ÔAIÓеÀ£¨ID:yanyousan_ai£© £¬ÓÉ»ðÁú¹ûÈí¼þAnna±à¼¡¢ÍƼö¡£
|
|
1 Attention»úÖÆÓëÏÔÖøÍ¼
1.1 ºÎΪAttention»úÖÆ
ËùνAttention»úÖÆ£¬±ãÊǾ۽¹ÓÚ¾Ö²¿ÐÅÏ¢µÄ»úÖÆ£¬±ÈÈçͼÏñÖеÄijһ¸öͼÏñÇøÓò¡£Ëæ×ÅÈÎÎñµÄ±ä»¯£¬×¢ÒâÁ¦ÇøÓòÍùÍù»á·¢Éú±ä»¯¡£

Ãæ¶ÔÉÏÃæÕâÑùµÄÒ»ÕÅͼ£¬Èç¹ûÄãÖ»ÊÇ´ÓÕûÌåÀ´¿´£¬Ö»¿´µ½Á˺ܶàÈËÍ·£¬µ«ÊÇÄãÀ½üÒ»¸öÒ»¸ö×Ðϸ¿´¾ÍÁ˲»µÃÁË£¬¶¼ÊÇÌì²Å¿ÆÑ§¼Ò¡£
ͼÖгýÁËÈËÁ³Ö®ÍâµÄÐÅÏ¢Æäʵ¶¼ÊÇÎÞÓõģ¬Ò²×ö²»ÁËʲôÈÎÎñ£¬Attention»úÖÆ±ãÊÇÒªÕÒµ½ÕâЩ×îÓÐÓõÄÐÅÏ¢£¬¿ÉÒÔÏë¼û×î¼òµ¥µÄ³¡¾°¾ÍÊÇ´ÓÕÕÆ¬Öмì²âÈËÁ³ÁË¡£
1.2 »ùÓÚAttentionµÄÏÔÖøÄ¿±ê¼ì²â
ºÍ×¢ÒâÁ¦»úÖÆÏà°é¶øÉúµÄÒ»¸öÈÎÎñ±ãÊÇÏÔÖøÄ¿±ê¼ì²â£¬¼´salient object detection¡£ËüµÄÊäÈëÊÇÒ»ÕÅͼ£¬Êä³öÊÇÒ»ÕŸÅÂÊͼ£¬¸ÅÂÊÔ½´óµÄµØ·½£¬´ú±íÊÇͼÏñÖÐÖØÒªÄ¿±êµÄ¸ÅÂÊÔ½´ó£¬¼´ÈËÑÛ¹Ø×¢µÄÖØµã£¬Ò»¸öµäÐ͵ÄÏÔÖøÍ¼ÈçÏ£º

ÓÒͼ¾ÍÊÇ×óͼµÄÏÔÖøÍ¼£¬ÔÚÍ·²¿Î»ÖøÅÂÊ×î´ó£¬ÁíÍâÍȲ¿£¬Î²°ÍÒ²Óнϴó¸ÅÂÊ£¬Õâ¾ÍÊÇͼÖÐÕæÕýÓÐÓõÄÐÅÏ¢¡£
ÏÔÖøÄ¿±ê¼ì²âÐèÒªÒ»¸öÊý¾Ý¼¯£¬¶øÕâÑùµÄÊý¾Ý¼¯µÄÊÕ¼¯±ãÊÇͨ¹ý×·×Ù¶à¸öʵÑéÕßµÄÑÛÇòÔÚÒ»¶¨Ê±¼äÄÚµÄ×¢ÒâÁ¦·½Ïò½øÐÐÆ½¾ùµÃµ½£¬µäÐ͵IJ½ÖèÈçÏ£º
(1) Èñ»²âÊÔÕß¹Û²ìͼ¡£
(2) ÓÃeye tracker¼Ç¼ÑÛ¾¦µÄ×¢ÒâÁ¦Î»Öá£
(3) ¶ÔËùÓвâÊÔÕßµÄ×¢ÒâÁ¦Î»ÖÃʹÓøß˹Â˲¨½øÐÐ×ۺϡ£
(4) ½á¹ûÒÔ0¡«1µÄ¸ÅÂʽøÐмǼ¡£
ÓÚÊǾÍÄܵõ½ÏÂÃæÕâÑùµÄͼ£¬µÚ¶þÐÐÊÇÑÛÇò×·×Ù½á¹û£¬µÚÈýÐоÍÊÇÏÔÖøÄ¿±ê¸ÅÂÊͼ¡£

ÉÏÃæ½²ÊöµÄ¶¼ÊǿռäÉϵÄ×¢ÒâÁ¦»úÖÆ£¬¼´¹Ø×¢µÄÊDz»Í¬¿Õ¼äλÖ㬶øÔÚCNN½á¹¹ÖУ¬»¹Óв»Í¬µÄÌØÕ÷ͨµÀ£¬Òò´Ë²»Í¬ÌØÕ÷ͨµÀÒ²ÓÐÀàËÆµÄÔÀí£¬ÏÂÃæÒ»Æð½²Êö¡£
2 AttentionÄ£Ðͼܹ¹
×¢ÒâÁ¦»úÖÆµÄ±¾ÖʾÍÊǶ¨Î»µ½¸ÐÐËȤµÄÐÅÏ¢£¬ÒÖÖÆÎÞÓÃÐÅÏ¢£¬½á¹ûͨ³£¶¼ÊÇÒÔ¸ÅÂÊͼ»òÕ߸ÅÂÊÌØÕ÷ÏòÁ¿µÄÐÎʽչʾ£¬´ÓÔÀíÉÏÀ´Ëµ£¬Ö÷Òª·ÖΪ¿Õ¼ä×¢ÒâÁ¦Ä£ÐÍ£¬Í¨µÀ×¢ÒâÁ¦Ä£ÐÍ£¬¿Õ¼äºÍͨµÀ»ìºÏ×¢ÒâÁ¦Ä£ÐÍÈýÖÖ£¬ÕâÀï²»Çø·ÖsoftºÍhard
attention¡£
2.1 ¿Õ¼ä×¢ÒâÁ¦Ä£ÐÍ(spatial attention)
²»ÊÇͼÏñÖÐËùÓеÄÇøÓò¶ÔÈÎÎñµÄ¹±Ï×¶¼ÊÇͬÑùÖØÒªµÄ£¬Ö»ÓÐÈÎÎñÏà¹ØµÄÇøÓò²ÅÊÇÐèÒª¹ØÐĵ쬱ÈÈç·ÖÀàÈÎÎñµÄÖ÷Ì壬¿Õ¼ä×¢ÒâÁ¦Ä£Ð;ÍÊÇѰÕÒÍøÂçÖÐ×îÖØÒªµÄ²¿Î»½øÐд¦Àí¡£
ÎÒÃÇÔÚÕâÀï¸ø´ó¼Ò½éÉÜÁ½¸ö¾ßÓдú±íÐÔµÄÄ£ÐÍ£¬µÚÒ»¸ö¾ÍÊÇGoogle DeepMindÌá³öµÄSTNÍøÂç(Spatial
Transformer Network[1])¡£Ëüͨ¹ýѧϰÊäÈëµÄÐα䣬´Ó¶øÍê³ÉÊʺÏÈÎÎñµÄÔ¤´¦Àí²Ù×÷£¬ÊÇÒ»ÖÖ»ùÓÚ¿Õ¼äµÄAttentionÄ£ÐÍ£¬ÍøÂç½á¹¹ÈçÏ£º

ÕâÀïµÄLocalization NetÓÃÓÚÉú³É·ÂÉä±ä»»ÏµÊý£¬ÊäÈëÊÇC¡ÁH¡ÁWάµÄͼÏñ£¬Êä³öÊÇÒ»¸ö¿Õ¼ä±ä»»ÏµÊý£¬ËüµÄ´óС¸ù¾ÝҪѧϰµÄ±ä»»ÀàÐͶø¶¨£¬Èç¹ûÊÇ·ÂÉä±ä»»£¬ÔòÊÇÒ»¸ö6άÏòÁ¿¡£
ÕâÑùµÄÒ»¸öÍøÂçÒªÍê³ÉµÄЧ¹ûÈçÏÂͼ£º

¼´¶¨Î»µ½Ä¿±êµÄλÖã¬È»ºó½øÐÐÐýתµÈ²Ù×÷£¬Ê¹µÃÊäÈëÑù±¾¸ü¼ÓÈÝÒ×ѧϰ¡£ÕâÊÇÒ»ÖÖÒ»²½µ÷ÕûµÄ½â¾ö·½°¸£¬µ±È»»¹Óкܶàµü´úµ÷ÕûµÄ·½°¸£¬¸ÐÐËȤ¿ÉÒÔÈ¥ÓÐÈý֪ʶÐÇÇòÐÇÇòÖÐÔĶÁ¡£
Ïà±ÈÓÚSpatial Transformer Networks Ò»²½Íê³ÉÄ¿±êµÄ¶¨Î»ºÍ·ÂÉä±ä»»µ÷Õû£¬Dynamic
Capacity Networks[2]Ôò²ÉÓÃÁËÁ½¸ö×ÓÍøÂ磬·Ö±ðÊǵÍÐÔÄܵÄ×ÓÍøÂç(coarse model)ºÍ¸ßÐÔÄܵÄ×ÓÍøÂç(fine
model)¡£µÍÐÔÄܵÄ×ÓÍøÂç(coarse model)ÓÃÓÚ¶Ôȫͼ½øÐд¦Àí£¬¶¨Î»¸ÐÐËÈ¤ÇøÓò£¬ÈçÏÂͼÖеIJÙ×÷fc¡£¸ßÐÔÄܵÄ×ÓÍøÂç(fine
model)Ôò¶Ô¸ÐÐËÈ¤ÇøÓò½øÐо«Ï¸»¯´¦Àí£¬ÈçÏÂͼµÄ²Ù×÷ff¡£Á½Õß¹²Í¬Ê¹Ó㬿ÉÒÔ»ñµÃ¸üµÍµÄ¼ÆËã´ú¼ÛºÍ¸ü¸ßµÄ¾«¶È¡£

ÓÉÓÚÔڴ󲿷ÖÇé¿öÏÂÎÒÃǸÐÐËȤµÄÇøÓòÖ»ÊÇͼÏñÖеÄһС²¿·Ö£¬Òò´Ë¿Õ¼ä×¢ÒâÁ¦µÄ±¾ÖʾÍÊǶ¨Î»Ä¿±ê²¢½øÐÐһЩ±ä»»»òÕß»ñÈ¡È¨ÖØ¡£
2.2 ͨµÀ×¢ÒâÁ¦»úÖÆ
¶ÔÓÚÊäÈë2άͼÏñµÄCNNÀ´Ëµ£¬Ò»¸öά¶ÈÊÇͼÏñµÄ³ß¶È¿Õ¼ä£¬¼´³¤¿í£¬ÁíÒ»¸öά¶È¾ÍÊÇͨµÀ£¬Òò´Ë»ùÓÚͨµÀµÄAttentionÒ²ÊǺܳ£ÓõĻúÖÆ¡£
SENet(Sequeeze and Excitation Net)[3]ÊÇ2017½ìImageNet·ÖÀà±ÈÈüµÄ¹Ú¾üÍøÂ磬±¾ÖÊÉÏÊÇÒ»¸ö»ùÓÚͨµÀµÄAttentionÄ£ÐÍ£¬Ëüͨ¹ý½¨Ä£¸÷¸öÌØÕ÷ͨµÀµÄÖØÒª³Ì¶È£¬È»ºóÕë¶Ô²»Í¬µÄÈÎÎñÔöÇ¿»òÕßÒÖÖÆ²»Í¬µÄͨµÀ£¬ÔÀíͼÈçÏ¡£

ÔÚÕý³£µÄ¾í»ý²Ù×÷ºó·Ö³öÁËÒ»¸öÅÔ··ÖÖ§£¬Ê×ÏȽøÐÐSqueeze²Ù×÷(¼´Í¼ÖÐFsq(¡¤))£¬Ëü½«¿Õ¼äά¶È½øÐÐÌØÕ÷ѹËõ£¬¼´Ã¿¸ö¶þάµÄÌØÕ÷ͼ±ä³ÉÒ»¸öʵÊý£¬Ï൱ÓÚ¾ßÓÐÈ«¾Ö¸ÐÊÜÒ°µÄ³Ø»¯²Ù×÷£¬ÌØÕ÷ͨµÀÊý²»±ä¡£
È»ºóÊÇExcitation²Ù×÷(¼´Í¼ÖеÄFex(¡¤))£¬Ëüͨ¹ý²ÎÊýwΪÿ¸öÌØÕ÷ͨµÀÉú³ÉÈ¨ÖØ£¬w±»Ñ§Ï°ÓÃÀ´ÏÔʽµØ½¨Ä£ÌØÕ÷ͨµÀ¼äµÄÏà¹ØÐÔ¡£ÔÚÎÄÕÂÖУ¬Ê¹ÓÃÁËÒ»¸ö2²ãbottleneck½á¹¹(ÏȽµÎ¬ÔÙÉýά)µÄÈ«Á¬½Ó²ã+Sigmoidº¯ÊýÀ´ÊµÏÖ¡£
µÃµ½ÁËÿһ¸öÌØÕ÷ͨµÀµÄÈ¨ÖØÖ®ºó£¬¾Í½«¸ÃÈ¨ÖØÓ¦ÓÃÓÚÔÀ´µÄÿ¸öÌØÕ÷ͨµÀ£¬»ùÓÚÌØ¶¨µÄÈÎÎñ£¬¾Í¿ÉÒÔѧϰµ½²»Í¬Í¨µÀµÄÖØÒªÐÔ¡£
½«Æä»úÖÆÓ¦ÓÃÓÚÈô¸É»ù׼ģÐÍ£¬ÔÚÔö¼ÓÉÙÁ¿¼ÆËãÁ¿µÄÇé¿öÏ£¬»ñµÃÁ˸üÃ÷ÏÔµÄÐÔÄÜÌáÉý¡£×÷ΪһÖÖͨÓõÄÉè¼ÆË¼Ï룬Ëü¿ÉÒÔ±»ÓÃÓÚÈκÎÏÖÓÐÍøÂ磬¾ßÓнÏÇ¿µÄʵ¼ùÒâÒå¡£¶øºóSKNet[4]µÈ·½·¨½«ÕâÑùµÄͨµÀ¼ÓȨµÄ˼ÏëºÍInceptionÖеĶà·ÖÖ§ÍøÂç½á¹¹½øÐнáºÏ£¬Ò²ÊµÏÖÁËÐÔÄܵÄÌáÉý¡£
ͨµÀ×¢ÒâÁ¦»úÖÆµÄ±¾ÖÊ£¬ÔÚÓÚ½¨Ä£Á˸÷¸öÌØÕ÷Ö®¼äµÄÖØÒªÐÔ£¬¶ÔÓÚ²»Í¬µÄÈÎÎñ¿ÉÒÔ¸ù¾ÝÊäÈë½øÐÐÌØÕ÷·ÖÅ䣬¼òµ¥¶øÓÐЧ¡£
2.3 ¿Õ¼äºÍͨµÀ×¢ÒâÁ¦»úÖÆµÄÈÚºÏ
ǰÊöµÄDynamic Capacity NetworkÊÇ´Ó¿Õ¼äά¶È½øÐÐAttention£¬SENetÊÇ´ÓͨµÀά¶È½øÐÐAttention£¬×ÔȻҲ¿ÉÒÔͬʱʹÓÿռäAttentionºÍͨµÀAttention»úÖÆ¡£
CBAM(Convolutional Block Attention Module)[5]ÊÇÆäÖеĴú±íÐÔÍøÂ磬½á¹¹ÈçÏ£º

ͨµÀ·½ÏòµÄAttention½¨Ä£µÄÊÇÌØÕ÷µÄÖØÒªÐÔ£¬½á¹¹ÈçÏ£º

ͬʱʹÓÃ×î´ópoolingºÍ¾ùÖµpoolingËã·¨£¬È»ºó¾¹ý¼¸¸öMLP²ã»ñµÃ±ä»»½á¹û£¬×îºó·Ö±ðÓ¦ÓÃÓÚÁ½¸öͨµÀ£¬Ê¹ÓÃsigmoidº¯ÊýµÃµ½Í¨µÀµÄattention½á¹û¡£
¿Õ¼ä·½ÏòµÄAttention½¨Ä£µÄÊǿռäλÖõÄÖØÒªÐÔ£¬½á¹¹ÈçÏ£º

Ê×ÏȽ«Í¨µÀ±¾Éí½øÐнµÎ¬£¬·Ö±ð»ñÈ¡×î´ó³Ø»¯ºÍ¾ùÖµ³Ø»¯½á¹û£¬È»ºóÆ´½Ó³ÉÒ»¸öÌØÕ÷ͼ£¬ÔÙʹÓÃÒ»¸ö¾í»ý²ã½øÐÐѧϰ¡£
ÕâÁ½ÖÖ»úÖÆ£¬·Ö±ðѧϰÁËͨµÀµÄÖØÒªÐԺͿռäµÄÖØÒªÐÔ£¬»¹¿ÉÒÔºÜÈÝÒ×µØÇ¶Èëµ½ÈκÎÒÑÖªµÄ¿ò¼ÜÖС£
³ý´ËÖ®Í⣬»¹ÓкܶàµÄ×¢ÒâÁ¦»úÖÆÏà¹ØµÄÑо¿£¬±ÈÈç²Ð²î×¢ÒâÁ¦»úÖÆ£¬¶à³ß¶È×¢ÒâÁ¦»úÖÆ£¬µÝ¹é×¢ÒâÁ¦»úÖÆµÈ¡£ |