±à¼ÍƼö: |
±¾ÎĶÔnlpÖÐÒ»¸ö¼«ÎªÖØÒªµÄÄ£ÐÍ¡ª¡ªÖ÷ÌâÄ£ÐÍLDA(Latent
Dirichlet Allocation)´Óºê¹ÛÀí½âÓëÊýѧ½âÊÍÁ½¸öά¶È½øÐнéÉÜ£¬Ï£Íû¶ÔÄúµÄѧϰÓÐËù°ïÖú¡£
±¾ÎÄÀ´×ÔÓÚÖªºõ £¬ÓÉ»ðÁú¹ûÈí¼þAlice±à¼¡¢ÍƼö¡£ |
|
1¡¢LDAµÄºê¹ÛÀí½â
̸ÆðLDA£¬×ÔÈ»ÐèÒªÒýÈëpLSA¡£pLSAÊÇÓÃÒ»¸öÉú³ÉÄ£ÐÍÀ´½¨Ä£ÎÄÕµÄÉú³É¹ý³Ì¡£¼ÙÉèÓÐK¸öÖ÷Ì⣬MƪÎÄÕ£»¶ÔÓïÁÏ¿âÖеÄÈÎÒâÎÄÕÂd£¬¼ÙÉè¸ÃÎÄÕÂÓÐN¸ö´Ê£¬Ôò¶ÔÓÚÆäÖеÄÿһ¸ö´Ê£¬ÎÒÃÇÊ×ÏÈÑ¡ÔñÒ»¸öÖ÷Ìâz£¬È»ºóÔÚµ±Ç°Ö÷ÌâµÄ»ù´¡ÉÏÉú³ÉÒ»¸ö´Êw¡£
Éú³ÉÖ÷ÌâzºÍ´ÊwµÄ¹ý³Ì×ñÕÕÒ»¸öÈ·¶¨µÄ¸ÅÂÊ·Ö²¼¡£ÉèÔÚÎÄÕÂdÖÐÉú³ÉÖ÷ÌâzµÄ¸ÅÂÊΪ [¹«Ê½] £¬ÔÚÑ¡¶¨Ö÷ÌâµÄÌõ¼þÏÂÉú³É´ÊwµÄ¸ÅÂÊΪ
[¹«Ê½] £¬Ôò¸ø¶¨ÎÄÕÂd£¬Éú³É´ÊwµÄ¸ÅÂÊ¿ÉÒÔд³É£º


pLSA¸ÅÂÊͼģÐÍ
LDA¿ÉÒÔ¿´×÷ÊÇpLSAµÄ±´Ò¶Ë¹°æ±¾£¬ÆäÎı¾Éú³É¹ý³ÌÓëpLSA»ù±¾Ïàͬ£¬²»Í¬µÄÊÇΪÖ÷Ìâ·Ö²¼ºÍ´Ê·Ö²¼·Ö±ð¼ÓÁËÁ½¸öµÒÀû¿ËÀ×£¨Dirichlet£©ÏÈÑ顣ΪʲôҪ¼ÓÈëµÒÀû¿ËÀ×ÏÈÑéÄØ£¿Õâ¾ÍÒª´ÓƵÂÊѧÅɺͱ´Ò¶Ë¹Ñ§ÅɵÄÇø±ð˵Æð¡£pLSA²ÉÓõÄÊÇÆµÂÊÅÉ˼Ï룬½«Ã¿ÆªÎÄÕ¶ÔÓ¦µÄÖ÷Ìâ·Ö²¼[¹«Ê½]ºÍÿ¸öÖ÷Ìâ¶ÔÓ¦µÄ´Ê·Ö²¼[¹«Ê½]¿´³ÉÈ·¶¨µÄδ֪³£Êý£¬²¢¿ÉÒÔÀûÓÃEMËã·¨Çó½â³öÀ´£»
¶øLDA²ÉÓõÄÊDZ´Ò¶Ë¹Ñ§ÅɵÄ˼Ï룬ÈÏΪ´ý¹À¼ÆµÄ²ÎÊý£¨Ö÷Ìâ·Ö²¼ºÍ´Ê·Ö²¼£©²»ÔÙÊÇÒ»¸ö¹Ì¶¨µÄ³£Êý£¬¶øÊÇ·þ´ÓÒ»¶¨·Ö²¼µÄËæ»ú±äÁ¿¡£Õâ¸ö·Ö²¼·ûºÏÒ»¶¨µÄÏÈÑé¸ÅÂÊ·Ö²¼£¨¼´µÒÀû¿ËÀ×·Ö²¼£©£¬²¢ÇÒÔڹ۲쵽Ñù±¾ÐÅÏ¢Ö®ºó£¬¿ÉÒÔ¶ÔÏÈÑé·Ö²¼½øÐÐÐÞÕý£¬´Ó¶øµÃµ½ºóÑé·Ö²¼¡£LDAÖ®ËùÒÔÑ¡ÔñµÒÀû¿ËÀ×·Ö²¼×÷ΪÏÈÑé·Ö²¼£¬ÊÇÒòΪËüΪ¶àÏîʽ·Ö²¼µÄ¹²éîÏÈÑé¸ÅÂÊ·Ö²¼£¬ºóÑé¸ÅÂÊÒÀÈ»·þ´ÓµÒÀû¿ËÀ×·Ö²¼£¬ÕâÑù×ö¿ÉÒÔΪ¼ÆËã´øÀ´±ãÀû¡£¡ª¡ª¡¶°ÙÃæ»úÆ÷ѧϰ¡·

LDA¸ÅÂÊͼģÐÍ
ÔÚLDA¸ÅÂÊͼģÐÍÖУ¬¦Á£¬¦Â·Ö±ðΪÁ½¸öµÒÀû¿ËÀ×·Ö²¼µÄ³¬²ÎÊý£¬ÎªÈ˹¤É趨¡£
²¹³ä£ºpLSAËäÈ»¿ÉÒÔ´Ó¸ÅÂʵĽǶȽâÊÍÁËÖ÷ÌâÄ£ÐÍ£¬È´¶¼Ö»ÄܶÔѵÁ·Ñù±¾ÖеÄÎı¾½øÐÐÖ÷Ìâʶ±ð£¬¶ø¶Ô²»ÔÚÑù±¾ÖеÄÎı¾ÊÇÎÞ·¨Ê¶±ðÆäÖ÷ÌâµÄ¡£¸ù±¾ÔÒòÔÚÓÚNMFÓëpLSAÕâÀàÖ÷ÌâÄ£ÐÍ·½·¨Ã»Óп¼ÂÇÖ÷Ìâ¸ÅÂÊ·Ö²¼µÄÏÈÑé֪ʶ£¬±ÈÈçÎı¾ÖгöÏÖÌåÓýÖ÷ÌâµÄ¸ÅÂʿ϶¨±ÈÕÜѧÖ÷ÌâµÄ¸ÅÂÊÒª¸ß£¬ÕâµãÀ´Ô´ÓÚÎÒÃǵÄÏÈÑé֪ʶ£¬µ«ÊÇÎÞ·¨¸æËßNMFÖ÷ÌâÄ£ÐÍ¡£¶øLDAÖ÷ÌâÄ£ÐÍÔò¿¼Âǵ½ÁËÕâÒ»ÎÊÌ⣬ĿǰÀ´Ëµ£¬¾ø´ó¶àÊýµÄÎı¾Ö÷ÌâÄ£ÐͶ¼ÊÇʹÓÃLDAÒÔ¼°Æä±äÌå¡£
2¡¢LDAµÄÊýѧ»ù´¡
2.1 ¸ÅÂÊ»ù´¡
£¨1£©¶þÏî·Ö²¼Óë¶àÏî·Ö²¼
¶þÏî·Ö²¼£º
¶àÏî·Ö²¼£º
£¨2£©Gammaº¯Êý

Gammaº¯ÊýÈçÓÐÕâÑùµÄÐÔÖÊ£º
Gammaº¯Êý¿ÉÒÔ¿´³ÉÊǽ׳ËÔÚʵÊý¼¯ÉϵÄÑÓÍØ£º
£¨3£©Beta·Ö²¼ºÍDirichlet·Ö²¼
Beta·Ö²¼µÄ¸ÅÂÊÃܶȺ¯ÊýΪ£º

Dirichlet·Ö²¼µÄ¸ÅÂÊÃܶȺ¯ÊýΪ£º

Õâ˵Ã÷£¬¶ÔÓÚBeta·Ö²¼µÄËæ»ú±äÁ¿£¬Æä¾ùÖµ¿ÉÒÔÓà [¹«Ê½] À´¹À¼Æ¡£
Dirichlet·Ö²¼Ò²ÓÐÀàËÆµÄ½áÂÛ£¬Èç¹û [¹«Ê½] , ͬÑù¿ÉÒÔÖ¤Ã÷£º

£¨4£©¹²éîÏÈÑé·Ö²¼
ÔÚ±´Ò¶Ë¹¸ÅÂÊÀíÂÛÖУ¬Èç¹ûºóÑé¸ÅÂÊ [¹«Ê½] ºÍÏÈÑé¸ÅÂÊ [¹«Ê½] Âú×ãͬÑùµÄ·Ö²¼ÂÉ£¬ÄÇô£¬ÏÈÑé·Ö²¼ºÍºóÑé·Ö²¼±»½Ð×ö¹²éî·Ö²¼£¬Í¬Ê±£¬ÏÈÑé·Ö²¼½Ð×öËÆÈ»º¯ÊýµÄ¹²éîÏÈÑé·Ö²¼¡£Beta·Ö²¼ÊǶþÏîʽ·Ö²¼µÄ¹²éîÏÈÑé·Ö²¼£¬¶øµÒÀû¿ËÀ×(Dirichlet)·Ö²¼ÊǶàÏîʽ·Ö²¼µÄ¹²éîÏÈÑé·Ö²¼¡£
2.2 MCMC¼°Gibbs Sampling
£¨1£©MCMC¼ò½é
MCMC²ÉÑù·¨Ö÷Òª°üÀ¨Á½¸öMC£¬¼´ÃÉÌØ¿¨Âå·¨£¨Monte Carlo£©ºÍÂí¶û¿É·òÁ´£¨Markov
Chain£©¡£ÃÉÌØ¿¨Âå·¨ÊÇÖ¸»ùÓÚ²ÉÑùµÄÊýÖµÐͽüËÆÇó½â·½·¨£¬¶øÂí¶û¿É·òÁ´ÔòÓÃÓÚ½øÐвÉÑù¡£MCMC²ÉÑù·¨»ù±¾Ë¼ÏëÊÇ£ºÕë¶Ô´ý²ÉÑùµÄÄ¿±ê·Ö²¼£¬¹¹ÔìÒ»¸öÂí¶û¿É·òÁ´£¬Ê¹µÃ¸ÃÂí¶û¿É·òÁ´µÄƽÎÈ·Ö²¼¾ÍÊÇÄ¿±ê·Ö²¼£»È»ºó£¬´ÓÈκÎÒ»¸ö³õʼ״̬³ö·¢£¬ÑØ×ÅÂí¶û¿É·òÁ´½øÐÐ×´Ì¬×ªÒÆ£¬×îÖյõ½µÄ×´Ì¬×ªÒÆÐòÁлáÊÕÁ²µ½Ä¿±ê·Ö²¼£¬ÓÉ´Ë¿ÉÒԵõ½Ä¿±ê·Ö²¼µÄһϵÁÐÑù±¾¡£ÔÚʵ¼Ê²Ù×÷ÖУ¬ºËÐĵãÊÇÈçºÎ¹¹ÔìºÏÊʵÄÂí¶û¿É·òÁ´£¬¼´È·¶¨Âí¶û¿É·òÁ´µÄ×´Ì¬×ªÒÆ¸ÅÂÊ£¬ÕâÉæ¼°Ò»Ð©Âí¶û¿É·òÁ´µÄÏà¹ØÖªÊ¶µã£¬ÈçʱÆëÐÔ¡¢Ï¸ÖÂÆ½ºâÌõ¼þ¡¢¿É±éÀúÐÔ¡¢Æ½ÎÈ·Ö²¼µÈ¡£¡ª¡ª¡¶°ÙÃæ»úÆ÷ѧϰ¡·
ÔÚÏÖʵӦÓÃÖУ¬ÎÒÃǺܶàʱºòºÜÄѾ«È·Çó³ö¾«È·µÄ¸ÅÂÊ·Ö²¼£¬³£³£²ÉÓýüËÆÍÆ¶Ï·½·¨¡£½üËÆÍÆ¶Ï·½·¨´óÖ¿ɷÖΪÁ½´óÀࣺµÚÒ»ÀàÊDzÉÑù(Sampling),
ͨ¹ýʹÓÃËæ»ú»¯·½·¨Íê³É½üËÆ£»µÚ¶þÀàÊÇʹÓÃÈ·¶¨ÐÔ½üËÆÍê³É½üËÆÍÆ¶Ï£¬µäÐÍ´ú±íΪ±ä·ÖÍÆ¶Ï(variational
inference)¡£ÔںܶàÈÎÎñÖУ¬ÎÒÃǹØÐÄijЩ¸ÅÂÊ·Ö²¼²¢·ÇÒòΪ¶ÔÕâЩ¸ÅÂÊ·Ö²¼±¾Éí¸ÐÐËȤ£¬¶øÊÇÒª»ùÓÚËûÃǼÆËãijЩÆÚÍû£¬²¢ÇÒ»¹¿ÉÄܽøÒ»²½»ùÓÚÕâЩÆÚÍû×ö³ö¾ö²ß¡£²ÉÑù·¨Õýʽ»ùÓÚÕâ¸ö˼·¡£
ÃÉÌØ¿¨Âå·¨£¨Monte Carlo£©ÊÇÖ¸»ùÓÚ²ÉÑùµÄÊýÖµÐͽüËÆÇó½â·½·¨£¬¾ßÌåÀ´Ëµ£¬¼Ù¶¨ÎÒÃǵÄÄ¿±êÊǼÆË㺯Êýf(x)ÔÚ¸ÅÂÊÃܶȺ¯Êýp(x)ÏÂµÄÆÚÍû£º

¸ù¾Ý ½øÐÐÑù±¾²ÉÑù £¬×îÖտɼÆËãf(x)ÔÚÕâЩÑù±¾ÉϵľùÖµ£º

Èô¸ÅÂÊÃܶȺ¯Êý ºÜ¸´ÔÓ£¬Ôò¹¹Ôì·þ´Óp·Ö²¼µÄ¶ÀÁ¢Í¬·Ö²¼Ñù±¾Ò²ºÜÀ§ÄÑ¡£MCMC·½·¨µÄ¹Ø¼üÔÚÓÚͨ¹ý¹¹Ô조ƽÎÈ·Ö²¼Îª
µÄÂí¶û¿É·òÁ´¡±À´²úÉúÑù±¾£ºÈôÂí¶û¿Æ·òÁ´ÔËÐÐʱ¼ä×ã¹»³¤£¬¼´ÊÕÁ²µ½Æ½ÎÈ״̬£¬Ôò´Ëʱ²ú³öµÄÑù±¾X½üËÆ·þ´Ó·Ö²¼p¡£Ï¸ÖÂÆ½ºâÌõ¼þΪ£º

£¨2£©Metropolis-HastingsËã·¨²ÉÑù¹ý³Ì:
¶ÔÓÚÄ¿±ê·Ö²¼ £¬Ê×ÏÈÑ¡ÔñÒ»¸öÈÝÒײÉÑùµÄ²Î¿¼Ìõ¼þ·Ö²¼ £¬²¢Áî

È»ºó¸ù¾ÝÈçϹý³Ì½øÐвÉÑù£º
1£©Ëæ»úѡһ¸ö³õʼÑù±¾ ;
2£©For t = 1, 2, 3, ¡ :
¸ù¾Ý²Î¿¼Ìõ¼þ·Ö²¼ ³éȡһ¸öÑù±¾ £»
¸ù¾Ý¾ùÔÈ·Ö²¼U(0,1)²úÉúËæ»úÊý £»

£¨3£©Gibbs SamplingËã·¨²ÉÑù¹ý³Ì:
¼ª²¼Ë¹²ÉÑù·¨ÊÇMetropolis-HastingsËã·¨ ʱµÄÒ»¸öÌØÀý£¬ÆäºËÐÄ˼ÏëÊÇÿ´ÎÖ»¶ÔÑù±¾µÄÒ»¸öά¶È½øÐвÉÑùºÍ¸üС£¶ÔÓÚÄ¿±ê·Ö²¼p(x)£¬°´ÈçϹý³Ì½øÐвÉÑù£º

3¡¢pLSAÖеIJÎÊý¹À¼Æ£º
EMÇó½â£¨1£©Í¨¹ý¼«´óËÆÈ»¹À¼Æ½¨Á¢Ä¿±êº¯Êý£º

£¨2£©EMÇó½â-E²½£º
È·¶¨ºóÑé¸ÅÂÊ£º

²¢´øÈëÐÂµÄÆÚÍûÄ¿±êº¯ÊýÖУº


£¨3£©EMÇó½â-M²½£º

4¡¢LDAÖеIJÎÊý¹À¼Æ£ºGibbs Sampling
±¾½ÚÖÐͨ¹ýGibbs Sampling¶Ô½øÐвÎÊý¹À¼Æ£¬ÐèÒªÌØ±ðÖ¸³öµÄÊÇ£¬Gibbs SamplingÆäʵ²»ÊÇÇó½âµÄ¹ý³Ì£¬¶øÊÇͨ¹ý²ÉÑùÈ¥ÇóºóÑé·Ö²¼µÄÆÚÍû£¬´Ó¶ø¹À¼Æ×îÖÕ²ÎÊý¡£
ͨ¹ýGibbs Sampling¶Ô½øÐвÎÊý¹À¼Æ·ÖΪ3¸ö²½Ö裺1£©È·¶¨ÁªºÏ·Ö²¼£»2£©Çó½âºóÑé¸ÅÂÊGibbs
updating rule£»3£©È·Á¢ºóÑé·Ö²¼²¢ÇóÆÚÍû¹À¼Æ²ÎÊý£»
£¨1£©È·¶¨ÁªºÏ·Ö²¼£º

£¨2£©¸ù¾Ý£¨1£©Çó³öµÄÁªºÏ·Ö²¼¿ÉÒÔÇó½âGibbs updating rule

£¨3£©È·Á¢ºóÑé·Ö²¼²¢ÇóÆÚÍû¹À¼Æ²ÎÊý£º
ÿ¸öÎĵµÉÏTopicµÄºóÑé·Ö²¼ºÍÿ¸öTopicϵĴʵĺóÑé·Ö²¼·Ö±ðÈçÏ£¨¾ÝÉÏÎÄ¿ÉÖª£ºÆäºóÑé·Ö²¼¸úËüÃǵÄÏÈÑé·Ö²¼Ò»Ñù£¬Ò²¶¼ÊÇDirichlet
·Ö²¼£©£º

¸ù¾ÝDirichlet ·Ö²¼²ÎÊý¹À¼Æ£º

5¡¢LDAµÄѵÁ·ºÍÔ¤²â¹ý³Ì£º
£¨1£©ÑµÁ·¹ý³Ì

£¨2£©Ô¤²â¹ý³Ì£ºLDAµÄ¸÷¸öÖ÷ÌâµÄ´Ê·Ö²¼ [¹«Ê½] ÒѾȷ¶¨:

6¡¢LDAÖ÷ÌâÊýĿѡÔñ¼°ÆÀ¹À±ê×¼
ÔÚLDAÖУ¬Ö÷ÌâµÄ¸öÊýKÊÇÒ»¸öÔ¤ÏÈÖ¸¶¨µÄ³¬²ÎÊý¡£¶ÔÓÚÄ£Ðͳ¬²ÎÊýµÄÑ¡Ôñ£¬Êµ¼ùÖеÄ×ö·¨Ò»°ãÊǽ«È«²¿Êý¾Ý¼¯·Ö³ÉѵÁ·¼¯¡¢ÑéÖ¤¼¯¡¢ºÍ²âÊÔ¼¯3²¿·Ö£¬È»ºóÀûÓÃÑéÖ¤¼¯¶Ô³¬²ÎÊý½øÐÐÑ¡Ôñ¡£ÀýÈ磬ÔÚÈ·¶¨LDAµÄÖ÷Ìâ¸öÊýʱ£¬ÎÒÃÇ¿ÉÒÔËæ»úѡȡ60%µÄÎĵµ×é³ÉѵÁ·¼¯£¬ÁíÍâ20%µÄÎĵµ×é³ÉÑéÖ¤¼¯£¬Ê£ÏÂ20%µÄÎĵµ×é³É²âÊÔ¼¯¡£ÔÚѵÁ·Ê±£¬³¢ÊÔ¶à×鳬²ÎÊýµÄȡֵ£¬²¢ÔÚÑéÖ¤¼¯ÉϼìÑéÄÄÒ»×鳬²ÎÊýËù¶ÔÓ¦µÄÄ£ÐÍÈ¡µÃÁË×îºÃµÄЧ¹û¡£×îÖÕ£¬ÔÚÑéÖ¤¼¯ÉÏЧ¹û×îºÃµÄÒ»×鳬²ÎÊýºÍÆä¶ÔÓ¦µÄÄ£Ðͽ«±»Ñ¡¶¨£¬²¢ÔÚ²âÊÔ¼¯ÉϽøÐвâÊÔ¡£
ΪÁ˺âÁ¿LDAÄ£ÐÍÔÚÑéÖ¤¼¯ºÍ²âÊÔ¼¯ÉϵÄЧ¹û£¬ÐèҪѰÕÒÒ»¸öºÏÊÊµÄÆÀ¹ÀÖ¸±ê¡£Ò»¸ö³£ÓÃµÄÆÀ¹ÀÖ¸±êÊÇÀ§»ó¶È£¨perplexity£©¡£ÔÚÎĵµ¼¯ºÏDÉÏ£¬Ä£Ð͵ÄÀ§»ó¶È±»¶¨ÒåΪ£º

ÆäÖÐMΪÎĵµµÄ×ÜÊý£¬ [¹«Ê½] ΪÎĵµdÖе¥´ÊËù×é³ÉµÄ´Ê´üÏòÁ¿£¬p([¹«Ê½])ΪģÐÍËùÔ¤²âµÄÎĵµdµÄÉú³É¸ÅÂÊ£¬
[¹«Ê½] ΪÎĵµdÖе¥´ÊµÄ×ÜÊý¡£
|