Äú¿ÉÒÔ¾èÖú£¬Ö§³ÖÎÒÃǵĹ«ÒæÊÂÒµ¡£

1Ôª 10Ôª 50Ôª





ÈÏÖ¤Â룺  ÑéÖ¤Âë,¿´²»Çå³þ?Çëµã»÷Ë¢ÐÂÑéÖ¤Âë ±ØÌî



  ÇóÖª ÎÄÕ ÎÄ¿â Lib ÊÓÆµ iPerson ¿Î³Ì ÈÏÖ¤ ×Éѯ ¹¤¾ß ½²×ù Model Center   Code  
»áÔ±   
   
 
     
   
 ¶©ÔÄ
  ¾èÖú
»úÆ÷ѧϰÏîÄ¿ÖеÄÊý¾ÝÔ¤´¦ÀíÓëÊý¾ÝÕûÀíÖ®±È½Ï
 
×÷ÕߣºKai Wahner À´Ô´£º ÍøÂç ·¢²¼ÓÚ£º 2017-5-25
  2641  次浏览      30
 

񻵋

ÔÚ³£¼ûµÄ»úÆ÷ѧϰ/Éî¶ÈѧϰÏîÄ¿ÀÊý¾Ý×¼±¸Õ¼È¥Õû¸ö·ÖÎö¹ÜµÀµÄ60£¥µ½80£¥¡£

Êг¡ÉÏÓи÷ÖÖÓÃÓÚÊý¾ÝÇåÏ´ºÍÌØÕ÷¹¤³ÌµÄ±à³ÌÓïÑÔ¡¢¿ò¼ÜºÍ¹¤¾ß¡£ËüÃÇÖ®¼äµÄ¹¦ÄÜÓÐÖØµþ£¬Ò²¸÷ÓÐȨºâ¡£

Êý¾ÝÕûÀíÊÇÊý¾ÝÔ¤´¦ÀíµÄÖØÒªÀ©Õ¹¡£Ëü×îÊʺÏÔÚ¿ÉÊÓ»¯·ÖÎö¹¤¾ßÖÐʹÓã¬ÕâÄܹ»±ÜÃâ·ÖÎöÁ÷³Ì±»´ò¶Ï¡£

¿ÉÊÓ»¯·ÖÎö¹¤¾ßÓ뿪ԴÊý¾Ý¿ÆÑ§×é¼þÖ®¼ä£¬ÈçR¡¢Python¡¢KNIME¡¢RapidMiner»¥Îª²¹³ä¡£

±ÜÃâ¹ý¶àµØÊ¹ÓÃ×é¼þÄܹ»¼ÓËÙÊý¾Ý¿ÆÑ§ÏîÄ¿¡£Òò´Ë£¬ÔÚÊý¾Ý×¼±¸²½ÖèÖÐÀûÓÃÁ÷ʽ»ñÈ¡¿ò¼Ü»òÁ÷ʽ·ÖÎö²úÆ·»áÊÇÒ»¸ö²»´íµÄÑ¡Ôñ¡£

»úÆ÷ѧϰºÍÉî¶ÈѧϰÏîÄ¿ÔÚ´ó¶àÊýÆóÒµÖбäµÃÔ½À´Ô½ÖØÒª¡£Ò»¸öÍêÕûµÄÏîÄ¿Á÷³Ì°üÀ¨Êý¾Ý×¼±¸£¨data preparation£©¡¢¹¹½¨·ÖÎöÄ£ÐÍÒÔ¼°²¿ÊðÖÁÉú²ú»·¾³¡£¸ÃÁ÷³ÌÊÇÒ»¸ö¶´²ì-Ðж¯-Ñ­»·£¨insights-action-loop£©£¬´ËÑ­»·Äܲ»¶ÏµØ¸Ä½ø·ÖÎöÄ£ÐÍ¡£Forrester°ÑÕâ¸öÍêÕûµÄÁ÷³ÌºÍÆä±³ºóµÄƽ̨³ÆÎª¶´²ìƽ̨£¨Insights Platform£©¡£

µ±Äã´òËãʹÓûúÆ÷ѧϰ»òÉî¶Èѧϰ¼¼ÊõÀ´¹¹½¨·ÖÎöÄ£ÐÍʱ£¬Ò»¸öÖØÒªµÄÈÎÎñÊǼ¯³É²¢Í¨¹ý¸÷ÖÖÊý¾ÝÔ´À´×¼±¸Êý¾Ý¼¯£¬ÕâЩÊý¾ÝÔ´°üÀ¨±ÈÈçÎļþ¡¢Êý¾Ý¿â¡¢´óÊý¾Ý´æ´¢¡¢´«¸ÐÆ÷»òÉç½»ÍøÂçµÈµÈ¡£´Ë²½Öè¿ÉÕ¼Õû¸ö·ÖÎöÏîÄ¿µÄ80£¥¡£

±¾ÎıȽÏÁËÓÃÓÚÊý¾Ý×¼±¸µÄ¼¸ÖÖ·½·¨£¬ËüÃÇ·Ö±ðÊÇÌáÈ¡-±ä»»-¼ÓÔØ£¨extract-transform-load£¬ETL£©Åú´¦Àí¡¢Á÷ʽ»ñÈ¡£¨streaming ingestion£©ºÍÊý¾ÝÕûÀí£¨data wrangling£©¡£Í¬Ê±½èÖúÓÚÏȽøµÄ·ÖÎö¼¼ÊõºÍ¿ªÔ´¿ò¼Ü£¨ÈçR¡¢Apache Spark¡¢KNIME¡¢RapidMiner£©£¬ÌÖÂÛÁ˸÷ÖÖ²»Í¬µÄÑ¡Ôñ¼°ÆäÕÛÖС£±¾ÎÄ»¹ÌÖÂÛÁËÊý¾Ý×¼±¸ÈçºÎÓë¿ÉÊÓ»¯·ÖÎöÏà¹ØÁª£¬ÒÔ¼°²»Í¬Óû§½ÇÉ«£¨ÈçÊý¾Ý¿ÆÑ§¼Ò»òÒµÎñ·ÖÎöÈËÔ±£©Ó¦ÈçºÎ¹²Í¬¹¹½¨·ÖÎöÄ£Ð͵Ä×î¼Ñʵ¼ù¡£

Êý¾Ý×¼±¸=Êý¾ÝÇåÏ´£¨Data Cleansing£©+ÌØÕ÷¹¤³Ì£¨Feature Engineering£©

Êý¾Ý×¼±¸ÊÇÊý¾Ý¿ÆÑ§µÄºËÐÄ¡£Ëü°üÀ¨Êý¾ÝÇåÏ´ºÍÌØÕ÷¹¤³Ì¡£ÁíÍâÁìÓò֪ʶ£¨domain knowledge£©Ò²·Ç³£ÖØÒª£¬ËüÓÐÖúÓÚ»ñµÃºÃµÄ½á¹û¡£Êý¾Ý×¼±¸²»ÄÜÍêÈ«×Ô¶¯»¯£¬ÖÁÉÙÔÚ³õʼ½×¶Î²»ÄÜ¡£Í¨³££¬Êý¾Ý×¼±¸Õ¼È¥Õû¸ö·ÖÎö¹ÜµÀ£¨Á÷³Ì£©µÄ60£¥µ½80£¥¡£µ«ÊÇ£¬ÎªÁËʹ»úÆ÷ѧϰËã·¨ÔÚÊý¾Ý¼¯ÉÏ»ñµÃ×îÓŵľ«È·ÐÔ£¬Êý¾Ý×¼±¸±Ø²»¿ÉÉÙ¡£

Êý¾ÝÇåÏ´¿ÉʹÊý¾Ý»ñµÃÓÃÓÚ·ÖÎöµÄÕýÈ·ÐÎ×´£¨shape£©ºÍÖÊÁ¿£¨quality£©¡£Ëü°üÀ¨ÁËÐí¶à²»Í¬µÄ¹¦ÄÜ£¬ÀýÈ磺

»ù±¾¹¦ÄÜ£¨Ñ¡Ôñ¡¢¹ýÂË¡¢È¥ÖØ¡¢...£©

²ÉÑù£¨Æ½ºâ£¨balanced£©¡¢·Ö²ã£¨stratified£©¡¢...£©

Êý¾Ý·ÖÅ䣨´´½¨ÑµÁ·+ÑéÖ¤+²âÊÔÊý¾Ý¼¯¡¢...£©

±ä»»£¨¹éÒ»»¯¡¢±ê×¼»¯¡¢Ëõ·Å¡¢pivoting¡¢...£©

·ÖÏ䣨Binning£©£¨»ùÓÚ¼ÆÊý¡¢½«È±Ê§Öµ×÷ΪÆä×Ô¼ºµÄ×é´¦Àí¡¢...£©

Êý¾ÝÌæ»»£¨¼ôÇУ¨cutting£©¡¢·Ö¸î£¨splitting£©¡¢ºÏ²¢¡¢...£©£©

¼ÓȨÓëÑ¡Ôñ£¨ÊôÐÔ¼ÓȨ¡¢×Ô¶¯ÓÅ»¯¡¢...£©

ÊôÐÔÉú³É£¨IDÉú³É¡¢...£©

Êý¾ÝÌî²¹£¨imputation£©£¨Ê¹ÓÃͳ¼ÆËã·¨Ìæ»»È±Ê§µÄ¹Û²ìÖµ£©

ÌØÕ÷¹¤³Ì»áΪ·ÖÎöѡȡÕýÈ·µÄÊôÐÔ¡£ÎÒÃÇÐèÒª½èÖúÊý¾ÝµÄÁìÓò֪ʶÀ´Ñ¡È¡»ò´´½¨ÊôÐÔ£¬ÕâЩÊôÐÔÄÜʹ»úÆ÷ѧϰËã·¨ÕýÈ·µØ¹¤×÷¡£ÌØÕ÷¹¤³Ì¹ý³Ì°üÀ¨£º

Í·ÄԷ籩»òÌØÕ÷²âÊÔ

ÌØÕ÷Ñ¡Ôñ

ÑéÖ¤ÕâÐ©ÌØÕ÷ÈçºÎÓëÄ£ÐÍÅäºÏʹÓÃ

Èç¹ûÐèÒª£¬¸Ä½øÌØÕ÷

»Øµ½Í·ÄԷ籩/´´½¨¸ü¶àµÄÌØÕ÷£¬Ö±µ½¹¤×÷Íê³É

Çë×¢Òâ£¬ÌØÕ÷¹¤³ÌÒÑÊǽ¨Ä££¨¹¹½¨·ÖÎöÄ£ÐÍ£©²½ÖèÀïµÄÒ»²¿·Ö£¬µ«ËüÒ²ÀûÓÃÊý¾Ý×¼±¸ÕâÒ»¹¦ÄÜ£¨ÀýÈçÌáÈ¡×Ö·û´®µÄijЩ²¿·Ö£©¡£

Êý¾ÝÇåÏ´ºÍÌØÕ÷¹¤³ÌÊÇÊý¾Ý×¼±¸µÄÒ»²¿·Ö£¬Ò²ÊÇ»úÆ÷ѧϰºÍÉî¶ÈѧϰӦÓõĻù´¡¡£Õâ¶þÕß²¢²»ÊÇÄÇôÈÝÒ×£¬¶¼ÐèÒª»¨·Ñ¹¦·ò¡£

Êý¾Ý×¼±¸»á³öÏÖÔÚ·ÖÎöÏîÄ¿µÄ²»Í¬½×¶Î£º

Êý¾ÝÔ¤´¦Àí£º´ÓÊý¾ÝÔ´»ñÈ¡Êý¾ÝÖ®ºóÖ±½Ó´¦ÀíÊý¾Ý¡£Í¨³£ÓÉ¿ª·¢ÈËÔ±»òÊý¾Ý¿ÆÑ§¼ÒʵÏÖ£¬Ëü°üÀ¨³õʼת»»¡¢¾ÛºÏ£¨aggregation£©ºÍÊý¾ÝÇåÏ´¡£´Ë²½ÖèÔÚÊý¾ÝµÄ½»»¥Ê½·ÖÎö¿ªÊ¼Ö®Ç°Íê³É¡£ËüÖ»Ö´ÐÐÒ»´Î¡£

Êý¾ÝÕûÀí£ºÔÚ½»»¥Ê½Êý¾Ý·ÖÎöºÍ½¨Ä£ÆÚ¼ä×¼±¸Êý¾Ý¡£Í¨³£ÓÉÊý¾Ý¿ÆÑ§¼Ò»òÒµÎñ·ÖÎöʦÍê³É£¬ÒÔ±ã¸ü¸ÄÊý¾Ý¼¯ºÍÌØÕ÷¹¤³ÌµÄÊÓͼ¡£´Ë²½Öè»áµü´ú¸ü¸ÄÊý¾Ý¼¯µÄÐÎ×´£¬Ö±µ½ËüÄܺܺõزéÕÒ¶´²ì»ò¹¹½¨Á¼ºÃµÄ·ÖÎöÄ£ÐÍ¡£

²»¿É»òȱµÄÊý¾ÝÔ¤´¦ÀíºÍÊý¾ÝÕûÀí

ÈÃÎÒÃÇ¿´Ò»¿´µäÐ͵ÄÓÃÓÚÄ£Ð͹¹½¨µÄ·ÖÎöÁ÷³Ì£º

Êý¾Ý·ÃÎÊ

Êý¾ÝÔ¤´¦Àí

̽Ë÷ÐÔÊý¾Ý·ÖÎö£¨Exploratory Data Analysis£©£¨EDA£©

Ä£Ð͹¹½¨

Ä£ÐÍÑéÖ¤

Ä£ÐÍÖ´ÐÐ

²¿Êð

²½Öè2µÄÖØµãÊÇÔÚ¹¹½¨·ÖÎöÄ£ÐÍ֮ǰ½øÐеÄÊý¾ÝÔ¤´¦Àí£¬¶øÊý¾ÝÕûÀíÔòÓÃÓÚ²½Öè3ºÍ²½Öè4£¨ÔÚ·ÖÎöÊý¾ÝºÍ¹¹½¨Ä£ÐÍʱ£¬Êý¾ÝÕûÀíÔÊÐí½»»¥Ê½µ÷ÕûÊý¾Ý¼¯£©¡£×¢Ò⣬ÕâÈý¸ö²½Ö裨2¡¢3¡¢4£©¶¼¿ÉÒÔ°üÀ¨Êý¾ÝÇåÏ´ºÍÌØÕ÷¹¤³Ì¡£

ÒÔϽØÍ¼ÊÇ¡°Êý¾Ý×¼±¸¡±¡¢¡°Êý¾ÝÔ¤´¦Àí¡±ºÍ¡°Êý¾ÝÕûÀí¡±Õ⼸¸öÊõÓïµÄGoogleËÑË÷Ç÷ÊÆ¡£¿ÉÒÔ¿´³ö£¬Êý¾ÝÕûÀíÊܵ½ÁËÔ½À´Ô½¶àµÄ¹Ø×¢£º

ͼ1£º¡°Êý¾Ý×¼±¸¡±¡¢¡°Êý¾ÝÔ¤´¦Àí¡±ºÍ¡°Êý¾ÝÕûÀí¡±µÄGoogleËÑË÷Ç÷ÊÆ

¡°inlineÊý¾ÝÕûÀí¡±£¨inline data wrangling£©ÊÇ¡°Êý¾ÝÕûÀí¡±µÄÒ»ÖÖÌØÊâÐÎʽ¡£ÔÚinlineÊý¾ÝÕûÀíÀÄã¿ÉÒÔÀûÓÿÉÊÓ»¯·ÖÎö¹¤¾ß¡£ÕâЩ¹¤¾ß²»½öÄÜÓÃÓÚ¿ÉÊÓ»¯ºÍÄ£Ð͹¹½¨£¬¶øÇÒ»¹ÄÜÓÃÓÚÖ±½Ó½»»¥Ê½ÕûÀí¡£inlineÊý¾ÝÕûÀíÓо޴óµÄÓÅÊÆ£¬ÈçÏÂͼËùʾ£º

ͼ2£º½âñîÊý¾ÝÔ¤´¦Àí£¨decoupled data preprocessing£©ÓëinlineÊý¾ÝÕûÀíµÄ±È½Ï

·ÖÎö¹ÜµÀÖеÄÊý¾ÝÔ¤´¦ÀíºÍÊý¾ÝÕûÀí²½Öèͨ³£Óɲ»Í¬ÀàÐ͵ÄÓû§Íê³É¡£ÒÔÏÂÊDzÎÓë·ÖÎöÏîÄ¿µÄ¸÷ÖÖÓû§½ÇÉ«£º

ÒµÎñ·ÖÎöʦ£º¾ßÓÐÌØ¶¨ÁìÓò֪ʶµÄÉÌÒµ/ÐÐҵר¼Ò

Êý¾Ý¿ÆÑ§¼Ò£ºÊýѧ¡¢Í³¼ÆÓë±à³Ì£¨Êý¾Ý¿ÆÑ§/½Å±¾±àд£©×¨¼Ò£»Äܹ»±àдµ×²ã´úÂë»òʹÓøüÉϲãµÄ¹¤¾ß

ƽÃñÊý¾Ý¿ÆÑ§¼Ò£¨Citizen Data Scientist£©£ºÀàËÆÓÚÊý¾Ý¿ÆÑ§¼Ò£¬µ«´¦ÓÚ¸üÉϲ㣻ÐèҪʹÓøüÉϲãµÄ¹¤¾ß¶ø·Ç±àд´úÂ룻ȡ¾öÓÚ¹¤¾ßµÄÒ×ÓÃÐÔ£¬Ïà¹Ø¹¤×÷ÉõÖÁ¿ÉÒÔÓÉÒµÎñ·ÖÎöʦÀ´Íê³É

¿ª·¢ÕߣºÈí¼þ¿ª·¢×¨¼Ò£¨ÆóÒµÓ¦ÓóÌÐò£©

ÕâЩÓû§±ØÐëÃÜÇкÏ×÷£¬ÒÔ±ãÔÚÊý¾Ý¿ÆÑ§ÏîÄ¿ÖÐÈ¡µÃ³É¹¦£¨Áí¼û¡°ÈçºÎ±ÜÃâ·ÖÎöÖеķ´Ä£Ê½£º»úÆ÷ѧϰµÄÈý¸öÒªµã¡±£¬ÕâÆªÎÄÕÂÄܰïÄã¸üºÃµØÁ˽âÕâЩÓû§½ÇÉ«£©¡£

ËäÈ»±¾ÎÄÖØµãÊǽéÉÜÊý¾Ý×¼±¸£¬µ«Ò»Í¼Ê¤Ç§ÑÔ£¬²¢ÇÒÈËÀàÖ»ÄܽâÊÍÖ±¹Û¿É¼ûµÄ¶«Î÷¶ø·ÇÄÇЩ¸´Ôӵķǽṹ»¯Êý¾Ý¼¯£¬Òò´ËÁ˽âÊý¾Ý×¼±¸Óë¿ÉÊÓ»¯·ÖÎöµÄ¹ØÏµÒ²·Ç³£ÖØÒª¡£Óйظü¶àϸ½Ú£¬Çë²ÎÔÄÎÄÕÂΪʲôӦ¸ÃʹÓÿÉÊÓ»¯·ÖÎöÀ´×ö³ö¸üºÃµÄ¾ö²ß¡£Ä¿Ç°Ö÷ÒªµÄ¿ÉÊÓ»¯·ÖÎö¹¤¾ßÓÐQlik¡¢TableauºÍTIBCO Spotfire¡£

ÄÇô¿ÉÊÓ»¯·ÖÎöÊÇÈçºÎÓëÊý¾ÝÕûÀíÏà¹ØÁªµÄÄØ£¿RITOÑо¿¹«Ë¾µÄÊ×ϯ·ÖÎöʦ˵£¬¡°È÷ÖÎöʦͣÏÂËûÃÇÊÖÀïÕýÔÚ½øÐеŤ×÷£¬¶øÈ¥Çл»µ½ÁíÒ»¸ö¹¤¾ßÊÇÁîÈË·¢¿ñµÄ¡£ÕâÆÆ»µÁËËûÃǵŤ×÷Á÷³Ì¡£ ËûÃDz»µÃ²»·µ»ØÖØÊ°Ë¼Â·£¬ÖØÐ¿ªÊ¼¡£ÕâÑÏÖØÓ°ÏìÁËËûÃǵÄÉú²úÁ¦ºÍ´´ÔìÁ¦¡±¡£

KaggleµÄTitanicÊý¾Ý¼¯

ÒÔÏÂÕ½ڸø³öÁËÊý¾Ý×¼±¸µÄ¼¸ÖÖ±¸Ñ¡·½°¸¡£ÎÒÃǽ«Ó÷dz£ÖøÃûµÄTitanicÊý¾Ý¼¯£¨À´×ÔÓÚKaggle£©À´ÑÝʾһЩʵÓõÄÀý×Ó¡£TitanicÊý¾Ý¼¯±»·ÖΪѵÁ·¼¯ºÍ²âÊÔ¼¯£¬Ëü½«ÓÃÓÚ¹¹½¨·ÖÎöÄ£ÐÍ£¬ÕâЩģÐÍÓÃÀ´Ô¤²âÄĸö³Ë¿Í¿ÉÄÜ»á´æ»î»òËÀÍö£º

ͼ3£ºKaggle TitanicÊý¾Ý¼¯µÄÔªÊý¾Ý

ͼ4£ºKaggle TitanicÊý¾Ý¼¯µÄÊý¾ÝÐÐʾÀý

ԭʼÊý¾Ý¼¯²»ÄÜÖ±½ÓÓÃÓÚ¹¹½¨·ÖÎöÄ£ÐÍ¡£Ëüº¬ÓÐÖØ¸´¡¢È±Ê§ÖµÒÔ¼°°üº¬¸÷ÖÖ²»Í¬ÐÅÏ¢µÄµ¥Ôª¸ñ¡£Òò´Ë£¬ÔÚÓ¦ÓûúÆ÷ѧϰË㷨ʱ£¬ÐèÒªÏȽ«Ô­Ê¼Êý¾Ý¼¯´¦ÀíºÃ£¬ÒÔ±ã»ñµÃ×î¼Ñ½á¹û¡£ÒÔÏÂÊÇһЩÊý¾ÝÇåÏ´ºÍÌØÕ÷¹¤³ÌµÄÀý×Ó£º

ͨ¹ýÌØÕ÷ÌáÈ¡£¨feature extraction£©´´½¨ÐÂÁУº»ñȡÿλ³Ë¿ÍµÄÐÕÃûǰ׺£¬´Ó¶øÍƶϳöÆäÐÔ±ð£¬ÀýÈ磬ÏÈÉú¡¢·òÈË¡¢Ð¡½ã¡¢´óʦ

ͨ¹ý¾ÛºÏ´´½¨ÐÂÁУ¬ÒԲ鿴ÿλ³Ë¿ÍµÄÂÃÐÐÍÅÖÐÓжàÉÙÈË£º¡°¼ÒÍ¥´óС= 1 + SibSp + Parch¡±

ͨ¹ýÌáÈ¡µÚÒ»¸ö×Ö·ûÀ´´´½¨ÐÂÁУ¬ÒÔ±ãÅÅÐòºÍ·ÖÎö²ÕÊÒ£ºÌáÈ¡¡°²ÕÊÒ¡±ÁеĵÚÒ»¸ö×Ö·û

ɾ³ýÊý¾Ý¼¯ÖеÄÖØ¸´ÏÀýÈ磬³Ë¿Í¼ÈÔÚѵÁ·¼¯ÖÐÓÖÔÚ²âÊÔ¼¯ÖÐ

ͨ¹ýÌî²¹½«Êý¾ÝÌí¼Óµ½¿Õµ¥Ôª¸ñ£¬ÒÔ±ãÄܹ»´¦ÀíÊý¾ÝȱʧµÄÐУ¬ÀýÈ磬ÄêÁ䣺½«¡°²»¿ÉÓá±Ì滻ΪËùÓÐ³Ë¿ÍµÄÆ½¾ùÄêÁä»ò½«ÆäÀëÉ¢µ½¶ÔÓ¦µÄÏ䣨bin£©ÖУ»²ÕÊÒ£ºÓá°U¡±£¨Î´Öª£©Ìæ»»¿ÕÖµ£»»òÓ¦Óø߼¶Ìî²¹·½·¨£¬ÀýÈ磬ͨ¹ýÁ´Ê½·½³ÌµÄ¶àÖØÌî²¹£¨multiple imputation by chained equations£©£¨MICE£©

ÀûÓÃÊý¾Ý¿ÆÑ§¹¦ÄÜ£¬ÀýÈ磬Ëõ·Å¡¢¹éÒ»»¯¡¢Ö÷³É·Ö·ÖÎö£¨PCA£©»òBox-Cox£¬Ê¹ËùÓÐÊý¾Ý´¦ÓÚ¡°ÏàËÆÐÎ×´¡±£¬ÒÔ±ãÄܹ»½øÐкÏÀíµÄ·ÖÎö

ÒÔÏÂÕ½ڲûÊöÁ˸÷ÖÖ±à³ÌÓïÑÔ¡¢¿ò¼ÜºÍÊý¾Ý×¼±¸¹¤¾ß¡£Çë×¢Ò⣬ûÓÐÄÄÖÖ·½°¸ÊÊÓÃÓÚËùÓÐÎÊÌâ¡£´ËÍ⣬ÕâЩ·½°¸Ö®¼äÒ²ÓкܶàÖØµþ£¨overlapping£©¡£Òò´Ë£¬¸ù¾ÝÓû§½ÇÉ«ºÍÓÃÀý£¬Ðí¶àÎÊÌâ¿ÉÒÔʹÓò»Í¬µÄ·½°¸À´½â¾ö¡£

Êý¾Ý¿ÆÑ§µÄÊý¾ÝÔ¤´¦Àí

һЩ±à³ÌÓïÑÔÊÇרΪÊý¾Ý¿ÆÑ§ÏîÄ¿¶øÉè¼Æ£¬»òÕßÊǶÔËüÓзdz£ºÃµÄÖ§³Ö£¬ÌرðÊÇRºÍPython¡£ËüÃǰüº¬ÁË»úÆ÷ѧϰËã·¨µÄ¸÷ÖÖʵÏÖ£¬ÖîÈç¹ýÂË»òÌáÈ¡µÄÔ¤´¦Àí¹¦ÄÜ£¬ÒÔ¼°ÖîÈçËõ·Å¡¢¹éÒ»»¯»ò»ìÏ´£¨shuffle£©µÄÊý¾Ý¿ÆÑ§¹¦ÄÜ¡£Êý¾Ý¿ÆÑ§¼ÒÐèÒª±àдÏà¶Ôµ×²ãµÄ´úÂëÀ´½øÐÐ̽Ë÷ÐÔÊý¾Ý·ÖÎöÓë×¼±¸¡£ÓëʹÓÃJava»òC££µÄ´«Í³±à³ÌÏà·´£¬Ê¹ÓÃR»òPython½øÐÐÊý¾ÝÔ¤´¦Àíʱ£¬Äã²»ÐèÒª±àд̫¶àµÄ´úÂ룻Ëü¸ü¶àµØÊÇÈÃÄãÁ˽âͳ¼Æ¸ÅÄîÒÔ¼°Ëã·¨µÄÊý¾ÝºÍ¾­Ñ飬ÕâЩÊý¾ÝºÍ¾­Ñé¿ÉÓÃÓÚÊý¾ÝÔ¤´¦ÀíºÍÄ£Ð͹¹½¨¡£

ÕâЩ±à³ÌÓïÑÔÊÇΪÊý¾Ý¿ÆÑ§¼Ò×¼±¸Êý¾ÝºÍ¹¹½¨·ÖÎöÄ£ÐͶø½¨Á¢£¬ËüÃDz¢²»ÊÊÓÃÓÚÆóÒµ²¿Ê𣨽«·ÖÎöÄ£ÐͲ¿Êðµ½¾ßÓи߹æÄ£ºÍ¸ß¿É¿¿ÐÔµÄÐÂÊý¾ÝÖУ©¡£Òò´Ë£¬Êг¡ÉÏÌṩÁËÉÌÒµµÄenterprise runtime°ïÖúÄãʵÏÖÆóÒµ²¿Êð¡£Í¨³££¬ËüÃÇÖ§³ÖÏàͬµÄÔ´´úÂ룬Òò´ËÄã²»ÐèҪΪÆóÒµ²¿ÊðÖØÐ´Èκζ«Î÷¡£¶ÔÓÚR£¬Äã¿ÉÒÔʹÓÿªÔ´µÄMicrosoft R Open£¨Ö®Ç°µÄRevolution R£©£¬»òTIBCO Enterprise Runtime for R¡£ºóÕß¾ßÓв»ÊÜGPL¿ªÔ´Ðí¿ÉÖ¤ÏÞÖÆµÄÓÅÊÆ£¬Òò´ËÄã¿ÉÒÔʹÓÃÔÚÈκÎǶÈëʽ»òÍⲿ»·¾³Àï¡£

ÏÂÃæµÄ´úÂëժ¼ÓÚÒ»¸ö²»´íµÄR½Ì³Ì£¬ËüÑÝʾÁËÈçºÎʹÓûù±¾µÄRÓïÑÔÀ´Ô¤´¦ÀíºÍ·ÖÎöTitanicÊý¾Ý¼¯£º

### ʹÓûù±¾µÄRÓïÑÔ½øÐÐÊý¾ÝÔ¤´¦Àí£º

# ´æ»îÊÇ¡°ÊÇ/·ñ¡±
# =>ÀàÐÍת»»£ºÃ»ÓÐnumericÖµºÍ¶ÔÓ¦µÄÊý¾Ý´¦Àí/·ÖÎö
data.combined$Survived <- as.factor(data.combined$Survived)

# ´ÓÈ«³ÆÀï½âÎö³öÐÕºÍÍ·ÏÎ
data.combined[1:25, "Name"]
name.splits <- str_split(data.combined$Name, ",")
name.splits[1]
last.names <- sapply(name.splits, "[", 1)
last.names[1:10]

# ÌØÕ÷¹¤³Ì£º´´½¨¼ÒÍ¥´óÐ¡ÌØÕ÷
#£¨ÐֵܽãÃÃ/Åäż+¸¸Ä¸/º¢×Ó+1£©
temp.SibSp <- c(train$SibSp, test$SibSp)
temp.Parch <- c(train$Parch, test$Parch)
data.combined$FamilySize <- as.factor(temp.SibSp + temp.Parch + 1)

³ýÁ˶ÔÔ¤´¦ÀíµÄ»ù±¾Ö§³ÖÍ⣬ÕâЩ±à³ÌÓïÑÔ»¹ÌṩÁËÐí¶à¶îÍâµÄÊý¾Ý¿ÆÑ§Èí¼þ°ü¡£ÀýÈ磬Ðí¶àÊý¾Ý¿ÆÑ§¼ÒÀûÓÃRÖзdz£Ç¿´óµÄcaret°üÀ´¼ò»¯Êý¾Ý×¼±¸ºÍ¼õÉÙ´úÂëÁ¿¡£¸ÃÈí¼þ°ü¼ò»¯Á˸´ÔӻعéºÍ·ÖÀàÎÊÌâµÄÄ£ÐÍ×¼±¸ÓëѵÁ·¹ý³Ì¡£ËüΪÊý°Ù¸öÏÖÓеÄRÄ£ÐÍʵÏÖ£¨ÔڵײãʹÓÃÁ˸÷ÖÖ¸÷ÑùµÄAPI£©ÌṩÁËÒ»¸öͨÓýӿڡ£ÒÔÏ´úÂë¶ÎʹÓÃÁËcaretµÄͨÓÃAPI¶ÔTitanicÊý¾Ý¼¯½øÐÐÔ¤´¦Àí£º

### ʹÓÃR caret°ü½øÐÐÊý¾ÝÔ¤´¦Àí£º

# ÀûÓÃcaretµÄpreProcessº¯Êý¶ÔÊý¾Ý×ö¹éÒ»»¯
preproc.data.combined <- data.combined[, c("ticket.party.size", "avg.fare")]
preProc < - preProcess (preproc.data.combined, method = c("center", "scale"))

# ->Äã¿´µ½µÄÊÇÏà¶ÔÖµ¶ø·Ç¾ø¶ÔÖµ£¨¼´±Ë´ËÖ®¼äµÄ¹ØÏµ£©£º
postproc.data.combined <- predict(preProc, preproc.data.combined)

ÁíÒ»¸öÓÃÓÚÊý¾ÝÔ¤´¦ÀíµÄR°üÊÇdplyr°ü¡£Ëü²»Ïñcaret°üÄÇÑùÇ¿´ó£¬²¢ÇÒֻרעÓÚ²Ù×÷¡¢ÇåÏ´ºÍ»ã×Ü£¨summarize£©·Ç½á¹¹»¯Êý¾Ý¡£ DplyrÖ¼ÔÚΪÊý¾Ý²Ù×÷µÄÿ¸ö»ù±¾¶¯×÷¶¼Ìṩһ¸öº¯Êý£º

filter£¨£©£¨ºÍslice£¨£©£©
arrange£¨£©
select£¨£©£¨ºÍrename£¨£©£©
distinct£¨£©
mutate£¨)£¨ºÍtransmute£¨£©£©
summarise£¨£©
sample_n (ºÍsample_frac£¨£©£©

Òò´Ë£¬Ñ§Ï°ºÍÀí½âÐí¶àÊý¾Ý²Ù×÷ÈÎÎñ±äµÃÈÝÒס£¶ÔÓÚdata.table°üÒ²ÊÇÕâÑù¡£ÕýÈçÄãËù¼ûµÄ£¬ÔÚRÓïÑÔÀïÄãÓÐÐí¶à·½·¨À´Ô¤´¦ÀíÊý¾Ý¼¯¡£

Êý¾Ý¿ÆÑ§¼Ò»ò¿ª·¢ÕߵĴóÊý¾Ý¼¯Ô¤´¦Àí

ÖîÈçR»òPythonÕâÑùµÄ±à³ÌÓïÑÔ¿ÉÓÃÓÚ´¦ÀíСÊý¾Ý¼¯¡£µ«ÊÇ£¬ËüÃDz¢²»ÊÇΪ´¦ÀíÕæÕýµÄ´óÊý¾Ý¼¯¶ø´´½¨£»Óë´Ëͬʱ£¬ÎÒÃǾ­³£ÐèÒª·ÖÎö¼¸¸öGB¡¢TBÉõÖÁPB¼¶±ðµÄÊý¾Ý¡£ÀàËÆÓÚApache Hadoop»òApache SparkµÄ´óÊý¾Ý¿ò¼ÜÔòÊÇΪ´¦ÓÚ±ßÔµµÄ£¨¼´Êý¾ÝËùÔÚλÖ㩵¯ÐÔÀ©Õ¹£¨elastic scalability£©ºÍÊý¾ÝÔ¤´¦Àí¶ø´´½¨¡£

ÕâЩ´óÊý¾Ý¿ò¼Ü²àÖØÓÚ¡°µ×²ã¡±±àÂ룬²¢ÇÒÅäÖÃÆðÀ´±ÈR»òPython»·¾³Òª¸´ÔӵöࡣÉÌÒµÈí¼þ£¬ÈçHortonworks¡¢Cloudera¡¢MapR»òDatabricks¿ÉÒÔ°ïÖú½â¾ö´ËÎÊÌ⡣ͨ³££¬Êý¾Ý¿ÆÑ§¼ÒÓ뿪·¢ÈËÔ±Ï໥ºÏ×÷À´Íê³É´óÊý¾ÝÏîÄ¿¡£ºóÕ߸ºÔð¼¯ÈºÅäÖᢲ¿ÊðºÍ¼à¿Ø£¬¶øÊý¾Ý¿ÆÑ§¼ÒÔòÀûÓÃR»òPython API±àдÓÃÓÚÊý¾ÝÔ¤´¦ÀíºÍ¹¹½¨·ÖÎöÄ£Ð͵ĴúÂë¡£

Ô´´úÂëͨ³£¿´ÆðÀ´Óë½öʹÓÃR»òPythonµÄ´úÂë·Ç³£ÏàËÆ£¬µ«Êý¾ÝÔ¤´¦ÀíÊÇÔÚÕû¸ö¼¯ÈºÉϲ¢ÐÐÍê³ÉµÄ¡£ÏÂÃæµÄʾÀýÑÝʾÁËÈçºÎʹÓÃSparkµÄScala API¶ÔTitanicÊý¾Ý¼¯½øÐÐÔ¤´¦ÀíºÍÌØÕ÷¹¤³Ì£º

### ʹÓÃScalaºÍApache Spark API½øÐÐÊý¾ÝÔ¤´¦Àí£º

# ÌØÕ÷¹¤³Ì£º´´½¨¼ÒÍ¥´óÐ¡ÌØÕ÷
# £¨ÐֵܽãÃÃ/Åäż+¸¸Ä¸/º¢×Ó+1£©

val familySize: ((Int, Int) => Int) = (sibSp: Int, parCh: Int) => sibSp + parCh + 1
val familySizeUDF = udf(familySize)
val dfWithFamilySize = df.withColumn("FamilySize", familySizeUDF(col("SibSp"), col("Parch")))

// ΪÄêÁäÁÐÌî³ä¿ÕÖµ
val avgAge = trainDF.select("Age").union(testDF.select("Age"))
.agg(avg("Age"))
.collect() match {
case Array(Row(avg: Double)) => avg
case _ => 0
}

µ±È»£¬Äã¿ÉÒÔʹÓÃSparkµÄJava»òPython API×öͬÑùµÄÊÂÇé¡£

ƽÃñÊý¾Ý¿ÆÑ§¼ÒµÄÊý¾ÝÔ¤´¦Àí

ͨ³££¬ÄãÏëÒªÃô½Ý²¢ÇÒ¿ìËٵõ½½á¹û¡£Õâ³£³£ÐèÒªÔÚ×¼±¸ºÍ·ÖÎöÊý¾Ý¼¯Ê±´óÁ¿µØÊÔ´í¡£Äã¿ÉÒÔÀûÓÃÏÖ´æµÄ¸÷ÖÖ¿ì½ÝÒ×ÓõÄÊý¾Ý¿ÆÑ§¹¤¾ß¡£ÕâЩ¹¤¾ßÌṩÁË£º

¿ª·¢»·¾³ºÍÔËÐÐ/Ö´ÐзþÎñÆ÷

ʹÓÃÍÏ·ÅÓë´úÂëÉú³ÉµÄ¿ÉÊÓ»¯¡°±àÂ롱

¼¯³É¸÷ÖÖÊý¾Ý¿ÆÑ§¿ò¼Ü£¬ÈçR¡¢Python»ò¸üÇ¿´óµÄ£¨ÖîÈçApache Hadoop¡¢Apache Spark»òµ×²ãµÄH2O.ai£©´óÊý¾Ý¿ò¼Ü

Êý¾Ý¿ÆÑ§¼Ò¿ÉÒÔʹÓÃÕâЩ¹¤¾ßÀ´¼ÓËÙÊý¾ÝÔ¤´¦ÀíºÍÄ£Ðͽ¨Á¢¡£´ËÍ⣬¸ÃÀ๤¾ß»¹°ïÖú½â¾öÁËÊý¾ÝÔ¤´¦ÀíºÍ»úÆ÷ѧϰËã·¨µÄʵÏÖ£¬Òò´ËûÓÐÌ«¶àÏîÄ¿¾­ÑéµÄƽÃñÊý¾Ý¿ÆÑ§¼ÒÒ²¿ÉÒÔʹÓÃËüÃÇ¡£Ò»Ð©¹¤¾ßÉõÖÁÄܹ»Ìá³ö½¨Ò飬ÕâЩ½¨ÒéÓÐÖúÓÚÓû§Ô¤´¦Àí¡¢ÏÔʾºÍ·ÖÎöÊý¾Ý¼¯¡£ÕâЩ¹¤¾ßÔڵײãÈ˹¤ÖÇÄܵÄÇý¶¯Ï±äµÃÔ½À´Ô½ÖÇÄÜ¡£

ÏÂÃæµÄÀý×ÓչʾÁËÈçºÎʹÓÃÁ½¸ö¿ªÔ´Êý¾Ý¿ÆÑ§¹¤¾ßKNIMEºÍRapidMinerÀ´Ô¤´¦ÀíTitanicÊý¾Ý¼¯£º

ʹÓÃKNIMEÀ´Ô¤´¦ÀíTitanicÊý¾Ý¼¯

ʹÓÃRapidMinerÀ´Ô¤´¦ÀíTitanicÊý¾Ý¼¯

Äã¿ÉÒÔʹÓÿÉÊÓ»¯IDEÀ´ÅäÖÃÔ¤´¦Àí£¬¶ø·ÇÈçǰËùÊöµÄÓÃR»òScala±àдԴ´úÂë¡£¶Ô´ó¶àÊýÓû§À´Ëµ£¬ÕâʹµÃÊý¾Ý×¼±¸ºÍ·ÖÎö±äµÃ¸üÈÝÒ×£¬²¢ÇÒÊý¾ÝµÄά»¤ºÍÒÆ½»Ò²±äµÃ¸üÈÝÒס£

ÒµÎñ·ÖÎöʦ»òƽÃñÊý¾Ý¿ÆÑ§¼ÒµÄÊý¾ÝÕûÀí

Êý¾ÝÕûÀí£¨ÓÐʱҲ³ÆÎªdata munging£©ÊÇÒ»ÖÖʹÓÃͼÐι¤¾ßµÄÊý¾Ý×¼±¸·½·¨£¬¸Ã·½·¨¼òµ¥Ö±¹Û¡£ÕâЩ¹¤¾ß²àÖØÓÚÒ×ÓÃÐÔºÍÃô½ÝµÄÊý¾Ý×¼±¸¡£Òò´Ë£¬Ëü²»Ò»¶¨ÓÉ¿ª·¢ÈËÔ±»òÊý¾Ý¿ÆÑ§¼ÒÍê³É£¬¶øÊÇËùÓеÄÓû§¶¼¿ÉÒÔ£¨°üÀ¨ÒµÎñ·ÖÎöʦ»òƽÃñÊý¾Ý¿ÆÑ§¼Ò£©¡£DataWranglerºÍTrifacta WranglerÊÇÊý¾ÝÕûÀíµÄÁ½¸öʾÀý¡£

ÓÃÓÚÊý¾ÝÕûÀíµÄTrifacta

Çë×¢Ò⣬ÕâЩ¹¤¾ßûÓÐÊý¾ÝÔ¤´¦Àí¿ò¼ÜÄÇôǿ´ó£¬Òò´ËËüÃǾ­³£ÓÃÓÚÊý¾Ý×¼±¸µÄ×îºóÒ»¹«Àï¡£ËüÃDz»»áÌæ»»ÆäËüµÄ¼¯³ÉÑ¡ÏÈçETL£¨ÌáÈ¡-±ä»»-¼ÓÔØ£©¹¤¾ß£¬»òʹÓÃR¡¢Python¡¢KNIME¡¢RapidMinerµÈ½øÐеÄÊý¾ÝÔ¤´¦Àí¡£

ÈçÒýÑÔÖÐËùÌÖÂÛ£¬ÒòΪÊý¾ÝÕûÀíÓëʵ¼ÊÊý¾Ý·ÖÎöÏ໥½âñËùÒÔÊý¾ÝÕûÀí×ÔÉíµÄ¹¤¾ß¿ÉÄÜ»á´æÔÚһЩ²»×ãÖ®´¦¡£¿ÉÊÓ»¯·ÖÎö¹¤¾ßÖеÄÊý¾ÝÕûÀíÔÊÐíÔÚÊý¾ÝµÄ̽Ë÷ÐÔ·ÖÎöÆÚ¼ä½øÐÐinlineÊý¾ÝÕûÀí¡£µ¥¸öµÄÓû§Ê¹Óõ¥Ò»µÄ¹¤¾ß¾ÍÄܹ»Íê³ÉËü¡£ÀýÈ磬Çë²ÎÔÄTIBCO SpotfireʾÀý£¬Ëü½áºÏÁË¿ÉÊÓ»¯·ÖÎöÓëinlineÊý¾ÝÕûÀí£¨ÒÔ¼°ÆäËüµÄÊý¾Ý¿ÆÑ§¹¦ÄÜÀ´¹¹½¨·ÖÎöÄ£ÐÍ£©£º

¿ÉÊÓ»¯·ÖÎö¹¤¾ßTIBCO SpotfireÖеÄinlineÊý¾ÝÕûÀí

Êý¾ÝÕûÀí¹¤¾ßºÍ´øÓÐinlineÊý¾ÝÕûÀíµÄ¿ÉÊÓ»¯·ÖÎö¹¤¾ß¿ÉÒÔ±»Ã¿ÖÖÓû§½ÇɫʹÓãºÒµÎñ·ÖÎöʦ¡¢£¨Æ½Ãñ£©Êý¾Ý¿ÆÑ§¼Ò»ò¿ª·¢ÈËÔ±£¬ÕâЩ¹¤¾ßÄܹ»¼ÓËÙÊý¾Ý×¼±¸ºÍÊý¾Ý·ÖÎö¡£

±¾ÎÄÖØµã½éÉÜÁËÓÃÓÚ½¨Á¢»úÆ÷ѧϰģÐ͵ÄÊý¾Ý×¼±¸¡£Äã¿ÉÒÔʹÓñà³ÌÓïÑÔ£¨ÈçR»òPython£©¡¢Êý¾Ý¿ÆÑ§¹¤¾ß£¨ÈçKNIME»òRapidMiner£©¡¢Êý¾ÝÕûÀí£¨Ê¹ÓÃDataWrangler»òTrificata£©»òinlineÊý¾ÝÕûÀí£¨Í¨¹ýTIBCO Spotfire£©¡£Í¨³££¬ÔÚ¿ªÊ¼ÕâÒ»ÇÐ֮ǰ£¬ÄãÐèÒªÄܹ»·ÃÎÊÄãÓµÓеÄËùÓÐÊý¾Ý£¬ÕâЩÊý¾Ý´æ´¢ÓÚ¸÷ÖÖ»ò¶à»òÉÙÕûÀí¹ýµÄÊý¾ÝÔ´ÖУ¨Èç¹ØÏµÊý¾Ý¿â¡¢Êý¾Ý²Ö¿â¡¢´óÊý¾Ý¼¯Èº£©¡£Òò´Ë£¬ÔÚÒÔÏÂÁ½²¿·Ö£¬ÎÒÃǽ«¼òÒª½éÉÜÓÃÓÚÊý¾Ý»ñÈ¡£¨data ingestion£©µÄETLºÍÁ÷ʽ·ÖÎö¹¤¾ß£¬Í¨³£Êý¾Ý»ñÈ¡»¹°üÀ¨Êý¾Ý×¼±¸µÄijЩ²¿·Ö£¬ÌرðÊÇÊý¾Ý¾ÛºÏºÍÊý¾ÝÇåÏ´¡£

¿ª·¢ÕßµÄETL£¨ÌáÈ¡-±ä»»-¼ÓÔØ£©ºÍDQ£¨Êý¾ÝÖÊÁ¿£¬Data Quality£©

ETL¹¤¾ßÊÇΪ¿ª·¢Õß¼¯³É¸÷ÖÖÊý¾ÝÔ´¶øÉè¼ÆµÄ£¬Ëü°üÀ¨ÁËÐí¶àÒÅÁôºÍרÓУ¨proprietary£©½Ó¿Ú£¨ÈçMainframe»òEDIFACT½Ó¿Ú£©£¬ÕâЩ½Ó¿Ú¾ßÓÐÊ®·Ö¸´ÔÓµÄÊý¾Ý½á¹¹¡£Ëü»¹°üÀ¨ÁËÊý¾ÝÇåÏ´£¨ÔÚÉÏÏÂÎÄÖÐͨ³£±»³ÆÎª¡°Êý¾ÝÖÊÁ¿¡±¹¤¾ß£©£¬²¢½«Öصã·ÅÔÚÒ×ÓÃÐÔºÍʹÓÿÉÊÓ»¯±àÂëµÄÆóÒµ²¿ÊðÉÏ£¨ÀàËÆÓÚÈçKNIME»òRapidMinerµÄÊý¾Ý¿ÆÑ§¹¤¾ß£¬µ«ÊÇרעÓÚETLºÍÊý¾ÝÖÊÁ¿£©¡£ËüÃÇ»¹Ö§³Ö´óÊý¾Ý¿ò¼Ü£¬ÈçApache HadoopºÍApache Spark¡£´ËÍ⣬ËüÃÇ»¹ÎªÖÊÁ¿¸Ä½øÌṩÁË¿ªÏä¼´Óã¨out-of-the-box £©µÄÖ§³Ö£¬ÀýÈ磬µØÖ·ÑéÖ¤¡£ETLºÍDQͨ³£ÔÚ³¤Ê±¼äÔËÐеÄÅú´¦Àí½ø³ÌÖÐʵÏÖ£¬Òò´ËÈç¹ûÄãÐèҪʹÓÃʵʱÊý¾Ý¹¹½¨Ä£ÐÍ£¬ÄÇôÕâÓÐʱ¿ÉÄÜ»á²úÉú¸ºÃæÓ°Ïì¡£

ETLºÍDQ¹¤¾ßµÄÀý×ÓÊÇһЩ¿ªÔ´¹¤¾ß£¬ÈçPentaho»òTalend£¬»òרÓй©Ó¦ÉÌInformatica¡£Êг¡ÕýÔÚÏò¸ü¼òµ¥Ò×ÓõÄWebÓû§½çÃæ×ªÒÆ£¬ÕâЩ¼òµ¥Ò×ÓõĽçÃæÄܹ»ÈÃÆäËûÓû§½ÇɫҲִÐÐһЩ»ù±¾µÄÈÎÎñ¡£

¿ª·¢ÕßµÄÊý¾Ý»ñÈ¡ÓëÁ÷ʽ·ÖÎö

Êý¾Ý»ñÈ¡ÓëÁ÷ʽ·ÖÎö¹¤¾ß¿ÉÓÃÓÚÔÚÁ÷£¨stream£©ÖÐÌí¼ÓºÍÔ¤´¦ÀíÊý¾Ý¡£ÕâЩ¿ò¼ÜÔÊÐíÅúÁ¿µØ»òʵʱµØÔ¤´¦ÀíÊý¾Ý¡£ÏÂͼչʾÁËÒ»¸öµäÐ͵ÄÁ÷ʽ·ÖÎöÁ÷³Ì£¬Ëü°üÀ¨Êý¾Ý»ñÈ¡¡¢Ô¤´¦Àí¡¢·ÖÎö¡¢´¦ÀíºÍÊä³ö£º

Á÷ʽ·ÖÎöÁ÷³ÌµÄ²½Öè

ĿǰÊг¡ÉÏÓи÷ÖÖ¸÷ÑùµÄ¿ò¼ÜºÍ¹¤¾ß¡£ËüÃǶ¼ÒÔÕâÖÖ»òÄÇÖÖ·½Ê½Ö§³ÖÀàËÆHadoop»òSparkµÄ´óÊý¾Ý¿ò¼Ü¡£¾Ù¼¸¸öÀý×Ó£º

Êý¾Ý»ñÈ¡¿ªÔ´¿ò¼Ü£¨½ö¹Ø×¢Êý¾Ý»ñÈ¡ºÍÔ¤´¦Àí²½Ö裩£ºApache NiFi¡¢StreamSets¡¢Cask Hydrator

Á÷ʽ´¦Àí¿ªÔ´¿ò¼Ü£¨ÍêÕûµÄÁ÷ʽ·ÖÎöÁ÷³Ì£©£ºApache Storm¡¢Apache Flink¡¢Apache Apex

Á÷ʽ´¦ÀíÉÌÒµÈí¼þ£¨ÍêÕûµÄÁ÷ʽ·ÖÎöÁ÷³Ì£©£ºSoftware AG Apama¡¢IBM Streams¡¢TIBCO StreamBase

Óйظü¶àÐÅÏ¢£¬Çë²ÎÔÄÁ÷ʽ·ÖÎö¿ò¼Ü¡¢²úÆ·ºÍÔÆ·þÎñµÄ±È½Ï¡£

ʹÓÃÕâЩ¹¤¾ß£¨°üÀ¨ETL£©µÄ¾Þ´óÓÅÊÆÊÇ£¬Äã¿ÉÒÔʹÓÃͬһÌ×¹¤¾ß»ò¿ò¼Ü£¨¶ÔÀúÊ·Êý¾Ý£©½øÐÐÊý¾ÝÔ¤´¦Àí£¬ÒÔ¼°£¨¶ÔÐÂÊý¾Ý£©½øÐÐʵʱ´¦Àí£¨ÒÔ±ãÔڱ仯µÄÊý¾ÝÀïʹÓ÷ÖÎöÄ£ÐÍ£©¡£Õ⽫»áÊÇÒ»¸ö²»´íµÄÑ¡Ôñ£¬Óû§²»½ö¿ÉÒÔ±£³ÖС¶ø¾«µÄ¹¤¾ß¼¯£¬¶øÇÒ»¹ÄÜͨ¹ýÒ»Ì×¹¤¾ßͬʱ»ñµÃETL/»ñÈ¡ºÍʵʱ´¦Àí¡£ÏÂͼÊÇÒ»¸öʹÓÃTIBCO StreamBase¶ÔTitanicÊý¾Ý¼¯½øÐÐÔ¤´¦ÀíµÄÀý×Ó£º

TitanicÊý¾Ý¼¯µÄÁ÷ʽԤ´¦Àí

¶ÔÓÚÊý¾Ý»ñÈ¡ºÍETL¹¤¾ß£¬Á÷ʽ·ÖÎöµÄÊг¡ÕýÔÚתÏò¸ü¼òµ¥µÄWebÓû§½çÃæ£¬ÕâЩ¼òµ¥µÄÓû§½çÃæÈÃÆäËûÓû§½ÇɫҲÄÜÖ´ÐÐһЩ»ù±¾µÄÈÎÎñ¡£µ«Õâ²»»áÈ¡´úÏÖÓеŤ¾ßÔÚ¸ü¸ß¼¶±ðÓÃÀýÀïµÄʹÓ㬶øÊÇΪ·ÖÎöʦ»òÊý¾Ý¿ÆÑ§¼ÒÌṩÁËеÄÑ¡Ôñ¡£ÔÚûÓпª·¢ÈËÔ±µÄ°ïÖúÏ£¬ËûÃÇÄܹ»¸üÈÝÒ׺͸üÖ±½ÓµØ²¿ÊðһЩ¹æÔò¡¢¹ØÁª»ò·ÖÎöÄ£ÐÍ¡£

Êý¾Ý×¼±¸ÊÇ»úÆ÷ѧϰÏîÄ¿³É¹¦µÄ¹Ø¼ü

ʹÓûúÆ÷ѧϰ»òÉî¶Èѧϰ¼¼Êõ¹¹½¨·ÖÎöÄ£ÐͲ¢²»ÈÝÒס£Êý¾Ý×¼±¸Õ¼È¥Õû¸ö·ÖÎö¹ÜµÀµÄ60£¥µ½80£¥¡£Êг¡ÉÏÓи÷ÖÖÓÃÓÚÊý¾ÝÇåÏ´ºÍÌØÕ÷¹¤³ÌµÄ±à³ÌÓïÑÔ¡¢¿ò¼ÜºÍ¹¤¾ß¡£ËüÃÇÖ®¼äµÄ¹¦ÄÜÓÐÖØµþ£¬Ò²¸÷ÓÐȨºâ¡£

Êý¾ÝÕûÀíÊÇÊý¾ÝÔ¤´¦ÀíµÄÖØÒªÀ©Õ¹£¨add-on£©¡£Ëü×îÊʺÏÔÚ¿ÉÊÓ»¯·ÖÎö¹¤¾ßÖÐʹÓã¬ÕâÄܹ»±ÜÃâ·ÖÎöÁ÷³Ì±»´ò¶Ï¡£¿ÉÊÓ»¯·ÖÎö¹¤¾ßÓ뿪ԴÊý¾Ý¿ÆÑ§×é¼þ£¨component£©Ö®¼ä£¬ÈçR¡¢Python¡¢KNIME¡¢RapidMiner»¥Îª²¹³ä¡£

±ÜÃâ¹ý¶àµØÊ¹ÓÃ×é¼þÄܹ»¼ÓËÙÊý¾Ý¿ÆÑ§ÏîÄ¿¡£Òò´Ë£¬ÔÚÊý¾Ý×¼±¸²½ÖèÖÐÀûÓÃÁ÷ʽ»ñÈ¡¿ò¼Ü»òÁ÷ʽ·ÖÎö²úÆ·»áÊÇÒ»¸ö²»´íµÄÑ¡Ôñ¡£ÎÒÃÇÖ»ÐèÒª±àдһ´ÎÔ¤´¦ÀíµÄ²½Ö裬Ȼºó½«ÆäÓÃÓÚÀúÊ·Êý¾ÝµÄÅú´¦ÀíÖУ¬´Ó¶ø½øÐзÖÎöÄ£Ð͵Ĺ¹½¨£¬Í¬Ê±£¬»¹¿ÉÒÔ½«ÆäÓÃÓÚʵʱ´¦Àí£¬ÕâÑù¾ÍÄܽ«ÎÒÃǹ¹½¨µÄ·ÖÎöÄ£ÐÍÓõ½ÐµÄʼþÖС£

ÕâЩ»ÃµÆÆ¬ºÍÊÓÆµÌṩÁ˸ü¶à¹ØÓÚÊý¾Ý×¼±¸µÄÐÅÏ¢£¬Í¨¹ýÕâЩ×ÊÁÏÄãÄܸüÏêϸµØÁ˽ⱾÎĵÄÄÚÈÝ¡£

   
2641 ´Îä¯ÀÀ       30
Ïà¹ØÎÄÕÂ

»ùÓÚͼ¾í»ýÍøÂçµÄͼÉî¶Èѧϰ
×Ô¶¯¼ÝÊ»ÖеÄ3DÄ¿±ê¼ì²â
¹¤Òµ»úÆ÷ÈË¿ØÖÆÏµÍ³¼Ü¹¹½éÉÜ
ÏîĿʵս£ºÈçºÎ¹¹½¨ÖªÊ¶Í¼Æ×
 
Ïà¹ØÎĵµ

5GÈ˹¤ÖÇÄÜÎïÁªÍøµÄµäÐÍÓ¦ÓÃ
Éî¶ÈѧϰÔÚ×Ô¶¯¼ÝÊ»ÖеÄÓ¦ÓÃ
ͼÉñ¾­ÍøÂçÔÚ½»²æÑ§¿ÆÁìÓòµÄÓ¦ÓÃÑо¿
ÎÞÈË»úϵͳԭÀí
Ïà¹Ø¿Î³Ì

È˹¤ÖÇÄÜ¡¢»úÆ÷ѧϰ&TensorFlow
»úÆ÷ÈËÈí¼þ¿ª·¢¼¼Êõ
È˹¤ÖÇÄÜ£¬»úÆ÷ѧϰºÍÉî¶Èѧϰ
ͼÏñ´¦ÀíËã·¨·½·¨Óëʵ¼ù