±à¼ÍƼö: |
±¾ÎÄÀ´×ÔÓÚcsdn£¬±¾ÎÄÖ÷Òª½éÉÜÁË´óÊý¾Ýƽ̨µÄϵͳ¼Ü¹¹ÒÔ¼°´óÊý¾Ý¿ª·¢¹ý³ÌÀëÏߺÍʵʱ³£Óõļ¼Êõ¿ò¼ÜµÄ½éÉÜ£¬Ï£Íû¶ÔÄúµÄѧϰÓÐËù°ïÖú¡£
|
|
´óÊý¾Ý±³¾°
¶ÔÓÚÒµÎñÊý¾ÝÊý¾ÝÁ¿µÄ±©Ôö£¬Óû§ÖÇÄÜ»¯ÐèÇóÌáÉý¡£ÔÚÕâ¸öDTµÄʱ´ú£¬´óÊý¾ÝµÄ¿ª·¢Ò²¾ÍÓ¦Ô˶øÉúÁË£¬´óÊý¾Ý¿ª·¢±ØÐë½â¾öÁ½¸öÎÊÌ⣬´óÊý¾ÝÁ¿ÈçºÎͳһ´æ´¢£¬´óÊý¾ÝÁ¿ÈçºÎͳһ¼ÆËã¡£Õë¶ÔÕâЩÎÊÌâ²úÉúÁ˺ܶà´óÊý¾Ý·½ÃæµÄ¼¼Êõ¿ò¼Ü¡£µ½½ñÌìΪֹ£¬´óÊý¾Ý·½ÃæµÄ¼¼Êõ¿ÉÒÔ˵ÒѾÏ൱³ÉÊ죬BATÔÚ´óÊý¾Ý·½Ãæ¶¼Ó¦ÓÃÊ®·ÖµÄ¹ã·º£¬´óÊý¾ÝÁ¿µÄ·ÖÎöʹµÃÊý¾Ý¸üÓÐÁ˼ÛÖµ£¬ÔËÓªÓÐÁËͨ¹ý´óÊý¾ÝµÄ·ÖÎö¿ÉÒÔ×ö³ö¾«È·µÄÓªÏú¼Æ»®£¬Í¨¹ýÊÕ¼¯Óû§µÄ²Ù×÷ÈÕÖ¾£¬·ÖÎöÓû§ÐÐΪ£¬¸ø³öÓû§¾«È·ºÍÓмÛÖµµÄÍÆ¼ö¡£È˹¤ÖÇÄÜÒ²ÊÇͨ¹ýº£Á¿Êý¾Ý×ö·ÖÎö£¬Í¨¹ýËã·¨×ö³öÖÇÄÜ׼ȷµÄÐÐΪ¡£
´óÊý¾ÝhadoopµÄÓ¦ÓÃ
´óÊý¾ÝÓ¦Ó÷ÖÎö
ͳ¼Æ
ÍÆ¼ö
»úÆ÷ѧϰ
È˹¤ÖÇÄÜ£¬Ô¤²â£¨Ëã·¨£©
SQL on Hadoop
Hive
Phoneix£¨»ùÓÚHBase£©
Spark SQL
hadoop 2.x µÄ¸ÅÊö
hadoop °üº¬µÄËÄ´óÄ£¿é

ÉÏÊö¿ÉÒÔ¿´³öHadoopµÄÖØµã¾ÍÖ÷Òª°üº¬Èý²¿·Ö£¬hdfs´æ´¢£¬MapReduce·Ö²¼Ê½¼ÆËã¹ý³Ì£¬Yarn¹ÜÀí¼ÆËãÈÎÎñ£¬°üº¬ÁË×ÊÔ´µ÷¶È£¬ÈÎÎñе÷£¬ÈÎÎñ¼à¿Ø¡£
HDFS ·þÎñ¹¦ÄÜ


YARN ·þÎñ¹¦ÄÜ


ÀëÏß¼ÆËã¿ò¼Ü MapReduce


´óÊý¾Ý¿ª·¢¹ý³ÌÀëÏߺÍʵʱ³£Óõļ¼Êõ¿ò¼Ü¼ò½é

nutchÅÀ³æÈ¡Îı¾Êý¾Ý; Êý¾ÝÊǰë½á¹¹»¯Êý¾Ý;
flume×¼±¸ÈÕÖ¾Êý¾Ý
ScribeÊÇFacebook¿ªÔ´µÄÈÕÖ¾ÊÕ¼¯ÏµÍ³. ËüÄܹ»´Ó¸÷ÖÖÈÕÖ¾Ô´ÉÏÊÕ¼¯ÈÕÖ¾£¬´æ´¢µ½Ò»¸öÖÐÑë´æ´¢ÏµÍ³ÉÏ£¬ÒÔ±ãÓÚ½øÐм¯ÖÐͳ¼Æ·ÖÎö´¦Àí¡£
½á¹¹»¯Êý¾ÝÓÉRDBMS(¹ØÏµÊý¾Ý¿â¹ÜÀíϵͳ)¹ÜÀíºÍ´æ·ÅÔÚÊý¾Ý¿â,
sqoop¿ÉÒÔ½«Ò»¸ö¹ØÏµÐÍÊý¾Ý¿â£¨ÀýÈç £º MySQL ,Oracle ,PostgresµÈ£©ÖеÄÊý¾Ýµ¼½øµ½HadoopµÄHDFSÖУ¬Ò²¿ÉÒÔ½«HDFSµÄÊý¾Ýµ¼½øµ½¹ØÏµÐÍÊý¾Ý¿âÖÐ;
OozieÊÇÒ»¸ö¹¤×÷Á÷ÒýÇæ·þÎñÆ÷,ÓÃÓÚÔËÐÐHadoop Map/ReduceºÍPig ÈÎÎñ¹¤×÷Á÷.
MapreduceÊÇÖ÷Òª²Ù×÷Âß¼ºÍÒýÇæ, mapÊÇ·ÖÅä, reduceÊǺϲ¢;
HDFSÊÇ·Ö²¼Ê½Îļþ´æ´¢ÏµÍ³
HBase¿ìËÙ´æ´¢, ¿ìËÙÏìÓ¦²éѯ
Jaql ÊÇÒ»¸ö JSON µÄ²éѯÓïÑÔ£¬ÓÃÓÚ¼ò»¯ JSON Êý¾ÝµÄ½¨Ä£ºÍ²Ù×÷£¬Ö÷ÒªÓÃÓÚ·ÖÎö´ó¹æÄ£µÄ°ë½á¹¹»¯Êý¾Ý¡£
HueÊÇÒ»¸ö¿É¿ìËÙ¿ª·¢ºÍµ÷ÊÔHadoopÉú̬ϵͳ¸÷ÖÖÓ¦ÓõÄÒ»¸ö»ùÓÚä¯ÀÀÆ÷µÄͼÐλ¯Óû§½Ó¿Ú¡£
mahout¶ÔÊý¾Ý½øÐзÖÎö; ÎÒÃÇҪѧϰºÃÈçºÎʹÓúÃÀ´·ÖÎö; ÌṩһЩ¿ÉÀ©Õ¹µÄ»úÆ÷ѧϰÁìÓò¾µäËã·¨µÄʵÏÖ£¬Ö¼ÔÚ°ïÖú¿ª·¢ÈËÔ±¸ü¼Ó·½±ã¿ì½ÝµØ´´½¨ÖÇÄÜÓ¦ÓóÌÐò¡£Mahout°üº¬Ðí¶àʵÏÖ£¬°üÀ¨¾ÛÀà¡¢·ÖÀà¡¢ÍÆ¼ö¹ýÂË¡¢Æµ·±×ÓÏîÍÚ¾ò¡£
Õë¶ÔÉÏÊöµÄÉú̬Ȧ×öÒ»¸ö¼òµ¥µÄ˵Ã÷£º
¶ÔÓÚ´óÊý¾Ý¿ª·¢µÄ²½Ö裬µÚÒ»²½µ±È»ÊÇÊý¾ÝÀ´Ô´µÄÀ´Ô´£¬ÅÀ³æ¼¼Êõ£¬mutchµ±È»Ò²¿ÉÒÔʹÓÃÖîÈçpythonµÄÆäËû¿ò¼Ü£¬¹«Ë¾Öг£ÓõϹÓÐͨ¹ýǰ¶Ë½Ó¿ÚÊÕ¼¯£¬flumeÈÕÖ¾²É¼¯¡£²É¼¯µ½µÄÊý¾ÝÈëhdfsÎļþ£¬µÚ¶þ²½Êý¾Ý²É¼¯Ö®ºó£¬ÐèÒªÈÕÖ¾½âÎö£¬ÈÕÖ¾½âÎö¹«Ë¾Ò»°ã»á×Ô¼º¿ª·¢£¬ÊµÏÖ·½Ê½¿ÉÒÔÊÇmapreduce¼ÆËãʵÏÖÔʼÈÕÖ¾¼òµ¥ÇåÏ´ºÍÈë¿âhive¡£µÚÈý²½ÊÇÈÕÖ¾·ÖÎö£¬Í¨¹ý¼òµ¥µÄsql¿ÉÒÔʵÏÖ¶ÔÒµÎñÊý¾Ý·ÖÎö£¬¼òµ¥µÄ±àдsqlÈçhivesql£¬sparksql¿ÉÒÔ½øÐмƻ®£¬ÈçºÎʵÏÖÈÎÎñÁ÷¹ÜÀí¾ÍÐèÒªÓõ½oozie£¬Êý¾ÝµÄ·ÖÎö¼ÆËã½á¹û×îºó½á¹ûдÈë¸ßÐÔÄÜ£¬¶ÁдÊý¾Ý¿ìµÄÊý¾Ý´æ´¢ÏµÍ³£¬ÀýÈç¹ØÏµÐÍÊý¾Ý¿âmysql£¬sqlserver
»òÕßHBase¡£ÒÔÉÏ»ù±¾µÄÀëÏß¿ª·¢Á÷³Ì¾Í¡£¶ÔÓÚһЩҵÎñ¶àά¶ÈµÄ·ÖÎö¿ÉÄÜÐèÒªÊÂÏȽøÐÐÔ¤¼ÆËã±ÈÈçʹÓÃkylinµÄcube¡£
¶ÔÓÚʵʱµÄ¼¼Êõ£¬Ò»°ãµÄÊý¾ÝÔ´ÊÇÈÕÖ¾ÊÕ¼¯Ö®ºóдÈëkafka£¬È»ºóͨ¹ýsparkStreaming»òÕßStrom£¬ÏÖÔڱȽÏÁ÷ÐеϹÓÐflink£¬ÕâЩ¿ò¼Ü¶¼ÊÇ»ùÓÚÄÚ´æÈ¥½øÐзֲ¼Ê½¼ÆË㣬Óÿռ任ʱ¼ä£¬´ïµ½ÊµÊ±µÄ¼ÆËã¡£
ÀëÏß¿ª·¢ºÍʵʱ¿ª·¢ÏµÍ³¼Ü¹¹ËµÃ÷
ϵͳ¼Ü¹¹ËµÃ÷£º
±¾ÏµÍ³¼Ü¹¹»ùÓÚÕæÊµµÄ´óÊý¾Ýƽ̨¹¹½¨£º
»ù±¾µÄÊý¾Ý½á¹¹ËµÃ÷£º

ÒÔÏÂÁ½ÕÅͼÊÇ»ùÓÚÀëÏߺÍʵʱµÄϵͳ¿ª·¢¼Ü¹¹Í¼£º
ÀëÏßϵͳ¼Ü¹¹Í¼

ʵʱϵͳ¼Ü¹¹Í¼

|