±à¼ÍƼö: |
±¾ÎĽ«¶ÔÊý¾ÝºþºÍÊý¾Ý²Ö¿âµÄÀ´ÁúÈ¥Âö½øÐÐÉîÈëÆÊÎö£¬²ûÊöÁ½ÕßÈÚºÏÑݽøµÄз½Ïò¡ª¡ªºþ²ÖÒ»Ì塣ϣÍûÄܹ»¶Ô´ó¼ÒÓÐËùÆô·¢ºÍ°ïÖú¡£
±¾ÎÄÀ´×ÔÓÚCSDN£¬ÓÉ»ðÁú¹ûÈí¼þLinda±à¼¡¢ÍƼö¡£ |
|
½ü¼¸Äê£¬Ëæ×ÅÊý¾Ýºþ¸ÅÄîµÄÐËÆð£¬Òµ½ç¶ÔÓÚÊý¾Ý²Ö¿âºÍÊý¾ÝºþµÄ¶Ô±ÈÉõÖÁÕùÂÛʼÖÕ²»¶Ï¡£Êý¾Ý²Ö¿âºÍÊý¾ÝºþµÄÇø±ðµ½µ×ÊÇʲô£¿±¾ÎÄ×÷ÕßÀ´×Ô°¢Àï°Í°Í¼ÆËãÆ½Ì¨²¿ÃÅ£¬ÔÚÉî¶È²ÎÓë°¢Àï°Í°Í´óÊý¾Ý
/ Êý¾ÝÖÐ̨ÁìÓò½¨ÉèÖ®ºó£¬½«¶ÔÊý¾ÝºþºÍÊý¾Ý²Ö¿âµÄÀ´ÁúÈ¥Âö½øÐÐÉîÈëÆÊÎö£¬²ûÊöÁ½ÕßÈÚºÏÑݽøµÄз½Ïò¡ª¡ªºþ²ÖÒ»Ìå¡£
´óÊý¾Ý 20 Äê·¢Õ¹µÄ±äÓë²»±ä
¸ÅÊö
´óÊý¾Ý´Ó±¾ÊÀ¼Í³õ·¢Õ¹µ½ÏÖÔÚ£¬ÒѾÀú 20 Äê¡£´Óºê¹Û²ãÃæ¹Û²ìÆäÖеķ¢Õ¹¹æÂÉ£¬¿ÉÒԸ߶ȸÅÀ¨³ÉÈçÏÂÎå¸ö·½Ã棺

ͼ 1. °¢Àï°Í°Í˫ʮһµ¥ÈÕ´¦ÀíÊý¾ÝÁ¿Ôö³¤
Êý¾Ý±£³Ö¸ßËÙÔö³¤
´óÊý¾Ý×÷ΪеÄÉú²úÒªËØ£¬µÃµ½¹ã·ºÈÏ¿É
Êý¾Ý¹ÜÀíÄÜÁ¦³ÉΪÐµĹØ×¢µã
ÒýÇæ¼¼Êõ½øÈëÊÕÁ²ÆÚ
ƽ̨¼¼ÊõÑݽø³öÁ½¸öÇ÷ÊÆ£¬Êý¾Ýºþ VS Êý¾Ý²Ö¿â¡£Á½Õß¾ù¹Ø×¢Êý¾Ý´æ´¢ºÍ¹ÜÀí£¨Æ½Ì¨¼¼Êõ£©£¬µ«·½Ïò²»Í¬¡£
´Ó´óÊý¾Ý¼¼Êõ·¢Õ¹¿´ºþºÍ²Ö
×ݹ۴óÊý¾ÝµÄ·¢Õ¹ÀúÊ·£¬¿ÉÒÔ¿´³öÊý¾Ý²Ö¿âºÍÊý¾ÝºþÓÐ׎ØÈ»²»Í¬µÄ·¢Õ¹ÂöÂç¡£´óÌåÉÏ£¬¼ÆËã»ú¿ÆÑ§ÁìÓòµÄÊý¾Ý´¦Àí¼¼ÊõµÄ·¢Õ¹£¬Ö÷Òª·ÖΪËĸö½×¶Î£º
½×¶ÎÒ»£ºÊý¾Ý¿âʱ´ú¡£Êý¾Ý¿â×îÔçµ®ÉúÓÚ 20 ÊÀ¼ÍµÄ 60 Äê´ú£¬½ñÌìÈËÃÇËùÊìÖªµÄ¹ØÏµÐÍÊý¾Ý¿âÔò³öÏÖÔÚ
20 ÊÀ¼Í 70 Äê´ú£¬²¢ÔÚºóÐøµÄ 30 Äê×óÓÒʱ¼äÀï´ó·ÅÒì²Ê£¬µ®ÉúÁ˺ܶàÓÅÐãµÄ¹ØÏµÐÍÊý¾Ý¿â£¬Èç Oracle¡¢SQL
Server¡¢MySQL¡¢PostgresSQL µÈ£¬³ÉΪµ±Ê±Ö÷Á÷¼ÆËã»úϵͳ²»¿É»òȱµÄ×é³É²¿·Ö¡£µ½
20 ÊÀ¼Í 90 Äê´ú£¬Êý¾Ý²Ö¿âµÄ¸ÅÄîµ®Éú¡£´ËʱµÄÊý¾Ý²Ö¿â¸ÅÄî¸ü¶à±í´ïµÄÊÇÈçºÎ¹ÜÀíÆóÒµÖжà¸öÊý¾Ý¿âʵÀýµÄ·½·¨ÂÛ£¬µ«ÊÜÏÞÓÚµ¥»úÊý¾Ý¿âµÄ´¦ÀíÄÜÁ¦ÒÔ¼°¶à»úÊý¾Ý¿â£¨·Ö¿â·Ö±í£©³¤ÆÚÒÔÀ´µÄ¸ß°º¼Û¸ñ£¬´ËʱµÄÊý¾Ý²Ö¿â¾àÀëÆÕͨÆóÒµºÍÓû§¶¼»¹ºÜÒ£Ô¶¡£ÈËÃÇÉõÖÁ»¹ÔÚÕùÂÛÊý¾Ý²Ö¿â£¨Í³Ò»¼¯ÖйÜÀí£©ºÍÊý¾Ý¼¯ÊУ¨°´²¿ÃÅ¡¢ÁìÓòµÄ¼¯ÖйÜÀí£©Äĸö¸ü¾ß¿ÉÐÐÐÔ¡£
½×¶Î¶þ£º´óÊý¾Ý¼¼ÊõµÄ¡¸Ì½Ë÷ÆÚ¡¹¡£2000 Äê×óÓÒ£¬Ëæ×Å»¥ÁªÍøµÄ±¬·¢£¬¶¯éü¼¸Ê®ÒÚ¡¢ÉϰÙÒÚµÄÒ³ÃæÒÔ¼°º£Á¿µÄÓû§µã»÷ÐÐΪ£¬¿ªÆôÁËÈ«ÇòµÄÊý¾ÝÁ¿¼±¾çÔö¼ÓµÄÐÂʱ´ú¡£´«Í³µÄÊý¾Ý¿â·½°¸ÔÙÒ²ÎÞÁ¦ÒԿɽÓÊܵijɱ¾Ìṩ¼ÆËãÁ¦£¬¾Þ´óµÄÊý¾Ý´¦ÀíÐèÇó¿ªÊ¼Ñ°ÕÒÍ»ÆÆ¿Ú£¬´óÊý¾Ýʱ´ú¿ªÊ¼ÃÈÑ¿¡£Google
ÏȺ󷢱í 3 ƪ¾µäÂÛÎÄ£¨GFS¡¢MapReduce¡¢BigTable£©£¬µì»ùÁËÕâ¸ö´óÊý¾Ýʱ´úµÄ»ù±¾¼¼Êõ¿ò¼Ü£¬¼´·Ö²¼Ê½´æ´¢¡¢·Ö²¼Ê½µ÷¶ÈÒÔ¼°·Ö²¼Ê½¼ÆËãÄ£ÐÍ¡£Ëæºó£¬¼¸ºõÊÇÔÚͬһʱÆÚ£¬µ®ÉúÁ˰üÀ¨
Google£¬Î¢Èí Cosmos ÒÔ¼°¿ªÔ´ Hadoop Ϊ´ú±íµÄÓÅÐã·Ö²¼Ê½¼¼ÊõÌåϵ£¬µ±È»£¬ÕâÆäÖÐÒ²°üÀ¨°¢Àï°Í°ÍµÄ·ÉÌìϵͳ¡£´ËʱÈËÃÇÐË·ÜÓÚ×·ÇóÊý¾ÝµÄ´¦Àí¹æÄ££¬¼´¡º´ó¡»Êý¾Ý£¬Ã»ÓÐÏÐϾÕùÂÛÊÇÊý¾Ý²Ö¿â»¹ÊÇÊý¾Ýºþ¡£
½×¶ÎÈý£º´óÊý¾Ý¼¼ÊõµÄ¡¸·¢Õ¹ÆÚ¡¹¡£21 ÊÀ¼ÍµÚ¶þ¸ö 10 Äê£¬Ëæ×ÅÔ½À´Ô½¶àµÄ×ÊԴͶÈëµ½´óÊý¾Ý¼ÆËãÁìÓò£¬´óÊý¾Ý¼¼Êõ½øÈëÒ»¸öÅ·¢Õ¹µÄ½×¶Î£¬ÕûÌ忪ʼ´ÓÄÜÓÃתÏòºÃÓᣴúÌæÊÖд
MapReduce ×÷Òµ£¬ÊÇÈçÓêºó´ºËñ°ã³öÏֵĸ÷ÖÖÒÔ SQL Ϊ±í´ïµÄ¼ÆËãÒýÇæ£¬¼«´ó½µµÍÁË´óÊý¾Ý¼¼ÊõµÄʹÓóɱ¾£¬Êý¾Ý¿âʱ´úÈËÃÇÃÎÏëµÄ´óһͳµÄÊý¾Ý²Ö¿âÖÕÓÚ³ÉΪÏÖʵ£¬¸÷ÖÖÊý¾Ý¿âʱ´úµÄ·½·¨ÂÛ¿ªÊ¼Ì§Í·¡£Õâ¸öʱÆÚ¼¼Êõ·Ïß¿ªÊ¼³öÏÖϸ·Ö¡£ÔƳ§ÉÌÖ÷ÍÆµÄÈç
AWS Redshift¡¢Google BigQuery£¬°üÀ¨ MaxCompute ÕâÑùµÄ¼¯³Éϵͳ³ÆÎª´óÊý¾Ýʱ´úµÄÊý¾Ý²Ö¿â¡£¶øÒÔ¿ªÔ´
Hadoop ÌåϵΪ´ú±íµÄµÄ¿ª·Åʽ HDFS ´æ´¢¡¢¿ª·ÅµÄÎļþ¸ñʽ¡¢¿ª·ÅµÄÔªÊý¾Ý·þÎñÒÔ¼°¶àÖÖÒýÇæ£¨Hive¡¢Presto¡¢Spark¡¢Flink
µÈ£©Ðͬ¹¤×÷µÄģʽ£¬ÔòÐγÉÁËÊý¾ÝºþµÄ³ûÐΡ£
½×¶ÎËÄ£º´óÊý¾Ý¼¼Êõ¡¸ÆÕ¼°ÆÚ¡¹¡£µ±Ç°£¬´óÊý¾Ý¼¼ÊõÔçÒѲ»ÊÇʲô»ð¼ý¿Æ¼¼£¬¶øÒÑ¾ÉøÍ¸µ½¸÷Ðи÷Òµ£¬´óÊý¾ÝµÄÆÕ¼°ÆÚÒѾµ½À´¡£Êг¡¶Ô´óÊý¾Ý²úÆ·µÄÒªÇ󣬳ýÁ˹æÄ£¡¢ÐÔÄÜ¡¢¼òµ¥Ò×Óã¬Ìá³öÁ˳ɱ¾¡¢°²È«¡¢Îȶ¨ÐԵȸü¼ÓÈ«ÃæµÄÆóÒµ¼¶Éú²úµÄÒªÇó¡£
¿ªÔ´ Hadoop Ïߣ¬ÒýÇæ¡¢ÔªÊý¾Ý¡¢´æ´¢µÈ»ù´¡²¿¼þµÄµü´ú¸üÌæ½øÈëÏà¶ÔÎÈ̬£¬´óÖÚ¶Ô¿ªÔ´´óÊý¾Ý¼¼ÊõµÄÈÏÖª´ïµ½¿ÕǰµÄˮƽ¡£Ò»·½Ã棬¿ª·Å¼Ü¹¹µÄ±ãÀû´øÀ´Á˲»´íµÄÊг¡·Ý¶î£¬ÁíÒ»·½Ã濪·Å¼Ü¹¹µÄËÉÉ¢Ôòʹ¿ªÔ´·½°¸ÔÚÆóÒµ¼¶ÄÜÁ¦¹¹½¨ÉÏÓöµ½Æ¿¾±£¬ÓÈÆäÊÇÊý¾Ý°²È«¡¢Éí·ÝȨÏÞÇ¿¹Ü¿Ø¡¢Êý¾ÝÖÎÀíµÈ·½Ã棬ÐͬЧÂʽϲͬʱÒýÇæ×ÔÉíµÄ·¢Õ¹Ò²¶ÔÒÑÓеĿª·Å¼Ü¹¹Ìá³öÁ˸ü¶àÌôÕ½£¬Delta
Lake¡¢Hudi ÕâÑù×Ô±Õ»·Éè¼ÆµÄ³öÏÖʹµÃÒ»Ì×´æ´¢¡¢Ò»Ì×ÔªÊý¾Ý¡¢¶àÖÖÒýÇæÐ×÷µÄ»ù´¡³öÏÖÁËijÖ̶ֳȵÄÁѺۡ£
ÕæÕý½«Êý¾Ýºþ¸ÅÄîÍÆ¶ø¹ãÖ®µÄÊÇ AWS¡£AWS ¹¹ÖþÁËÒ»Ì×ÒÔ S3 ΪÖÐÐÄ»¯´æ´¢¡¢Glue ΪԪÊý¾Ý·þÎñ£¬E-MapReduce¡¢Athena
ΪÒýÇæµÄ¿ª·ÅÐ×÷ʽµÄ²úÆ·½â¾ö·½°¸¡£ËüµÄ¿ª·ÅÐԺͿªÔ´ÌåϵÀàËÆ£¬²¢ÔÚ 2019 ÄêÍÆ³ö Lake Formation
½â¾ö²úÆ·¼äµÄ°²È«ÊÚÐÅÎÊÌâ¡£ÕâÌ׼ܹ¹¶ÔÓÚ¿ªÔ´¼¼ÊõÌåϵµÄÓû§À´Ëµ£¬¼Ü¹¹Ïà½üÀí½âÈÝÒ×£¬ÈÔÈ»Ï൱ÓÐÎüÒýÁ¦¡£AWS
Ö®ºó£¬¸÷¸öÔÆ³§ÉÌÒ²·×·×¸ú½øÊý¾ÝºþµÄ¸ÅÄ²¢ÔÚ×Ô¼ºµÄÔÆ·þÎñÉÏÌṩÀàËÆµÄ²úÆ·½â¾ö·½°¸¡£
ÔÆ³§ÉÌÖ÷ÍÆµÄÊý¾Ý²Ö¿âÀà²úÆ·Ôò·¢Õ¹Á¼ºÃ£¬Êý²ÖºËÐÄÄÜÁ¦·½Ãæ³ÖÐøÔöÇ¿¡£ÐÔÄÜ¡¢³É±¾·½Ã漫´óÌáÉý£¨Èç MaxCompute
Á¬ÐøÈýÄêˢРTPCx-BigBench ÊÀ½ç¼Ç¼£©£¬Êý¾Ý¹ÜÀíÄÜÁ¦¿ÕǰÔöÇ¿£¨·¢Õ¹³öÊý¾ÝÖÐ̨½¨Ä£ÀíÂÛºÍÖÇÄÜÊý²Ö£©£¬ÆóÒµ¼¶°²È«ÄÜÁ¦´óΪ·±ÈÙ£¨ÈçϸÁ£¶ÈÊý¾Ý°²È«¿ØÖÆ¡¢·þÎñ¿ÉÓÃÐÔ
SLA µÈ£©£¬ÔÚÁª°î¼ÆËã·½ÃæÒ²ÆÕ±é×öÁËÔöÇ¿£¬Ò»¶¨³Ì¶ÈÉÏ¿ªÊ¼½«·ÇÊý²Ö×ÔÉí´æ´¢µÄÊý¾ÝÄÉÈë¹ÜÀí£¬ºÍÊý¾ÝºþµÄ±ß½çÈÕ񾀣ºý¡£
×ÛÉÏËùÊö£¬Êý¾Ý²Ö¿âºÍÊý¾ÝºþÊǰéËæ×Å´óÊý¾Ý¼¼Êõ·¢Õ¹£¬½ø»¯¶øÀ´µÄÁ½ÖÖ²»Í¬µÄ´óÊý¾Ýƽ̨¼¼Êõ£¬ÓÐן÷×ÔµÄÌØµãºÍÓ¦Óó¡¾°£¬ÔÚÆóÒµÊý×Ö»¯½¨ÉèÖоù°çÑÝ×ÅÖØÒªµÄ½ÇÉ«¡£

ͼ 2. 20 Äê´óÊý¾Ý·¢Õ¹Ö®Â·
Êý¾ÝºþµÄ±¾Öʺͼ¼Êõ¼Ü¹¹Ñݽø
½ü¼¸ÄêÊý¾ÝºþµÄ¸ÅÄî·Ç³£»ðÈÈ£¬¸÷¼Ò¶ÔÊý¾ÝºþµÄ¶¨Òå²»¾¡Ïàͬ£¬µ«²»ÂÛÈçºÎ£¬Êý¾ÝºþµÄ±¾ÖÊÆäʵ¶¼°üº¬ÈçÏÂËIJ¿·Ö£º
ͳһµÄ´æ´¢ÏµÍ³
´æ´¢ÔʼÊý¾Ý
·á¸»µÄ¼ÆËãÄ£ÐÍ / ·¶Ê½
Êý¾ÝºþÓëÉÏÔÆÎÞ¹Ø
´ÓÉÏÊöËĸö±ê×¼Åжϣ¬¿ªÔ´´óÊý¾ÝµÄ Hadoop HDFS ´æ´¢ÏµÍ³¾ÍÊÇÒ»¸ö±ê×¼µÄÊý¾Ýºþ¼Ü¹¹£¬¾ß±¸Í³Ò»µÄÔʼÊý¾Ý´æ´¢¼Ü¹¹¡£¶ø½üÆÚ±»¹ã·ºÌ¸µ½µÄÊý¾Ýºþ£¬ÆäʵÊÇÒ»¸öÏÁÒåµÄ¸ÅÄî£¬ÌØÖ¸¡°»ùÓÚÔÆÉÏÍйܴ洢ϵͳµÄÊý¾Ýºþϵͳ£¬¼Ü¹¹ÉϲÉÓô洢¼ÆËã·ÖÀëµÄÌåϵ¡±¡£ÀýÈç»ùÓÚ
AWS S3 ϵͳ»òÕß°¢ÀïÔÆ OSS ϵͳ¹¹½¨µÄÊý¾Ýºþ¡£
ÏÂͼÊÇÊý¾Ýºþ¼¼Êõ¼Ü¹¹µÄÑݽø¹ý³Ì£¬ÕûÌåÉϿɷÖΪÈý¸ö½×¶Î£º

ͼ 3. Êý¾Ýºþ¼¼Êõ¼Ü¹¹Ñݽø
½×¶ÎÒ»£º×Ô½¨¿ªÔ´ Hadoop Êý¾Ýºþ¼Ü¹¹£¬ÔʼÊý¾Ýͳһ´æ·ÅÔÚ HDFS ϵͳÉÏ£¬ÒýÇæÒÔ Hadoop
ºÍ Spark ¿ªÔ´Éú̬ΪÖ÷£¬´æ´¢ºÍ¼ÆËãÒ»Ì塣ȱµãÊÇÐèÒªÆóÒµ×Ô¼ºÔËάºÍ¹ÜÀíÕûÌ×¼¯Èº£¬³É±¾¸ßÇÒ¼¯ÈºÎȶ¨ÐԲ
½×¶Î¶þ£ºÔÆÉÏÍÐ¹Ü Hadoop Êý¾Ýºþ¼Ü¹¹£¨¼´ EMR ¿ªÔ´Êý¾Ýºþ£©£¬µ×²ãÎïÀí·þÎñÆ÷ºÍ¿ªÔ´Èí¼þ°æ±¾ÓÉÔÆ³§ÉÌÌṩºÍ¹ÜÀí£¬Êý¾ÝÈÔͳһ´æ·ÅÔÚ
HDFS ϵͳÉÏ£¬ÒýÇæÒÔ Hadoop ºÍ Spark ¿ªÔ´Éú̬ΪÖ÷¡£Õâ¸ö¼Ü¹¹Í¨¹ýÔÆÉÏ IaaS ²ãÌáÉýÁË»úÆ÷²ãÃæµÄµ¯ÐÔºÍÎȶ¨ÐÔ£¬Ê¹ÆóÒµµÄÕûÌåÔËά³É±¾ÓÐËùϽµ£¬µ«ÆóÒµÈÔÈ»ÐèÒª¶Ô
HDFS ϵͳÒÔ¼°·þÎñÔËÐÐ״̬½øÐйÜÀíºÍÖÎÀí£¬¼´Ó¦ÓòãµÄÔËά¹¤×÷¡£Í¬Ê±ÒòΪ´æ´¢ºÍ¼ÆËãñîºÏÔÚÒ»Æð£¬Á½ÖÖ×ÊÔ´ÎÞ·¨¶ÀÁ¢À©Õ¹¡£
½×¶ÎÈý£ºÔÆÉÏÊý¾Ýºþ¼Ü¹¹£¬¼´ÔÆÉÏ´¿ÍйܵĴ洢ϵͳÖð²½È¡´ú HDFS£¬³ÉΪÊý¾ÝºþµÄ´æ´¢»ù´¡ÉèÊ©£¬²¢ÇÒÒýÇæ·á¸»¶ÈÒ²²»¶ÏÀ©Õ¹¡£³ýÁË
Hadoop ºÍ Spark µÄÉú̬ÒýÇæÖ®Í⣬¸÷ÔÆ³§ÉÌ»¹·¢Õ¹³öÃæÏòÊý¾Ýºþ̽²é·ÖÎö²úÆ·¡£Õâ¸ö¼Ü¹¹ÈÔÈ»±£³ÖÁËÒ»¸ö´æ´¢ºÍ¶à¸öÒýÇæµÄÌØÐÔ£¬Ïà¶ÔÓÚÔÉú
HDFS µÄÊý¾Ýºþ¼Ü¹¹µÄÓÅÊÆÔÚÓÚ£º
°ïÖúÓû§°ÚÍÑÔÉú HDFS ϵͳÔËάÀ§ÄѵÄÎÊÌâ¡£·ÖÀëºóµÄ´æ´¢ÏµÍ³¿ÉÒÔ¶ÀÁ¢À©Õ¹£¬²»ÔÙÐèÒªÓë¼ÆËãñîºÏ£¬¿É½µµÍÕûÌå³É±¾µ±Óû§²ÉÓÃÊý¾Ýºþ¼Ü¹¹Ö®ºó£¬¿Í¹ÛÉÏÒ²°ïÖú¿Í»§Íê³ÉÁ˴洢ͳһ»¯£¨½â¾ö¶à¸ö
HDFS Êý¾Ý¹ÂµºµÄÎÊÌ⣩¡£

ͼ 4. °¢ÀïÔÆ EMR Êý¾Ýºþ¼Ü¹¹
Êý¾Ý²Ö¿âµÄµ®Éú¼°ÓëÊý¾ÝÖÐ̨µÄ¹ØÏµ
Êý¾Ý²Ö¿âµÄ¸ÅÄî×îÔçÀ´Ô´ÓÚÊý¾Ý¿âÁìÓò£¬Ö÷Òª´¦ÀíÃæÏòÊý¾ÝµÄ¸´ÔÓ²éѯºÍ·ÖÎö³¡¾°¡£Ëæ×Å´óÊý¾Ý¼¼Êõ·¢Õ¹£¬´óÁ¿½è¼øÊý¾Ý¿âµÄ¼¼Êõ£¬ÀýÈç
SQL ÓïÑÔ¡¢²éѯÓÅ»¯Æ÷µÈ£¬ÐγÉÁË´óÊý¾ÝµÄÊý¾Ý²Ö¿â£¬ÒòÆäÇ¿´óµÄ·ÖÎöÄÜÁ¦£¬³ÉΪÖ÷Á÷¡£½ü¼¸Ä꣬Êý¾Ý²Ö¿âºÍÔÆÔÉú¼¼ÊõÏà½áºÏ£¬ÓÖÑÝÉú³öÁËÔÆÊý¾Ý²Ö¿â£¬½â¾öÁËÆóÒµ²¿ÊðÊý¾Ý²Ö¿âµÄ×ÊÔ´¹©¸øÎÊÌâ¡£ÔÆÊý¾Ý²Ö¿â×÷Ϊ´óÊý¾ÝµÄ¸ß½×£¨ÆóÒµ¼¶£©Æ½Ì¨ÄÜÁ¦£¬ÒòÆä¿ªÏä¼´Óá¢ÎÞÏÞÀ©Õ¹¡¢¼òÒ×ÔËάµÈÄÜÁ¦£¬Ô½À´Ô½Êܵ½ÈËÃǵÄÖõÄ¿¡£
±ÊÕßÈÏΪ£¬Êý¾Ý²Ö¿âµÄ±¾Öʰüº¬ÈçÏÂÈý²¿·Ö£º
ÄÚÖõĴ洢ϵͳ£¬Êý¾Ýͨ¹ý³éÏóµÄ·½Ê½Ìṩ£¨ÀýÈç²ÉÓà Table »òÕß View£©£¬²»±©Â¶Îļþϵͳ£»
Êý¾ÝÐèÒªÇåÏ´ºÍת»¯£¬Í¨³£²ÉÓà ETL/ELT ·½Ê½£»
Ç¿µ÷½¨Ä£ºÍÊý¾Ý¹ÜÀí£¬¹©ÉÌÒµÖÇÄܾö²ß¡£
´ÓÉÏÊöµÄ±ê×¼Åжϣ¬ÎÞÂÛ´«Í³Êý¾Ý²Ö¿â»¹ÊÇÐÂÐ˵ÄÔÆÊý¾Ý²Ö¿âϵͳ£¨AWS Redshift¡¢Google
BigQuery¡¢°¢ÀïÔÆ MaxCompute£©¾ùÌåÏÖÁËÊý²ÖµÄÉè¼Æ±¾ÖÊ£¬ËüÃǾùûÓжÔÍⱩ¶Îļþϵͳ£¬¶øÊÇÌṩÁËÊý¾Ý½ø³öµÄ·þÎñ½Ó¿Ú¡£Õâ¸öÉè¼Æ¿ÉÒÔ´øÀ´¶à¸öÓÅÊÆ£º
ÒýÇæÉî¶ÈÀí½âÊý¾Ý£¬´æ´¢ºÍ¼ÆËã¿É×öÉî¶ÈÓÅ»¯
Êý¾ÝÈ«ÉúÃüÖÜÆÚ¹ÜÀí£¬ÍêÉÆµÄѪԵÌåϵ
ϸÁ£¶ÈµÄÊý¾Ý¹ÜÀíºÍÖÎÀí
ÍêÉÆµÄÔªÊý¾Ý¹ÜÀíÄÜÁ¦£¬Ò×ÓÚ¹¹½¨ÆóÒµ¼¶Êý¾ÝÖÐ̨
ÕýÒòΪÈç´Ë£¬°¢Àï°Í°Í·ÉÌì´óÊý¾Ýƽ̨½¨ÉèÖ®³õ£¬ÔÚÑ¡Ð͵Äʱºò¾Í²ÉÓÃÁËÊý¾Ý²Ö¿âµÄ¼Ü¹¹£¬¼´ MaxCompute
´óÊý¾Ýƽ̨¡£MaxCompute£¨Ô ODPS) ¼ÈÊǰ¢Àï°Í°Í¾¼ÃÌåµÄ´óÊý¾Ýƽ̨£¬ÓÖÊǰ¢ÀïÔÆÉϵÄÔÚÏß´óÊý¾Ý¼ÆËã·þÎñ£¨°Ù¶ÈËÑË÷°¢ÀïÔÆ¹ÙÍø
- ×ó²à´óÊý¾ÝÓëÈ˹¤ÖÇÄÜÑ¡Ôñ MaxCompute£©¡£

ͼ 5. MaxCompute ÔÆÊý²Ö²úÆ·¼Ü¹¹
µÃÒæÓÚ MaxCompute Êý¾Ý²Ö¿âµÄ¼Ü¹¹£¬°¢Àï°Í°ÍÉϲãÖð²½¹¹½¨ÁË¡°Êý¾Ý°²È«Ìåϵ¡±¡¢¡°Êý¾ÝÖÊÁ¿¡±¡¢¡°Êý¾ÝÖÎÀí¡±¡¢¡°Êý¾Ý±êÇ©¡±µÈ¹ÜÀíÄÜÁ¦£¬²¢×îÖÕÐγÉÁ˰¢Àï°Í°ÍµÄ´óÊý¾ÝÖÐ̨¡£¿ÉÒÔ˵£¬×÷Ϊ×îÔçÊý¾ÝÖÐ̨¸ÅÄîµÄÌá³öÕߣ¬°¢Àï°Í°ÍµÄÊý¾ÝÖÐ̨µÃÒæÓÚÊý¾Ý²Ö¿âµÄ¼Ü¹¹¡£

ͼ 6. °¢Àï°Í°ÍÊý¾ÝÖÐ̨¼Ü¹¹
Êý¾Ýºþ VS Êý¾Ý²Ö¿â
×ÛÉÏ£¬Êý¾Ý²Ö¿âºÍÊý¾Ýºþ£¬ÊÇ´óÊý¾Ý¼Ü¹¹µÄÁ½ÖÖÉè¼ÆÈ¡Ïò¡£Á½ÕßÔÚÉè¼ÆµÄ¸ù±¾·ÖÆçµãÊǶ԰üÀ¨´æ´¢ÏµÍ³·ÃÎÊ¡¢È¨ÏÞ¹ÜÀí¡¢½¨Ä£ÒªÇóµÈ·½ÃæµÄ°Ñ¿Ø¡£
Êý¾ÝºþÓÅÏȵÄÉè¼Æ£¬Í¨¹ý¿ª·Åµ×²ãÎļþ´æ´¢£¬¸øÊý¾ÝÈëºþ´øÀ´ÁË×î´óµÄÁé»îÐÔ¡£½øÈëÊý¾ÝºþµÄÊý¾Ý¿ÉÒÔÊǽṹ»¯µÄ£¬Ò²¿ÉÒÔÊǰë½á¹¹»¯µÄ£¬ÉõÖÁ¿ÉÒÔÊÇÍêÈ«·Ç½á¹¹»¯µÄÔʼÈÕÖ¾¡£ÁíÍ⣬¿ª·Å´æ´¢¸øÉϲãµÄÒýÇæÒ²´øÀ´Á˸ü¶àµÄÁé»î¶È£¬¸÷ÖÖÒýÇæ¿ÉÒÔ¸ù¾Ý×Ô¼ºÕë¶ÔµÄ³¡¾°ËæÒâ¶ÁдÊý¾ÝºþÖд洢µÄÊý¾Ý£¬¶øÖ»ÐèÒª×ñÑÏ൱¿íËɵļæÈÝÐÔÔ¼¶¨£¨ÕâÑùµÄËÉÉ¢Ô¼¶¨µ±È»»áÓÐÒþ»¼£¬ºóÎÄ»áÌáµ½£©¡£µ«Í¬Ê±£¬Îļþϵͳֱ½Ó·ÃÎÊʹµÃºÜ¶à¸ü¸ß½×µÄ¹¦ÄܺÜÄÑʵÏÖ£¬ÀýÈ磬ϸÁ£¶È£¨Ð¡ÓÚÎļþÁ£¶È£©µÄȨÏÞ¹ÜÀí¡¢Í³Ò»»¯µÄÎļþ¹ÜÀíºÍ¶Áд½Ó¿ÚÉý¼¶Ò²Ê®·ÖÀ§ÄÑ£¨ÐèÒªÍê³Éÿһ¸ö·ÃÎÊÎļþµÄÒýÇæÉý¼¶£¬²ÅËãÉý¼¶Íê±Ï£©¡£
¶øÊý¾Ý²Ö¿âÓÅÏȵÄÉè¼Æ£¬¸ü¼Ó¹Ø×¢µÄÊÇÊý¾ÝʹÓÃЧÂÊ¡¢´ó¹æÄ£ÏµÄÊý¾Ý¹ÜÀí¡¢°²È« / ºÏ¹æÕâÑùµÄÆóÒµ¼¶³É³¤ÐÔÐèÇó¡£Êý¾Ý¾¹ýͳһµ«¿ª·ÅµÄ·þÎñ½Ó¿Ú½øÈëÊý¾Ý²Ö¿â£¬Êý¾Ýͨ³£Ô¤Ïȶ¨Òå
schema£¬Óû§Í¨¹ýÊý¾Ý·þÎñ½Ó¿Ú»òÕß¼ÆËãÒýÇæ·ÃÎÊ·Ö²¼Ê½´æ´¢ÏµÍ³ÖеÄÎļþ¡£Êý¾Ý²Ö¿âÓÅÏȵÄÉè¼ÆÍ¨¹ý³éÏóÊý¾Ý·ÃÎʽӿÚ
/ ȨÏÞ¹ÜÀí / Êý¾Ý±¾Éí£¬À´»»È¡¸ü¸ßµÄÐÔÄÜ£¨ÎÞÂÛÊÇ´æ´¢»¹ÊǼÆË㣩¡¢±Õ»·µÄ°²È«Ìåϵ¡¢Êý¾ÝÖÎÀíµÄÄÜÁ¦µÈ£¬ÕâЩÄÜÁ¦¶ÔÓÚÆóÒµ³¤Ô¶µÄ´óÊý¾ÝʹÓö¼ÖÁ¹ØÖØÒª£¬ÎÒÃdzÆÖ®Îª³É³¤ÐÔ¡£
ÏÂͼÊÇÕë¶Ô´óÊý¾Ý¼¼ÊõÕ»£¬·Ö±ð±È½ÏÊý¾ÝºþºÍÊý¾Ý²Ö¿â¸÷×ÔµÄÈ¡Éá¡£

ͼ 7. Êý¾ÝºþºÍÊý¾Ý²Ö¿âÔÚ¼¼ÊõÕ»ÉϵĶԱÈ
Áé»îÐԺͳɳ¤ÐÔ£¬¶ÔÓÚ´¦ÓÚ²»Í¬Ê±ÆÚµÄÆóÒµÀ´Ëµ£¬ÖØÒªÐÔ²»Í¬¡£
µ±ÆóÒµ´¦ÓÚ³õ´´½×¶Î£¬Êý¾Ý´Ó²úÉúµ½Ïû·ÑµÄÉúÃüÖÜÆÚ»¹ÐèÒªÒ»¸ö´´ÐÂ̽Ë÷µÄ½×¶Î²ÅÄÜÖð½¥³ÁµíÏÂÀ´£¬ÄÇôÓÃÓÚÖ§³ÅÕâÀàÒµÎñµÄ´óÊý¾Ýϵͳ£¬Áé»îÐԾ͸ü¼ÓÖØÒª£¬Êý¾ÝºþµÄ¼Ü¹¹¸üÊÊÓá£
µ±ÆóÒµÖð½¥³ÉÊìÆðÀ´£¬ÒѾ³ÁµíΪһϵÁÐÊý¾Ý´¦ÀíÁ÷³Ì£¬ÎÊÌ⿪ʼת»¯ÎªÊý¾Ý¹æÄ£²»¶ÏÔö³¤£¬´¦ÀíÊý¾ÝµÄ³É±¾²»¶ÏÔö¼Ó£¬²ÎÓëÊý¾ÝÁ÷³ÌµÄÈËÔ±¡¢²¿ÃŲ»¶ÏÔö¶à£¬ÄÇôÓÃÓÚÖ§³ÅÕâÀàÒµÎñµÄ´óÊý¾Ýϵͳ£¬³É³¤ÐԵĺûµ¾Í¾ö¶¨ÁËÒµÎñÄܹ»·¢Õ¹¶àÔ¶¡£Êý¾Ý²Ö¿âµÄ¼Ü¹¹¸üÊÊÓá£
ºÜ¶àÆóÒµ£¨ÓÈÆäÊÇÐÂÐ˵Ļ¥ÁªÍøÐÐÒµ£©ÕýÔÚ¾ÀúÕâÑùÒ»¸ö´Ó̽Ë÷´´Ðµ½³ÉÊ콨ģµÄ¹ý³Ì¡£ÔÚÕâ¸ö¹ý³ÌÖУ¬ÒòΪÊý¾Ýºþ¼Ü¹¹Ì«¹ýÁé»î¶øÈ±ÉÙ¶ÔÊý¾Ý¼à¹Ü¡¢¿ØÖƺͱØÒªµÄÖÎÀíÊֶΣ¬µ¼ÖÂÔËά³É±¾²»¶ÏÔö¼Ó¡¢Êý¾ÝÖÎÀíЧÂʽµµÍ£¬ÆóÒµÂäÈëÁË¡°Êý¾ÝÕÓÔ󡱵ľ³µØ£¬¼´Êý¾ÝºþÖлã¾ÛÁËÌ«¶àµÄÊý¾Ý£¬·´¶øºÜÄѸßЧÂʵØÌáÁ¶ÕæÕýÓмÛÖµµÄÄDz¿·Ö¡£×îºóÖ»ÓÐÇ¨ÒÆµ½Êý¾Ý²Ö¿âÓÅÏÈÉè¼ÆµÄ´óÊý¾Ýƽ̨£¬²Å½â¾öÁËÒµÎñ³É³¤µ½Ò»¶¨¹æÄ£ºóËù³öÏÖµÄÔËά¡¢³É±¾¡¢Êý¾ÝÖÎÀíµÈÎÊÌâ¡£
°¢Àï°Í°ÍµÄÊý¾ÝÖÐ̨սÂÔ£¬ÕýÊÇÔÚ 2015 Äêǰºó°¢Àï°Í°ÍÈ«¼¯ÍÅÍê³É MaxCompute£¨Êý¾Ý²Ö¿â£©
¶Ô¶à¸ö Hadoop£¨ Êý¾Ýºþ£©µÄÍêÈ«Ìæ»»£¨µÇÔÂÏîÄ¿£©²ÅÖð²½Ðγɵġ£

ͼ 8. Êý¾ÝºþµÄÁé»îÐÔ VS Êý¾Ý²Ö¿âµÄ³É³¤ÐÔµÄʾÒâͼ
ÏÂÒ»´úÑݽø·½Ïò£ººþ²ÖÒ»Ìå
¾¹ý¶ÔÊý¾ÝºþºÍÊý¾Ý²Ö¿âµÄÉîÈë²ûÊöºÍ±È½Ï£¬±¾ÎÄÈÏΪÊý¾ÝºþºÍÊý¾Ý²Ö¿â×÷Ϊ´óÊý¾ÝϵͳµÄÁ½Ìõ²»Í¬ÑݽøÂ·Ïߣ¬Óи÷×ÔÌØÓеÄÓÅÊÆºÍ¾ÖÏÞÐÔ¡£Êý¾ÝºþºÍÊý¾Ý²Ö¿âÒ»¸öÃæÏò³õ´´Óû§ÓѺã¬Ò»¸ö³É³¤ÐÔ¸ü¼Ñ¡£¶ÔÆóÒµÀ´Ëµ£¬Êý¾ÝºþºÍÊý¾Ý²Ö¿âÊÇ·ñ±ØÐëÊÇÒ»¸ö¶þѡһµÄÑ¡ÔñÌ⣿ÊÇ·ñÄÜÓÐÒ»ÖÖ·½°¸Í¬Ê±¼æ¹ËÊý¾ÝºþµÄÁé»îÐÔºÍÔÆÊý¾Ý²Ö¿âµÄ³É³¤ÐÔ£¬½«¶þÕßÓÐЧ½áºÏÆðÀ´ÎªÓû§ÊµÏÖ¸üµÍµÄ×ÜÌåÓµÓгɱ¾£¿
½«Êý²ÖºÍÊý¾ÝºþÈÚºÏÔÚÒ»ÆðÒ²ÊÇÒµ½ç½üÄêµÄÇ÷ÊÆ£¬¶à¸ö²úÆ·ºÍÏîÄ¿¶¼×ö¹ý¶ÔÓ¦µÄ³¢ÊÔ£º
Êý²ÖÖ§³ÖÊý¾Ýºþ·ÃÎÊ
2017 Äê Redshift ÍÆ³ö Redshift Spectrum£¬Ö§³Ö Redsift Êý²ÖÓû§·ÃÎÊ
S3 Êý¾ÝºþµÄÊý¾Ý¡£
2018 Äê°¢ÀïÔÆ MaxCompute ÍÆ³öÍâ°üÄÜÁ¦£¬Ö§³Ö·ÃÎʰüÀ¨ OSS/OTS/RDS Êý¾Ý¿âÔÚÄڵĶàÖÖÍⲿ´æ´¢¡£
µ«ÊÇÎÞÂÛÊÇ Redshift Spectrum »¹ÊÇ MaxCompute µÄÍⲿ±í£¬ÈÔ¾ÉÐèÒªÓû§ÔÚÊý²ÖÖÐͨ¹ý´´½¨Íⲿ±íÀ´½«Êý¾ÝºþµÄ¿ª·Å´æ´¢Â·¾¶ÄÉÈëÊý²ÖµÄ¸ÅÄîÌåϵ¡ª¡ªÓÉÓÚÒ»¸öµ¥´¿µÄ¿ª·Åʽ´æ´¢²¢²»ÄÜ×Ô·¢ÃèÊöÆäÊý¾Ý±¾ÉíµÄ±ä»¯£¬Òò´ËΪÕâЩÊý¾Ý´´½¨Íⲿ±í¡¢Ìí¼Ó·ÖÇø£¨±¾ÖÊÉÏÊÇΪÊý¾ÝºþÖеÄÊý¾Ý½¨Á¢
schema£©ÎÞ·¨ÍêÈ«×Ô¶¯»¯£¨ÐèÒªÈ˹¤»òÕß¶¨ÆÚ´¥·¢ Alter table add partition
»ò msck£©¡£Õâ¶ÔÓÚµÍÆµÁÙʱ²éѯÉÐÄܽÓÊÜ£¬¶ÔÓÚÉú²úʹÓÃÀ´Ëµ£¬Î´ÃâÓÐЩ¸´ÔÓ¡£
Êý¾ÝºþÖ§³ÖÊý²ÖÄÜÁ¦
2011 Ä꣬Hadoop ¿ªÔ´Ìåϵ¹«Ë¾ Hortonworks ¿ªÊ¼ÁË Apache Atlas
ºÍ Ranger Á½¸ö¿ªÔ´ÏîÄ¿µÄ¿ª·¢£¬·Ö±ð¶ÔÓ¦Êý¾ÝѪԵ׷×ÙºÍÊý¾ÝȨÏÞ°²È«Á½¸öÊý²ÖºËÐÄÄÜÁ¦¡£µ«Á½¸öÏîÄ¿·¢Õ¹²¢²»Ëã˳Àû£¬Ö±µ½
2017 Äê²ÅÍê³É·õ»¯£¬Ê±ÖÁ½ñÈÕ£¬ÔÚÉçÇøºÍ¹¤Òµ½çµÄ²¿Êð¶¼»¹Ô¶Ô¶²»¹»»îÔ¾¡£ºËÐÄÔÒòÊÇÊý¾Ýºþ¾ß±¸ÓëÉú¾ãÀ´µÄÁé»îÐÔ¡£ÀýÈç
Ranger ×÷ΪÊý¾ÝȨÏÞ°²È«Í³Ò»¹ÜÀíµÄ×é¼þ£¬ÌìȻҪÇóËùÓÐÒýÇæ¾ùÊÊÅäËü²ÅÄܱ£Ö¤Ã»Óа²È«Â©¶´£¬µ«¶ÔÓÚÊý¾ÝºþÖÐÇ¿µ÷Áé»îµÄÒýÇæ£¬ÓÈÆäÊÇÐÂÒýÇæÀ´Ëµ£¬»áÓÅÏÈʵÏÖ¹¦ÄÜ¡¢³¡¾°£¬¶ø²»ÊǰѶԽÓ
Ranger ×÷ΪµÚÒ»ÓÅÏȼ¶µÄÄ¿±ê£¬Ê¹µÃ Ranger ÔÚÊý¾ÝºþÉϵÄλÖÃÒ»Ö±ºÜÞÏÞΡ£
2018 Ä꣬Nexflix ¿ªÔ´ÁËÄÚ²¿ÔöÇ¿°æ±¾µÄÔªÊý¾Ý·þÎñϵͳ Iceberg£¬Ìṩ°üÀ¨ MVCC£¨¶à°æ±¾²¢·¢¿ØÖÆ£©ÔÚÄÚµÄÔöÇ¿Êý²ÖÄÜÁ¦£¬µ«ÒòΪ¿ªÔ´
HMS ÒѾ³ÉΪÊÂʵ±ê×¼£¬¿ªÔ´°æ±¾µÄ Iceberg ×÷Ϊ²å¼þ·½Ê½¼æÈݲ¢ÅäºÏ HMS£¬Êý²Ö¹ÜÀíÄÜÁ¦´ó´òÕÛ¿Û¡£
2018-2019 Ä꣬Uber ºÍ Databricks Ïà¼ÌÍÆ³öÁË Apache Hudi ºÍ
DeltaLake£¬ÍƳöÔöÁ¿Îļþ¸ñʽÓÃÒÔÖ§³Ö Update/Insert¡¢ÊÂÎñµÈÊý¾Ý²Ö¿â¹¦ÄÜ¡£Ð¹¦ÄÜ´øÀ´Îļþ¸ñʽÒÔ¼°×éÖ¯ÐÎʽµÄ¸Ä±ä£¬´òÆÆÁËÊý¾ÝºþÔÓжàÌ×ÒýÇæÖ®¼ä¹ØÓÚ¹²Óô洢µÄ¼òµ¥Ô¼¶¨¡£Îª´Ë£¬Hudi
ΪÁËά³Ö¼æÈÝÐÔ£¬²»µÃ²»·¢Ã÷ÁËÖîÈç Copy-On-Write¡¢Merge-On-Read Á½ÖÖ±í£¬Snapshot
Query¡¢Incremental Query¡¢Read Optimized Query ÈýÖÖ²éѯÀàÐÍ£¬²¢¸ø³öÁËÒ»¸öÖ§³Ö¾ØÕó£¨Èçͼ
9£©£¬¼«´óÌáÉýÁËʹÓõĸ´ÔÓ¶È¡£

ͼ 9. Hudi Support Matrix£¨À´×ÔÍøÂ磩
¶ø DeltaLake ÔòÑ¡ÔñÁ˱£Ö¤ÒÔ Spark ΪÖ÷ÒªÖ§³ÖÒýÇæµÄÌåÑ飬Ïà¶ÔÎþÉü¶ÔÆäËûÖ÷Á÷ÒýÇæµÄ¼æÈÝÐÔ¡£Õâ¶ÔÆäËûÒýÇæ·ÃÎÊÊý¾ÝºþÖеÄ
Delta Êý¾ÝÔì³ÉÁËÖî¶àµÄÏÞÖÆºÍʹÓò»±ã¡£ÀýÈç Presto ҪʹÓà DeltaLake ±í£¬ÐèÒªÏÈÓÃ
Spark ´´½¨ manifest Îļþ£¬ÔÙ¸ù¾Ý manifest ´´½¨Íⲿ±í£¬Í¬Ê±»¹Òª×¢Òâ manifest
ÎļþµÄ¸üÐÂÎÊÌ⣻¶ø Hive ҪʹÓà DeltaLake ±íÏÞÖÆ¸ü¶à£¬²»½ö»áÔì³ÉÔªÊý¾Ý²ãÃæµÄ»ìÂÒ£¬ÉõÖÁ²»ÄÜд±í¡£
ÉÏÊöÔÚÊý¾Ýºþ¼Ü¹¹ÉϽ¨Á¢Êý²ÖµÄÈô¸É³¢ÊÔ²¢²»³É¹¦£¬Õâ±íÃ÷Êý²ÖºÍÊý¾ÝºþÓб¾ÖʵÄÇø±ð£¬ÔÚÊý¾ÝºþÌåϵÉϺÜÄѽ¨³ÉÍêÉÆµÄÊý²Ö¡£Êý¾ÝºþÓëÊý¾Ý²Ö¿âÁ½ÕߺÜÄÑÖ±½ÓºÏ²¢³ÉÒ»Ì×ϵͳ£¬Òò´Ë×÷ÕßÍŶӣ¬¿ªÊ¼»ùÓÚÈÚºÏÁ½ÕßµÄ˼·½øÐÐ̽Ë÷¡£Ìá³öÏÂÒ»´úµÄ´óÊý¾Ý¼¼ÊõÑݽø·½Ïò£ººþ²ÖÒ»Ì壬¼´´òͨÊý¾Ý²Ö¿âºÍÊý¾ÝºþÁ½Ì×Ìåϵ£¬ÈÃÊý¾ÝºÍ¼ÆËãÔÚºþºÍ²ÖÖ®¼ä×ÔÓÉÁ÷¶¯£¬´Ó¶ø¹¹½¨Ò»¸öÍêÕûµÄÓлúµÄ´óÊý¾Ý¼¼ÊõÉú̬Ìåϵ¡£
ÎÒÃÇÈÏΪ£¬¹¹½¨ºþ²ÖÒ»ÌåÐèÒª½â¾öÈý¸ö¹Ø¼üÎÊÌ⣺
ºþºÍ²ÖµÄÊý¾Ý / ÔªÊý¾ÝÎÞ·ì´òͨ£¬ÇÒ²»ÐèÒªÓû§È˹¤¸ÉÔ¤£»
ºþºÍ²ÖÓÐͳһµÄ¿ª·¢ÌåÑ飬´æ´¢ÔÚ²»Í¬ÏµÍ³µÄÊý¾Ý£¬¿ÉÒÔͨ¹ýÒ»¸öͳһµÄ¿ª·¢ / ¹ÜÀíÆ½Ì¨²Ù×÷£»
Êý¾ÝºþÓëÊý¾Ý²Ö¿âµÄÊý¾Ý£¬ÏµÍ³¸ºÔð×Ô¶¯ caching/moving£¬ÏµÍ³¿ÉÒÔ¸ù¾Ý×Ô¶¯µÄ¹æÔò¾ö¶¨ÄÄЩÊý¾Ý·ÅÔÚÊý²Ö£¬ÄÄЩ±£ÁôÔÚÊý¾Ýºþ£¬½ø¶øÐγÉÒ»Ì廯£»ÎÒÃǽ«ÔÚÏÂÒ»ÕÂÏêϸ½éÉܰ¢ÀïÔÆºþ²ÖÒ»Ìå·½°¸ÈçºÎ½â¾öÕâÈý¸öÎÊÌâ¡£
°¢ÀïÔÆºþ²ÖÒ»Ìå·½°¸
ÕûÌå¼Ü¹¹
°¢ÀïÔÆ MaxCompute ÔÚÔÓеÄÊý¾Ý²Ö¿â¼Ü¹¹ÉÏ£¬ÈÚºÏÁË¿ªÔ´Êý¾ÝºþºÍÔÆÉÏÊý¾Ýºþ£¬×îÖÕʵÏÖÁ˺þ²ÖÒ»Ì廯µÄÕûÌå¼Ü¹¹£¨Í¼
10£©¡£Ôڸüܹ¹ÖУ¬¾¡¹Üµ×²ã¶àÌ״洢ϵͳ²¢´æ£¬µ«Í¨¹ýͳһµÄ´æ´¢·ÃÎʲãºÍͳһµÄÔªÊý¾Ý¹ÜÀí£¬ÏòÉϲãÒýÇæÌṩһÌåµÄ·â×°½Ó¿Ú£¬Óû§¿ÉÒÔͬʱ²éѯÊý¾Ý²Ö¿âºÍÊý¾ÝºþÖÐµÄ±í¡£

ͼ 10. °¢ÀïÔÆºþ²ÖÒ»ÌåÕûÌå¼Ü¹¹
Õë¶ÔÉÏÎÄÌáµ½µÄºþ²ÖÒ»ÌåµÄÈý¸ö¹Ø¼üÎÊÌ⣬MaxCompute ʵÏÖÁËÒÔÏ 4 ¸ö¹Ø¼ü¼¼Êõµã¡£
¿ìËÙ½ÓÈë
MaxCompute È«ÐÂ×Ô´´ PrivateAccess ÍøÂçÁ¬Í¨¼¼Êõ£¬ÔÚ×ñÑÔÆÐéÄâÍøÂ簲ȫ±ê×¼µÄǰÌáÏ£¬ÊµÏÖ¶à×⻧ģʽÏÂÌØ¶¨Óû§×÷Òµ¶¨ÏòÓë
IDC/ECS/EMR Hadoop ¼¯ÈºÍøÂçÕûÌå´òͨÄÜÁ¦£¬¾ßÓеÍÑÓ³Ù¡¢¸ß¶ÀÏí´ø¿íµÄÌØµã¡£
¾¹ý¿ìËÙ¼òµ¥µÄ¿ªÍ¨¡¢°²È«ÅäÖò½Öè¼´¿É½«Êý¾ÝºþºÍ¹ºÂòµÄ MaxCompute Êý²ÖÏàÁ¬Í¨¡£
ͳһÊý¾Ý / ÔªÊý¾Ý¹ÜÀí
MaxCompute ʵÏÖºþ²ÖÒ»Ì廯µÄÔªÊý¾Ý¹ÜÀí£¬Í¨¹ý DB ÔªÊý¾ÝÒ»¼üÓ³Éä¼¼Êõ£¬ÊµÏÖÊý¾ÝºþºÍ MaxCompute
Êý²ÖµÄÔªÊý¾ÝÎÞ·ì´òͨ£¬ÎÞÐëÁª°î²éѯ·½Ê½ÀïµÄÈ˹¤²Ù×÷¡£MaxCompute ͨ¹ýÏòÓû§¿ª·Å´´½¨ external
project µÄÐÎʽ£¬½«Êý¾Ýºþ HiveMetaStore ÖеÄÕû¸ö database Ö±½ÓÓ³ÉäΪ
MaxCompute µÄ project£¬¶Ô Hive Database µÄ¸Ä¶¯»áʵʱ·´Ó¦ÔÚÕâ¸ö project
ÖС£Óë´Ëͬʱ£¬°¢ÀïÔÆ EMR Êý¾Ýºþ½â¾ö·½°¸ÔÚ½ñÄêÔÆÆÜ´ó»áÒ²ÍÆ³öÁË Data Lake Formation£¬ºþ²ÖÒ»Ìå·½°¸Ò²»áÖ§³Ö¶Ô¸ÃÊý¾ÝºþÖеÄͳһԪÊý¾Ý·þÎñµÄÒ»¼üÓ³ÉäÄÜÁ¦¡£
MaxCompute ʵÏÖºþ²ÖÒ»Ì廯µÄ´æ´¢·ÃÎʲ㣬²»½öÖ§³ÖÄÚÖÃÓÅ»¯µÄ´æ´¢ÏµÍ³£¬Ò²ÎÞ·ìµÄÖ§³ÖÍⲿ´æ´¢ÏµÍ³¡£¼ÈÖ§³Ö
HDFS Êý¾Ýºþ£¬Ò²Ö§³Ö OSS ÔÆ´æ´¢Êý¾Ýºþ£¬¿É¶Áд¸÷ÖÖ¿ªÔ´Îļþ¸ñʽ¡£
ͳһ¿ª·¢ÌåÑé
Êý¾ÝºþÀïµÄ Hive DataBase Ó³ÉäΪ MaxCompute external project£¬ºÍÆÕͨ
project ±ðÎÞ¶þÖ£¬Í¬ÑùÏíÊÜ MaxCompute Êý²ÖÀïµÄÊý¾Ý¿ª·¢¡¢×·×ٺ͹ÜÀí¹¦ÄÜ¡£»ùÓÚ DataWorks
Ç¿´óµÄÊý¾Ý¿ª·¢ / ¹ÜÀí / ÖÎÀíÄÜÁ¦£¬ÌṩͳһµÄºþ²Ö¿ª·¢ÌåÑ飬½µµÍÁ½Ì×ϵͳµÄ¹ÜÀí³É±¾¡£
MaxCompute ¸ß¶È¼æÈÝ Hive/Spark£¬Ö§³ÖÒ»Ì×ÈÎÎñ¿ÉÒÔÔÚºþ²ÖÁ½Ì×ÌåϵÖÐÁé»îÎÞ·ìµÄÔËÐС£
ͬʱ£¬MaxCompute Ò²Ìṩ¸ßЧµÄÊý¾ÝͨµÀ½Ó¿Ú£¬¿ÉÒÔÈÃÊý¾ÝºþÖÐµÄ Hadoop Éú̬ÒýÇæÖ±½Ó·ÃÎÊ£¬ÌáÉýÁËÊý²ÖµÄ¿ª·ÅÐÔ¡£
×Ô¶¯Êý²Ö
ºþ²ÖÒ»ÌåÐèÒªÓû§¸ù¾Ý×ÔÉí×ʲúʹÓÃÇé¿ö½«Êý¾ÝÔÚºþºÍ²ÖÖ®¼ä½øÐкÏÀíµÄ·Ö²ãºÍ´æ´¢£¬ÒÔ×î´ó»¯ºþºÍ²ÖµÄÓÅÊÆ¡£MaxCompute
¿ª·¢ÁËÒ»Ì×ÖÇÄÜ cache ¼¼Êõ£¬¸ù¾Ý¶ÔÀúÊ·ÈÎÎñµÄ·ÖÎöÀ´Ê¶±ðÊý¾ÝÀäÈȶȣ¬´Ó¶ø×Ô¶¯ÀûÓÃÏÐʱ´ø¿í½«Êý¾ÝºþÖеÄÈÈÊý¾ÝÒÔ¸ßЧÎļþ¸ñʽ
cache ÔÚÊý¾Ý²Ö¿âÖУ¬½øÒ»²½¼ÓËÙÊý¾Ý²Ö¿âµÄºóÐøÊý¾Ý¼Ó¹¤Á÷³Ì¡£²»½ö½â¾öÁ˺þ²ÖÖ®¼äµÄ´ø¿íÆ¿¾±ÎÊÌ⣬Ҳ´ïµ½ÁËÎÞÐëÓû§²ÎÓë¼´¿ÉʵÏÖÊý¾Ý·Ö²ã¹ÜÀí
/ ÖÎÀíÒÔ¼°ÐÔÄܼÓËÙµÄÄ¿µÄ¡£
¹¹½¨ºþ²ÖÒ»Ì廯µÄÊý¾ÝÖÐ̨
»ùÓÚ MaxCompute ºþ²ÖÒ»Ìå¼¼Êõ£¬DataWorks ½øÒ»²½¶Ôºþ²ÖÁ½Ì×ϵͳ½øÐзâ×°£¬ÆÁ±ÎºþºÍ²ÖÒì¹¹¼¯ÈºÐÅÏ¢£¬¹¹½¨Ò»Ì廯µÄ´óÊý¾ÝÖÐ̨£¬ÊµÏÖÒ»Ì×Êý¾Ý¡¢Ò»Ì×ÈÎÎñÔÚºþºÍ²ÖÖ®ÉÏÎÞ·ìµ÷¶ÈºÍ¹ÜÀí¡£
ÆóÒµ¿ÉÒÔʹÓúþ²ÖÒ»Ì廯µÄÊý¾ÝÖÐ̨ÄÜÁ¦£¬ÓÅ»¯Êý¾Ý¹ÜÀí¼Ü¹¹£¬³ä·ÖÈÚºÏÊý¾ÝºþºÍÊý¾Ý²Ö¿â¸÷×ÔÓÅÊÆ¡£Ê¹ÓÃÊý¾Ýºþ×ö¼¯ÖÐʽµÄÔʼÊý¾Ý´æ´¢£¬·¢»ÓÊý¾ÝºþµÄÁé»îºÍ¿ª·ÅÓÅÊÆ¡£ÓÖͨ¹ýºþ²ÖÒ»Ìå¼¼Êõ½«ÃæÏòÉú²úµÄ¸ßƵÊý¾ÝºÍÈÎÎñ£¬ÎÞ·ìµ÷¶Èµ½Êý¾Ý²Ö¿âÖУ¬ÒԵõ½¸üºÃµÄÐÔÄܺͳɱ¾£¬ÒÔ¼°ºóÐøÒ»ÏµÁÐÃæÏòÉú²úµÄÊý¾ÝÖÎÀíºÍÓÅ»¯£¬×îÖÕÈÃÆóÒµÔڳɱ¾ºÍЧÂÊÖ®¼äÕÒµ½×î¼Ñƽºâ¡£¼ÈÊÊÓÃÓÚȫй¹½¨´óÊý¾Ýƽ̨µÄÆóÒµ£¬Ò²ÊʺÏÒÑÓдóÊý¾Ýƽ̨µÄÆóÒµ½øÐмܹ¹Éý¼¶£¬¿ÉÒÔ±£»¤ÏÖÓÐͶ×ʺÍʵÏÖ×ʲúÀû¾É¡£

ͼ 11. DataWorks ºþ²ÖÒ»Ì廯Êý¾ÝÖÐ̨
ÐÂÀË΢²©µÄ¡±ºþ²ÖÒ»Ìå¡°Ó¦ÓÃ
΢²©»úÆ÷ѧϰƽ̨ÍŶӣ¬Ö÷Òª×öÉ罻ýÌåÁìÓòÀïµÄÍÆ¼öÖ÷Òª×öÉ罻ýÌåÁìÓòÀïµÄÍÆ¼ö / ÅÅÐò¡¢Îı¾ / ͼÏñ·ÖÀà¡¢·´À¬»ø
/ ·´×÷±×µÈ¼¼Êõ¡£¼¼Êõ¼Ü¹¹ÉÏÖ÷ÒªÎ§ÈÆ¿ªÔ´ Hadoop Êý¾Ýºþ½â¾ö·½°¸£¬Ò»·Ý HDFS ´æ´¢ + ¶àÖÖ¼ÆËãÒýÇæ£¨hive¡¢spark¡¢flink£©£¬ÒÔÂú×ãÒÔ
AI ΪÖ÷µÄ¶à¼ÆË㳡¾°ÐèÇó¡£
µ«Î¢²©×÷Ϊ¹úÄÚ Top µÄÉ罻ýÌåÓ¦Ó㬵±Ç°µÄÒµÎñÌåÁ¿ºÍ¸´ÔÓÐÔÒÑÈ»½øÈëµ½¿ªÔ´¡°ÎÞÈËÇø¡±£¬¿ªÔ´Êý¾Ýºþ·½°¸ÔÚÐÔÄܺͳɱ¾·½Ãæ¶¼ÎÞ·¨Âú×ã΢²©µÄÒªÇó¡£Î¢²©½èÖú°¢Àï°Í°Í·ÉÌì´óÊý¾ÝºÍ
AI ƽ̨ÄÜÁ¦£¨MaxCompute+PAI+DataWorks £©£¬½â¾öÁ˳¬´ó¹æÄ£ÏµÄÌØÕ÷¹¤³Ì¡¢Ä£ÐÍѵÁ·ÒÔ¼°¾ØÕó¼ÆËãµÄÐÔÄÜÆ¿¾±ÎÊÌ⣬½ø¶øÐγÉÁ˰¢Àï°Í°Í
MaxCompute ƽ̨£¨Êý²Ö£©+ ¿ªÔ´Æ½Ì¨£¨Êý¾Ýºþ£©¹²´æµÄ¸ñ¾Ö¡£
΢²©Ï£Íû½èÖúÕâÁ½Ì×Òì¹¹µÄ´óÊý¾Ýƽ̨£¬¼È±£³ÖÃæÏò AI µÄ¸÷ÀàÊý¾ÝºÍ¼ÆËãµÄÁé»îÐÔ£¬ÓÖ½â¾ö³¬´ó¹æÄ£ÏµļÆËãºÍËã·¨µÄÐÔÄÜ
/ ³É±¾ÎÊÌâ¡£µ«ÒòΪÕâÁ½Ì×´óÊý¾Ýƽ̨ÔÚ¼¯Èº²ãÃæÍêÈ«ÊǸîÁѵģ¬Êý¾ÝºÍ¼ÆËãÎÞ·¨ÔÚÁ½¸öƽ̨Àï×ÔÓÉÁ÷¶¯£¬ÎÞÐÎÖ®ÖÐÔö¼ÓÁË´óÁ¿µÄÊý¾ÝÒÆ¶¯ºÍ¼ÆË㿪·¢µÈ³É±¾£¬½ø¶øÖÆÔ¼ÁËÒµÎñµÄ·¢Õ¹¡£
Ö÷ÒªµÄÍ´µãÊÇ£º
°²ÅÅרÈËרÏÔðѵÁ·Êý¾Ýͬ²½£¬¹¤×÷Á¿¾Þ´ó£»
ѵÁ·Êý¾ÝÌåÁ¿´ó£¬µ¼ÖºÄʱ¶à£¬ÎÞ·¨Âú×ãʵʱѵÁ·µÄÒªÇó£»
ÐÂд SQL Êý¾Ý´¦Àí query£¬ÎÞ·¨¸´Óà Hive SQL ÔÓÐ query¡£

ͼ 12. ÐÂÀË΢²©ÒµÎñÍ´µãʾÒâͼ
ΪÁ˽â¾öÉÏÊöµÄÍ´µãÎÊÌ⣬°¢ÀïÔÆ²úÆ·ÍŶӺÍ΢²©»úÆ÷ѧϰƽ̨ÍŶÓÁªºÏ¹²½¨ºþ²ÖÒ»Ìåм¼Êõ£¬´òͨÁ˰¢Àï°Í°Í
MaxCompute ÔÆÊý²ÖºÍ EMR Hadoop Êý¾Ýºþ£¬¹¹½¨ÁËÒ»¸ö¿çºþºÍ²ÖµÄ AI ¼ÆËãÖÐ̨¡£MaxCompute
²úÆ·È«ÃæÉý¼¶ÍøÂç»ù´¡ÉèÊ©£¬´òͨÓû§ VPC ˽Óò£¬ÇÒÒÀÍÐ Hive Êý¾Ý¿âÒ»¼üÓ³ÉäºÍÇ¿´óÍêÉÆµÄ SQL/PAI
ÒýÇæÄÜÁ¦£¬½« MaxCompute ÔÆÊý²ÖºÍ EMR Hadoop Êý¾Ýºþ¼¼ÊõÌåϵÎÞ·ì¶Ô½Ó£¬ÊµÏÖºþºÍ²ÖµÄͳһÇÒÖÇÄÜ»¯¹ÜÀíºÍµ÷¶È¡£

ͼ 13. ΢²©ºþ²ÖÒ»Ìå¼Ü¹¹Í¼
ÕâÌ×Ìåϵ²»½öÈÚºÏÁËÊý¾ÝºþºÍÊý¾Ý²Ö¿âµÄÓÅÊÆ£¬ÔÚÁé»îÐÔºÍЧÂÊÉÏÕÒµ½×î¼Ñƽºâ£¬»¹¿ìËÙ¹¹½¨ÁËÒ»Ì×ͳһµÄ AI
¼ÆËãÖÐ̨£¬¼«´óÌáÉý¸Ã»úÆ÷ѧϰƽ̨ÍŶӵÄÒµÎñÖ§³ÅÄÜÁ¦¡£ÎÞÐë½øÐÐÊý¾Ý°áǨºÍ×÷ÒµÇ¨ÒÆ£¬¼´¿É½«Ò»Ì××÷ÒµÎÞ·ìÁé»îµ÷¶ÈÔÚ
MaxCompute ¼¯ÈººÍ EMR ¼¯ÈºÖС£
SQL Êý¾Ý´¦ÀíÈÎÎñ±»¹ã·ºÔËÐе½ MaxCompute ¼¯Èº£¬ÐÔÄÜÓÐÃ÷ÏÔÌáÉý¡£»ùÓÚ°¢Àï°Í°Í PAI
·á¸»ÇÒÇ¿´óµÄËã·¨ÄÜÁ¦£¬·â×°³ö¶àÖÖÌù½üÒµÎñ³¡¾°µÄËã·¨·þÎñ£¬Âú×ã¸ü¶àµÄÒµÎñÐèÇó¡£
MaxCompute ÔÆÔÉúµÄµ¯ÐÔ×ÊÔ´ºÍ EMR ¼¯Èº×ÊÔ´Ðγɻ¥²¹£¬Á½Ì×Ìåϵ֮¼ä½øÐÐ×ÊÔ´µÄÏ÷·åÌî¹È£¬²»½ö¼õÉÙ×÷ÒµÅŶӣ¬»¹ÄܽµµÍÕûÌå³É±¾¡£
×Ü ½á
Êý¾ÝºþºÍÊý¾Ý²Ö¿â£¬ÊÇÔÚ½ñÌì´óÊý¾Ý¼¼ÊõÌõ¼þϹ¹½¨·Ö²¼Ê½ÏµÍ³µÄÁ½ÖÖÊý¾Ý¼Ü¹¹Éè¼ÆÈ¡Ïò£¬Òª¿´Æ½ºâµÄ·½ÏòÊǸüÆ«ÏòÁé»îÐÔ»¹Êdzɱ¾¡¢ÐÔÄÜ¡¢°²È«¡¢ÖÎÀíµÈÆóÒµ¼¶ÌØÐÔ¡£µ«ÊÇÊý¾ÝºþºÍÊý¾Ý²Ö¿âµÄ±ß½çÕýÔÚÂýÂýÄ£ºý£¬Êý¾Ýºþ×ÔÉíµÄÖÎÀíÄÜÁ¦¡¢Êý¾Ý²Ö¿âÑÓÉìµ½Íⲿ´æ´¢µÄÄÜÁ¦¶¼ÔÚ¼ÓÇ¿¡£
ÔÚÕâÑùµÄ±³¾°Ö®Ï£¬MaxCompute ÂÊÏÈÌá³öºþ²ÖÒ»Ì壬Ϊҵ½çºÍÓû§Õ¹ÏÖÁËÒ»ÖÖÊý¾ÝºþºÍÊý¾Ý²Öºþ»¥Ïಹ³ä£¬Ðͬ¹¤×÷µÄ¼Ü¹¹¡£ÕâÑùµÄ¼Ü¹¹Í¬Ê±ÎªÓû§ÌṩÁËÊý¾ÝºþµÄÁé»îÐÔºÍÊý¾Ý²Ö¿âµÄÖî¶àÆóÒµ¼¶ÌØÐÔ£¬½«Óû§Ê¹ÓôóÊý¾ÝµÄ×ÜÌåÓµÓгɱ¾½øÒ»²½½µµÍ£¬ÎÒÃÇÈÏΪÊÇÏÂÒ»´ú´óÊý¾Ýƽ̨µÄÑݽø·½Ïò¡£
|