±à¼ÍƼö: |
±¾ÎÄϵͳÐÔµØÏòÄú½éÉÜÁËÊý¾Ýƽ̨µÄÄ£ÐÍ¡¢»ñȡģʽ¡¢»ñÈ¡ÒýÇæ·þÎñ¡¢Êý¾Ýºþ¼´·þÎñ¡¢ÒÔ¼°Êý¾ÝºþµÄ¹¦ÓÃÓë½ø»¯¡££¬Ï£Íû¶ÔÄúµÄѧϰÓÐËù°ïÖú¡£
±¾ÎÄÀ´×ÔÓÚ51CTO£¬ÓÉAlice±à¼¡¢ÍƼö¡£ |
|
Ò»Ìáµ½ÆóÒµÊý¾Ýƽ̨£¬ÈËÃÇÍùÍùÏëµ½µÄÊǸ÷ÖÖÊý¾ÝĿ¼½á¹¹¡¢Êý¾ÝÖÊÁ¿¼à¿Ø¡¢CI/CD¡¢ÒÔ¼°Êý¾ÝÃñÖ÷¹«ÖÚ»¯(Data
Democratization£¬¼´£ºÌṩÊý¾Ý²éѯµÄ¹«¹²ÇþµÀ)µÈ·½Ãæ¡£ËüÃÇÔÚÂú×ãÓû§µÄ¶àÔª»¯ÐèÇóÓëÌåÑéµÄͬʱ£¬²»¶Ïͨ¹ýºÏÀíµÄ¼Ü¹¹¡¢ÒÔ¼°¸ßЧµÄ·Ö¼ðÊֶΣ¬À´³ÖÐøÌá¸ßÆä×ÔÉíµÄÖÊÁ¿ºÍʹÓüÛÖµ¡£²»¹ý£¬ÎÒÃÇÔÚÊý¾Ý»ñÈ¡¡¢¹ýÂË¡¢ÒÔ¼°·ÖÎö»·½Ú£¬ÍùÍù»áÊܵ½ÒòËØµÄÏÞÖÆ£º
1.ÍŶӳÉÔ±µÄ֪ʶ´¢±¸¡£
2.ÔÚÔÆ·þÎñÖеÄʹÓÃЧÂÊ¡£
3.ÓëÏÖÓÐÒµÎñºÍ²úÆ·µÄ¼¯³É¶È¡£
4.×ÜÌå´¦Öõijɱ¾¡£

×Ô¶¨ÒåµÄÊý¾Ý»ñÈ¡ÒýÇæ
»ùÓÚÉÏÊö¿¼ÂÇ£¬ÆóÒµÔڴÓ뼯³ÉÊý¾Ýƽ̨ʱ£¬ÍùÍù»áÒÔ¿ªÔ´¼¼Êõ×÷Ϊƽ̨µÄºËÐÄ£¬ÒÔÁ÷ʽºÍÅú´¦ÀíµÄ·½Ê½ÌṩÊý¾Ý·þÎñ£¬²¢ÊÔͼ½«Êý¾Ý·þÎñ²ãÓëÊý¾Ý³Ö¾Ã»¯ÒýÇæ½øÐнâñî¡£µ±È»£¬ËûÃÇÒ²¿ÉÒÔÒ»¹ÉÄԵؽ«ÕâЩÈÎÎñ½»¸øÖîÈ磺BigQuery¡¢Redshift¡¢ÒÔ¼°SnowflakeµÈÔöÖµ·þÎñÌṩÉÌ¡¢¼°ÆäÌØ¶¨²úÆ·À´ÊµÏÖ¡£

Êý¾Ýƽ̨¼Ü¹¹µÄʾÀý
Êý¾ÝÄ£ÐÍ(ÓòÇý¶¯Éè¼Æ)
˵µ½Êý¾Ýƽ̨£¬ËüÍùÍùÐèҪȫ¾ÖÐÔµÄÊý¾ÝÄ£ÐͶ¨Ò塣Ŀǰ£¬Ðí¶àÆóÒµ¡¢ÌرðÊÇһЩ¼¼ÊõÀàÐ͵Ĺ«Ë¾£¬¶¼»á²ÉÓÃÓòÇý¶¯Éè¼Æ(Domain
Driven Design£¬DDD)µÄ·½·¨¡£¸Ã·½·¨Í¨³£»áÉæ¼°µ½ÈçÏ·½Ã棺
Éú²úÕß(producers)ºÍÏû·ÑÕß(consumers)¡£ÆäÖУ¬Ïû·ÑÕßÓòÊÇÓÉÀ´×Ô¶à¸öÉú²úÕßÓòµÄÊý¾Ý×éºÏ¶ø³É¡£
ÌØ¶¨µÄÊý¾Ý¿ÉÒÔÓµÓÐÒ»¸öÖ÷ÓòºÍÒ»¸ö¸¨Óò¡£
Êý¾ÝÓòµÄ×éÖ¯½á¹¹²¢·ÇÒ»³É²»±ä£¬¿ÉÄÜ»á³öÏÖ¸ü¸Ä¡¢ºÏ²¢¡¢ÑÝ»¯¡¢ÒÔ¼°ÒƳý¡£
ÔÚÊý¾ÝÓò´¦Ö÷½Ã棬ÎÒÃdz£Óõķ½·¨ÊÇ×ñÑ×Ôµ×ÏòÉϵÄÉè¼ÆÔÔò¡£ÕâÒâζ×Å£º´ÓÉú²úÕßµÄÊý¾ÝÓò¿ªÊ¼£¬Êý¾Ý²úÆ·½«±»ÊÓΪ×Ô¼ºµÄÏû·ÑÕß½øÐй¹½¨¡£Òò´Ë£¬Êý¾Ýƽ̨ÐèҪΪËüÃÇÌṩËùÓбØÒªµÄ¹¤¾ß¡¢·þÎñ¡¢Ö§³Ö¡¢±ê×¼»¯Á÷³Ì¡¢ÒÔ¼°¼¯³É¡£

´ÓÉú²úÕßÓòµ½Ïû·ÑÕßÓò(Êý¾Ý¼´²úÆ·)
ÏúÊÛÓòÊÇÏû·ÑÕßÊý¾ÝÓòµÄÒ»¸ö¼«Æä³£¼ûµÄÀý×Ó£¬µ±È»Ò²ÊǷdz£¸´Ôӵġ£ÔÚÄÇЩӵÓжàÇþµÀ¶©µ¥(È磺µç×ÓÉÌÎñ¡¢É罻ýÌ塢ʵÌåµêµÈ)µÄ´ó¹«Ë¾ÖУ¬ÇþµÀºÍ²¿ÃÅÖ®¼äÓйØÏúÊ۵ĸÅÄîËäÈ»ÂÔÓв»Í¬£¬µ«ÊÇËüÍùÍùÊÇÓÉÄÇЩÀ´×Ô¶à¸öÓòµÄÊý¾ÝËù×é³É¡£

ÏúÊÛÓò
ÀýÈ磺ÓÉÓÚÿ¸öÍŶÓËùÐèÒªµÄÊý¾Ý¡¢Êý¾ÝµÄÑéÖ¤¹ý³Ì¡¢ÒÔ¼°ºâÁ¿Ö¸±êÓÐËù²»Í¬£¬Òò´ËµçÉ̲¿ÃźͲÆÎñ²¿ÃŵÄÏúÊÛÊý¾Ý²úÆ·¾Í¿ÉÄܲ»Ò»Ñù¡£
Êý¾ÝµÄ»ñȡģʽ
ÖÚËùÖÜÖª£¬Êý¾Ýƽ̨×î¾ß¼ÛÖµµÄ×ÊÔ´±ãÊÇÊý¾Ý¡£Í¬Ê±£¬Êý¾ÝÒ²ÊÇ×îΪ¸´Ôӵġ£ÎÒÃÇͨ³£ÓÐÁ½ÖÖÉÏ´«Êý¾ÝµÄ·½Ê½£º
Àʽ(Pull)£ººËÐÄÍŶӻùÓÚ¼¯ÖÐʽµÄ¹ÜÀí£¬Í¨¹ý¿ª·¢Êý¾Ý¹ÜµÀ£¬½«Êý¾ÝÒýÈëÆ½Ì¨ÖС£²»¹ý£¬ÓÉÓÚ×î³õÏÊÉÙÓÐÓëÆäËûÍŶӵÄÒÀÀµ¹ØÏµ£¬Òò´Ë¸Ã·½·¨±È½ÏÓÐЧ;µ«Êǵ½Á˺óÆÚ£¬Ôò¿ÉÄÜÏÝÈëÆ¿¾±¡£
ÍÆÊ½(Push)£ºËü¶ÔÓÚÔËÓª¡¢¼Ü¹¹ºÍ·¶Ê½À´ËµÊǾøºÃµÄ·½·¨£¬µ«²»Ò»¶¨ÊÊºÏÆäËûÍŶӡ£ÀýÈ磬·ÖÏúÍŶÓÔÚ·ÖÎöÏúÊÛÊý¾Ýʱ£¬ÐèÒªÏúÊÛÍŶӽ«ËûÃǵÄÊý¾ÝÍÆË͵½Êý¾Ýƽ̨ÖС£¶øÓÉÓÚÏúÊÛÍŶÓÒµÎñ·±Ã¦£¬¶øÇÒÕâ²¢²»ÊÇËûÃǵÄÊ×ÒªÈÎÎñ£¬Òò´Ë·ÖÏúÍŶӿÉÄÜ»áµÈ´ý½Ï³¤µÄʱ¼ä¡£
¿É¼û£¬¡°ÍÆÊ½¡±·½·¨ËäºÃ£¬µ«ÊÇÐí¶à¹«Ë¾ÍùÍùÓÐן÷ÖÖÒÅÁôÏÂÀ´µÄϵͳ£¬ÒÔÖÁÓÚÍŶÓÎÞ·¨¼°Ê±×¼±¸ºÃÊʺÏÍÆË͵ÄÊý¾Ý¡£¶øÍ¨¹ýÌṩ¡°Àʽ¡±·½·¨£¬ÎÒÃÇÔò¿ÉÒÔ¿ª·¢×Ô¶¯»¯µÄÊý¾Ý»ñÈ¡ÒýÇæ·þÎñ¡£
ʲôÊÇÊý¾Ý»ñÈ¡ÒýÇæ·þÎñ(Data Ingestion Engine Service)?
×ܵÄ˵À´£¬ËüÊÇÒ»¸öÎÞÐè´úÂ룬ֻÐè¸÷ÖÖSQLÓï¾äºÍÓ³É䣬¼´¿É´´½¨ETLÁ÷³ÌºÍÊý¾ÝÁ÷³ÌµÄ×ÔÖú·þÎñƽ̨¡£ÆäÄ¿±êÊÇͨ¹ýÌṩ¶àÖÖ·ç¸ñ£¬À´º¸ÇÈçÏ·½Ã棺
ÔÊÐíÍŶÓ×ÔÐн«Êý¾ÝÍÆË͵½½»»»Çø¡£
Ìṩһ¸ö¼¯ÖÐʽµÄºËÐÄÍŶӣ¬Îª·Ç¼¼ÊõÍŶÓÉÏ´«Êý¾Ý¡£
ͨ¹ýÌṩ×ÔÖú·þÎñƽ̨£¬À´¼ò»¯¼¼ÊõÍŶӵÄÊý¾Ý»ñÈ¡¹ý³Ì¡£
Èç¹ûÎÒÃǶÔËùÓÐÀàÐ͵ÄÊý¾Ý»ñÈ¡¹ÜµÀ£¬¶¼²ÉÈ¡ÏàͬµÄ·½·¨£¬½«»áÓµÓÐÒ»ÕûÌ××Ô¶¯»¯µÄÁ¬½ÓÆ÷£¬¿É·½±ãÍŶÓÍÆËÍËûÃǵĸ÷ÖÖÊý¾Ý¡£ÀýÈ磺±ä¸üÊý¾ÝµÄ²¶»ñ£¬¸÷Ààʼþ¡¢¾µÏñ¡¢ÒÔ¼°ÎļþµÈ¡£Ò²¾ÍÊÇ˵£¬Í¨¹ýΪ²úÆ·ËùÓÐÕß¹¹½¨¿ÉÓÃÓÚÊý¾ÝÍÆË͵ÄͨÓÃ×é¼þ£¬ÎÒÃǽ«Äܹ»ÊµÏÖ×Ô¶¯»¯µÄ»ñÈ¡²ã¡£

Åú´¦ÀíµÄÊý¾ÝÁ÷
ÈçÉÏͼËùʾ£¬ÎÒÃDZØÐëÌṩ¸÷ÖÖ¹¤¾ßºÍ±ê×¼»¯µÄÁ÷³Ì(°üÀ¨£ºÊý¾Ý»ñÈ¡ÓëÖÊÁ¿¿ØÖƵÈ)£¬ÒÔÔÊÐíÉú²úÕß½«ËûÃǵÄÊý¾Ý£¬Í¨¹ýWebÃÅ»§»òGitOpsµÈ×Ô¶¯»¯µÄ·½Ê½£¬ÍÆË͵½Êý¾Ýƽ̨ÉÏ¡£
ÏÂÃæ£¬ÎÒÃǽ«ÖصãÌÖÂÛÈçºÎ¿ª·¢Ò»¸ö»ñÈ¡ÒýÇæ¡£
΢·þÎñ¼Ü¹¹Ö®ÍÆËÍ
ʼþÇý¶¯Ð͵Ä΢·þÎñ¼Ü¹¹£¬ÊDZ»Ó¦Óõ½»ùÓÚÊý¾ÝÁ÷µÄ¡°ÍÆËͲßÂÔ(Push Strategy)¡±µÄ×î¼Ñ³¡¾°Ö®Ò»¡£´ËÀà¼Ü¹¹Í¨³£ÊÇ»ùÓÚÖîÈçApache
KafkaµÈ³Ö¾ÃÐÔµÄÏûÏ¢´«µÝϵͳ£¬²¢×ñѵÄÊÇ¡°·¢²¼-¶©ÔÄ(publish-subscribe)¡±µÄͨÐÅģʽ¡£

΢·þÎñ¼Ü¹¹Ä£Ê½
ÈçÉÏͼËùʾ£¬ÕâÖÖģʽÌṩÁËÒ»ÖÖ¿ÉÀ©Õ¹µÄ¡¢ËÉÉ¢ñîºÏµÄ¼Ü¹¹£¬¼´£º
·¢²¼ÕßÏòÖ÷Ìâ(topic)·¢ËÍÒ»ÌõÏûÏ¢¡£
ËùÓÐÒÑ×¢²á¸ÃÖ÷ÌâµÄ¶©ÔÄÕß¶¼»áÊÕµ½´ËÏûÏ¢£¬Ò²¾ÍʵÏÖÁË£ºÊ¼þ±»Ò»´Î²úÉú£¬¶à´ÎÏû·ÑµÄЧ¹û¡£
ÓÉÓÚ·¢²¼ÕߺͶ©ÔÄÕßÖ®¼ä²¢ÎÞÒÀÀµ¹ØÏµ£¬Òò´ËËûÃǵIJÙ×÷??¿ÉÒԱ˴˶ÀÁ¢¡£
ÎÒÃÇ¿ÉÒÔͨ¹ýÌṩ±ê×¼»¯µÄ»ñÈ¡Á¬½ÓÆ÷£¬À´¶©ÔÄ´ËÀàÖ÷Ì⣬²¢½«¸÷ÖÖʼþÒÔ½üºõʵʱµÄ·½Ê½£¬»ñÈ¡µ½ÎÒÃǵÄÊý¾Ýƽ̨¡£µ±È»£¬´ËÀà¼Ü¹¹ÔÚÐÅÏ¢·¶Î§·½Ãæ»á´æÔÚ×ÅÈçÏÂȱÏÝ£º
ÓÉÓÚ³Ö¾ÃÐÔÖ÷Ìâͨ³£¾ßÓлùÓÚʱ¼ä»ò´óСµÄÏÞÖÆ£¬Òò´ËÔÚ³öÏÖ´íÎóʱ£¬ÆäÖØÐ´¦ÀíµÄ¹ý³Ì½ÏΪ¸´ÔÓ¡£
²»¾ß±¸ÖØÐ·¢ËÍÀúÊ·Êý¾ÝµÄÁ÷³Ì¡£
²»ÌṩÕë¶Ô¸÷ÖÖº£Á¿³¡¾°µÄÒì²½Êý¾ÝÖÊÁ¿ÐÔAPI¡£
Êý¾Ýºþ(Data Lake)
ÔÚ´æ´¢Óë·ÖÎöÔʼÊý¾Ý£¬ÒÔ¼°»úÆ÷ѧϰ»·¾³ÖУ¬Ò²¾Í²úÉúÁËÊý¾ÝºþµÄ¸ÅÄî¡£ËüÊÇÒ»ÖÖ»ùÓÚ¶ÔÏó´æ´¢µÄÊý¾Ý´æ´¢¿â£¬Äܹ»·½±ãÎÒÃǽøÐÐÈçÏ´洢£º
À´×Ô¹ØÏµÐÍÊý¾Ý¿âµÄ½á¹¹»¯Êý¾Ý¡£
À´×ÔNoSQL»òÆäËûÀ´Ô´(È磺CSV¡¢XML¡¢JSONµÈ)µÄ°ë½á¹¹»¯Êý¾Ý¡£
·Ç½á¹¹»¯Êý¾ÝºÍ¶þ½øÖÆÊý¾Ý(È磺Îĵµ¡¢ÊÓÆµ¡¢Í¼ÏñµÈ)¡£
Ŀǰ£¬ÔÆ´æ´¢·þÎñ¼ÈÄܹ»ÎªÆµ·±µ÷ÓõÄÊý¾ÝÌṩ¸ßÐÔÄÜÓëµÍÑӳٵĴ¦ÀíÄÜÁ¦£¬ÓÖÄܹ»Îª·ÇƵ·±µ÷ÓõÄÊý¾ÝÌṩµÍ³É±¾µÄ´óÈÝÁ¿´æ´¢¿Õ¼ä¡£Òò´Ë£¬ÎÒÃÇ¿ÉÒÔͨ¹ýÑ¡ÓÃAzure
Data Lake Storage Gen2£¬À´ÎªÔƶÔÏóµÄ´æ´¢ÌṩÈçϹ¦ÄÜ£º
¾í£º¿ÉÒÔ¹ÜÀíº£Á¿Êý¾Ý¡¢PB¼¶ÐÅÏ¢¡¢ÒÔ¼°Ç§Õ×λ(gigabits)µÄÍÌÍÂÁ¿¡£
ÐÔÄÜ£ºÕë¶Ô¸÷ÖÖ´ý·ÖÎöµÄÓÃÀý½øÐÐÓÅ»¯¡£
°²È«ÐÔ£ºÔÊÐí¶ÔĿ¼»òµ¥¸öÎļþÉèÖÃPOSIX(¿ÉÒÆÖ²²Ù×÷ϵͳ½Ó¿Ú£¬Portable Operating
System Interface)ȨÏÞ¡£¼´£ºÊ¹Ó÷þÎñÖ÷ÌåºÍOAuth2.0£¬½«Azure Data
Lake Storage Gen2µÄÎļþϵͳ¹ÒÔØµ½DBFS(Êý¾Ý¿âÎļþϵͳ)ÉÏ¡£
ʼþ£º×÷ΪһÖÖ·þÎñ£¬¿ÉÒÔΪÿ¸öÖ´ÐвÙ×÷(È磺´´½¨ºÍɾ³ýÎļþ)×Ô¶¯Éú³ÉÒ»¸öʼþ¡£Í¨¹ýÕâЩʼþ£¬ÎÒÃÇ¿ÉÒÔÉè¼ÆÊ¼þÇý¶¯µÄÊý¾ÝÁ÷³Ì¡£
ÎÒÃÇÐèÒª¸ù¾ÝÓû§µÄʵ¼ÊÐèÇóºÍÓÃÀý×öµ½£º
Ìṩ¶ÔÓÚÊý¾ÝµÄÖ»¶Á·ÃÎÊȨÏÞ£¬ÒÔ±ãÈÃÊý¾Ýºþ³ÉΪËùÓÐÓû§µÄÊý¾ÝÀ´Ô´£¬ÒÔ¼°µ¥Ò»µÄÊý¾Ý´æ´¢¿â¡£
½á¹¹»¯Êý¾ÝºÍ°ë½á¹¹»¯Êý¾ÝÄܹ»Í¨¹ýÖîÈçDelta LakeµÄ´æ´¢¿â£¬ÒÔÁеĸñʽ´æ´¢¡£
ÈÃÊý¾ÝÄܹ»°´ÕÕÒµÎñÓò½øÐзÖÇø´æ´¢£¬²¢·Ö²¼ÔÚ¶à¸ö¶ÔÏó´æ´¢ÖС£
ÌṩHiveµÄMetastore·þÎñ£¬²¢Í¨¹ýʹÓø÷ÖÖÍⲿ±íÌṩspark-SQLµÄ·ÃÎÊ¡£Õ⽫ÔÊÐíÓû§´ÓÊý¾ÝµÄÎïÀíλÖÃÖгéÏó³öÀ´£¬²¢ÓµÓÐÊý¾ÝµÄµ¥¶À¾µÏñ¡£

Spark-SQLÁ÷¾MariaDB
ÈçÉÏͼËùʾ£¬ÎÒÃÇ¿ÉÒÔʹÓÃÍⲿ¿ªÔ´°æ±¾µÄHive Metastore£¬¶ø·Ç¾ßÓм¯³ÉÏÞÖÆµÄ¹©Ó¦É̹ÜÀí·þÎñ£¬À´×ÔÓɵؼ¯³ÉÈκÎSparkƽ̨»·¾³(È磺Databricks¡¢ClouderaµÈ)¡£
Spark-SQLºÍHiveMetastore
Spark-SQLΪÎÒÃÇÌṩÁËÒ»¸ö·Ö²¼Ê½µÄ²éѯÒýÇæ£¬ÒÔ·½±ãÎÒÃÇÒÔ¸üΪÓÅ»¯µÄ·½Ê½Ê¹Óýṹ»¯Óë°ë½á¹¹»¯Êý¾Ý£¬²¢Ê¹ÓÃÀàËÆÓÚÊý¾ÝĿ¼µÄHive
Metastore¡£Í¨¹ýSQL£¬ÎÒÃÇ¿ÉÒÔ´ÓÈçÏÂλÖòéѯµ½Êý¾Ý£º
Êý¾ÝÖ¡ºÍÊý¾Ý¼¯API¡£
Íⲿ¹¤¾ß£¬ÈçDatabricks Notebooks±ãÊÇÒ»¸öÓû§ÓѺõŤ¾ß¡£ËüÄܹ»ÐÖú·Ç¼¼ÊõÓû§È¥Ïû·ÑÊý¾Ý¡£

Spark-SQLºÍHiveMetastoreµÄÁ÷³Ì
Êý¾Ýºþ¼´·þÎñ(Data Lake as a Service)
»ùÓÚÉÏÊöÀíÂÛÓë֪ʶ»ù´¡£¬ÎÒÃÇ¿ÉÒÔÉè¼ÆºÍ¹¹½¨³ö¾ßÓÐÈçÏÂÌØÕ÷µÄÊý¾Ýºþƽ̨£º
ÆäÊý¾Ý»ñÈ¡ÒýÇæ¸ºÔð»ñÈ¡Êý¾Ý£¬´´½¨ºÍ¹ÜÀíÔÚHive MetastoreµÄÔªÊý¾Ý¡£
ÆäºËÐÄÊÇÓɶÔÏó´æ´¢²ãºÍHive MetastoreÁ½¸öÖ÷Òª×é¼þ¹¹³É£¬ËüÃÇÌṩÁ˼ÆËã²ã¼´·þÎñ(compute
layer as a service)¡£
ÆäÖеļÆËã²ãÊÇÓɼ¯³Éµ½Êý¾ÝºþÖеĶà¸öSparksȺ¼¯×é³É¡£ËüÃÇͨ¹ý¸÷ÖÖSpark×÷Òµ¡¢SQLAnalytics»òDatabrick
NotebookÀ´·ÃÎÊÊý¾Ý¡£

Êý¾Ýºþ¼´·þÎñµÄ¼Ü¹¹
Êý¾Ýºþƽ̨¼´·þÎñÊÇÒ»ÖÖ¶¯Ì¬ÇÒ¿ÉÀ©Õ¹µÄ¼ÆËãÓë·þÎñ²ãÄÜÁ¦¡£ÆäÖУ¬×÷ΪºËÐĵÄSpark¼¯ÈºÊÇÊý¾Ýºþƽ̨µÄ×îС·þÎñĿ¼¡£ÎÒÃǼȿÉÒÔ´´½¨Ò»¸ö7x24µÄÓÀ¾ÃÐÔ¼¯Èº£¬ÓÖ¿ÉÒÔ´´½¨Ò»¸öÁÙʱµÄ¹¤×÷¼¯Èº¡£ÀýÈ磬ÈôÏëΪÊý¾Ý²úÆ·ÍŶÓÌṩɳºÐ·ÖÎö·þÎñ£¬ÎÒÃÇ¿ÉÒÔΪÿ¸ö³ÉÔ±¶¼´´½¨Ò»¸ö°üº¬ÓÐÏàͬÊý¾Ý£¬µ«±Ë´Ë¸ôÀëµÄ¼ÆËã»·¾³¡£¶Ô´Ë£¬ÎÒÃÇÐèҪʵÏÖ£º
¸ù¾ÝSpark¼¼Êõ£¬À´¶¨Òå×é³ÉɳÏä·ÖÎöµÄ×é¼þ¡£
ͨ¹ýWeb·þÎñĿ¼¡¢»ò´úÂ뷽ʽ(Èçgit-ops)£¬Ìṩ×ÔÖúʽµÄ·þÎñ¹¦ÄÜ¡£

×ÔÖúʽµÄ·þÎñ²ã
µ±È»£¬ÉÏͼֻÊÇÒ»¸ö·Ç³£¼òµ¥»¯µÄÊÓͼ£¬ÆäÖв¢Ã»Óж¨Ò尲ȫÐÔ¡¢¸ß¿ÉÓÃÐÔ¡¢ÒÔ¼°Êý¾ÝÖÊÁ¿µÄÏà¹Ø·þÎñ¡£
Êý¾ÝºþÄܹ»Ìṩʲô?
ÈçÏÂͼËùʾ£¬×÷Ϊһ¸ö¿ªÔ´²ã£¬Êý¾ÝºþÌṩÁËACID¹¦ÄÜ£¬²¢È·±£Óû§Äܹ»¿´µ½Ò»ÖÂÐÔµÄÊý¾Ý¡£¸÷ÖÖÊý¾Ý¹ÜµÀ¿ÉÒÔ±»ÓÃÀ´Ë¢ÐÂÊý¾Ý£¬µ«²»»áÓ°ÏìÕýÔÚÔËÐÐÖеÄSpark¹ý³Ì¡£

ACID£ºÔ×ÓÐÔ¡¢Ò»ÖÂÐÔ¡¢¸ôÀëÐÔ¡¢³Ö¾ÃÐÔ
ÆäËûÖØÒªµÄ¹¦ÄÜ»¹°üÀ¨£º
Schemaon-write£ºËüÔÚдÈëÊý¾ÝÊ±Ç¿ÖÆÖ´ÐÐģʽ¼ì²é£¬Èç¹û¼ì²âµ½Ä£Ê½²»Æ¥Å䣬Ôò·µ»Ø×÷ҵʧ°Ü¡£
SchemaEvolution£ºËüÖ§³ÖÖîÈçÌí¼ÓеÄÁеȣ¬Õë¶Ô¼æÈÝÐÔ·½°¸µÄģʽ½ø»¯¡£
Time travel£ºÊý¾Ý°æ±¾¿ØÖƿɷ½±ãÎÒÃǽ«Êý¾Ý×÷Ϊ´úÂë½øÐйÜÀí¡£ÔÚ´úÂë´æ´¢¿âÖУ¬Óû§Äܹ»ÈÃÊý¾Ý¼¯µÄÿ´Î¸ü¸Ä£¬¶¼»áÔÚÆäÕû¸öÉúÃüÖÜÆÚÖÐÉú³ÉеÄÊý¾Ý°æ±¾¡£
Merge£ºÖ§³ÖºÏ²¢¡¢¸üкÍɾ³ý²Ù×÷£¬ÒÔʵÏÖ¸´ÔÓµÄÊý¾Ý»ñÈ¡³¡¾°¡£
Êý¾ÝºþµÄ½ø»¯
ÈçÏÂͼËùʾ£¬´«Í³µÄÊý¾Ýºþ¡¢Êý¾Ý²Ö¿â¡¢ÒÔ¼°Êý¾ÝÖÐÐÄ(Hub)Ö®¼äÓÐןÅÄîÐԺͼ¼ÊõÐÔµÄÇø±ð¡£

Êý¾Ýºþ¡¢Êý¾ÝÖÐÐÄ¡¢Êý¾Ý²Ö¿âͼ±í
Apache HudiΪ´«Í³µÄ¡¢»ùÓÚHadoop¡¢Spark¡¢Parquet¡¢HiveµÈÊý¾Ýºþ¼¼ÊõÉú̬£¬Ìí¼ÓÁËеÄʵÓù¦ÄÜ¡£ÆäÖаüÀ¨£º½«¼ÆËãºÍ´æ´¢²ã½øÐмܹ¹ÉϵĽâñî¡¢ÎÞ·þÎñÆ÷»¯¡¢SQL·ÖÎö¡¢Delta
Engine¡¢ÒÔ¼°DatabricksµÈÐÂÒ»´úµÄÊý¾Ýºþƽ̨¡£¶ø¸ù¾ÝDatabricksµÄÀíÂÛ£¬Lake
House¿ÉÒÔ±»Àí½âΪÐÂÒ»´ú¡¢¸üΪ³ÉÊìµÄÊý¾Ýºþ¡£Ëü°üº¬ÁËÈçÏÂÁ½¸ö²¿·Ö£º
Êý¾ÝÖÐÐÄ

Êý¾ÝÖÐÐÄÁ÷³Ìͼ
ÓÃÓÚÌØ¶¨»ò¼ò»¯³¡¾°µÄÊý¾Ý²Ö¿â

Êý¾Ý²Ö¿âÁ÷³Ìͼ
Ŀǰ£¬Ëæ×ÅÊý¾Ý²Ö¿âµÄÄÜÁ¦µÃµ½ÁË´ó·ùÌáÉý£¬ÖîÈçSnowflake¡¢Bigquery¡¢ÒÔ¼°Oracle
Autonomous Data WarehouseµÈ¼¼Êõ²úÆ·£¬ÔÚÊý¾Ý·Ö·¢µÈ·½Ãæ¶¼±íÏÖ³öÁ˲»Ë×µÄÐÔÄÜ¡£
С½á
×ܵÄ˵À´£¬½áºÏÁËKafkaµÈʼþÖÐÐĵÄÐÂÒ»´úÊý¾Ýºþ£¬ÊÇÎÒÃǹ¹½¨Êý¾Ýƽ̨ºËÐĵÄÓÅÏÈÑ¡Ôñ¡£Ëü×÷ΪһÏî³ÉÊìµÄ¼¼Êõ£¬²»µ«¿ªÔ´¡¢³ÖÐø½ø»¯£¬¶øÇÒ¾ßÓм«¾ß¾ºÕùÁ¦µÄÐԼ۱ȡ£ÎÒÃÇ¿ÉÒÔ½«Æä²¿Ê𵽸÷ÖÖÔÆ¶Ë·þÎñ»·¾³ÖУ¬ÒÔ¸üºÃµØ·¢¾òÊý¾ÝµÄ¼ÛÖµ¡£
|