คลาวด์เปลี่ยนรายละเอียดที่เปลี่ยนไปบนหัวของมัน
เผยแพร่แล้ว: 2021-12-28วิธีการแปลงข้อมูลทั่วไปของการดึงข้อมูล เปลี่ยนรูปแบบทั้งหมด และโหลด (ETL) กำลังถูกหันมาใช้อย่างรวดเร็วในรูปแบบที่ทันสมัยซึ่งเปิดใช้งานโดยระบบคลาวด์
ค่าใช้จ่ายที่ลดลงของ Cloud ความสามารถในการปรับตัวและการขยายขนาด และความสามารถในการประมวลผลขนาดใหญ่ของคลังความรู้ระบบคลาวด์ ได้ผลักดันให้เกิดการเปลี่ยนแปลงหลัก นั่นคือ ความสามารถในการโหลดข้อเท็จจริงทั้งหมดลงในคลาวด์ก่อนจะเปลี่ยนแปลง การพัฒนานี้หมายความว่า ETL เพียงอย่างเดียวได้รับการแปลง—เป็นการแยก โหลด และแปลงอย่างสมบูรณ์ หรือ ELT
ELT มอบรางวัลมากมายพร้อมกับการรักษาความละเอียดของข้อเท็จจริง ความต้องการขั้นต่ำสำหรับวิศวกรแอปพลิเคชันที่มีราคาแพง และลดสถานการณ์การพลิกกลับของโครงการอย่างเห็นได้ชัด
การแปลงข้อมูล:
ข้อมูลมีความสำคัญสำหรับองค์กรที่ใช้ข้อมูลดังกล่าวเพื่อจดจำลูกค้าของตน กำหนดผู้มีแนวโน้มจะเป็นลูกค้ารายใหม่และให้ความช่วยเหลือผู้ตัดสินใจด้วยข้อมูลที่สำคัญต่อภารกิจและข้อมูลที่ทันสมัย อย่างไรก็ตาม ในการประเมินข้อมูล จะต้องมีโครงสร้างเป็นอันดับแรก มันต้องการที่จะเข้าใจเพื่อที่จะสามารถดึงเข้าไปในแดชบอร์ด ประสบการณ์ และรูปแบบการทำนาย
ความท้าทายคือข้อเท็จจริงที่ไม่ปรุงแต่งไม่ได้นำเสนอในรูปแบบที่น่าอัศจรรย์และข้อมูลที่ใช้งานได้ นั่นคือจุดที่การแปลงข้อมูลมาถึง รายละเอียดดิบที่ยุ่งเหยิงต้องการที่จะนำกลับมาทำใหม่เพื่อเป็นตัวแทนของความเป็นจริงที่ช่วยให้ผู้คนบรรลุความทะเยอทะยานที่แตกต่างกัน
การเปลี่ยนแปลงนี้สามารถทำได้ก่อนที่ข้อเท็จจริงจะถูกโหลดไปยังที่ตั้ง โดยทั่วไปเป็นคลังสินค้าที่มีรายละเอียด หรือในภายหลัง
มาตรฐาน ETL:
ใน ETL ทั่วไป ข้อมูลจะถูกสร้างใหม่เป็นแบบจำลองความรู้ที่พร้อมสำหรับการตรวจสอบก่อนที่จะโหลด ตามที่ Charles Wang จาก Fivetran กล่าวว่า "การผสมผสานการเปลี่ยนแปลงกับการโหลดลงในขั้นตอนที่แน่นอนสามารถรักษาวิธีการจัดเก็บข้อมูลและการคำนวณได้ แต่ทำให้เกิดความเปราะบางอย่างมากในเวิร์กโฟลว์วิศวกรรมข้อมูล นี่ยังหมายความว่าชุดซอฟต์แวร์ที่ใช้สำหรับการแปลงมักจะสร้างโดยใช้ภาษาสคริปต์ประเภท Python และ Java นอกจากนี้ การเปลี่ยนแปลงใน ETL อาจเรียกร้องให้มีการจัดประสานที่ซับซ้อนโดยใช้เครื่องมือประเภทนี้เป็น Airflow”
โดยปกติแล้ว ETL จะเกี่ยวข้องกับข้อเสนอที่ยอดเยี่ยมของโค้ดที่สร้างขึ้นเอง บุคคลในประเด็นหลักของ ETL แบบเดิมคือการเข้าถึงได้ การขาดแคลนราคาสูงหมายถึงการเป็นวิศวกรและข้อเท็จจริงที่นักวิทยาศาสตร์ต้องการมีส่วนร่วม
ปัญหาเพิ่มเติมเกี่ยวกับโอกาสพลิกฟื้น การรักษา ETL แบบทั่วไปที่เกี่ยวข้องกับคลังข้อมูลในสถานที่มักจะใช้เวลานานเป็นพิเศษ การทำงานกับ ETL ยังเกี่ยวข้องกับการบำรุงรักษาตามปกติและอาจทำให้เกิดความซับซ้อนได้
เทคนิคสมัยใหม่ในการเปลี่ยนแปลง:
การจัดเก็บมักจะมีราคาสูงอย่างห้ามไม่ได้ รางวัลของ ETL สำหรับธุรกิจคือพวกเขาไม่ต้องโหลดความรู้ทั้งหมดไปยังตำแหน่งสุดท้าย ซึ่งขณะนี้ได้รับการปรับปรุงโดยระบบคลาวด์ เราเห็นการปรับปรุงอย่างมากในการปรับใช้ระบบคลาวด์ในแอฟริกาใต้ และค่าธรรมเนียมด้านวิศวกรรมลดลงอย่างเห็นได้ชัด ค่าใช้จ่ายที่ลดลงทำให้ธุรกิจสามารถโหลดข้อมูลทั้งหมดของตนไปยังระบบคลาวด์ได้โดยไม่จำเป็นต้องคำนึงถึงค่าใช้จ่ายในการจัดเก็บข้อมูล
นี่แสดงให้เห็นว่าในเวิร์กโฟลว์ ELT ในปัจจุบัน ความรู้ดิบถูกออกแบบใหม่ให้เป็นการออกแบบรายละเอียดที่พร้อมสำหรับการตรวจสอบทันทีหลังจากที่โหลดแล้ว เมื่ออยู่ในโกดัง ความรู้สามารถนำกลับมาใช้ใหม่ได้โดยใช้ SQL ซึ่งต้องขอบคุณไวยากรณ์ที่ขึ้นกับภาษาอังกฤษที่ใช้งานง่าย ซึ่งสามารถนำไปใช้กับผู้คนที่หลากหลายมากขึ้นอย่างมีนัยสำคัญ การเปลี่ยนแปลงสามารถทำได้โดยผู้ใช้ที่รู้ภาษา SQL ขององค์กร และไม่เพียงแต่จะมีความรู้ในการเข้ารหัสเท่านั้น
การแปลงข้อมูลในปัจจุบันจึงใช้ประโยชน์จากทรัพยากรและระบบส่วนใหญ่บนคลาวด์ สิ่งเหล่านี้รวมกันเป็นสิ่งที่เรียกว่ากองข้อมูลสมัยใหม่ (MDS)
ศูนย์กลางของ MDS นี้คือระบบความรู้เกี่ยวกับคลาวด์ที่มีประสิทธิภาพสูง ซึ่งมักจะเป็นคลังข้อมูลบนคลาวด์ ซึ่งอาจเกี่ยวข้องกับรายละเอียดเพิ่มเติม ความรู้ถูกโหลดเข้ามาจากโปรแกรมทรัพยากรต่างๆ รวมถึงฐานข้อมูล โปรแกรมเว็บ และ API ในการทำเช่นนี้ ชั้นการแปลงที่มีชื่อเสียงได้ถูกนำมาใช้เพื่อแปลงความรู้ที่ยังไม่ได้ปรุงเป็นชุดข้อมูลชุดข้อมูลการสืบค้นทั้งหมด และสุดท้าย การทำงานร่วมกันของข่าวกรองธุรกิจขนาดเล็กและโซลูชันการแสดงภาพช่วยให้ธุรกิจสามารถโต้ตอบกับความรู้และดึงข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้เพื่อสรุปข้อมูลของบริษัท
ในบทความสั้น ๆ ของเขาที่ระบุว่า Details Transformation Spelled นั้น Wang พิจารณาว่า MDS จะกรองข้อมูลผ่านขั้นตอนต่อไปนี้:
- ทรัพยากร – รายละเอียดจากฐานข้อมูลการดำเนินงาน แอปพลิเคชัน SaaS การติดตามโอกาส
- ไปป์ไลน์ความรู้ – ดึงข้อเท็จจริงจากทรัพยากรและรวมเข้ากับคลังข้อมูล บางครั้งก็ทำให้เป็นมาตรฐาน
- คลังข้อมูล – จัดเก็บข้อเท็จจริงในฐานข้อมูลเชิงสัมพันธ์ที่ปรับให้เหมาะสมสำหรับการวิเคราะห์
- อุปกรณ์การแปลงความรู้ – ซอฟต์แวร์ที่ใช้ SQL ที่ใช้ข้อมูลจากแหล่งที่มาเพื่อสร้างแบบจำลองข้อเท็จจริงใหม่ภายในคลังข้อมูล
- แหล่งข้อมูลการวิเคราะห์ – เครื่องมือสำหรับสร้างเรื่องราวและการแสดงภาพ ซึ่งเป็นแพลตฟอร์มข่าวกรองธุรกิจขนาดเล็ก
การเปลี่ยนแปลงภายในคลังสินค้ารายละเอียด:
การเปลี่ยนแปลงได้รับการปรับแต่งเพื่อสร้างการออกแบบข้อมูลที่องค์กรต้องมีสำหรับการวิเคราะห์ ELT ร่วมสมัยแยกการสกัดและการโหลดออกจากการเปลี่ยนแปลง ซึ่งจะทำให้บริษัทต่างๆ สามารถดำเนินการอัตโนมัติและเอาต์ซอร์สขั้นตอนการสกัดและโหลดวิธีการรวมข้อมูลได้ จากนั้นพวกเขาสามารถใช้อุปกรณ์การแปลงตาม SQL-primarily ที่เน้นในขณะที่รายละเอียดมีอยู่แล้วในคลังสินค้า
ประเด็นสำคัญของ ELT ก็คือข้อเท็จจริงโดยพื้นฐานแล้วยังคงเป็นแบบละเอียด เนื่องจากข้อเท็จจริงไม่ได้ผ่านการเปลี่ยนแปลงครั้งใหญ่ก่อนที่จะโหลด เมื่อใช้ ETL ทั่วไป ธุรกิจอาจรวบรวมความรู้ที่แตกต่างออกไปก่อนการโหลด ดังนั้นจึงลดระดับความละเอียดแรกลงโดยสิ้นเชิง
สถาปัตยกรรม ELT ใหม่ยังมอบฟังก์ชันการทำงาน ความยืดหยุ่น และราคาที่ดีอีกด้วย การโหลดเป็นไปอย่างรวดเร็ว และองค์กรสามารถเก็บรักษาความรู้ทั้งหมดของตนไว้ในคลังข้อมูล แม้กระทั่งสิ่งที่พวกเขาอาจไม่จำเป็นต้องมีในปัจจุบัน
“การพูดโดยคร่าวๆ การปรับรูปแบบข้อมูลในคลังข้อมูลเพียงอย่างเดียวสามารถเป็นมุมมองหรือมุมมองที่เป็นรูปธรรมได้” Wang กล่าว เขากล่าวต่อไปว่าทุกครั้งที่มีบุคคลเข้าถึงการเช็คเอาท์ คลังข้อมูลจะเรียกใช้แบบสอบถามเพื่อส่งคืนข้อมูลที่เกี่ยวข้อง มุมมองเหล่านี้จะไม่ถูกบันทึก “ในโลกอุดมคติที่มีเวลาแฝงเป็นศูนย์และวิธีการคำนวณที่ไม่จำกัด การเปลี่ยนแปลงทั้งหมดโดยพื้นฐานแล้วจะเป็นมุมมอง” เขากล่าวเสริม
ในทางตรงกันข้าม ภาพที่เป็นรูปธรรมจะถูกบันทึกไว้ในดิสก์ ด้วยเหตุผลที่ว่ามุมมองที่สร้างขึ้นทันทีจากโต๊ะขนาดใหญ่หรือคำถามที่ซับซ้อนสามารถกระตุ้นรายละเอียดคลังสินค้าให้สำลัก
EtLT:
ELT ควรจะเรียกว่า EtLT ในสถานการณ์ส่วนใหญ่ เนื่องจากการเปลี่ยนแปลงแบบ light-weight-duty หรือการทำให้เป็นมาตรฐาน มักจะถูกดำเนินการก่อนที่ความรู้จะถูกโหลด ซึ่งจะช่วยขจัดความซ้ำซ้อน การซ้ำซ้อน และค่าที่ได้รับ นอกจากนี้ยังจัดตารางจากข้อเท็จจริงให้เป็นชุดความสัมพันธ์ที่ชัดเจนที่สุด เพื่อให้นักวิเคราะห์สามารถตีความผลิตภัณฑ์ข้อมูลพื้นฐานของแอปทรัพยากรได้อย่างสะดวก และสร้างประเภทข้อมูลที่เตรียมการประเมินใหม่ตามลำดับ
“ผลลัพธ์ของท่อสกัดและการขนถ่ายจะต้องเป็นมาตรฐาน หากการว่าจ้าง ELT แบบอัตโนมัติจากภายนอกเพื่อให้งานสำเร็จลุล่วง” หวางกล่าว “ในการทำให้ข้อมูลจากทรัพยากรเป็นปกติอย่างมีประสิทธิภาพ คุณต้องมีความรู้อย่างลึกซึ้งเกี่ยวกับการทำงานพื้นฐานและแบบจำลองรายละเอียดของแอปพลิเคชันการจัดหา วิธีที่เหมาะสมที่สุดในการหลีกเลี่ยงความท้าทายนี้คือการเอาต์ซอร์สการสกัดและการโหลดไปยังทีมที่ต้องเผชิญหน้าอย่างเข้มข้นกับวิศวกรรมข้อมูลสำหรับทรัพยากรนั้น”
ผู้เชี่ยวชาญด้านไอที Keyrus