วิวัฒนาการการประมวลผลข้อเท็จจริง: พื้นหลังกระถาง

เผยแพร่แล้ว: 2022-03-14

การประมวลผลรายละเอียด (โอเพ่นซอร์ส) พัฒนาขึ้นอย่างไร? และระบบที่มีลักษณะเฉพาะมีความคืบหน้าอย่างไรเมื่อเวลาผ่านไป เนื่องจากกรอบการประมวลผลข้อมูลได้รับการขัดเกลาเป็นพิเศษ และปริมาณและความเร็วของความรู้ที่ผลิตได้เพิ่มขึ้นทุกชั่วโมง

อนุญาตให้เราทดสอบเพื่อตอบคำถามสองประเด็นถัดไป: เราจะประมวลผลรายละเอียดได้อย่างไร และเทคนิคการประมวลผลความรู้ที่เรามีในปัจจุบันมีอะไรบ้าง? ทำไมเราถึงดำเนินการข้อมูล?

นั่นค่อนข้างชัดเจนเมื่อคุณนึกถึงแกดเจ็ต เซ็นเซอร์ และการเข้าชมหน้าเว็บที่เกี่ยวข้องจำนวนมาก ไม่ต้องพูดถึงรายละเอียดทั้งหมดที่มนุษย์และอุปกรณ์สร้างขึ้น เห็นได้ชัดว่าการประมวลผลข้อมูลมีอยู่รอบตัวนับตั้งแต่เราคิดค้นระบบคอมพิวเตอร์และมีประสบการณ์ในการรับข้อมูล

ในการเริ่มต้น…

การจัดเก็บข้อมูลเก่าบนบัตรเจาะ

จากการเล่นไพ่แบบต่อยไปจนถึงคอมพิวเตอร์ส่วนบุคคลควอนตัมใน 100 ปีนั้นเปรียบได้กับการบินจากพี่น้องตระกูล Wright ไปสู่การลงจอดบนดวงจันทร์ (อันดับเครดิตภาพ: เก็ตตี้)

การสร้างคอมพิวเตอร์ส่วนบุคคลจะต้องชัดเจนสำหรับการประมวลผลข้อมูลและข้อเท็จจริง ในช่วงเวลาที่เริ่มต้นอย่างไม่น่าเชื่อเหล่านี้ ผู้เชี่ยวชาญด้านแล็ปท็อปหรือคอมพิวเตอร์มีประสบการณ์ในการสร้างแอปพลิเคชันแบบกำหนดเองสำหรับการประมวลผลข้อมูล และสิ่งเหล่านี้มักจะถูกบันทึกไว้ในบัตรเจาะ

การดำเนินการต่อไปได้นำภาษาแอสเซมบลีและภาษาการเขียนโปรแกรมที่มีจุดประสงค์เพิ่มเติม เช่น Fortran มาใช้โดย C และ Java ตลอดพื้นที่ข้อมูลขนาดใหญ่ก่อนประวัติศาสตร์ วิศวกรโปรแกรมซอฟต์แวร์จะใช้ภาษาเหล่านี้ในการเขียนหลักสูตรที่สร้างขึ้นตามวัตถุประสงค์เฉพาะสำหรับงานประมวลผลข้อมูลที่ไม่เหมือนใคร

ในอีกทางหนึ่ง กระบวนทัศน์การประมวลผลรายละเอียดนี้เข้าถึงได้เฉพาะบางคู่ที่มีประสบการณ์เบื้องหลังการเขียนโปรแกรมซึ่งขัดขวางการนำโดยนักวิเคราะห์ข้อมูลหรือชุมชนบริษัทในวงกว้างที่ต้องการระบบข้อมูลและทำการสรุปเฉพาะ

การกระทำโดยธรรมชาติอย่างหมดจดครั้งต่อไปสังเกตเห็นการประดิษฐ์ของฐานข้อมูล ทั้งในและรอบทศวรรษ 1970 หน่วยฐานข้อมูลเชิงสัมพันธ์มาตรฐาน เช่น ฐานข้อมูลของ IBM เปิดใช้งาน SQL และยกระดับการนำการประมวลผลข้อมูลไปใช้โดยผู้ชมที่กว้างขึ้น SQL เป็นภาษาคำถามที่ได้มาตรฐานและแสดงออกซึ่งอ่านได้เหมือนภาษาอังกฤษ

มันทำให้ผู้คนจำนวนมากขึ้นเข้าสู่การประมวลผลข้อเท็จจริง ซึ่งไม่เคยมีประสบการณ์อีกต่อไปในการพึ่งพาโปรแกรมเมอร์ในการผลิตแพ็คเกจตามสถานการณ์เฉพาะและวิเคราะห์ข้อมูล นอกจากนี้ SQL ยังขยายความหลากหลายและรูปแบบของวัตถุประสงค์ที่เกี่ยวข้องกับการประมวลผลความรู้ในลักษณะนี้ เช่น โปรแกรมของบริษัท การวิเคราะห์ต้นทุนการผลิต ขนาดตะกร้าทั่วไป ตัวเลขการพัฒนา 12 เดือนต่อปี และอื่นๆ

รุ่งอรุณของข้อมูลสำคัญ

ยุคของข้อมูลขนาดใหญ่เริ่มต้นด้วยกระดาษ MapReduce ที่ผลิตโดย Google ซึ่งอธิบายผลิตภัณฑ์ที่ตรงไปตรงมาโดยอาศัยพื้นฐานสองประการคือ Map และ Cut down

พื้นฐานเหล่านี้อนุญาตให้ใช้การคำนวณแบบขนานในเครื่องขนานจำนวนมาก แน่นอน การคำนวณแบบคู่ขนานสามารถทำได้แม้กระทั่งก่อนยุค MapReduce โดยใช้คอมพิวเตอร์ ซูเปอร์คอมพิวเตอร์ และอุปกรณ์ MPI จำนวนมาก อย่างไรก็ตาม MapReduce ได้ออกแบบให้ผู้ดูกว้างขึ้น

apache hadoop โลโก้

Hadoop เป็นความท้าทายของแอปพลิเคชันทรัพยากรแบบเปิดซึ่งให้วิธีการใหม่แก่ผู้ค้าปลีกและประมวลผลความรู้ที่สำคัญ (ประวัติเครดิตภาพ: Apache)

Apache Hadoop ตามมาด้วยการนำกรอบงานโอเพ่นซอร์สมาใช้งาน (ในตอนแรกมีการใช้งานที่ Yahoo!) ซึ่งมีอยู่ทั่วไปในพื้นที่โอเพ่นซอร์สและเข้าถึงได้สำหรับผู้ชมในวงกว้าง Hadoop ได้รับการรับรองจากกลุ่มบริษัทต่างๆ และผู้เล่นที่มีข้อมูลสำคัญหลายคนมีต้นกำเนิดมาจากกรอบการทำงานของ Hadoop

Hadoop ได้แนะนำกระบวนทัศน์ใหม่ในการประมวลผลข้อมูล: ความสามารถในการให้ข้อมูลร้านขายปลีกในขั้นตอนการจัดเก็บไฟล์หรือการจัดเก็บที่กระจัดกระจาย (เช่น HDFS สำหรับ Hadoop) ซึ่งสามารถสอบปากคำ / สืบค้นได้ในภายหลัง

Hadoop ได้ทดลองเส้นทางที่เทียบเคียงได้กับฐานข้อมูลเชิงสัมพันธ์ โดยให้เริ่มต้นด้วยการจัดเวทีแบบรวมโปรแกรมส่วนบุคคลโดย "ผู้แสดง" ที่แตกต่างกันซึ่งพร้อมที่จะสร้างโปรแกรมเพื่อนำไปใช้จริงในการสืบค้น SQL เกี่ยวกับความรู้ในเทคนิคไฟล์แบบกระจาย ชนิดของ เป็น Hive หรือเฟรมเวิร์กการจัดเก็บข้อมูลอื่นๆ

เชื่อมต่อแล้ว: ข้อมูลขนาดใหญ่และข้อดี 5 ประการของ Hadoop

การประมวลผลแบบกลุ่มเพิ่มขึ้น

เฟสในอนาคตของ Huge Facts สังเกตเห็นการเปิดตัว Apache Spark Spark อนุญาตการขนานเพิ่มเติมและนำการประมวลผลแบบแบตช์ไปสู่ระดับต่อไปนี้ ดังที่ได้กล่าวไว้ก่อนหน้านี้ การประมวลผลแบบแบตช์ประกอบด้วยการวางข้อเท็จจริงลงในกระบวนการจัดเก็บข้อมูล จากนั้นคุณจะใช้การคำนวณเป็นกิจวัตร

แนวคิดหลักในที่นี้คือข้อเท็จจริงของคุณอยู่ที่ใดที่หนึ่ง แม้ว่าคุณจะเรียกใช้การคำนวณเป็นระยะ (รายวัน รายสัปดาห์ รายชั่วโมง) เพื่อรวบรวมเอฟเฟกต์โดยอิงจากข้อมูลในอดีตเป็นหลัก การคำนวณเหล่านี้ไม่เคยทำงานอย่างสม่ำเสมอและมีระดับเริ่มต้นและจุดสิ้นสุด ด้วยเหตุนี้ คุณต้องดำเนินการใหม่อย่างต่อเนื่องเพื่อให้ได้ผลลัพธ์สุดท้ายที่เป็นปัจจุบัน

จากความรู้มากมายสู่ความรู้ที่รวดเร็ว – การแนะนำการประมวลผลแบบสตรีม

แนวคิดข้อมูลขนาดใหญ่

แอปพลิเคชั่นประมวลผลสตรีมทำงานอย่างสม่ำเสมอในรายละเอียดและให้ผลลัพธ์ตามเวลาจริง ในขณะที่ข้อมูลถูกสร้างขึ้น (เครดิตรูปภาพ: Getty)

ระยะที่กำลังจะเกิดขึ้นนี้ในวิวัฒนาการของ Big Information สังเกตเห็นว่าการนำการประมวลผลแบบสตรีมด้วย Apache Storm ยังคงเป็นเฟรมเวิร์กแรกที่มีการใช้งานอย่างมาก (สุดท้ายแล้วระบบการศึกษาและเฟรมเวิร์กอื่นๆ พร้อมกัน แต่สตอร์มเป็นเพียงระบบเดียวที่เห็นการนำไปใช้ที่ดีขึ้น) เฟรมเวิร์กนี้เปิดใช้งานแพ็คเกจที่สามารถเขียนได้อย่างต่อเนื่อง (24/7)

ตรงกันข้ามกับกลยุทธ์การประมวลผลแบบกลุ่มซึ่งแผนและแอปมีจุดเริ่มต้นและข้อสรุป โดยโปรแกรมประมวลผลสตรีมทำงานอย่างต่อเนื่องตามข้อเท็จจริงและให้ผลลัพธ์แบบเรียลไทม์ แม้ว่าจะมีการสร้างข้อเท็จจริง การประมวลผลสตรีมมีความซับซ้อนมากขึ้นด้วยการเปิดตัว Apache Kafka (มีต้นกำเนิดจาก LinkedIn) เป็นกลไกการจัดเก็บสำหรับสตรีมข้อความ Kafka ทำหน้าที่เป็นบัฟเฟอร์ที่เกี่ยวข้องกับแหล่งข้อมูลและโปรแกรมประมวลผล (เช่น Apache Storm)

สถาปัตยกรรมแลมบ์ดาสร้างทางอ้อมเล็กน้อยในเรื่องข้อมูลขนาดใหญ่ สถาปัตยกรรมนี้เกิดขึ้นจากข้อเท็จจริงที่ผู้ใช้เบื้องต้นของการประมวลผลสตรีมไม่รู้สึกว่าวิธีการประมวลผลสตรีมเช่น Apache Storm มีความน่าเชื่อถือเพียงพอ ดังนั้นพวกเขาจึงบันทึกแต่ละระบบ (การประมวลผลแบบแบตช์และสตรีม) ที่จัดการได้ในเวลาเดียวกัน

สถาปัตยกรรมแลมบ์ดาเป็นการผสมผสานระหว่างอุปกรณ์ทั้งสอง – โปรแกรมประมวลผลสตรีมเช่น Apache Storm ใช้สำหรับข้อมูลเชิงลึกแบบเรียลไทม์ แต่แล้วสถาปัตยกรรมก็ใช้ระบบประมวลผลแบบกลุ่มเป็นระยะที่รักษาความจริงพื้นของสิ่งที่เกิดขึ้น

Apache Flink – การประมวลผลสตรีมกลายเป็นพร้อมใช้งาน

ประมาณปี 2015 Apache Flink เริ่มเป็นเฟรมเวิร์กการประมวลผลสตรีมที่โดดเด่นซึ่งนำมาใช้โดยนักพัฒนาและผู้นำด้านข้อเท็จจริง/การวิเคราะห์

เหมาะสมตั้งแต่แรกเริ่ม Flink ได้แสดงความมั่นใจอย่างแน่นหนาว่ามีความหมายหลังใช้งานและเอ็นจิ้นการประมวลผลที่ทนต่อข้อผิดพลาดซึ่งทำให้ผู้ใช้เชื่อว่าสถาปัตยกรรมแลมบ์ดาไม่สำคัญอีกต่อไป และการประมวลผลแบบสตรีมสามารถเชื่อถือได้สำหรับการประมวลผลในโอกาสที่ซับซ้อนและการวิ่งจ็อกกิ้งอย่างต่อเนื่อง แอพที่มีความสำคัญต่อภารกิจ ค่าใช้จ่ายทั้งหมดที่มาพร้อมกับการพัฒนาและการรักษาสองหน่วย (การประมวลผลแบบกลุ่ม / สตรีม) กลายเป็นเรื่องซ้ำซ้อนเนื่องจากกรอบการประมวลผลรายละเอียดที่น่าเชื่อถือและหาได้ของ Flink

การประมวลผลแบบสตรีมได้เปิดกระบวนทัศน์ใหม่และเปลี่ยนความคิดจากท่าทีถามตอบ ที่ซึ่งความรู้จะถูกจัดเก็บไว้ล่วงหน้าก่อนการสอบสวนกรณีทุจริตที่อาจเกิดขึ้นกับบุคคลที่คุณตรวจสอบด้วยความคิดก่อน แล้วจึงรับข้อเท็จจริงตามเวลาจริงดังที่ ข้อมูลถูกสร้างขึ้น สำหรับภาพประกอบ ด้วยการประมวลผลสตรีม คุณสามารถพัฒนาซอฟต์แวร์ตรวจจับการฉ้อโกงที่ทำงานตลอด 24 ชั่วโมงทุกวันไม่เว้นวันหยุด จะได้รับสถานการณ์ตามเวลาจริงและให้ข้อมูลเชิงลึกแก่คุณเมื่อมีการฉ้อโกงบัตรเครดิต ป้องกันไม่ให้เกิดขึ้นจริงในจุดที่ 1 นี่น่าจะเป็นหนึ่งในการเปลี่ยนแปลงที่ใหญ่กว่าในการประมวลผลรายละเอียด เนื่องจากจะช่วยให้มีข้อมูลเชิงลึกตามเวลาจริงเกี่ยวกับสิ่งที่เกิดขึ้นในโลกทั้งใบ

วิวัฒนาการของการประมวลผลข้อเท็จจริงแบบเปิดได้ประสบกับรูปแบบทั่วไปที่มีการแนะนำเฟรมเวิร์กใหม่สู่ตลาด (เช่น ฐานข้อมูลเชิงสัมพันธ์ การประมวลผลแบบแบตช์ การประมวลผลแบบสตรีม) ซึ่งในขั้นต้นจะพร้อมใช้งานสำหรับผู้ดูที่ไม่ซ้ำกัน (โปรแกรมเมอร์) ที่สามารถผลิตแพ็คเกจที่ปรับแต่งได้ เพื่อเข้าถึงความรู้

ต่อมาก็มีการแนะนำ SQL ในเฟรมเวิร์กที่มักจะทำให้เข้าถึงได้โดยทั่วไปสำหรับผู้ชมที่ไม่ต้องการเขียนแพ็คเกจสำหรับการประมวลผลข้อมูลที่ซับซ้อน

การประมวลผลสตรีมเป็นไปตามรูปแบบ SQL ที่คล้ายคลึงกันมากสำหรับกิจกรรมการประมวลผลสตรีมซึ่งเป็นการยอมรับอย่างกว้างขวางในแอปพลิเคชันการสตรีมซึ่งจะตรวจสอบรูปแบบที่เราคุ้นเคยในอดีต ตลาดการประมวลผลแบบสตรีมคาดว่าจะขยายตัวแบบทวีคูณในอีกไม่กี่ปีข้างหน้าที่ CAGR ที่ 21.6% ด้วยการเติบโตนี้และช่วงของแอพประมวลผลสตรีมและสถานการณ์การใช้งานที่เพิ่มขึ้นในแต่ละวัน การพัฒนาในสถานที่นี้มีค่อนข้างน้อยและอนาคตของการประมวลผลสตรีมและสภาพแวดล้อมทางธรรมชาติที่เปลี่ยนแปลงตลอดเวลาและเปลี่ยนแปลงตลอดเวลา

Aljoscha Krettek เป็นผู้ร่วมก่อตั้งและ Engineering Direct ที่ Veverica