วันอังคารที่ 9 ธันวาคม พ.ศ. 2557


Big Data

    คำว่า “Big Data” เกิดขึ้นมาพร้อมๆ กับการเฟื่องฟูของสื่อสังคมออนไลน์ (Social Media) ซึ่งนำ ขบวนมาโดยเฟสบุ๊ค (Facebook) อย่างไรก็ตามคำว่า “Big Data” นั้นมีอะไรมากกว่าการมีปริมาณ ข้อมูลจำนวนมากตามชื่อเรียก คำว่า “Big Data” สามารถเชื่อมโยงไปถึงระบบการประมวลผล ข้อมูลประเภทนี้ซึ่งค่อนข้างใหม่ และแตกต่างจากเทคโนโลยีเดิมที่มีใช้กันอย่างแพร่หลายในบ้านเรา 

ความจำเป็นของ “Big Data” ต่อธุรกิจ
 “Big Data” อาจเป็นเรื่องที่ถูกกล่าวถึงมากในช่วงนี้ แต่ไม่ใช่ทุก องค์กรที่ต้องกังวลเกี่ยวกับการเกิดหรือการมาของยุค “Big Data” ตราบใดที่องค์กรสามารถดำเนินธุรกิจต่อไปได้ เว้นเสีย แต่ว่า Big Data จะเป็นแหล่งข้อมูลของธุรกิจโดยตรงที่จะขาด ไม่ได้ ยกตัวอย่าง สื่อสังคมออนไลน์ถูกจัดว่าเป็นแหล่งข้อมูล แบบ “Big Data” ประเภทหนึ่ง ซึ่งสื่อประเภทนี้มีความจำเป็น ต่อธุรกิจที่ต้องพึ่งกิจกรรมทางการตลาดสูง โดยเป็นทั้งผู้ให้และ ผู้รับข้อมูลจากสื่อ แต่สื่อประเภทนี้มีความสำคัญน้อยมากกับ โรงงานอุตสาหกรรมในทางตรงข้าม ข้อมูลอีกกลุ่มหนึ่งที่ถูกจัดว่าเป็นแหล่งข้อมูลทางด้าน “Big Data” ที่สำคัญ และแต่ละธุรกิจให้ความสำคัญ เป็นอันดับต้นๆ คือ ข้อมูลจาก “ระบบบันทึกการเปลี่ยนแปลง”   (Logs หรอื Transaction Logs) ของระบบงานตา่งๆ รวมถงึขอ้มลู จากระบบเซ็นเซอร์ (Censors) ต่างๆ ซึ่งมีลักษณะสำคัญคือ เกิดขึ้นได้ตลอดเวลาที่ระบบทำงาน และสามารถบ่งชี้สถานะใน แง่ปริมาณและคุณภาพของการทำงานในระบบได้ อาทิ ระบบ ATM (Automatic Teller Machine) ในธรุกจิธนาคารและสถาบนั การเงิน หรือระบบ CDR (Call Detail Records) สำหรับธุรกิจ โทรคมนาคม ระบบควบคุมการผลิต (Shop Floor Control) สำหรับธุรกิจทางด้านอิเล็กทรอนิกส์ ระบบ Smart Metering สำหรบัธรุกจิโครงสรา้งพน้ืฐาน (ไฟฟา้ นำ้ประปา) เปน็ตน้ ขอ้มลู กลุ่มนี้มีผลต่อสินค้า และบริการของผู้ประกอบการธุรกิจโดยตรง ความทา้ทายในสว่นนก้ีค็อื ผปู้ระกอบการจะสามารถหาประโยชน์ หรือคุณค่าที่ซ่อนอยู่ ด้วยวิธีการประมวลผลข้อมูลกลุ่มนี้ได้อย่าง มีประสิทธิผลและประสิทธิภาพเพียงใด เพื่อรับรู้สถานการณ์ ปอ้งกนัปญัหา แกป้ญัหาใหท้นัทว่งท ีนอกจากจะหวงัผลในคณุคา่ ของข้อมูลที่ซ่อนอยู่แล้ว การประมวลผลต้องมีความรวดเร็ว ตั้งแต่ระดับวันต่อวัน ชั่วโมงต่อชั่วโมง หรือวินาทีต่อวินาทีเลย ทีเดียว ซึ่งถึงตอนนี้คงไม่มีใครปฏิเสธว่า การประมวลผลข้อมูล ในรูปแบบนี้เป็นจริงได้ และบางระบบกำลังให้บริการพวกเราอยู่ โดยที่เราไม่รู้ตัว

สภาพแวดล้อมสำหรับ Big Data
 -รองรับและจัดเก็บข้อมูลมากกว่า Petabyte ขึ้นไป
-มีการจัดเก็บข้อมูลชนิดที่มีระบบทดแทน รวมทั้งให้บริการแบบกระจาย
-การประมวลผลข้อมูลเป็นแบบขนาน
-มีการประมวลผลข้อมูลข่าวสารที่มีขีดความสามารถแบบ Map Reduce หรือเทียบเท่า
-มีการบริหารจัดการแบบรวมศูนย์และเป็นระบบผสานการทำงานกับทรัพยากรประมวลผลต่างๆ

-ระบบต้องไม่มีค่าใช้จ่ายสูง

 ลักษณะพิเศษ 3 ประการของ Big Data
  -volume
  -velocity

  -variety



1.  ปริมาณ (Volume)

ปริมาณของข้อมูล :

                องค์กรต่างๆ จมอยู่ใต้ข้อมูลทุกประเภทที่เติบโตขึ้นเรื่อยๆ จนถึงขนาดเทราไบต์ (terabyte) หรือแม้แต่เพทาไบท์ (petabyte) แล้วเราจะใช้ประโยชน์จาก big data ปริมาณมหาศาลเหล่านี้ได้อย่างไรบ้าง

เปลี่ยนข้อมูล 12 เทราไบต์จากการ Tweet ในแต่ละวันให้เป็นการวิเคราะห์ความเชื่อมั่นผลิตภัณฑ์ที่ดีขึ้น
แปลงข้อมูลจากการอ่านมิเตอร์ประจำปี 350 พันล้านครั้งให้เป็นข้อมูลการคาดการณ์การใช้พลังงานที่ดีกว่าเดิม



 2. ความหลากหลาย (Variety)

Data Variety:  จากตาราง excel ไปจนถึงฐานข้อมูล ที่ใช้งานในปัจจุบัน โครงสร้างข้อมูลนับวันจะสูญเสียความเป็นโครงสร้างมากขึ้น และมี Format เพิ่มมากยิ่งขึ้นนับร้อยแบบ เริ่มตั้งแต่ข้อความเปล่าๆ ภาพถ่าย แฟ้มข้อมูลเสียงเพลง แฟ้มข้อมูลวิดีโอ ข้อมูล Web ข้อมูล GPS ข้อมูลจาก Sensor ต่างๆ ข้อมูลจากฐานข้อมูลเชิงสัมพันธ์ เอกสารทั่วไป ข่าวสาร SMS แฟ้มข้อมูลประเภท pdf แฟ้มข้อมูล Flash และอื่นๆมากมาย

Veracity:  หมายถึงข้อมูลที่ได้มานั้นมีความถูกต้องแม่นยำเพียงใด เนื่องจากข้อมูลมีความหลากหลาย และมาจากแหล่งต่างๆที่อยู่เหนือการควบคุมของเราเช่น
Facebook
Twitter
Youtube

 3. ความเร็ว (Velocity)   

Data Velocity:   โดยปกติองค์กรมีการวิเคราะห์ข้อมูลโดยใช้กระบวนการ Batch หรือการประมวลผลที่ต่อเนื่องตามลำดับโดยมีข้อมูลที่ถูกจัดเตรียมไว้เรียบร้อยแล้ว เหมาะสำหรับข้อมูลที่หลั่งไหลมาแบบช้าๆ
ปัจจุบัน แหล่งของข้อมูลมาจากสื่อสังคม และ อุปกรณ์มือถือ รวมทั้งอุปกรณ์คอมพิวเตอร์เคลื่อนที่ การประมวลผลแบบ Batch Processing ไม่สามารถรองรับลักษณะการไหลของข้อมูลแบบนี้ เนื่องจากเป็นกระแสของข้อมูลข่าวสารที่หลั่งเข้ามายัง Server และเป็นแบบ Real-Time และมีความต่อเนื่อง แต่ผลลัพธ์ยังใช้งานได้ดี หากมีค่าหน่วงเวลาน้อย  

ปี 2000 มีการจัดเก็บข้อมูล 800,000 Petabytes (PB)
ปี 2020 คาดว่าจะมีมากถึง 35 Zettabytes (ZB)
Twitter มีการจัดสร้างข้อมูล มากกว่า 7 Terrabytes (TB) ต่อวัน
Facebook 10 Terrabytes ต่อวัน
องค์กรขนาดวิสาหกิจทั่วไป 1 Terrabytes ต่อชั่วโมงต่อวันทำงาน


เทคโนโลยีสำหรับประมวลผล “Big Data”

• เทคโนโลยีหลักที่ถือว่าอยู่เบื้องหลัง “Big Data” คือ   “Hadoop” ซึ่งเป็นซอฟต์แวร์แบบโอเพ่นซอร์ส (Open-    source Software) ของ Apache สำหรับการประมวลผล   แบบกระจาย หรือ Distributed Computing เพื่อรองรับ   การจัดเก็บ และประมวลข้อมูลขนาดใหญ่ Hadoop ได้รวม   ระบบการจัดการเครื่องแม่ข่ายในลักษณะคลัสเตอร์ และ การเข้าถึงและดึงข้อมูลอย่างรวดเร็วด้วยวิธี MapReduce    (Map และ Reduce) จากความสามารถข้างต้นของ    Hadoop ระบบคอมพิวเตอร์ที่จะรองรับการทำงานของ    Hadoop จะเป็นกลุ่มเครื่องแม่ข่ายขนาดเล็กหลายๆ เครื่อง    มีหน่วยจัดเก็บข้อมูลภายในขนาดใหญ่ในแต่ละเครื่อง    (ปัจจุบันมีหน่วยจัดเก็บข้อมูลภายนอกมาเป็นทางเลือกแล้ว)    ต่อเชื่อมกันผ่านระบบเครือข่าย (Local Area Network) หรือ   เครือข่ายระยะไกล (Wide Area Network)  
 นอกจากนี้ยังมีพันธมิตรของ Hadoop หรือที่เรียกว่า    Hadoop Ecosystem อีกจำนวนหนึ่งที่จะมาช่วยเสริมใน   เรื่องการจัดการข้อมูล การเข้าถึงและดึงข้อมูล รวมทั้งการ   ติดต่อแลกเปลี่ยนข้อมูลกับระบบต่างๆ ให้สะดวกขึ้น อาทิ     HBase, Hive, Pig, Sqoop เป็นต้น เห็นชื่อแล้วคง   ไม่ค่อยคุ้นกัน เพราะทั้งหมดนี้เป็นซอฟต์แวร์แบบโอเพ่น   ซอร์สทั้งหมด โดยมี Hadoop เป็นแกนกลางในการทำงาน  
 องค์กรสามารถดาวน์โหลด Hadoop และผลิตภัณฑ์อื่นใน   กลุ่ม Hadoop Ecosystem มาใช้งานได้โดยไม่มีค่าใช้จ่าย    และเพื่อตอบโจทย์การนำ Hadoop มาใช้ในธุรกิจ จึงมี   บริษัทซอฟต์แวร์ที่ตั้งขึ้นมาเพื่อทำหน้าที่ให้บริการทางด้าน    Hadoop Ecosystem แบบครบวงจรตั้งแต่อำนวยความ   สะดวกในการดาวน์โหลด ไปจนถึงการสนับสนุนหลังการ   ดาวน์โหลด ปัจจุบันมีบริษัทที่ทำหน้านี้อยู่ 4 แห่งคือ    Cloudera (CDH), MapR, Hortonworks และบริษัท   น้องใหม่อย่าง Pivotal HD 


• เทคโนโลยีกลุ่มที่สองคือ ระบบฐานข้อมูลที่ไม่ใช้ภาษา SQL    (NoSQL Database) เนื่องจากความสามารถที่รวดเร็ว    สามารถรองรับข้อมูลแบบ Semi-Structured และ    Unstructured ได้ ผลิตภัณฑ์ที่นิยมใช้ส่วนใหญ่เป็นโอเพ่น   ซอร์ส และรองรับการขยายตัวในแนวราบ (Horizontal    Scaling) ซึ่งสอดคล้องกับสถาปัตยกรรมของ Hadoop    ตัวอย่างผลิตภัณฑ์ทางด้าน NoSQL Database ที่เป็นที่
นิยมได้แก่ Cassandra, CouchBase, HBase, MongoDB     เป็นต้น 

• เทคโนโลยีกลุ่มที่สามคือ “Data Visualization Tools”    ซึ่งเป็นเครื่องมือที่จะช่วยแปลงข้อมูล “Big Data” ที่ได้รับ   การกลั่นกรองแล้วมาแสดงในรูปของแผนภาพ ง่ายต่อการ   เข้าใจ และนำไปสู่การตัดสินใจในขั้นถัดไป แล้วเครื่องมือ   กลุ่มนี้ต่างจากระบบ Business Intelligence อย่างไร    บทบาทของเครื่องมือกลุ่มนี้จะอยู่ในระดับปฏิบัติการ    (Operations) ให้ติดตามสถานะของระบบ และการแก้   ปัญหาได้ง่าย โดยมีคำเรียกสำหรับระบบนี้ว่า “Operational    Intelligence” ส่วน Business Intelligence จะเน้นไปที่   ข้อมูลสำหรับผู้บริหาร ผู้จัดการเพื่อประกอบการตัดสินใจ   ทางธุรกิจ

• เทคโนโลยีกลุ่มสุดท้ายคือ “Analytic Database”    ผลิตภัณฑ์ในกลุ่มนี้อาจจะนำไปใช้กับระบบคลังข้อมูลได้ด้วย และเป็นกลุ่มผู้ผลิตซอฟต์แวร์ยักษ์ใหญ่ในตลาดต่างให้   ความสำคัญมาก โดยใช้เทคนิคในการทำงานแบบต่างๆ เพื่อ   ตอบโจทย์ด้านความเร็วไม่ว่าจะเป็น การประมวลผลใน   หน่วยความจำ (In-memory Computing) การประมวลใน   ระบบฐานข้อมูล (In-database Computing) ซึ่งไม่เหมือน   กันเลยแต่มีสิ่งหนึ่งที่ทุกผู้ผลิตมีเหมือนกันคือ การสนับสนุน   การต่อเชื่อมกับ Hadoop เพื่อให้สามารถนำข้อมูลจาก    Hadoop เข้ามาประมวลในขั้นต่อไปในผลิตภัณฑ์ฐานข้อมูล   ของตนเองได้ ซึ่งเกือบทุกผู้ผลิตจะมีการนำ Hadoop เข้า   มาเป็นผลิตภัณฑ์เสริมของตนเองโดยทำสัญญากับทาง   บริษัทที่ให้การสนับสนุน Hadoop Ecosystem ทั้ง 4 ราย   ข้างต้น ตัวอย่างผลิตภัณฑ์ในกลุ่มนี้ได้แก่ Aster Data    (Teradata), Exadata (Oracle), Greenplum (EMC)     Netezza (IBM), Vertica (HP) เป็นต้น

สรุปสำหรับเทคโนโลยี Big Data ก็คือ การนำข้อมูลที่มีปริมาณมากๆ มาผ่านการประมวลผล การวิเคราะห์ และแสดงผลด้วยวิธีที่เหมาะสม ซึ่งก็ขึ้นอยู่กับองค์กรว่าต้องการจะนำข้อมูลเหล่านี้มาใช้ให้เกิดประโยชน์ทางธุรกิจหรือจะปล่อยให้มันอยู่อย่างไร้ค่าและสิ้นเปลือง Storage ต่อไป
เเนวโน้มในอนาคตจะมีข้อมูลดิจิตอลขนาดใหญ่หรือBig Data ซึ่งองค์กรหรือบริษัทไหนมีวิธีการจัดการกับ Big Data ก็จะมีข้อได้เปรียบมากขึ้นกว่าบริษัทคู่เเข่งนั่นเอง