เนื้อหาวันที่ : 2012-10-12 10:44:32 จำนวนผู้เข้าชมแล้ว : 1193 views

Big Data : ข้อมูลขนาดใหญ่

ข้อมูลขนาดใหญ่เป็นศัพท์ยอดนิยมที่ใช้อธิบายถึงการขยายตัวอย่างมหาศาล ความพร้อมใช้งาน และการนำข้อมูลทั้งแบบมีโครงสร้างและไม่มีโครงสร้างไปใช้

Big Data : ข้อมูลขนาดใหญ่
บทความโดย นายทวีศักดิ์ แสงทอง กรรมการผู้จัดการ บริษัท แซส ซอฟท์แวร์ (ไทยแลนด์) จำกัด

ข้อมูลขนาดใหญ่คืออะไร
ข้อมูลขนาดใหญ่เป็นศัพท์ยอดนิยมที่ใช้อธิบายถึงการขยายตัวอย่างมหาศาล ความพร้อมใช้งาน และการนำข้อมูลทั้งแบบมีโครงสร้างและไม่มีโครงสร้างไปใช้ จะเห็นได้ว่ามีบทความมากมายที่กล่าวถึงแนวโน้มของข้อมูลขนาดใหญ่และลักษณะที่ข้อมูลขนาดใหญ่ทำหน้าที่เป็นรากฐานที่นำไปสู่การเกิดนวัตกรรม การสร้างความแตกต่าง และการเติบโตขององค์กร

บริษัท ไอดีซี ให้ข้อมูลว่าองค์กรและผู้นำด้านไอทีจำเป็นต้องให้ความสำคัญกับปริมาณข้อมูลที่เพิ่มขึ้นอย่างไม่เคยเกิดขึ้นมาก่อน รวมถึงความหลากหลายของข้อมูล และความรวดเร็วในการรับมือกับสถานการณ์ข้อมูลขนาดใหญ่

ปริมาณ (Volume) มีหลายปัจจัยที่เอื้อให้ปริมาณข้อมูลมีจำนวนเพิ่มขึ้นอย่างมาก ไม่ว่าจะเป็นข้อมูลจากทรานแซคชันที่ถูกจัดเก็บไว้เป็นระยะเวลาหลายปี ข้อมูลในรูปข้อความที่เกิดขึ้นอย่างต่อเนื่องจากสื่อสังคมออนไลน์ และการเพิ่มจำนวนของข้อมูลจากเซ็นเซอร์ที่มีการเก็บรวบรวมไว้ เป็นต้น ในอดีตปริมาณข้อมูลที่มากเกินไปก่อให้เกิดปัญหาด้านระบบจัดเก็บข้อมูล แต่ในปัจจุบันเมื่อค่าใช้จ่ายในระบบการจัดเก็บข้อมูลลดลง กลับมีปัญหาอื่นๆ เกิดขึ้น ไม่ว่าจะเป็นการกำหนดความเกี่ยวข้องระหว่างข้อมูลที่มีปริมาณมากและการสร้างมูลค่าจากข้อมูลที่มีความเกี่ยวข้องกัน

ความหลากหลาย (Variety) ข้อมูลในปัจจุบันมีหลากหลายรูปแบบ ตั้งแต่ฐานข้อมูลแบบดั้งเดิมไปจนถึงการเก็บข้อมูลแบบลำดับชั้นที่สร้างโดยผู้ใช้ทั่วไปและระบบ OLAP  รวมถึงเอกสารที่เป็นข้อความ อีเมล ข้อมูลที่เก็บรวบรวมจากมาตรวัด วิดีโอ เสียง ข้อมูลราคาหุ้น และทรานแซคชันทางการเงิน โดยจากการคาดการณ์พบว่า 80% ของข้อมูลขององค์กรไม่ใช่ตัวเลข! แต่จำเป็นต้องนำข้อมูลเหล่านี้เข้าไปรวมไว้ในการวิเคราะห์และการตัดสินใจขององค์กรด้วย

ความรวดเร็ว (Velocity) บริษัท การ์ทเนอร์ ระบุว่า ความรวดเร็ว "หมายถึงความเร็วที่ข้อมูลถูกสร้างขึ้นและความเร็วที่จะต้องประมวลผลข้อมูลเพื่อตอบสนองต่อความต้องการ"  แถบป้ายที่เป็นระบบอาร์เอฟ   ไอดี (RFID) และมาตรวัดอัจฉริยะกำลังผลักดันให้เกิดความต้องการเพิ่มมากขึ้นในการจัดการกับปริมาณข้อมูลที่มากมายในลักษณะที่ใกล้เคียงกับเวลาจริง การโต้ตอบอย่างรวดเร็วจึงถือเป็นความท้าทายอย่างมากสำหรับองค์กรส่วนใหญ่

มุมมองด้านข้อมูลขนาดใหญ่ของแซส
ที่แซส เราได้พิจารณามิติอื่นๆ เพิ่มอีกสองมิติเมื่อกล่าวถึงข้อมูลขนาดใหญ่ นั่นคือ

ความแปรผัน (Variability) นอกจากความรวดเร็วและความหลากหลายของข้อมูลที่เพิ่มขึ้นแล้ว กระแสข้อมูลยังอาจมีช่วงเวลาที่เพิ่มจำนวนสู่ระดับสูงสุดได้ ซึ่งเกี่ยวพันโดยตรงกับกระแสความแรงของสื่อสังคมออนไลน์ เช่น กรณีของหุ้น IPO ที่มีโปรไฟล์น่าสนใจ หรือเรื่องราวเกี่ยวกับกิจกรรมการว่ายน้ำกับหมูในบาฮามาสที่พลาดไม่ได้ในช่วงวันหยุดพักผ่อน ขณะที่ปริมาณข้อมูลที่เกิดขึ้นในแต่ละวัน ไม่ว่าจะเป็นช่วงเทศกาลหรือกรณีที่เกิดเหตุการณ์ใดๆ ก็ตาม ล้วนก่อให้เกิดปัญหาด้านการจัดการได้ โดยเฉพาะในส่วนที่เกี่ยวข้องกับสื่อสังคมออนไลน์

ความซับซ้อน (Complexity) เมื่อคุณจัดการกับปริมาณข้อมูลมหาศาลซึ่งมาจากหลายแหล่ง อาจไม่ใช่เรื่องง่ายนักที่จะเชื่อมโยง จับคู่ กลั่นกรอง และแปลงข้อมูลระหว่างระบบต่างๆ อย่างไรก็ตาม เป็นสิ่งจำเป็นที่จะต้องเชื่อมต่อและกำหนดความสัมพันธ์ ลำดับชั้น และเชื่อมโยงระหว่างข้อมูลที่มีจำนวนมหาศาลดังกล่าว เนื่องจากข้อมูลของคุณสามารถขยายตัวจนเกินขีดจำกัดของการควบคุมได้ การควบคุมข้อมูลจะช่วยให้คุณสามารถกำหนดลักษณะที่แตกต่างของข้อมูลตามข้อกำหนดทั่วไป และผสานรวมสินทรัพย์ข้อมูลทั้งแบบมีโครงสร้างและไม่มีโครงสร้างได้อย่างเป็นระบบเพื่อสร้างข้อมูลคุณภาพสูงที่เป็นประโยชน์ เหมาะสม และทันสมัย

ในท้ายที่สุดแล้ว ไม่ว่าจะเกี่ยวข้องกับปัจจัยใด เราเชื่อว่า  ข้อมูลขนาดใหญ่เป็นสิ่งที่มีความหมายเชิงสัมพันธ์ โดยจะได้รับการนำไปใช้ (จากการประเมินของบริษัท การ์ทเนอร์) เมื่อองค์กรมีขีดความสามารถด้านการจัดการ จัดเก็บ และวิเคราะห์ข้อมูลเหนือกว่าปริมาณข้อมูลที่มีอยู่ในปัจจุบัน

การใช้ข้อมูลขนาดใหญ่
ปัญหาที่แท้จริงไม่ได้อยู่ที่ว่าคุณกำลังได้รับข้อมูลปริมาณมาก (เนื่องจากขณะนี้เป็นที่แน่ชัดแล้วว่าเรากำลังอยู่ในยุคแห่งข้อมูลขนาดใหญ่) แต่ปัญหาอยู่ที่การดำเนินการของคุณกับข้อมูลขนาดใหญ่ต่างหาก แนวทางที่เป็นความหวังเกี่ยวกับข้อมูลขนาดใหญ่ก็คือองค์กรจะต้องสามารถใช้ประโยชน์จากข้อมูลที่เกี่ยวข้องกันและสามารถใช้เพื่อนำไปสู่การตัดสินใจที่ดีที่สุดได้

ปัจจุบันเทคโนโลยีต่างๆ ไม่เพียงรองรับการเก็บรวบรวมและการจัดเก็บข้อมูลปริมาณมากเท่านั้น แต่ยังให้ความสามารถในด้านการทำความเข้าใจและใช้ประโยชน์จากมูลค่าที่มีอยู่ทั้งหมดของข้อมูล ซึ่งนั่นจะช่วยให้องค์กรสามารถดำเนินธุรกิจได้อย่างมีประสิทธิภาพและทำกำไรได้ในที่สุด

การตอบปัญหาเกี่ยวกับข้อมูลขนาดใหญ่
 องค์กรจำนวนมากมีความกังวลต่อการขยายตัวของข้อมูลที่มีการเก็บรวบรวมไว้ ซึ่งนั่นทำให้การค้นหาส่วนข้อมูลที่มีมูลค่าสูงสุดถือเป็นเรื่องยาก
 จะเกิดอะไรขึ้นถ้าปริมาณข้อมูลของคุณขยายตัวมากขึ้นและเป็นข้อมูลที่มีความแตกต่างกันอย่างมาก โดยที่คุณไม่ทราบวิธีการจัดการกับข้อมูลเหล่านั้น
 คุณจัดเก็บข้อมูลของคุณไว้ทั้งหมดหรือไม่
 คุณวิเคราะห์ข้อมูลทั้งหมดหรือไม่
 คุณสามารถค้นหาได้อย่างไรว่าจุดใดของข้อมูลที่มีความสำคัญอย่างแท้จริง
 คุณสามารถใช้ข้อมูลเพื่อให้เกิดประโยชน์สูงสุดได้อย่างไร

ขณะนี้องค์กรถูกจำกัดให้ใช้เฉพาะข้อมูลในระดับส่วนย่อยหรือถูกจำกัดให้ทำการวิเคราะห์แบบง่ายเท่านั้น เนื่องจากข้อมูลมีปริมาณล้นหลามเกินกว่าความสามารถของระบบประมวลผลที่ตนมีอยู่ แล้วประเด็นสำคัญในการเก็บรวบรวมและจัดเก็บข้อมูลระดับเทราไบต์คืออะไร หากคุณไม่สามารถทำการวิเคราะห์ข้อมูลทั้งหมดได้อย่างสมบูรณ์ หรือหากคุณต้องรอนานหลายชั่วโมงหรือหลายวันจึงจะได้ผลลัพธ์ ในทางกลับกัน คำถามทางธุรกิจบางอย่างกลับได้รับคำตอบที่ดียิ่งขึ้นอันเป็นผลมาจากขนาดของข้อมูลที่ใหญ่ขึ้น

ขณะนี้คุณมาสองทางเลือก ได้แก่
รวมข้อมูลปริมาณมหาศาลเข้าไว้ในการวิเคราะห์ ถ้าคำตอบที่คุณต้องการนั้นจำเป็นต้องได้มาจากการวิเคราะห์ข้อมูลของคุณทั้งหมด ให้เดินหน้าดำเนินการทันที เนื่องจากเทคโนโลยีที่เปลี่ยนไปตามเกมการแข่งขันซึ่งสามารถดึงมูลค่าที่แท้จริงของข้อมูลออกจากข้อมูลขนาดใหญ่ (ข้อมูลที่มีอยู่ทั้งหมด) ได้นั้นมีพร้อมให้บริการแล้วในปัจจุบัน นอกจากนี้ ยังมีแนวทางหนึ่งที่น่าสนใจ คือการใช้การวิเคราะห์ประสิทธิภาพสูงเพื่อวิเคราะห์ข้อมูลปริมาณมหาศาลโดยใช้เทคโนโลยีต่างๆ เช่น การประมวลผลแบบกริด (grid computing) การประมวลผลในระดับฐานข้อมูล (in-database processing) และการวิเคราะห์ในระดับหน่วยความจำ (in-memory analytic)

กำหนดความเกี่ยวข้องของข้อมูลขนาดใหญ่ให้เห็นอย่างชัดเจน แนวโน้มที่ผ่านมาจะเป็นการจัดเก็บทุกสิ่ง (บางคนเรียกว่า การกักตุนข้อมูล) และกว่าที่จะสามารถเห็นความเกี่ยวข้องระหว่างกันของข้อมูลได้ คุณจำเป็นต้องทำการสืบค้นข้อมูลเท่านั้น แต่ในปัจจุบันเราสามารถปรับใช้การวิเคราะห์เพื่อกำหนดความเกี่ยวข้องของข้อมูลตามบริบทที่เกิดขึ้นได้แล้ว การวิเคราะห์นี้สามารถนำไปใช้เพื่อกำหนดว่าข้อมูลใดควรถูกรวมไว้ในการดำเนินการวิเคราะห์ และข้อมูลใดสามารถถูกจัดเก็บไว้ในระบบจัดเก็บราคาถูกที่ยังไม่จำเป็นต้องใช้ในเร็วๆ นี้

เทคโนโลยีของข้อมูลขนาดใหญ่
 จากความก้าวหน้าอย่างมากของเทคโนโลยีล่าสุดช่วยให้องค์กรสามารถใช้ประโยชน์จากข้อมูลขนาดใหญ่และการวิเคราะห์ข้อมูลขนาดใหญ่ได้ ดังนี้
 ความสามารถด้านการประมวลผลของเซิร์ฟเวอร์และระบบจัดเก็บข้อมูลราคาถูกที่มีให้เลือกอย่างมากมาย
 ตัวประมวลผลที่ทำงานเร็วขึ้น
 ความสามารถของหน่วยความจำขนาดใหญ่ เช่น Hadoop
 เทคโนโลยีการประมวลผลและการจัดเก็บข้อมูลแบบใหม่ที่ออกแบบมาเฉพาะสำหรับข้อมูลที่มีขนาดใหญ่ รวมถึงข้อมูลที่ไม่มีโครงสร้างด้วย 
 การประมวลแบบขนาน, การจัดกลุ่มคลัสเตอร์, MPP, ระบบเสมือนจริง, ระบบกริดขนาดใหญ่ การเชื่อมต่อระดับสูง และการเกิดปริมาณงานในระดับสูง
 การประมวลผลแบบคลาวด์และการจัดสรรทรัพยากรอื่นๆ ได้อย่างยืดหยุ่น

เทคโนโลยีข้อมูลขนาดใหญ่ไม่เพียงสนับสนุนความสามารถด้านการเก็บรวบรวมข้อมูลที่มีปริมาณมหาศาลเท่านั้น แต่ยังนำเสนอขีดความสามารถด้านการทำความเข้าใจและใช้ประโยชน์จากมูลค่าของข้อมูลเหล่านั้นด้วย เป้าหมายขององค์กรทั้งหมดในการเข้าถึงข้อมูลขนาดใหญ่ที่เก็บรวบรวมไว้จึงควรเป็นการใช้ประโยชน์ข้อมูลที่มีความเกี่ยวข้องกันมากที่สุดและใช้ข้อมูลดังกล่าวเพื่อนำไปสู่การตัดสินใจที่เหมาะสมที่สุด

ทั้งนี้เป็นสิ่งสำคัญอย่างยิ่งที่จะต้องทำความเข้าใจว่าไม่ใช่ข้อมูลทั้งหมดที่มีความเกี่ยวข้องกันหรือสามารถใช้ประโยชน์ได้ ประเด็นอยู่ที่ว่าคุณสามารถค้นหาข้อมูลที่มีความสำคัญที่สุดได้อย่างไร นั่นคือปัญหาที่ทุกคนต่างยอมรับ "องค์กรธุรกิจส่วนใหญ่ไม่ค่อยมีความคืบหน้านักในด้านการดึงมูลค่าของข้อมูลออกมาจากข้อมูลขนาดใหญ่ และบางบริษัทพยายามที่จะใช้วิธีจัดการข้อมูลในแบบดั้งเดิม แต่สิ่งที่เราเรียนรู้มาก็คือกฎเก่าๆ ไม่สามารถนำมาใช้ได้อีกต่อไปแล้ว "แดน ไบรโอดี กล่าวไว้ในบทความของ Economist Intelligence Unit เรื่อง "Big Data: Harnessing a Game-Changing Asset"

โซลูชั่นข้อมูลขนาดใหญ่จากแซส
คุณสามารถใช้ประโยชน์จากข้อมูลทั้งหมดในปัจจุบันและในอนาคตได้อย่างสูงสุดหรือไม่ สิ่งนี้ไม่ใช่อุปสรรคต่อความสำเร็จของคุณหากคุณสามารถนำเอาการวิเคราะห์ผสานรวมเข้ากับโซลูชั่นข้อมูลขนาดใหญ่ของคุณได้ เท่านั้นยังไม่พอ คุณจะต้องใช้การวิเคราะห์เพื่อช่วยคุณจัดการข้อมูลขนาดใหญ่ดังกล่าวด้วย

ปัจจุบันมีเทคโนโลยีหลักๆ มากมายที่สามารถช่วยคุณจัดการข้อมูลขนาดใหญ่ได้ และที่สำคัญกว่านั้นคือสามารถดึงมูลค่าที่มีความหมายออกมาจากข้อมูลขนาดใหญ่ได้อีกด้วย

การจัดการสารสนเทศสำหรับข้อมูลขนาดใหญ่ ผู้จำหน่ายหลายรายมองว่าข้อมูลขนาดใหญ่เป็นสิ่งที่เกี่ยวข้องกับเทคโนโลยี เช่น Hadoop หรือ NoSQL เป็นต้น แต่บริษัท แซส ใช้แนวทางการควบคุมข้อมูลการจัดการข้อมูลที่ครอบคลุมกว่านั้น ด้วยการนำเสนอกลยุทธ์และโซลูชั่นที่จะช่วยจัดการและใช้ข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพยิ่งขึ้น

การวิเคราะห์ประสิทธิภาพสูง จากประโยชน์ของกำลังการประมวลผลแบบขนานล่าสุด ทำให้การวิเคราะห์ประสิทธิภาพสูงช่วยให้คุณสามารถทำสิ่งต่างๆ กับข้อมูลมีปริมาณอย่างมหาศาลได้อย่างที่คุณไม่เคยคิดว่าจะสามารถทำได้

การวิเคราะห์แบบภาพประสิทธิภาพสูง การวิเคราะห์แบบภาพประสิทธิภาพสูงช่วยให้คุณสามารถสำรวจข้อมูลจำนวนมหาศาลได้ในเวลาเพียงระดับวินาที ดังนั้นคุณจึงสามารถระบุโอกาสสำหรับการวิเคราะห์เพิ่มเติมได้อย่างรวดเร็ว ไม่ใช่แค่การจัดการกับข้อมูลขนาดใหญ่เท่านั้นแต่ยังครอบคลุมถึงการตัดสินใจโดยใช้ข้อมูลดังกล่าวเพื่อสร้างผลตอบแทนให้กับองค์กรได้ในท้ายที่สุด

ตัวเลือกการปรับใช้ที่ยืดหยุ่นสำหรับข้อมูลขนาดใหญ่ รูปแบบการปรับใช้ที่ยืดหยุ่นนำไปสู่ทางเลือกต่างๆ โดยการวิเคราะห์ประสิทธิภาพสูงจากแซสสามารถวิเคราะห์ตัวแปรได้นับพันล้านตัว และโซลูชั่นดังกล่าวยังสามารถปรับใช้บนระบบคลาวด์ (ร่วมกับแซสและผู้ให้บริการอื่นๆ) บนอุปกรณ์การวิเคราะห์สมรรถนะสูง หรือภายในโครงสร้างพื้นฐานของระบบไอทีที่มีอยู่เดิม ซึ่งสามารถตอบสนองความต้องการสำหรับองค์กรของคุณได้อย่างสูงสุด