เนื้อหาวันที่ : 2015-10-30 16:05:41 จำนวนผู้เข้าชมแล้ว : 787 views

แซส เผยทิศทางและแนวโน้มเทคโนโลยี Hadoop เพื่อการนำมาใช้วิเคราะห์ข้อมูลเชิงลึกในองค์กรธุรกิจ

ในปัจจุบันองค์กรต่างๆ เริ่มมีการแข่งขันกันด้านการวิเคราะห์ข้อมูลมากยิ่งขึ้น ขณะที่ปัจจัยทางด้านเทคโนโลยีที่เลือกใช้กันในปัจจุบัน ก็มีหลายรูปแบบโครงสร้าง และหนึ่งในเทคโนโลยีที่กำลังถูกกล่าวถึงมากในขณะนี้ คือ เทคโนโลยี Hadoop เนื่องจากเป็นโซลูชั่นที่ราคาไม่สูงมาก และด้วยจำนวนข้อมูลที่เข้ามามากมายมหาศาล นักวิเคราะห์ข้อมูลจะมีวิธีการรับมือกับข้อมูลบนเทคโนโลยี Hadoop ได้อย่างไร เพื่อให้ได้การแสดงผลข้อมูลด้วยภาพ (Visualization) แบบแม่นยำ สำหรับเทรนด์นี้ แซสพร้อมเสนอเทคนิคการวิเคราะห์ข้อมูลที่มีจำนวนมหาสารมหาศาลในโลกของบิ๊กดาต้าภายใต้เทคโนโลยี Hadoop

นายไลฟง ทราน นักกลยุทธ์เชิงเทคโนโลยีระดับภูมิภาค, แซส กล่าวว่า ภาพรวมของเทคโนโลยี Hadoop ได้รับความสนใจค่อนข้างมากในแวดวงของนักวิเคราะห์ข้อมูล และเหตุผลที่ต้องอ้างถึงเทคโนโลยี Hadoop เนื่องจากเป็นโซลูชั่นที่ราคาไม่แพง สำหรับการจัดเก็บและประมวลผล Big Data  แต่ต้องไม่ลืมว่า ปริมาณข้อมูลที่เข้ามาในแต่ละวันมีมหาศาล เราจะรับมือกับการเตรียมข้อมูลบนเทคโนโลยี Hadoop อย่างไร เพื่อให้ได้ผลลัพธ์ต่อการแสดงข้อมูลด้วยภาพ (Visualization) ซึ่งมีเทคนิคมากมายหลายวิธีที่จะรวมเข้าไว้กับเทคโนโลยี Analytics  ทั้งนี้ก่อนที่เราจะเรียนรู้เทคนิคใหม่ๆ เราคงต้องมาเรียนรู้เกี่ยวกับเทคโนโลยี Hadoop ก่อนว่า เป็นระบบแบบไหน มีคุณสมบัติอย่างไร

เทคโนโลยี Hadoop มีองค์ประกอบ 2 ส่วน คือ ระบบที่มีราคาประหยัดสำหรับการจัดเก็บข้อมูลเรียกว่า Hadoop distributed file system (HDFS) และระบบที่มีเครื่องมือประมวลที่กระจายข้อมูลไปยังส่วนต่างๆ ของการปฏิบัติงานเพื่อนำข้อมูลไปใช้งาน หรือการประมวลผล Big data ที่เรียกว่า MapReduce

แต่อย่างไรก็ตามเทคโนโลยี Hadoop ยังมีข้อจำกัดอยู่บ้างเมื่อมีการวิเคราะห์ข้อมูลขั้นสูง เนื่องจากซอฟต์แวร์ที่ทำงานรายล้อมเทคโนโลยี Hadoop มีหลากหลายโครงสร้าง ทั้งข้อมูลกึ่งมีโครงสร้าง (Semi structured data) และข้อมูลแบบไม่มีโครงสร้าง (Unstructured data) และหากไปถึงการวิเคราะห์ข้อมูลขั้นสูงในรูปแบบโครงสร้าง ecosystem ขนาดใหญ่ของเครื่องมือที่มีความล้ำหน้า ซอฟต์แวร์ช่วยเชื่อมข้อมูล (Connectors) ที่ถูกสร้างขึ้นมารายรอบเทคโนโลยีHadoop น่าจะมีความจำเป็น และเทคนิคใหม่ๆ ในการหาผลลัพธ์ต่อการแสดงข้อมูลด้วยภาพ อาจจะต้องพิจารณาถึง  in-Memory analytics หรือการวิเคราะห์ภายในหน่วยความจำ ที่ถูกออกแบบมาเพื่อช่วยให้ผู้ใช้เรียกดูการแสดงผลข้อมูลได้ง่ายขึ้น และรวดเร็วแบบเรียลไทม์ได้ในทุกที่ ซึ่งจะทำการประมวลผลข้อมูลด้วยหลักการทางคณิตศาสตร์ภายในหน่วยความจำ (แรม) แทนการทำงานบนดิสก์เพื่อหลีกเหลี่ยงการใช้เวลาในการรับ/ส่งข้อมูลระหว่างการประมวลผล (I/O)

โดยเทคนิคการวิเคราะห์ขั้นสูง เช่น สถิติขั้นสูง, คลังข้อมูล, การเรียนรู้ของกลไกของการทำงาน, คลังข้อความ และระบบแนะนำข้อมูล (recommendation systems) สามารถได้รับประโยชน์จากการประมวลผลแบบ in-memory อีกด้วย และเป็นเหตุผลให้ผู้ค้าเทคโนโลยีหลายรายในปัจจุบันให้ความสำคัญกับการนำเสนอการประมวลผลแบบ in-memory สำหรับเทคโนโลยีHadoop โดยยกข้อมูลจากเทคโนโลยีHadoop ไปไว้ในเครื่องมือภายในหน่วยความจำ (in-memory engine) เพื่อวิเคราะห์โดยใช้การคำนวณซ้ำ

รวมทั้งปริมาณข้อมูลที่เข้ามามากๆ ในแต่ละวันควรให้ความสำคัญต่อข้อมูลอักษรด้วย (text data) เนื่องจากจำนวนข้อมูลในคลัสเตอร์เทคโนโลยี Hadoop ทั่วไป เป็น text data ดังนั้นการเก็บไฟล์ข้อมูลจึงมีแบบข้อมูลกึ่งมีโครงสร้าง และแบบไม่มีโครงสร้าง คุณประโยชน์สำคัญคือการใช้ข้อมูลทั้งหมดเพื่อสร้างความได้เปรียบให้กับองค์กร เพื่อให้ได้ภาพที่สมบูรณ์ยิ่งขึ้นว่ากำลังเกิดอะไรขึ้นกับลูกค้าของคุณ การดำเนินงาน และอื่นๆ เนื่องจากบริษัทบางแห่งเขียน Custom code เพื่อแยกข้อมูลสารสนเทศออกมาจากข้อมูลอักษร และบางบริษัทใช้การวิเคราะห์ข้อความตัวอักษะเชิงพาณิชย์ (commercial text analytics) ตลอดจนการประมวลผลภาษาธรรมชาติ และเทคนิคทางสถิติในการแยกข้อมูลและจัดโครงสร้างข้อมูลตัวอักษรเพื่อให้สามารถนำมาผสานรวมกับข้อมูลแบบมีโครงสร้างที่มีอยู่

นายทวีศักดิ์ แสงทอง กรรมการผู้จัดการ บริษัท แซส ซอฟท์แวร์ (ไทยแลนด์) จำกัด กล่าวว่า สำหรับเทคโนโลยี SAS Visual Analytics เป็นสถาปัตยกรรมที่คำนวณผลในลักษณะของ In-Memory Analytics ซึ่งถูกออกแบบมาเพื่อช่วยให้ผู้ใช้เรียกดูข้อมูลได้ง่ายดายจากการแสดงผลข้อมูลขนาดใหญ่ หรือบิ๊ก ดาต้า ในเชิงลึกแบบกราฟิกได้อย่างรวดเร็วแบบเรียลไทม์ได้ในทุกที่ นับเป็นเทคนิคการวิเคราะห์ข้อมูลขั้นสูง และด้วยผลลัพธ์ที่ได้ถูกนำไปรวมไว้ในกระบวนการทางธุรกิจ เพื่อช่วยในการตัดสินใจ หรือรู้จักกันในชื่อ “in – Hadoop scoring”  นั่นคือก้าวที่สำคัญอย่างมากในโครงการด้านการวิเคราะห์ข้อมูล เพราะเมื่อมีข้อมูลใหม่เข้าไปในระบบเทคโนโลยี Hadoop คุณสมบัติของระบบ stored-model scoring files ใน MapReduce ก็จะทำการรันตัวแบบให้คะแนน (Scoring model) และทำงานให้ได้ผลลัพธ์ออกมาภายในเวลาอันรวดเร็ว

นอกจากนี้ทักษะของการทำงานก็มีความสำคัญด้วย เพราะการทำงานในระบบเทคโนโลยีHadoop  จำเป็นต้องมีทักษะพิเศษสำหรับการวิเคราะห์ Big Data ซึ่งปัจจุบันจะเห็นว่านักวิเคราะห์ข้อมูลขั้นสูง (Data Scientist) เริ่มมีบทบาทมากขึ้นในฐานะผู้ที่คอยผสานรวมทักษะที่แตกต่างในเรื่องของเทคโนโลยีใหม่ๆ ที่เข้ามา ซึ่งจำเป็นมากสำหรับองค์กรที่มีการวิเคราะห์ Big Data รวมทั้งการสื่อสารข้อมูลที่ซับซ้อน เพื่อการนำไปใช้ในทางปฏิบัติตามเป้าหมายที่วางไว้