Big Data Characteristics/ ลักษณะของ Big Data

บทความที่แล้ว ผู้เขียนได้พูดถึงนิยามของ Big Data หนึ่งในวิธีนิยาม Big Data คือ การกำหนดลักษณะของ Big Data ในบทความนี้จะกล่าวถึงรายละเอียดของลักษณะดังกล่าว

ในปี 2001 Doug Laney ได้กำหนดคุณลักษณะของ Big Data ไว้สามประการ และเพื่อให้ง่ายต่อการจำและการสื่อสาร เขาใช้คำศัพท์ที่ขึ้นต้นด้วย “V” 3 ตัว แทนลักษณะสามประการ เมื่อเวลาผ่านไป นักวิทยาศาสตร์ข้อมูลและองค์กรไอทีชั้นนำได้เพิ่มคุณลักษณะของ Big Data มาโดยตลอด แต่ละคนแต่ละองค์กรต่างก็มี V และ จำนวน V เป็นของตัวเองทั้ง 4V(1,2) 5V (1,2,3) 6V 7V  8V และ 10V ในบทความนี้พยายามอธิบายทุก V เท่าที่ผู้เขียนหาได้มานำเสนอ โดยเรียงลำดับจาก V ที่ถูกอ้างอิงบ่อยสุดจนถึงน้อยสุด

Volume: ปริมาณมาก: คุณลักษณะตัวนี้น่าจะเป็นตัวที่ เข้าใจได้ง่ายที่สุด เพราะสอดคล้องกับคำว่า Big ใน Big Data มากที่สุด คุณลักษณะตัวนี้พูดถึงปริมาณข้อมูลที่ถูกจัดเก็บว่าต้องมีปริมาณมากระดับหนึ่ง

Velocity: เร็วมาก: ในที่นี้คือปริมาณข้อมูลที่ต้องเก็บต่อหนึ่งหน่วยเวลา

Variety: หลากหลาย: ชุดข้อมูลต้องมีหลากหลายชนิด หลากหลายรูปแบบ และ อาจรวมถึงหลากหลายแหล่งที่มา ข้อมูลที่จัดเก็บมีทั้ง ข้อความ รูปภาพ ไฟล์เสียง รวมไปถึงข้อมูล อาจไม่ได้มาจากแค่เทเบิลในฐานข้อมูล แต่อาจมาจาก Text File, Excel, เว็บในอินเตอร์เน็ต รวมไปถึงข้อมูลรูปจากกล้องในมือถือ เป็นต้น

Veracity: ความจริง: Big Data จะไม่มีความหมายถ้าข้อมูลที่ถูกจัดเก็บมาจากการโกหก เมื่อนำ Big Data ไปใช้วิเคราะห์ ผลที่ได้ก็จะเป็นความผิดพลาด

Value: มีคุณค่า: Big Data จะต้องนำคุณค่ากลับคืนสู่ผู้จัดเก็บข้อมูล ทั้งนี้ความหมายของคุณค่าขึ้นอยู่กับว่าใครใช้ ถ้าเป็นบริษัท  Big Data จะต้องสร้างกำไรได้ ถ้าเป็นรัฐบาล Big Data จะต้องช่วยเหลือคนในประเทศได้ เป็นต้น

Variability: มีความผันแปร: ถ้าข้อมูลที่จัดเก็บในแต่ละวันเหมือนกัน จะเสียเวลาเก็บข้อมูลทุกวันทำไม ฉะนั้นข้อมูลจะกลายเป็น Big Data ก็เพราะข้อมูลแต่ละเรคคอร์ดมีความแตกต่างกันในแต่ละช่วงเวลา

Visualization: นำเสนอได้: ปริมาณข้อมูลมหาศาลใน Big Data จะไม่มีประโยชน์ ถ้าผู้ใช้ไม่ได้เห็นบทสรุปที่เข้าใจง่าย รวมไปถึงการนำเสนอที่ลื่นไหลไม่ติดขัดจากการประมวลผลข้อมูลมหาศาล

Validity: ความถูกต้องสูง: ข้อมูลใน Big Data ต้องมั่นใจว่ามีความถูกต้อง เช่น หากมีข้อมูลจังหวัดในประเทศไทย เขียนว่า “กรุเทพ” (ง หายไป) ถ้าข้อมูลนี้หลุดไปสู่การประมวล ระบบอาจจะเข้าใจผิดว่าเป็นข้อมูลอีกจังหวัดหนึ่งของประเทศไทย และทำให้การประมวลผลผิดพลาด

Vulnerability: ความอ่อนแอต่ำ: Big Data จะต้องมีความปลอดภัย และ สามารถป้องกันการโจมตีได้ดีในระดับหนึ่ง

Volatility: ความผันผวนข้อมูล: คนจัดการกับ Big Data จะต้องคิดถึงการเปลี่ยนแปลงของข้อมูล ทั้งข้อมูลใหม่ที่จะวิ่งเข้ามา และ ข้อมูลเก่าที่จะไม่ใช่แล้ว เพื่อคำนวณขนาดของสถานที่เก็บข้อมูลรวมถึงค่าใช้จ่ายที่ต้องใช้

Viscosity: ความหนืด: เนื่องจาก Big Data ต้องนำเข้าข้อมูลจากหลายแหล่ง ต้องประมวลผล สิ่งเหล่านี้ต้องใช้เวลากว่าจะได้ผลลัพธ์ และยากต่อการที่จะแสดงผลข้อมูลแบบ Real Time ฉะนั้น จึงต้องมีการกำหนดว่า Big Data มีค่า Lag Time เท่าไร

Viability: นำไปใช้ตอบโจทย์ได้จริง: ถึงแม้ Big Data จะมีปรัชญาของการเก็บว่า “เก็บให้หมด แล้วค่อยมาว่ากันอีกที” แต่ด้วยทรัพยากรที่จำกัด ข้อมูลใน Big Data ก็ควรเป็นข้อมูลที่มีแนวโน้มว่าอาจส่งผลกระทบกับสิ่งที่องค์กรต้องการ เช่น เก็บจำนวนครั้งของการดื่มน้ำเพื่อหาว่าส่งผลต่อความสำเร็จในหน้าที่การงานของผู้ทำการทดลองหรือไม่ ซึ่งบางคนอาจจะเห็นว่าไม่สมเหตุสมผลตั้งแต่แรก ไม่น่าจะใช้ตอบโจทย์ได้จริง

Virality: ความสามารถในการกระจายตัว: เป็น V ที่ผู้เขียนไม่ค่อยเข้าใจในความหมายสักเท่าใดนัก และ ไม่แน่ใจว่ามันเกี่ยวอะไรกับ Big Data ความหมายที่มีคนให้คำนิยามคือ ข้อมูลมีอัตราการกระจายตัวหรือเผยแพร่ได้เร็วแค่ไหน ผู้เขียนเข้าใจเองว่า น่าจะเป็น Big Data ที่ใช้ในเชิงโซเชียล ที่ข้อมูลต้องมีความสามารถในการกระจายตัวให้ได้เร็วและมากที่สุด

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s