ผมอยากให้มองแบบนักพัฒนาระบบลักษณะ Data Scientist หรือ นักวิยาศาสตร์ข้อมูล โดยอาชีพนี้จะทำงานวิเคราะห์ Big Data หรือข้อมูลมหาศาลในรูปแบบออนไลน์ และ ออฟไลน์ โดยเมื่อวิเคราะห์แล้วข้อมูลเหล่านี้จะเป็นประโยชน์ต่อธุรกิจ สร้างสรรค์โปรโมชั่น พัฒนาผลิตภัณฑ์ และยังช่วยให้เข้าใจพฤติกรรมผู้บริโภคมากขึ้น รวมถึงต้องเข้าใจหลักการของ Data Science Process
1. Prior Knowledge ประกอบด้วย 2 ส่วนคือ
- Business Understanding ต้องทำความเข้าใจธุระกิจก่อนว่าต้องการอะไร ธุรกิจมีโจทย์อะไรที่ต้องการจะรู้คำตอบ เพื่อความเข้าใจทางธุรกิจที่ถูกต้อง
- Data Understanding ต้องรู้ว่าข้อมูลเป็นอย่างไร ข้อมูลมาจากไหน ต้องเก็บข้อมูลอะไร รวมถึงการนำ Big Data เข้ามาใช้งานเพื่อให้ตอบโจทย์ความต้องการของธุรกิจมากที่สุด
2. Preparation คือการเตรียมข้อมูล โดยข้อมูลบางครั้งอาจจัดเก็บข้อมูลไม่สมบูรณ์ซึ่งอาจมีค่า Missing Value หรือ In-valid Value ซึ่งจำเป็นต้องทำ Preparation data หรือ Clean Data เพื่อจัดการข้อมูลให้ถูกต้อง โดยการนำข้อมูลนั้นออกไป หรือแทนค่าข้อมูลที่หายไป โดยวิธีการใช้หาค่าเฉลี่ย (Mean) แทนค่าช่อง Missing Value เพื่อให้ได้ข้อมูลที่ครบถ้วน รวมถึงการดูค่าสถิติต่าง ๆ เพื่อเข้ามาช่วยในการทำ Clean Data
3. Modeling ประกอบด้วย 2 ส่วนคือ
- Building model using algorithms โดยการเลือกใช้ Model ที่แก้ไขปัญหา และเลือก Algorithm Selecting หรือ Methodology อะไรบ้างที่เหมาะสม โดยแต่ละ Model อาจใช้ข้อมูลไม่เหมือนกัน โดยข้อมูลส่วนนี้จะใช้ Training Data ซึ่งต้องดูย้อนกลับไปดู Data Preparation ด้วยว่าข้อมูลตรงกับความต้องการของ Model หรือไม่ โดยอาจใช้ Model มากกว่า 1 Model ขึ้นไป
- Appling model and performance evaluation การประเมินประสิทธิภาพของแต่ละ Model โดยการใช้ Testing Data เพื่อดูว่า Model ที่เลือกใช้แต่ละตัวมีประสิทธิภาพมากน้อยเพียงใด และตอบโจทย์ปัญหาทางธุรกิจได้หรือไม่
4. Application หลังจากที่ได้ระบบที่มีคุณภาพถูกต้องแม่นยำแล้ว นำระบบไป Deployment เพื่อไปใช้ในสถานการณ์จริง รวมถึงอาจมีการติดตั้งร่วมกับระบบอื่น ๆ
5. Knowledge เมื่อนำระบบไปใช้จริงจำเป็นต้องรวบรวมองค์ความรู้จากการใช้งานจริงมาพัฒนาต่อยอดให้ Modeling มีประสิทธิภาพมากยิ่งขึ้น ปล.ซึ่งถ้าทำความเข้าใจใน 5 ส่วนแบบลึกๆได้ จะมีประโยชน์ต่อการพัฒนาระบบได้อย่างมีประสิทธิภาพ รวมถึงการนำ Big Data มาช่วยวิเคราะห์การตัดสินใจ