ข้ามไปเนื้อหา

Databases and Warehousing

จาก วิกิตำรา

Data Management:A Critical Success Factor

[แก้ไข | แก้ไขต้นฉบับ]

การประยุกต์ใช้ IT ในด้านต่าง ๆ จะไม่สำเร็จได้เลย ถ้าปราศจากข้อมูล นั่นคือข้อมูลจะต้องมีคุณภาพสูง (หมายถึง ข้อมูลต้องมีความถูกต้อง สมบูรณ์ เหมาะสมกับเวลา ไม่แปลเปลี่ยนไปมา เข้าถึงได้ ตรงประเด็น และรัดกุม) พื้นฐานของการบริหารข้อมูลประกอบไปด้วย 4 ส่วน คือ

  1. Data profiling :: การทำความเข้าใจกับข้อมูล
  2. Data quality management :: การปรับปรุงคุณภาพของข้อมูล
  3. Data integration :: รวมข้อมูลจากหลายแหล่งที่มีลักษณะคล้ายกันเข้าด้วยกัน พร้อมทั้งระบุที่มาของข้อมูล
  4. Data augmentation :: การปรับปรุงคุณค่าของข้อมูล

ความยุ่งยากในการจัดการกับข้อมูล

[แก้ไข | แก้ไขต้นฉบับ]
  • ขนาดของข้อมูลจะเพิ่มขึ้นในเชิง exponential เมื่อเทียบกับเวลา
  • ข้อมูลจะกระจายอยู่ทั่วทั้งองค์กร มันถูกรวบรวมเอาไว้หลายแบบ โดยใช้หลาย ๆ วิธีการในการรวบรวมข้อมูล และใช้เครื่องมือที่แตกต่างกันออกไป
  • การเพิ่มขึ้นของข้อมูลจากภายนอกองค์กร จะขึ้นอยู่กับแนวทางที่ได้ตัดสินใจของ องค์กรนั้น ๆ
  • ความปลอดภัยของข้อมูล คุณภาพ และ ความสมบูรณ์ (integrity) เป็นตัววิกฤต และเกิดอันตรายได้ง่าย
  • การเลือกเครื่องมือที่นำมาใช้บริหารข้อมูลจะเป็นปัญหาใหญ่ เพราะมีให้เลือกจำนวนมาก
  • ข้อมูลที่ถูกสร้างขึ้นและถูกนำมาใช้ในเชิง offline โดยไม่มีการตรวจสอบการควบคุมคุณภาพ จะทำให้เกิดคำถามเกี่ยวกับความถูกต้องของข้อมูล

ระบบคอมพิวเตอร์จัดข้อมูลเป็นลำดับขั้น จากบิต ไบต์ ฟีลด์ เรคคอร์ด ไฟล์ และ ฐานข้อมูล

ปัญหาที่เกิดขึ้นกับแฟ้มข้อมูล

[แก้ไข | แก้ไขต้นฉบับ]
  1. Data redundancy :: ไฟล์แอพพลิเคชัน และ ข้อมูล อาจถูกสร้างมาจากโปรแกรมเมอร์หลายคนเป็นเวลานานแล้ว ดังนั้น ข้อมูลเดียวกันอาจถูกทำซ้ำ (duplicate) เป็นหลาย ๆ ไฟล์ ทำให้เกิดความสิ้นเปลืองในหลาย ๆ ด้าน
  2. Data inconsistency :: โดยผลของข้อ 1 จะทำให้เกิด ข้อ 2 คือ ข้อมูลที่มีอยู่นั้นแตกต่างกันออกไป ทั้งนี้เนื่องจากคน ๆ หนึ่งอาจแก้แค่ไฟล์เดียว ทำให้ไฟล์อื่น ๆ ที่มีการ duplicate ออกไป ไม่ถูกแก้
  3. Data isolation  :: โดยโครงสร้างของไฟล์ที่สร้างขึ้นในที่หนึ่งอาจทำให้แอพพลิเคชันอื่น ๆ เข้าถึงข้อมูลนั้น ๆ ได้ยาก เพราะโครงสร้างของไฟล์แตกต่างกัน
  4. Data integrity :: จะเป็นเรื่องยากในการกำหนดข้อจำกัดในด้าน data integrity ได้ตลอดทั่วทั้ง (across) multiple files

คลังข้อมูล เป็นการเก็บรวบรวมข้อมูลตั้งแต่อดีต ในลักษณะของ subject-oriented เพื่อให้ง่าย และสะดวกต่อการเข้าใช้ข้อมูล ซึ่งข้อมูลเหล่านี้จะถูกนำไปเป็นพื้นฐานของการวิเคราะห์ข้อมูล และเป็นส่วนช่วย และสนับสนุนการตัดสินใจ เช่น การใช้ /Data mining , /Decision support นอกจากนี้ยังมีกระบวนการทำงานที่สำคัญ คือ การประมวลผลเกี่ยวกับการทำธุรกรรม (Transactional processing) ที่สามารถนำไปใช้ในระบบปฏิบัติงานต่าง ๆ ซึ่งทำให้องค์กรมีความสามารถที่จะดำเนินการทำธุรกรรมต่าง ๆ รวมทั้งการทำรายงานที่เกี่ยวข้องของธุรกิจนั้น ๆ นอกจากนี้ยังมีส่วนต่าง ๆ ที่มีความเกี่ยวข้องกับการทำ คลังข้อมูลที่ควรศึกษาเพิ่มเติม เช่น /Data Mart , /Metadata และมีการอาศัยการวิเคราะห์ข้อมูลในคลังข้อมูล โดยกระบวนการที่เรียกว่า /Online Analytical Processing (OLAP) ซึ่งสามารถสรุปประโยชน์ของคลังข้อมูล ได้ดังนี้

  • นำเสนอข้อมูลทางธุรกิจไปให้กับผู้ใช้
  • ความสามารถในการเข้าถึงข้อมูลได้อย่างสะดวก รวดเร็ว ข้อมูลทั้งหมดถูกเก็บไว้ในที่เดียวกัน
  • ความสามารถเข้าใช้ข้อมูลรวดเร็วเพราะผ่านทาง web browsers

คุณลักษณะของคลังข้อมูล

[แก้ไข | แก้ไขต้นฉบับ]
  1. Organization ข้อมูลถูกจัดแบ่งเป็นหัวข้อและมีสารสนเทศที่สามารถนำมาใช้ สนับสนุนในการตัดสินใจเท่านั้น
  2. Consistency ข้อมูลใน different operational databases อาจถูกรวบรวม (code) แตกต่างกัน แต่สำหรับใน data warehouse แล้ว มันจะต้องถูกรวบรวมในลักษณะ หรือ ในรูปแบบเดียวกัน ตลอดเวลา
  3. Time variant ข้อมูลจะถูกเก็บรวมไว้หลาย ๆ ปี ดังนั้นมันจึงสามารถนำมาใช้ใน การทำนายแนวโน้ม การพยากรณ์ และ การเปรียบเทียบต่าง ๆ ตลอดระยะเวลา ที่จัดเก็บ
  4. Non-volatile ข้อมูลจะต้องไม่ถูก update (ไม่ทำการเปลี่ยนแปลงแก้ไข) หลังจาก เก็บเข้าไปใน warehouse แล้ว
  5. Relational ในทางปฏิบัติแล้ว data warehouse จะใช้โครงสร้างแบบ Relational Structure
  6. Web-based ข้อมูลของ data warehouse ในปัจจุบันนี้ จะถูกออกแบบให้มี efficient computing environment เพื่อใช้ใน web-based application ต่าง ๆ #Integration ข้อมูลมาจากหลายแหล่งต้องรวมเข้าด้วยกันได้
  7. Real Time ควรทำให้เป็นแบบ Real Time

ก่อนการทำ คลังข้อมูล ควรพิจารณาว่า

[แก้ไข | แก้ไขต้นฉบับ]
  1. มีข้อมูลจำนวนมากที่ถูก access จากผู้ใช้
  2. ข้อมูลที่ใช้งานถูกจัดเก็บอยู่ในระบบที่แตกต่างกัน
  3. มีการบริหารจัดการแบบ information-based
  4. มีฐานลูกค้าขนาดใหญ่และหลากหลาย
  5. ข้อมูลเดียวกันที่ใช้ในระบบที่แตกต่างกัน
  6. ข้อมูลถูกเก็บในเชิง Highly Technical Format ทำให้ยุ่งยากในการคลี่ออกมาใช้งาน
  7. มีประโยชน์ต่อผู้ใช้มากขึ้นในเชิงการคำนวณ

Marketing Databases in Action

[แก้ไข | แก้ไขต้นฉบับ]

Data warehouses และ data marts รองรับผู้ใช้ทั้งหมดในทุก ๆ functional areas โดยฐานข้อมูลปัจจุบันทั้งหมดเป็นแบบ static คือ รวบรวมและจัดเก็บ แต่ธุรกิจในปัจจุบันเริ่มต้องการ specialized databases เช่น

  1. Marketing transaction database (MTD) :: เป็นการรวมคุณลักษณะที่หลากหลายของฐานข้อมูลปัจจุบันและแหล่งข้อมูลการตลาดปัจจุบันเข้าเป็นฐานข้อมูลเดียวกัน ทำให้นักการตลาดมีปฏิสัมพันธ์กับลูกค้าได้เจาะจงมากขึ้น
  2. Interactive capability :: interactive transaction เกิดขึ้นเมื่อลูกค้าแลกเปลี่ยนสารสนเทศและทำการ update ฐานข้อมูลแบบ real time ซึ่งจะตรงข้ามแบบเดิมที่ทำเป็นช่วง ๆ (weekly, monthly, or quarterly) ตัวอย่างเช่น classical warehouses and marts

Web-based Data Management System

[แก้ไข | แก้ไขต้นฉบับ]

เป็นการดำเนินการเกี่ยวกับการบริหารจัดการข้อมูล และ /Business Intelligence ตั้งแต่การ รวบรวมข้อมูล ไปจนถึงการจัดทำ warehouse และ data mining มักจะกระทำโดยอาศัย เครื่องมือของ Web หรือ เกี่ยวข้องกับ Web Technology ต่าง ๆ ผู้ใช้สามารถใช้ เบราส์เซอร์ log เข้าระบบและดำเนินกิจกรรมที่เกี่ยวข้องได้โดยสะดวก ดังนั้นจะ เห็นได้ว่า เทคโนโลยีที่เกี่ยวกับ Web จะเข้ามามีบทบาทอย่างมากมายในปัจจุบัน

  1. Enterprise BI suites and Corporate Portals:: รวบรวม query, reporting, OLAP, และเครื่องมืออื่น ๆ
  2. Intelligent Data Warehouse Web-based Systems:: ให้ search engine เพื่อค้นหา specific applications ซึ่งสามารถปรับปรุงการทำงานของ data warehouse ให้ดีขึ้น
  3. Clickstream Data Warehouse:: คือการรวบรวมข้อมูลเกี่ยวกับพฤติกรรมของผู้ใช้ และรูปแบบในการเลือกอ่าน(ค้นหา)ข้อมูลที่ต้องการ เป็นการ monitor การกระทำ ของผู้ใช้เมื่อเขาแวะเข้าไปในเวบไซท์หนึ่ง ๆ
  • Cost-benefit issues and justification::

data management solutions บางตัวที่นั้นมีราคาแพงมาก มักซื้อใช้กันในองค์กรขนาดใหญ่ องค์กรขนาดเล็กควรมองหารคำตอบที่มี cost ต่ำ ในเชิง leverage existing databases แทนที่จะสร้างขึ้นใหม่

  • Where to store data physically::

ข้อมูลควรถูกกระจายไปอยู่ใกล้ผู้ใช้มากที่สุด เพื่อการป้อนและ update ข้อมูลได้เร็ว แต่จะเพิ่ม replication และ security risks ข้อมูลควรอยู่ที่ศูนย์กลางเพื่อง่ายต่อการควบคุม

  • Internal or external

องค์กรควรลงทุนภายในองค์กรด้าน collecting, storing, maintaining, และ purging ข้อมูลในฐานข้อมูลของตนเอง? หรือ ควรเป็นสมาชิก external databases ที่ผู้ให้บริการจัดการให้ทั้งหมดในเชิง data management และ data access

  • Disaster recovery

กระบวนการทางธุรกิจขององค์กร (ซึ่งมีฐานข้อมูลอิสระจากกัน) สามารถกู้กลับคืนและยังคงทำงานได้หลังจากเกิดภัยธรรมชาติหรือ information system disaster บางประเภท การปกกันความเสียหายที่จะเกิดขึ้นกับ Data warehouse รวมถึงค่าใช้จ่ายที่จะเกิดขึ้นด้วย

  • Data security and ethics

ข้อมูลที่ทำให้องค์กรเกิดความได้เปรียบในการแข่งขันได้รับการปกป้องจากการขโมยหรือการก่อวินาศกรรม Confidential data เช่น personnel details ปลอดภัยจากการ access อย่างไม่ถูกต้อง หรือ ผิดกฎหมาย ตรวจสอบการเป็นเจ้าของและผู้ที่รับผิดชอบ

  • Privacy

การรวบรวมข้อมูลใน warehouse และการทำ data mining อาจส่งผลให้เกิดการก้าวล่วงความเป็นส่วนตัว และแต่ละคนจะมีวิธีการปกป้องความเป็นส่วนตัวได้อย่างไร การเคลื่อนย้ายข้อมูลไปรอบ ๆ องค์กรมักเป็นปัญหาหลัก เนื่องจากประสิทธิภาพ ของการสื่อสารและประสิทธิภาพระหว่างกลุ่มต่าง ๆ รวมทั้งความแตกต่างด้านภูมิศาสตร์

  1. /List the major sources of data.
  2. /List some of the major data problem.
  3. /What is the terabyte?(Write the number.)
  4. /Review the steps of the data life cycle and explain them.
  5. /List some of the categories of data available on the Internet.
  6. /Define data Quality.
  7. /Define document management.
  8. /Describe the hierarchy of a file management system.
  9. /What are the problems that arise from the file environment?
  10. /Discuss a relational database and how it differs from other databases.
  11. /What are the components of a database of a database management system (DBMS)?
  12. /What is the difference between the conceptual, logical and physical views of data?
  13. /How can you get data out of a database?
  14. /What are the benefits of using a DBMS?
  15. /What is the difference between entities and attributes?
  16. /Describe a data warehouse.
  17. /Describe a datamart.
  18. /Define a marketing transaction database.