بخش های از فصل نهم

 

پیاده‌سازی استراتژی به روزرسانی به منظور یافتن داده‌های تغییر یافته

برای پیاده‌سازی یک استراتژی مناسب باید موارد ذیل را درنظر بگیرید:

  • به پنجره بارگذاری دقت کنید.
  • حجم داده‌ها را شناسایی کنید.
  • چرخه به روزرسانی را تعریف کنید.
  • زیرساخت فنی را بشناسید.
  • حجم ناحیه میانی را در نظر بگیرید.
  • روش‌های تشخیص تغییرات داده‌ها را ارزیابی کنید.

باید یک استراتژی برای نگهداری کردن تغییرات در انبار داده داشته باشید، تغییرات شامل در جداول واقعیتؤ(Fact)، داده ابعاد(Dimension) و داده های خلاصه سازی شده می‌باشد.

برای بروزرسانی انبار داده چندین عامل وجود دارد که باید به آنها دقت کنید؟

  • زمان مجاز برای بارگذاری چقدر است؟
  • حجم داده ای که باید منتقل شود چقدر است؟
  • غالبا داده های انبار داده به چه صورت باید به روز شود؟ تغییرات داده ها را چه زمانی منتقل می‌کنید؟ به روزرسانی انبار داده ماهانه، هفتگی یا در زمان بندی دیگری انجام خواهد شد؟ آیا بروزرسانی داده ها را بصورت دائمی انجام می دهید؟
  • ابزارهای در دسترس برای حرکت داده به داخل انبار داده هستند؟ قصد دارید چطور داده ها را منتقل کنید؟ با توجه به زمان محدود کدام یک از روش‌های انتقال داده عملی است؟

آیا داده ها را از سیستم های عملیاتی به یک محیط میانی انتقال می‌دهید؟ آیا این محیط یک مخزن داده عملیاتی است؟ آیا یک فایل است؟ آیا یک پایگاه داده اوراکل است؟

  • چطور تغییرات داده ای تشخیص داده می شوند؟ آیا قصد دارید تغییرات را بعد از شناسایی منتشر کنید؟ تغییرات را کجا می خواهید ذخیره کنید؟ آیا باید از تریگرها برای ذخیره تغییرات در یک مخزن داده ای استفاده کنید؟

برنامه ریزی پنجره بارگذاری

  • پردازش ها را مطابق با استراتژی برنامه ریزی کرده و ایجاد کنید.
  • به حجم داده ها توجه کنید.
  • زیر ساخت فنی موجود را بشناسید.
  • از ارزش داده مطمئن شوید.
  • قبل از هر چیز به نیازمندی دسترسی کاربران به داده ها توجه کنید.

امکان در دسترس بودن سریع داده‌ها به معنی یک بازه کوچک برای بارگذاری داده‌ها است.

زمان بارگذاری به عواملی از جمله حجم داده ها، قابلیت های شبکه و قابلیت های ابزار بارگذاری بستگی دارد. فراموش کنید که هدف بارگذاری داده ها ایجاد داده های ارزشمند برای کاربران است،  به منظور پیاده سازی یک استراتژی موثر بارگذاری داده ها قبل از هر چیز باید به نیازمندی های کاربران توجه داشته باشید سپس زمان‌بندی مناسب را مشخص کنید.

ارزیابی بازه بارگذاری

در ابتدا نیازمندهای دسترسی کاربر را تعریف کرده سپس بارگذاری داده ها را زمان‌بندی کنند. پس از آنکه دسترسی کاربران تعریف شد می‌توانید چرخه به روزرسانی را نهایی کنید دقت کنید که برخی از پردازش‌ها ممکن است به صورت موازی انجام شوند.

 

دنبال کردن داده‌های تغییر یافته به منظور بروزرسانی انبار داده

  • داده جدید جدول واقعیت (FACT) را دنبال کنید.
  • داده تغییر یافته مربوط به ابعاد را دنبال کنید.
  • روش‌های به دام انداختن تغییرات را در ابعاد و جداول واقعیت (FACT) با هم ارزیابی کنید.
  • روش‌ها:
  • جایگزین کردن کل داده‌ها
  • مقایسه نمونه‌های پایگاه داده با هم
  • برچسب‌گذاری داده‌ها براساس زمان
  • استفاده از تریگرهای پایگاه داده
  • استفاده از Log های پایگاه دادها

دو گروه از داده‌های تغییر یافته در انبار داده وجود دارد:

  • داده‌های جدید جداول واقعیت (FACT)
  • داده تغییر یافته بعد

برای هر کدام مکانیزم‌های متفاوت برای دنبال کردن تغییرات وجود دارد که در مورد آن بحث خواهد شد.

داده واقعیت (FACT)  می‌تواند با استفاده از اضافه کردن پارتیشن جدید به راحتی بارگذاری شود و نسبتاً یک پردازش ساده است. تغییرات داده بعد نیاز به اصلاح داده‌ها به صورت انتخابی دارند و برای اینکار نیاز دارید تا ارزیابی کنید تا داده‌های تغییر یافته باید جایگزین شوند یا به عنوان رکورد جدید اضافه شوند، و همچنین به نگهداری رکوردهای قبلی در بعد نیاز دارید (حفظ کردن رکوردهای قدیمی و جدید).

به عنوان مثال، توضیح مربوط به یک محصول ممکن است در طول زمان تغییر کند حتی اگر بخش عددی آن یکسان باقی بماند. این تغییرات و انعکاس آن مهم است.

 

تکنیکهای نگهداری تاریخچه تغییرات

  • طراحی جداولی برای نگهداری تغییرات
  • پیاده‌سازی ارتباطات یک به چند مابین جدول اصلی و تاریخچه آن
  • نسخه‌بندی رکوردها
  • حفظ تاریخچه کامل

تاریخچه جداول و ارتباطات یک به چند

  • ابعاد نرمال‌سازی شده هستند.
  • داده جاری و تاریخچه‌ای نگهداری می‌شود.
  • جداول تاریخچه:
  • ارتباطات یک به چند
  • یک رکورد جاری و تعدادی رکورد تاریخچه‌ای وجود دارند که با هم در ارتباط هستند.

جداول تاریخچه

یکی از راه‌حل‌های حفظ تاریخچه اطلاعات استفاده از جداول تاریخچه‌ای است که برای نرمال کردن ابعاد به منظور نگهداری داده‌های جاری و تاریخچه‌ای استفاده می‌شود.

این روش یکی از راه‌حل‌های قدرتمند، مؤثر و راحت است.

ارتباطات یک به چند

با استفاده از این روش یک رکورد از اطلاعات جاری مشتری و مجموعه‌ای از رکوردهای تاریخچه‌ای مشتری در جدول تاریخچه‌‌ای مشتری نگهداری می‌شود (یک رابطه یک به چند در میان جداول) مشتری و تاریخچه مشتری وجود دارد بنابراین نگهداری تاریخچه تغییرات مشتری در یک مدل داده‌ای نرمال شده انجام می‌شود.

در جدول مشتری، شناسه یکتای مشتری در سیستم عملیاتی در ستون ID نگهداری می‌شود. در جدول HIST_CUSI، کلید مربوط به مشتری در ستون ID و کلید تولید شده مربوط به تاریخچه مشتریان در ستونG_Id نگهداری می‌شود و با استفاده از این کلیدها می‌توانید تاریخچه‌ تغییرات رکوردهای مشتریان را تشخیص دهید.

جدول نمایش داده شده در صفحه بعدی نشان می‌دهد که چطور داده‌ها ممکن است نمایش داده شود.

 

جدول مشتری ممکن است شامل جزئیات کامل برای هر مشتری باشد.