بخش های از فصل سوم

موضوع‌گرا

داده‌های انبار داده در موضوعات کسب و کار دسته‌بندی می‌شوند.

داده‌های موضوع‌گرا پیرامون موضوع اصلی پروژه دسته‌بندی می‌شوند و برای درک عمیق پروژه از آن موضوعات مفید است. به عنوان مثال، یک سیستم عملیاتی بانکی رکوردهای جداگانه از مشتریان، تسهیلات و سایر تراکنش‌ها را نگهداری می‌کند. یک انبار داده این رکوردهای مستقل را با موضوع در اطلاعات مالی ارائه می‌دهد و می‌توانید به داده‌های موضوع‌گرا و وابسته به هم پیرامون موضوع اصلی پروژه اشاره کنید:

چند نمونه از موضوعات:

         اطلاعات مالی مشتریان

         هزینه‌های تلفن ایجاد شده در صنعت مخابرات

         اطلاعات تاریخچه‌ای پروازها

         داده‌های بیمه‌ای

         داده‌های مرتبط با یک موضوع به منظور یکپارچه‌سازی به انبار داده منتقل می‌شوند.

تجمیع شده

داده‌های مرتبط با موضوع داده شده یکبار تعریف و ذخیره شده است.

در برخی سازمان‌ها، داده‌ها در سیستم‌های مستقل هستند با تجمیع اطلاعات در داخل یک مجموعه‌ از اطلاعات با تفاوت داده‌ها را برطرف کنید. مشخصه انبار داده این است که داده‌ها به صورت کامل تجمیع شده‌ و در ساختار قابل قبولی ذخیره شده‌اند، پردازش‌های تجمیع کردن، انتقال دادن و تغییر شکل دادن می‌تواند زمان‌ زیادی مصرف کرده و هزینه بر باشند.

داده‌های یکپارچه

قبل از بارگذاری داده در انبار داده باید تکلیف داده‌های کثیف را مشخص کنید و از یکپارچگی داده برای قواعد نامگذاری، کدگذاری و خصوصیت‌های فیزیکی داده استفاده کنید.

در محیط‌های انبار داده داده‌های تکراری در جزئی‌ترین سطح جزئیات وجود دارند، انبار داده فقط شامل داده‌هایی می‌شوند که بصورت فیزیکی انتخاب شده و به داخل انبار داده داده می‌شوند، با این حال، وجود داده‌های تجمیع شده (مجموع یا میانگین) برای بهبود کارایی پرس‌وجوها و مخصولاً تحلیل‌های drill down لازم است.

مبتنی

انبار داده جامع

  • پیاده‌سازی انبار داده در مقیاس بزرگ را پشتیبانی می‌کند.
  • دامنه کاری آن براساس کل کسب و کار است.
  • شامل داده‌های همه موضوعات کسب و کاری است.
  • بصورت تدریجی پیاده‌سازی می‌شود.
  • یک منبع واحد از داده‌های کل پروژه است.
  • شامل داده‌های همزمان (توأم) پروژه است.
  • یک واحد توزیع داده برای DM های وابسته است.

بطور خلاصه، یک انبار داده جامع داده‌های مربوط به هم موضوعات کسب و کار را برای تحلیل‌های کاربرها ذخیره می‌کند. دامنه انبار داده کل کسب و کار و سیستم‌های مورد نیاز کسب و کار است. یک انبار داده جامع معمولاً به روش یک سری از راه‌حل‌های تدریجی پیاده‌سازی می‌شود.

در یک انبار داده جامع، همه کاربران به انبار داده دسترسی دارند که قابلیت‌ها ذیل در آن ارائه می‌شود:

  • یک منبع واحد حقیقی از داده‌های تجمیع شده را ارائه می‌دهد.
  • یک نقطه واحد برای توزیع داده برای DM های وابسته است.

توان رشد و استفاده

بعد از اینکه انبار داده جامع پیاده‌سازی شد، داده‌های ذخیره شده در انبار داده رشد می‌یابد و هر زمان که انبار داده به روز می‌شود داده‌های بیشتری اضافه، حذف یا آرشیو می‌شود. به روزرسانی انبار داده در یک چرخه منظم اتفاق می‌افتد و نرخ رشد داده درانبار داده خیلی سریع است، در حدود چند گیگ بایت در یک ماه و چند ترابایت در طول زمان، پس از پیاده‌سازی موفقیت‌آمیز، انبار داده شده به صورت غیر منتظره و زودتر از حد انتظار رشد می‌یابد.

تعریف

یک DM شامل واقعیت‌ها (Fsers)  و داده‌های خلاصه‌سازی شده و مشتق شده از انبار داده است با استفاده از که توسط آن کاربران به اطلاعات مورد نیاز سازمانشان دسترسی می‌یابند. داده‌های انبار داده می‌تواند شامل همه موضوعات باشد.

یا می‌تواند یک انبار داده کوچک باشد که داده‌ها را از چندین موضوع با هم ترکیب می‌کند و به عنوان یک هسته برای تغذیه انبار داده جامع عمل می کند.

دامنه

یک انبار داده با چنین موضع که معمولاً توسط یک واحد سازمانی مرکزی مانند گروه تکنولوژی پیاده‌سازی می‌شود. اغلب با نام انبار داده مرکزی یا انبار داده جامع شناخته نامیده می‌شود.

موضوعات

DM نوعی طراحی انبار داده برای یک موضوع کسب و کار مانند فروش، مالی، یا بازار است.

منابع داده

یک انبار داده داده‌ها را از کل سیستم‌های منبع جمع‌آوری می‌کند و یک DM معمولاً داده‌ها را از منابع کمتری جمع‌آوری می‌کند.

زمان پیاده‌سازی

زمان پیاده‌سازی DMها معمولاً زمان کمتری از انبار داده دارند، بنابراین، نگهداری و تولید راحت‌تری دارند.

 

DMهای مستقل سیستم‌هایی جداگانه‌ای هستند که از ابتدا داده‌ها را بصورت مستقیم از سیستم‌های عملیاتی یا سایر منابع خارجی استخراج می‌کنند، DMهای مستقل دارای مشخصه‌های زیر می‌باشند:

  • منابع آنها سیستم‌های عملیاتی و منابع خارجی هستند.
  • شامل پردازش‌های ET دشوارتری هستند، چون DMهای مستقل داده را از منابع غیر تمیز یا غیر یکپارچه استخراج می‌کنند. معمولاً استخراج مستقیم داده‌ها از سیستم‌های منبع به منظور پردازش و تجمیع داده‌ها شامل ایجاد خطا می‌شود.
  • DM به منظور برآورده کردن نیازهای تحلیل ایجاد می‌شود. DMهای مستقل اغلب برای ایجاد تحلیل‌های سریع مورد استفاده قرار می‌گیرد.

سیستم‌های منبع

در سیستم‌های منبع ممکن است داده‌ها به شکل‌های زیر وجود داشته باشد:

  • داخل سیستم‌های عملیاتی
  • داخل آرشیوها
  • داخل فایلها که بصورت مستقیم با سیستم‌های عملیاتی مرتبط نیستند. مانند فایل‌های Excel و کتابچه‌های کاری
  • داده‌های خارج از شرکت.

ناحیه میانی (Staaging)

ناحیه میانی شبیه به یک ناحیه برای ساخت و ساز است، که در آن بیشتر کارهای مربوط به تمیز کاری و آماده‌سازی داده قبل از بارگذاری در انبار داده انجام می‌شود. در ناحیه موقت داده‌های ذخیره‌ شده شامل داده‌های از قبیل مجموعه پردازش‌های رایج از قبیل استخراج، تغییر شکل وبارگذاری است.

برای کاربران کسب و کار اجازه دسترسی به داده‌های به این ناحیه را ندارند. و برای اجرای پرس‌وجوها و تهیه گزارشات مناسب نمی‌باشد.

یک ناحیه میانی یک نیازمندی معمول جهت پیاده‌سازی انبار داده است.

داده‌های ناحیه میانی ممکن است شامل یک مخزنی از داده عملیاتی (ODS) باشد، همچنین مجموعه‌ای از فایل‌ها یا مجموعه‌ای از جداول پایگاه داده رابطه‌ای.

متولوژی

  • موفقیت یک انبار داده را تضمین می‌کند.
  • پیاده‌سازی تدریجی را تقویت می‌کند.
  • یک رویکرد استقرار برای یک انبار داده جامع ارائه می‌کند که:
  • مطمئن است.
  • قابل مدیریت است.
  • اثبات شده است.
  • پیشنهاد شده است.

یک متولوژی مجموعه‌ای از جزئیات، رویه‌ها و گام‌ها برای انجام یک هدف نهایی است. به کار گرفتن یک متولوژی برای پیاده‌سازی هر سیستم مهم است و در یک پروژه انبار داده مهم‌تر است.

انبار داده یک سرمایه‌گذاری بزرگ در هر سازمان است و برای جلوگیری از شکست در پیاده‌سازی پروژه‌های انبار داده، باید از یک متولوژی دو دلیل باعث شکست پروژه‌های انبار داده می‌شود. دلیل اول این است که انبار داده به موقع تحویل داده نمی‌شود و دلیل دوم این است که انبار داده نیازمندی کاربران را مرتفع نمی‌سازد. یک متودولوژی خوب به شما کمک می‌کند انتظارات را با شناختن اقلام تحویل دادنی‌ مدیریت کنید.

معماری

  • برنامه‌ریزی، ساختاربندی و استانداردسازی مورد نیاز برای اطمینان از تجمیع اجزاء پروژه‌ و پردازش‌ها را ارائه می‌دهد.
  • یک زیر ساخت استاندارد برای انبار داده در سطح کلان ایجاد می‌کند.

از نقطه نظر کسب و کار و تکنولوژی، یک معماری مجموعه‌ای از اجزاء و ارتباطات مابین آنها را تعریف می‌کند. هدف از تعریف معماری انبار داده تجمیع اجزاء به منظور برآوردن نیازهای اطلاعاتی کسب و کار می‌باشد.

برخی از اجزاء معماری انبار داده شامل موارد زیر است:

  • منابع داده‌ای
  • حاکمیت داده
  • مدیریت داده
  • توزیع داده
  • پوشه اطلاعات
  • ابزارهای دسترسی به داده.

استخراج، تغییر شکل و بارگذاری (ETL)

پردازش‌های استخراج، تغییر شکل و بارگذاری یکی از عوامل اصلی موفقیت پروژه‌های انبار داده است و بالای 75 درصد از زمان صرف شده برای یک پروژه انبار داده به انجام این پردازش‌ها تخصیص داده می‌شود.

این پرداز‌ش‌ها مبنای ایجاد اطلاعات با کیفیت در انبار داده هستند، با استفاده از ETL می‌توانید داده را از سیستم‌های مبنای دریافت کرده و تمیز کاری، صحت‌ سنجی و اعتبار سنجی را انجام داده و داده‌ها را بصورت یکپارچه درآورده و سپس به انبار داده منتقل نمائید.

  • استخراج: پردازش‌های مربوط به انتخاب اقلام اطلاعاتی خاص از سیستم‌های عملیاتی است.
  • تغییر شکل دادن: پردازش‌های تجمیع‌سازی، اعتبارسنجی، صحت‌سنجی و تمیزکاری و همچنین زمان‌بندی انجام این پردازش‌های جهت بارگذاری در پایگاه داده هدف است.
  • بارگذاری: پردازش‌های مربوط به انتقال داده‌های ذخیره شده از ناحیه میانی به داخل پایگاه داده انبار داده است.

با استفاده از ابزارهای ETL این فعالیت‌ها به سادگی انجام می‌شوند، می‌توان از برنامه‌های سفارشی‌سازی شده که در زبانهای COBOL, C++, PL/SQL یا سایر زبان‌های برنامه نویسی نوشته می‌شوند استفاده کرد. از جمله ابزارهای ایجاد، نگهداری و مدیریت پردازش‌های ETL می‌توان به ODL و OWB اشاره کرد.