• التحدي

    واجه العميل تحديات متعددة بما في ذلك:

    • عدم وجود عمليات نشر آلية لـ Composer/Dataflow و DBT.

    • غياب اختبارات الوحدة وفحوصات جودة البيانات.

    • إعداد يدوي لبيئات التطوير مما يؤدي إلى عدم الكفاءة.

  • الحل

    تنفيذ CI/CD:​

    • إعداد خطوط أنابيب آلية باستخدام Bitbucket Pipelines.​
    • عمليات نشر آلية لمشاريع Cloud Composer و Dataflow و DBT.​
    • ضمان إمكانية دمج اختبارات الوحدة وفحوصات جودة البيانات في خطوط CI.​

    إعداد بيئة التطوير:​

    • تكوين نشر آلي لبيئات التطوير/الإنتاج من الفروع المميزة.​
    • إقامة عمليات لإعداد يدوي محدود أثناء الاختبار. اكتمال المشروع: الربع الرابع-2024​

    التوثيق والتدريب:​

    • تقديم توثيق شامل للحلول المنفذة.​
    • إجراء جلسات تدريبية لفريق Softonic على العمليات والأدوات الجديدة.​
  • النتيجة

    أسفرت الحلول المنفذة عن:

    • عمليات نشر آلية بالكامل، مما يقلل بشكل كبير من الجهود اليدوية.

    • تحسين جودة البيانات من خلال اختبارات الوحدة المتكاملة والتحقق.

    • تبسيط إعداد بيئة التطوير، مما يقلل من الأخطاء ويحسن الكفاءة.

    • تحسين المرونة، مما يتيح تكرارًا أسرع ونشر تدفقات البيانات.

    لقد مكنت هذه التحول في خطوط CI/CD فريق هندسة البيانات للعميل من الحصول على سير عمل فعال وقابل للتوسع وآلي، مما يتيح نشر سلس وموثوقية البيانات.

  • التكنولوجيا
    • التنسيق: Airflow يعمل في Cloud Composer

    • مستودع البيانات: BigQuery

    • التحويلات: الانتقال إلى DBT

    • الاستخلاص: وظائف Dataflow منشورة عبر قوالب GCS

    • المعالجة: وظائف Python تعمل على GCE VMs

    • التقارير: QlikSense

    • التحكم في الإصدارات و CI/CD: Bitbucket Pipelines

كيف يعمل؟

1
مصادر البيانات
  • قواعد البيانات السحابية
  • قاعدة بيانات محلية
  • ملفات Excel بتنسيق "جميل"
  • ملفات csv
2
سكريبت Python
  • معالجة ملفات Excel بالتنسيق
  • التحويل إلى *.csv
3
خط أنابيب Linux
  • تصفية البيانات
4
التجهيز
  • تحميل بيانات مخطط التجهيز
5
التجميع / MDS
  • تجميع البيانات على مستوى الشهر
  • ملء جداول الحقائق الوسيطة
  • تحميل مستودعات البيانات MD
  • نقل البيانات إلى MDS
6
MDS
  • إثراء MD بواسطة المستخدم
  • إدخال MD المطلوب للحسابات: الدورات، الوحدات. معدلات التحويل.
  • إطلاق استمرار تدفق البيانات
7
تحميل DWH
  • حساب وتحميل مستودعات البيانات من جداول الحقائق وبيانات المستخدم MDS
  • تسجيل سجل التنزيل والأخطاء التي حدثت مع الأسباب
8
PowerBI
  • تحديث مجموعة بيانات PowerBI