-
التحدي
كانت بيانات السوق القيمة لـ GfK متاحة فقط من خلال عملية تسجيل دخول يدوية عبر الويب، مما جعل الحصول على البيانات ودمجها غير فعال. كان التحدي هو أتمتة استرجاع البيانات مع التنقل في تعقيدات المصادقة المستندة إلى SAML وضمان الأمان.
-
الحل
-
أتمتة المصادقة
-
يقوم النظام بأتمتة المصادقة المستندة إلى SAML، وتسجيل الدخول بأمان إلى GfK Connect باستخدام بيانات الاعتماد المخزنة في Azure Key Vault.
-
مكتبة Mechanize تتولى عملية تسجيل الدخول برمجيًا، مما يضمن تجربة سلسة.
-
-
استرجاع الملفات الآلي
-
BeautifulSoup تُستخدم لـ مسح واستخراج الملفات المتاحة، مما يلغي الحاجة إلى الاكتشاف اليدوي.
-
-
معالجة البيانات والدمج
-
مجموعة حوسبة Databricks تنظم الإدخال، وتصفية الملفات الزائدة ونقل البيانات الجديدة فقط إلى Azure Data Lake.
-
تم تحسين خط الأنابيب لضمان الكفاءة والقابلية للتوسع، مما يتيح التعامل مع البيانات على نطاق واسع.
-
-
-
النتيجة
-
استرجاع بيانات مؤتمت بالكامل وآمن، مما يقلل بشكل كبير من الجهد اليدوي.
-
تكامل سلس مع تخزين السحابة وبيئات معالجة البيانات.
-
تعزيز الأمان مع إدارة صارمة لبيانات الاعتماد عبر Azure Key Vault.
-
حل قابل للتوسع يمكنه التكيف مع متطلبات البيانات المتزايدة.
-
-
التكنولوجيا
-
المصادقة المستندة إلى SAML – التحقق من الوصول الآمن عبر اتحاد GfK.
-
Azure Key Vault – تخزين آمن لبيانات الاعتماد والأسرار.
-
مكتبة Mechanize – تقديم النماذج تلقائيًا للمصادقة.
-
BeautifulSoup – اكتشاف تلقائي لملفات البيانات.
-
مجموعة حوسبة Databricks – تنظيم ومعالجة البيانات المدخلة.
-
Azure Data Lake – تخزين ودمج الملفات المعالجة.
-
كيف يعمل؟
- قواعد البيانات السحابية
- قاعدة بيانات محلية
- ملفات Excel بتنسيق "جميل"
- ملفات csv
- معالجة ملفات Excel بالتنسيق
- التحويل إلى *.csv
- تصفية البيانات
- تحميل بيانات مخطط التجهيز
- تجميع البيانات على مستوى الشهر
- ملء جداول الحقائق الوسيطة
- تحميل مستودعات البيانات MD
- نقل البيانات إلى MDS
- إثراء MD بواسطة المستخدم
- إدخال MD المطلوب للحسابات: الدورات، الوحدات. معدلات التحويل.
- إطلاق استمرار تدفق البيانات
- حساب وتحميل مستودعات البيانات من جداول الحقائق وبيانات المستخدم MDS
- تسجيل سجل التنزيل والأخطاء التي حدثت مع الأسباب
- تحديث مجموعة بيانات PowerBI