تحليل عمارة Spark Yarn: أساسيات التوزيع في معالجة البيانات الكبيرة

16/02/2024

3 2 دقائق

في عمارة Spark Yarn، يتم تنفيذ التطبيقات باستخدام هندسة توزيعية تعتمد على مفهوم Yarn. يمكن فهم عملية تنفيذ تطبيق Spark في سياق Yarn من خلال الصورة المقدمة. يبدأ العملية بتشغيل الـ driver على عقدة العميل أو بعض عقد البيانات. يتكون الـ driver، الذي يشبه الـ driver في لغة Java، من الشيفرة التي تم تقديمها إلى Spark Context.

في Spark Yarn Architecture، يمثل Spark Context الاتصال بنظام Hadoop Distributed File System (HDFS) ويقوم بتقديم طلبك إلى مدير الموارد في بيئة Hadoop. يتفاعل مدير الموارد مع Name Node لمعرفة أي عقدة بيانات في العنقود تحتوي على المعلومات التي طلبتها عقدة العميل. يقوم Spark Context أيضًا بوضع المنفذ (executor) على عقدة العامل الذي سيقوم بتنفيذ المهام.

بموجب هذا الترتيب، يقوم مدير العقدة ببدء تنفيذ المنفذ الذي يقوم بتشغيل المهام التي تم تحديدها من قبل Spark Context. بعد ذلك، يقوم المنفذ بإرجاع البيانات المطلوبة من HDFS إلى الـ driver. يجسد هذا الإجراء توزيع العمل الذي يحدث في بيئة Yarn.

بالنسبة للسؤال المتعلق بعدد المنافذ التي يمكن أن يرسلها الـ driver إلى كل عقدة بيانات لاسترجاع البيانات من HDFS، يعتمد ذلك على طريقة تكوين التطبيق. عمومًا، يمكن أن يرسل الـ driver عدة منافذ (executors) إلى كل عقدة بيانات لاستغلال التوزيع وزيادة كفاءة الاسترجاع.

تأتي هذه العمارة مع فوائد عديدة منها فعالية توزيع المهام واستخدام الموارد بشكل فعال في بيئات العنقود الكبيرة. يتيح لنا فهم هذه العمارة أن نقدر مدى قوة Spark كإطار لمعالجة البيانات الكبيرة بفعالية.

المزيد من المعلومات

مقالات ذات صلة

حل مشكلة ظهور الـModal خلف النافبار في موقع Bootstrap

تحقيق صف جدول قابل للنقر في ReactJS باستخدام NavLink

حلول لخطأ MetaspaceSize أثناء تشغيل خادم Wildfly على Ubuntu

تقنيات توقيت طويلة في مشاريع الهوائيات