تحسين أداء PySpark باستخدام البث في توزيع البيانات

31/01/2024

6 2 دقائق

عندما يتعلق الأمر بتحليل ومعالجة البيانات الكبيرة باستخدام PySpark، يظهر أحيانًا الحاجة إلى مشاركة متغيرات عبر العقد الشبكي (RDDs) بين مختلف العقد (الأجهزة) في العملية. في مثالك، تحتاج إلى تبادل قاموس (dictionary) على مستوى العقد لاستخدامه في وظيفة (function) محددة. لكن السؤال يظهر حيرتك بشأن استخدام المتغير العام (global variable) وكيفية تحسين هذا الأمر باستخدام البث (broadcast) في PySpark.

أولاً وقبل كل شيء، يجب أن نتحدث قليلاً عن كيفية عمل البث في PySpark. يُستخدم البث لتوزيع البيانات غير القابلة للتغيير (immutable) بين العقد. ومن ثم، يمكن استخدام هذه البيانات في وظائف العقد بدون نسخ متكرر. الخطأ الذي واجهته عند استخدام البث يكون ناتجًا عن محاولة الوصول المباشر إلى قيمة البث، وليس من خلال الاستعانة بالدالة value().

لحل هذه المشكلة، يمكنك تعديل كودك على النحو التالي:

python
from pyspark import SparkContext

sc = SparkContext('local[*]', 'pyspark')

my_dict = {"a": 1, "b": 2, "c": 3, "d": 4}
my_list = ["a", "d", "c", "b"]

# إنشاء متغير البث
my_dict_bc = sc.broadcast(my_dict)

def my_func(letter):
    # الوصول إلى القيمة المُبثة باستخدام الدالة value()
    return my_dict_bc.value[letter]

my_list_rdd = sc.parallelize(my_list)

# استخدام البث في الدالة map
result = my_list_rdd.map(lambda x: my_func(x)).collect()

print(result)

الآن، يمكنك استخدام البث بشكل صحيح في وظيفتك my_func. يجب أن يكون هذا التغيير كافيًا لتحسين أداء العملية وتجنب استخدام المتغيرات العامة بشكل غير فعّال. يجب أن يكون هذا النهج أكثر فعالية وملاءمة لتطبيقات Spark الخاصة بك.

المزيد من المعلومات

مقالات ذات صلة

تحديث Gulpfile.js وتشغيل المهام في نظام Windows

تنفيذ تشفير AES باستخدام Java

تقسيم جزء النطاق من عنوان البريد الإلكتروني في الجافا

تفصيل GOPATH في لغة Go: منظمية وفعّالية في تطوير البرمجيات