كيفية بناء SparkSession باستخدام PySpark

بناءً على ما طرحته في استفسارك، يبدو أنك بصدد الانتقال من استخدام Spark 1.6.1 إلى Spark 2.0، وترغب في إعداد بيئة SparkSession باستخدام PySpark بدلاً من sqlContext. في هذا المقال، سأوضح لك كيفية بناء SparkSession بشكل صحيح في Spark 2.0 باستخدام PySpark، مع التركيز على الفروقات بين الإصدارين وكيفية التعامل معها.

أولاً، دعوني أشير إلى أن استخدام sqlContext كان شائعاً في Spark 1.x ولكنه تم تعويضه بشكل كبير في Spark 2.x بفضل مفهوم SparkSession الذي يوفر واجهة موحدة للتفاعل مع بيانات Spark. لذا، من الضروري التحول إلى استخدام SparkSession.

لبدء استخدام SparkSession في PySpark، يمكنك اتباع الخطوات التالية:

استيراد اللازم من PySpark:

python
from pyspark.sql import SparkSession

إنشاء SparkSession:

python
spark = SparkSession.builder \
    .appName("YourAppName") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

هنا، تستخدم الدالة builder() لبناء SparkSession، وتمرر اسم التطبيق باستخدام appName() وتعيين أي إعدادات إضافية باستخدام config()، ثم تستخدم getOrCreate() للحصول على SparkSession الحالي أو إنشاء واحد إذا لم يكن موجوداً بالفعل.

الآن يمكنك استخدام SparkSession لقراءة البيانات وتنفيذ الاستعلامات والعمليات الأخرى:

python
mydata = spark.read.format("com.databricks.spark.avro").load("s3:...")

ومن ثم، يمكنك استخدام العمليات التي ترغب في تنفيذها على DataFrame مثل تنفيذ الاستعلامات الخاصة بـ SQL وغيرها.

بالنسبة للفروقات بين Spark 1.x وSpark 2.x، فهناك العديد من التغييرات الهامة التي تم إدخالها في Spark 2.x مثل تحسينات في الأداء وإضافة وظائف جديدة وتغييرات في الواجهات. من بين هذه التغييرات، الانتقال من sqlContext إلى SparkSession هو واحد من أهمها، كما تم تحسين أداء محرك التنفيذ وتوسيع قدراته.

باستخدام SparkSession بدلاً من sqlContext، ستحصل على مزايا إضافية مثل دعم محسن لقواعد البيانات، وقدرة أكبر على التكامل مع المكتبات الخارجية، وأداء محسن. وباعتبارك ترغب في تحميل بيانات Avro من S3 وتنفيذ استعلامات PySpark و SQL، ستجد SparkSession أكثر ملاءمة لاحتياجاتك.

من خلال اتباع الخطوات المذكورة أعلاه، يجب أن تكون قادراً على إعداد بيئة SparkSession بنجاح في Spark 2.0 باستخدام PySpark والتحول بسلاسة من sqlContext إلى هذه الواجهة الجديدة لتنفيذ مهامك بكفاءة ودقة أكبر.

المزيد من المعلومات

كيفية العثور على رقم السطر النهائي في AST لـ end-of-statement في Python

مشكلة tsc.exe exited with code 1: حلول وتوجيهات

مقالات ذات صلة

تعلم كيفية جمع وطباعة القيم بلغة Ruby

تعلم تصميم تخطيط Android: إضافة وتخصيص الصور المتجاورة بسهولة

تفاصيل اختلاف التحويل الزمني وربط الخاصيات في Angular

حلاً شاملاً: تنسيق CSS Modules في React باستخدام styled-components

أنت تستخدم إضافة Adblock