تطبيق وظائف Pandas على Spark DataFrame

14/03/2024

5 2 دقائق

عند استخدام الوظيفة mapPartitions في Apache Spark DataFrame، يتم تمرير كائنات Iterator لكل جزء من البيانات (chunks) في الـ DataFrame. وعند تنفيذ الوظيفة mapPartitions، يتم تمثيل البيانات على شكل سلاسل Iterator بدلاً من DataFrame مباشرة.

الخطأ الذي تحصل عليه يشير إلى أن الكائن الذي تم تمريره إلى الوظيفة some_func هو كائن itertools.chain وليس DataFrame كما كنت تتوقع. هذا يحدث لأن البيانات تعتبر بالفعل تحت شكل Iterator أثناء استخدام mapPartitions.

للتعامل مع هذه المشكلة، يمكنك تحويل البيانات الممررة إلى DataFrame داخل دالة some_func. لكن يجب أخذ العلم بأن هذا التحويل قد يؤدي إلى إشكاليات في الأداء، خاصة عند التعامل مع كميات كبيرة من البيانات.

بدلاً من ذلك، يمكنك استخدام الوظيفة pandas_udf في Apache Spark، والتي تتيح لك تطبيق الوظائف التي تعتمد على Pandas على DataFrame مباشرة دون الحاجة إلى التحويل إلى Pandas DataFrame والعودة مرة أخرى إلى Spark DataFrame. يمكنك استخدام هذا النهج لتجنب مشاكل الأداء المحتملة مع تحويل البيانات بين Spark و Pandas.

لذلك، يمكنك تعديل الكود الخاص بك لاستخدام pandas_udf بالشكل التالي:

python
from pyspark.sql.functions import pandas_udf, PandasUDFType

@pandas_udf(returnType="long", functionType=PandasUDFType.MAP_ITER)
def some_func(iterator):
    for pdf in iterator:
        # Your arbitrary logic here
        yield len(pdf)

df = spark.read.parquet(...)
result = df.selectExpr("*", "some_func(*) AS result")

باستخدام pandas_udf، يتم تطبيق الوظيفة المعينة (some_func) على كل جزء من البيانات مباشرة دون الحاجة إلى التحويل إلى Pandas DataFrame. يمكنك تعديل الوظيفة some_func لتطبيق أي منطق ترغب فيه على البيانات بناءً على متطلبات مشروعك.

المزيد من المعلومات

مقالات ذات صلة

تحسين التعامل مع الملفات في برامج Java

إضافة أرقام إلى ListBox بشكل مختصر

استخدام JNA للوصول إلى اسم البرنامج النشط في Java

استخراج أسماء الملفات من قائمة الصور في Swift