تحويل عمود نصي في Spark DataFrame

22/03/2024آخر تحديث: 22/03/2024

4 2 دقائق

في بيئة تطوير بيانات Spark، يواجه المستخدمون في بعض الأحيان تحدي تقسيم عمود نصي في DataFrame إلى عدة أعمدة منفصلة. واحدة من الطرق المعتادة المقترحة هي استخدام الوظيفة Dataframe.explode، ولكن هذا الأمر يؤدي إلى زيادة في عدد الصفوف مقارنة بعدد الصفوف في الDataFrame الأصلية، وهو ما لا يرغب المستخدم فيه عادة.

لتحقيق الهدف المطلوب، يمكن استخدام وظيفة pyspark.sql.functions.split() بالإضافة إلى بعض العمليات الإضافية. ولكن هذا الأمر ينتج عنه عمودًا مصفوفًا مدمجًا بدلاً من عمودين على مستوى أعلى كما يرغب المستخدم.

باستخدام PySpark، يمكن تحقيق هذا بطريقة شبيهة بتلك التي تم استخدامها في الـ RDDs. يمكن استخدام دالة التعيين withColumn() مع تطبيق دالة تحويل تعمل على القيمة النصية وتفصلها بناءً على المعيار المطلوب. ومن ثم، يمكن تعيين اسماء جديدة للأعمدة المنشأة.

المثال التالي يوضح كيفية القيام بذلك:

python
from pyspark.sql.functions import col, split

# قم بتحميل DataFrame الخاص بك هنا وقم بتخزينه في متغير df

# قم بتقسيم العمود my_str_col باستخدام الفاصل '-' وتخزين القيم في عمودين جديدين
split_col = split(df['my_str_col'], '-')
df = df.withColumn('_col3', split_col.getItem(0))
df = df.withColumn('_col4', split_col.getItem(1))

# احذف العمود الأصلي my_str_col إذا كنت لا تحتاج إليه بعد الآن
df = df.drop('my_str_col')

# يمكنك تغيير أسماء الأعمدة إلى ما تراه مناسباً
df = df.withColumnRenamed('_col3', 'new_col1').withColumnRenamed('_col4', 'new_col2')

# اطبع الـ Schema للتحقق من النتائج
df.printSchema()

# عرض الـ DataFrame بعد تقسيم العمود
df.show()

باستخدام هذا الكود، يجب أن يتمكن المستخدم من تحقيق النتيجة المطلوبة، حيث يتم تقسيم العمود my_str_col إلى اثنين من الأعمدة الجديدة _col3 و _col4، ثم يتم تغيير أسماء الأعمدة إلى new_col1 و new_col2 على التوالي. يمكن للمستخدم أيضًا تخصيص أسماء الأعمدة حسب الحاجة.

المزيد من المعلومات

تمثيل المجلدات في البرمجة

تغيير ترتيب القائمة في C#

مقالات ذات صلة

كيفية فتح ملفات HTML في Chrome على macOS

توافق جداول قاعدة البيانات مع H2 وMySQL

استراتيجيات الوصول إلى إحصائيات التثبيت على iTunes Connect

حلول للحصول على Enum من قيم خامة تحتوي على فراغات في لغة Swift