تحويل عمود نصي في Spark DataFrame

في بيئة تطوير بيانات Spark، يواجه المستخدمون في بعض الأحيان تحدي تقسيم عمود نصي في DataFrame إلى عدة أعمدة منفصلة. واحدة من الطرق المعتادة المقترحة هي استخدام الوظيفة Dataframe.explode، ولكن هذا الأمر يؤدي إلى زيادة في عدد الصفوف مقارنة بعدد الصفوف في الDataFrame الأصلية، وهو ما لا يرغب المستخدم فيه عادة.

لتحقيق الهدف المطلوب، يمكن استخدام وظيفة pyspark.sql.functions.split() بالإضافة إلى بعض العمليات الإضافية. ولكن هذا الأمر ينتج عنه عمودًا مصفوفًا مدمجًا بدلاً من عمودين على مستوى أعلى كما يرغب المستخدم.

باستخدام PySpark، يمكن تحقيق هذا بطريقة شبيهة بتلك التي تم استخدامها في الـ RDDs. يمكن استخدام دالة التعيين withColumn() مع تطبيق دالة تحويل تعمل على القيمة النصية وتفصلها بناءً على المعيار المطلوب. ومن ثم، يمكن تعيين اسماء جديدة للأعمدة المنشأة.

المثال التالي يوضح كيفية القيام بذلك:

python
from pyspark.sql.functions import col, split

# قم بتحميل DataFrame الخاص بك هنا وقم بتخزينه في متغير df

# قم بتقسيم العمود my_str_col باستخدام الفاصل '-' وتخزين القيم في عمودين جديدين
split_col = split(df['my_str_col'], '-')
df = df.withColumn('_col3', split_col.getItem(0))
df = df.withColumn('_col4', split_col.getItem(1))

# احذف العمود الأصلي my_str_col إذا كنت لا تحتاج إليه بعد الآن
df = df.drop('my_str_col')

# يمكنك تغيير أسماء الأعمدة إلى ما تراه مناسباً
df = df.withColumnRenamed('_col3', 'new_col1').withColumnRenamed('_col4', 'new_col2')

# اطبع الـ Schema للتحقق من النتائج
df.printSchema()

# عرض الـ DataFrame بعد تقسيم العمود
df.show()

باستخدام هذا الكود، يجب أن يتمكن المستخدم من تحقيق النتيجة المطلوبة، حيث يتم تقسيم العمود my_str_col إلى اثنين من الأعمدة الجديدة _col3 و _col4، ثم يتم تغيير أسماء الأعمدة إلى new_col1 و new_col2 على التوالي. يمكن للمستخدم أيضًا تخصيص أسماء الأعمدة حسب الحاجة.

المزيد من المعلومات

تمثيل المجلدات في البرمجة

تغيير ترتيب القائمة في C#

مقالات ذات صلة

تحسين تعامل الاستثناءات في جافا

فهم فهرسة ملفات PDF في Elasticsearch 5.0.0

استخدام jQuery للوصول إلى قيمة td في صف مع فئة dname

تحليل أخطاء Illegal Instruction في برنامج الشبكة العصبية

أنت تستخدم إضافة Adblock