تحسين أسماء الأعمدة في Spark DataFrame

في بيئة Spark، يعد تغيير أسماء الأعمدة التي تحتوي على مسافات فارغة إلى شرطات سفلية من خطوات مهمة لتسهيل عمليات المعالجة وتحسين قابلية الاستخدام. يمكن تحقيق هذه المهمة بشكل فعّال باستخدام Scala في Spark.

في البداية، يتعين عليك الحصول على أسماء الأعمدة القديمة وتوليدها في مصفوفة. وفعل ذلك يعني استخدام دالة columns() للحصول على مصفوفة تحتوي على أسماء جميع الأعمدة في الإطار البيانات. بعد الحصول على هذه الأسماء، يمكنك استخدام مجموعة من التحويلات لإعادة تسمية الأعمدة التي تحتوي على مسافات فارغة.

في الكود الذي قدمته، قمت بتوليد مصفوفة جديدة لتكون أسماء الأعمدة الجديدة باستخدام التعبيرات الشرطية ودالة map. الآن، لكي تقوم بتغيير أسماء الأعمدة في إطار البيانات، يمكنك استخدام دالة toDF مع selectExpr لتحديد أعمدة الإطار وإعادة تسميتها. فيما يلي كيف يمكن تنفيذ ذلك:

scala
import org.apache.spark.sql.functions._

// حصول على أسماء الأعمدة
val oldNames = df.columns

// توليد أسماء الأعمدة الجديدة
val newNames = oldNames.map { x =>
   if (x.contains(" ")) x.replaceAll("\\s", "_") else x
}

// إعادة تسمية الأعمدة في الإطار
val dfRenamed = df.selectExpr(oldNames.zip(newNames).map { case (oldName, newName) =>
  s"$oldName as $newName"
}: _*)

// عرض الإطار بعد إعادة التسمية
dfRenamed.show()

يقوم الكود بتوليد التعبيرات اللازمة لإعادة تسمية الأعمدة باستخدام zip و map، ثم يستخدم selectExpr لتحديد الأعمدة وإعادة تسميتها. يتم عرض الإطار بعد إعادة التسمية باستخدام show().

باستخدام هذا الكود، يمكنك بسهولة تحقيق هدفك في تغيير أسماء الأعمدة في Spark DataFrame وتجنب استخدام دوال withColumnRenamed بشكل متكرر.

المزيد من المعلومات

تحسين تنظيم مشاريع Go باستخدام متغيرات GOPATH المتعددة وGo Modules

تصميم الشبكات المتجاوبة في Ionic 2