استكشاف هيكل البيانات في Apache Spark: أساليب فعّالة للحصول على معلومات الـ DataFrame
في Apache Spark، يمكنك الحصول على قائمة بأسماء الأعمدة من مخطط (schema) للـ DataFrame باستخدام الكود التالي:
pythoncolumnNames = df.schema.names
والذي يُرجى من خلاله الحصول على قائمة تحتوي على أسماء الأعمدة الموجودة في الـ DataFrame. ومن خلال هذه الطريقة، يمكنك الوصول إلى بيانات الهيكل الأساسي للـ DataFrame.
والآن، بالنسبة للحصول على قائمة من أنواع البيانات الموجودة في مخطط DataFrame، يجب عليك استخدام الدالة dtypes
بدلاً من types
:
pythoncolumnTypes = df.dtypes
هذا الكود سيُعيد قائمة تحتوي على أزواج (tuple) حيث يحتوي العنصر الأول في كل tuple على اسم العمود، والعنصر الثاني يحتوي على نوع البيانات الخاص به.
على سبيل المثال، إذا كان لديك DataFrame يحتوي على أعمدة مثل “column1” و “column2” و “column3″، فإن df.dtypes
قد يُرجع شيئاً مشابهاً لهذا:
python[('column1', 'int'), ('column2', 'string'), ('column3', 'double')]
حيث يتم توفير نوع البيانات لكل عمود في الـ DataFrame.
المزيد من المعلومات
بالتأكيد، دعني أوسع لك المعلومات حول الحصول على معلومات البيانات في Apache Spark.
تتيح Apache Spark العديد من الطرق لاستكشاف وفهم هيكل البيانات في DataFrame. يُعتبر مفهوم المخطط (Schema) جزءًا أساسيًا من هذا الاستكشاف، حيث يوفر معلومات حول أنواع البيانات والهيكل العام للبيانات المخزنة في الـ DataFrame.
استعراض هيكل المخطط (Schema)
لعرض مخطط البيانات الخاص بـ DataFrame بشكل كامل، يمكنك استخدام الأمر التالي:
pythondf.printSchema()
هذا الأمر سيقوم بطباعة تفصيلي للهيكل الداخلي للبيانات، مع عرض أسماء الأعمدة وأنواع البيانات وإمكانية تضمين هيكل تضمين متداخل إذا كان ذلك متاحًا.
عرض عدد محدد من الصفوف
في بعض الحالات، قد تحتاج إلى عرض محدد عدد من الصفوف في الـ DataFrame لفهم البيانات بشكل أفضل. يمكن القيام بذلك باستخدام الأمر show()
:
pythondf.show(5) # عرض أول 5 صفوف
إحصائيات بسيطة حول البيانات
يمكنك أيضًا الحصول على إحصائيات بسيطة حول البيانات باستخدام الأمر describe()
:
pythondf.describe().show()
هذا سيقوم بعرض إحصائيات مثل العدد الإجمالي للصفوف، المتوسط، الانحراف المعياري، الحد الأدنى، والحد الأقصى لكل عمود.
تحويل أنواع البيانات
في بعض الأحيان، قد تحتاج إلى تحويل أنواع البيانات لتلبية متطلبات تحليلك. يمكنك استخدام الدالة cast
لذلك:
pythonfrom pyspark.sql.types import IntegerType
df = df.withColumn("columnName", df["columnName"].cast(IntegerType()))
حيث يتم تحويل نوع البيانات إلى IntegerType في هذا المثال.
البحث عن القيم الفارغة
يمكنك البحث عن القيم الفارغة في DataFrame باستخدام الأمر:
pythonfrom pyspark.sql.functions import col
df.select([count(when(col(c).isNull(), c)).alias(c) for c in df.columns]).show()
هذا يظهر عدد القيم الفارغة في كل عمود.
باستخدام هذه الأوامر والتقنيات، يمكنك فحص وفهم البيانات بشكل شامل في Apache Spark والعمل على تحليلها بشكل فعّال.