استكشاف هيكل البيانات في Apache Spark: أساليب فعّالة للحصول على معلومات الـ DataFrame

26/02/2024آخر تحديث: 26/02/2024

4 دقيقة واحدة

في Apache Spark، يمكنك الحصول على قائمة بأسماء الأعمدة من مخطط (schema) للـ DataFrame باستخدام الكود التالي:

python
columnNames = df.schema.names

والذي يُرجى من خلاله الحصول على قائمة تحتوي على أسماء الأعمدة الموجودة في الـ DataFrame. ومن خلال هذه الطريقة، يمكنك الوصول إلى بيانات الهيكل الأساسي للـ DataFrame.

والآن، بالنسبة للحصول على قائمة من أنواع البيانات الموجودة في مخطط DataFrame، يجب عليك استخدام الدالة dtypes بدلاً من types:

python
columnTypes = df.dtypes

هذا الكود سيُعيد قائمة تحتوي على أزواج (tuple) حيث يحتوي العنصر الأول في كل tuple على اسم العمود، والعنصر الثاني يحتوي على نوع البيانات الخاص به.

على سبيل المثال، إذا كان لديك DataFrame يحتوي على أعمدة مثل “column1” و “column2” و “column3″، فإن df.dtypes قد يُرجع شيئاً مشابهاً لهذا:

python
[('column1', 'int'), ('column2', 'string'), ('column3', 'double')]

حيث يتم توفير نوع البيانات لكل عمود في الـ DataFrame.

المزيد من المعلومات

بالتأكيد، دعني أوسع لك المعلومات حول الحصول على معلومات البيانات في Apache Spark.

تتيح Apache Spark العديد من الطرق لاستكشاف وفهم هيكل البيانات في DataFrame. يُعتبر مفهوم المخطط (Schema) جزءًا أساسيًا من هذا الاستكشاف، حيث يوفر معلومات حول أنواع البيانات والهيكل العام للبيانات المخزنة في الـ DataFrame.

استعراض هيكل المخطط (Schema)

لعرض مخطط البيانات الخاص بـ DataFrame بشكل كامل، يمكنك استخدام الأمر التالي:

python
df.printSchema()

هذا الأمر سيقوم بطباعة تفصيلي للهيكل الداخلي للبيانات، مع عرض أسماء الأعمدة وأنواع البيانات وإمكانية تضمين هيكل تضمين متداخل إذا كان ذلك متاحًا.

عرض عدد محدد من الصفوف

في بعض الحالات، قد تحتاج إلى عرض محدد عدد من الصفوف في الـ DataFrame لفهم البيانات بشكل أفضل. يمكن القيام بذلك باستخدام الأمر show():

python
df.show(5)  # عرض أول 5 صفوف

إحصائيات بسيطة حول البيانات

يمكنك أيضًا الحصول على إحصائيات بسيطة حول البيانات باستخدام الأمر describe():

python
df.describe().show()

هذا سيقوم بعرض إحصائيات مثل العدد الإجمالي للصفوف، المتوسط، الانحراف المعياري، الحد الأدنى، والحد الأقصى لكل عمود.

تحويل أنواع البيانات

في بعض الأحيان، قد تحتاج إلى تحويل أنواع البيانات لتلبية متطلبات تحليلك. يمكنك استخدام الدالة cast لذلك:

python
from pyspark.sql.types import IntegerType

df = df.withColumn("columnName", df["columnName"].cast(IntegerType()))

حيث يتم تحويل نوع البيانات إلى IntegerType في هذا المثال.

البحث عن القيم الفارغة

يمكنك البحث عن القيم الفارغة في DataFrame باستخدام الأمر:

python
from pyspark.sql.functions import col

df.select([count(when(col(c).isNull(), c)).alias(c) for c in df.columns]).show()

هذا يظهر عدد القيم الفارغة في كل عمود.

باستخدام هذه الأوامر والتقنيات، يمكنك فحص وفهم البيانات بشكل شامل في Apache Spark والعمل على تحليلها بشكل فعّال.

26/02/2024آخر تحديث: 26/02/2024

4 دقيقة واحدة

استكشاف هيكل البيانات في Apache Spark: أساليب فعّالة للحصول على معلومات الـ DataFrame

المزيد من المعلومات

استعراض هيكل المخطط (Schema)

عرض عدد محدد من الصفوف

إحصائيات بسيطة حول البيانات

تحويل أنواع البيانات

البحث عن القيم الفارغة

أقرأ التالي

فهم التشابهات والفروق: التكوين والصفوف الداخلية

كيفية ضبط الكوكيز والوصول لبيانات المواقع باستخدام PHP

استكشاف البديل لـ FindAsync في LINQ: الحلول باستخدام SingleOrDefaultAsync

تحسين أداء التطبيقات على iOS

فهم التشابهات والفروق: التكوين والصفوف الداخلية

كيفية ضبط الكوكيز والوصول لبيانات المواقع باستخدام PHP

استكشاف البديل لـ FindAsync في LINQ: الحلول باستخدام SingleOrDefaultAsync

تحسين أداء التطبيقات على iOS

المزيد من المعلومات

استعراض هيكل المخطط (Schema)

عرض عدد محدد من الصفوف

إحصائيات بسيطة حول البيانات

تحويل أنواع البيانات

البحث عن القيم الفارغة

أقرأ التالي

فهم التشابهات والفروق: التكوين والصفوف الداخلية

كيفية ضبط الكوكيز والوصول لبيانات المواقع باستخدام PHP

استكشاف البديل لـ FindAsync في LINQ: الحلول باستخدام SingleOrDefaultAsync

تحسين أداء التطبيقات على iOS

استكشاف إطار PyTest في TDD بلغة Python

تسلسل Enums في Firebase 9.0.0: حلاً لمشكلة No properties to serialize found

مقالات ذات صلة