استكشاف ملفات HDFS باستخدام PySpark: دليل الحصول على قائمة ملفات ودلائل

11/02/2024

8 2 دقائق

في عالم تحليل البيانات والمعالجة الضخمة، يعد PySpark أحد الأدوات البارزة التي تسهم في تحقيق أداء متفوق على مستوى البرمجة باستخدام لغة Python. وفي هذا السياق، يثور سؤال مهم حول كيفية الحصول على قائمة من الملفات والدلائل داخل مسار معين على نظام ملفات Hadoop Distributed File System (HDFS) باستخدام PySpark.

في البداية، يُظهر العنوان حاجة ملحة للمستخدم إلى استراتيجيات فعّالة تتيح له الوصول إلى قائمة الملفات والدلائل داخل مسار محدد على HDFS أو المسار المحلي، مع التركيز على أن textFile لا يلبي هذا الغرض ويعمل فقط على ملفات النص.

يمكن أن يكون حلاً مثاليًا لهذا التحدي استخدام واجهة مستخدم PySpark’s SparkContext و SparkSession المُحسّنة. يمكن للمستخدم استخدام الأمر hadoopFile الذي يوفر PySpark لتحقيق هذا الغرض. على سبيل المثال:

python
from pyspark.sql import SparkSession

# إنشاء SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()

# تحديد المسار على HDFS أو المسار المحلي
hdfs_path = "hdfs://your_hdfs_path"  # أو يمكن استخدام "file://your_local_path" للمسار المحلي

# استخدام hadoopFile للحصول على قائمة الملفات والدلائل
files_and_directories = spark.sparkContext.hadoopFile(hdfs_path)

# قائمة لتخزين النتائج
result_list = []

# استخدام الحلقات لتحليل نتائج hadoopFile
for item in files_and_directories.collect():
    result_list.append(item)

# إخراج النتائج
print(result_list)

يتيح هذا الكود للمستخدم الوصول إلى قائمة الملفات والدلائل داخل المسار المحدد. يمكن استبدال your_hdfs_path بالمسار المراد استكشافه على HDFS، أو يمكن استخدام file://your_local_path لاستكشاف المسار المحلي.

في الختام، يُظهر هذا الشرح كيف يمكن لمستخدم PySpark التفاعل بفعالية مع نظام ملفات HDFS للحصول على قائمة شاملة للملفات والدلائل داخل مسار معين.

المزيد من المعلومات

مقالات ذات صلة

تحسين أداء استعلام SPARQL لاستخراج اللغات بفعالية

إصلاح أخطاء إجراء المخزن في SQL Server

تحسين أسماء الأعمدة في Spark DataFrame

تحليل عدم افتراضية ‘constexpr’ للدوال: تحديات ومرونة في لغة البرمجة