البرمجة

تحديد صفوف عشوائية في Apache Spark

عندما يتعلق الأمر بتحديد عدد معين من الصفوف عشوائيًا من DataFrame في Apache Spark باستخدام Java، يمكنك القيام بذلك بطريقة بسيطة وفعالة. يمكن أن يساعدك هذا في تجميع عينة عشوائية من البيانات للاستخدام في التجربة أو العرض التوضيحي.

أولاً، يجب عليك استيراد الحزم اللازمة من Apache Spark وتحديد DataFrame الذي ترغب في استخدامه. بعد ذلك، يمكنك استخدام وظيفة sample() لاختيار الصفوف العشوائية.

فيما يلي كيفية تنفيذ هذا الأمر بشكل عملي في Java:

java
import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class RandomRowsSelection { public static void main(String[] args) { // إعداد الجلسة الخاصة بـ Spark SparkSession spark = SparkSession.builder() .appName("RandomRowsSelection") .master("local") // يمكن تغيير هذا إلى الوضع الذي تعمل فيه Spark .getOrCreate(); // استيراد DataFrame الخاص بك من مصدر البيانات Dataset originalDF = spark.read().format("csv") .option("header", "true") .load("path/to/your/data.csv"); // يرجى استبدال هذا بمسار بياناتك الفعلي // عدد الصفوف التي ترغب في اختيارها بشكل عشوائي int numRowsToSelect = 1000; // اختيار الصفوف العشوائية Dataset randomRowsDF = originalDF.sample(false, (double) numRowsToSelect / originalDF.count()); // عرض الصفوف العشوائية المختارة randomRowsDF.show(); // يمكنك قيام بأي عمليات إضافية على DataFrame الجديد هنا، مثل حفظه في ملف CSV أو قاعدة بيانات // randomRowsDF.write().format("csv").save("path/to/save/random_data.csv"); // إغلاق الجلسة spark.close(); } }

يقوم الكود بتحميل DataFrame الأصلي من مصدر البيانات، ثم يحدد عدد الصفوف التي تريد اختيارها عشوائيًا. بعد ذلك، يستخدم الكود الوظيفة sample() لاختيار الصفوف العشوائية باستخدام نسبة من الصفوف الأصلية.

أخيرًا، يتم عرض الصفوف العشوائية المختارة للتحقق من صحتها، ويمكنك قام بأي عمليات إضافية على DataFrame الجديد كما تراه مناسبًا.

يرجى ملاحظة أنه يجب استبدال “path/to/your/data.csv” بالمسار الفعلي لبياناتك المستوردة والتي ترغب في استخدامها في DataFrame.

المزيد من المعلومات

بالطبع، ها هو استكمال المقال:

يمكن أن تكون عمليات اختيار الصفوف العشوائية ضرورية للعديد من الأغراض، مثل إنشاء عينة تمثيلية من البيانات للتحقق من أداء النماذج أو لتجربة تحليل البيانات دون الحاجة إلى استخدام البيانات الكاملة. يمكنك أيضًا استخدام هذه الطريقة لتجنب تحميل كل البيانات في الذاكرة إذا كانت كبيرة بما يكفي.

قبل تنفيذ الكود السابق، تأكد من أن بيئة التشغيل الخاصة بك مكونة بشكل صحيح ومكونات Apache Spark مثبتة بشكل صحيح، ويجب عليك تعديل “path/to/your/data.csv” ليشير إلى المسار الفعلي للملف CSV الذي تريد استخدامه.

بالنسبة لأداء هذا الكود، فإن وقت التنفيذ يعتمد بشكل كبير على حجم البيانات الأصلية وعلى قدرة نظام الحوسبة الخاص بك. كما يمكنك ضبط الإعدادات لتحسين الأداء، مثل تغيير عدد الأقسام أو استخدام الكاش لتحسين الأداء.

في الختام، تعتبر عملية اختيار الصفوف العشوائية في Apache Spark باستخدام Java طريقة مفيدة وفعالة لتجميع عينة عشوائية من البيانات، ويمكن تنفيذها بسهولة باستخدام وظائف مكتبة Spark.

مقالات ذات صلة

زر الذهاب إلى الأعلى
إغلاق

أنت تستخدم إضافة Adblock

يرجى تعطيل مانع الإعلانات حيث أن موقعنا غير مزعج ولا بأس من عرض الأعلانات لك فهي تعتبر كمصدر دخل لنا و دعم مقدم منك لنا لنستمر في تقديم المحتوى المناسب و المفيد لك فلا تبخل بدعمنا عزيزي الزائر