تحديد صفوف عشوائية في Apache Spark

عندما يتعلق الأمر بتحديد عدد معين من الصفوف عشوائيًا من DataFrame في Apache Spark باستخدام Java، يمكنك القيام بذلك بطريقة بسيطة وفعالة. يمكن أن يساعدك هذا في تجميع عينة عشوائية من البيانات للاستخدام في التجربة أو العرض التوضيحي.

أولاً، يجب عليك استيراد الحزم اللازمة من Apache Spark وتحديد DataFrame الذي ترغب في استخدامه. بعد ذلك، يمكنك استخدام وظيفة sample() لاختيار الصفوف العشوائية.

فيما يلي كيفية تنفيذ هذا الأمر بشكل عملي في Java:

java
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class RandomRowsSelection {
    public static void main(String[] args) {
        // إعداد الجلسة الخاصة بـ Spark
        SparkSession spark = SparkSession.builder()
                .appName("RandomRowsSelection")
                .master("local") // يمكن تغيير هذا إلى الوضع الذي تعمل فيه Spark
                .getOrCreate();

        // استيراد DataFrame الخاص بك من مصدر البيانات
        Dataset originalDF = spark.read().format("csv")
                .option("header", "true")
                .load("path/to/your/data.csv"); // يرجى استبدال هذا بمسار بياناتك الفعلي

        // عدد الصفوف التي ترغب في اختيارها بشكل عشوائي
        int numRowsToSelect = 1000;

        // اختيار الصفوف العشوائية
        Dataset randomRowsDF = originalDF.sample(false, (double) numRowsToSelect / originalDF.count());

        // عرض الصفوف العشوائية المختارة
        randomRowsDF.show();

        // يمكنك قيام بأي عمليات إضافية على DataFrame الجديد هنا، مثل حفظه في ملف CSV أو قاعدة بيانات
        // randomRowsDF.write().format("csv").save("path/to/save/random_data.csv");

        // إغلاق الجلسة
        spark.close();
    }
}

يقوم الكود بتحميل DataFrame الأصلي من مصدر البيانات، ثم يحدد عدد الصفوف التي تريد اختيارها عشوائيًا. بعد ذلك، يستخدم الكود الوظيفة sample() لاختيار الصفوف العشوائية باستخدام نسبة من الصفوف الأصلية.

أخيرًا، يتم عرض الصفوف العشوائية المختارة للتحقق من صحتها، ويمكنك قام بأي عمليات إضافية على DataFrame الجديد كما تراه مناسبًا.

يرجى ملاحظة أنه يجب استبدال “path/to/your/data.csv” بالمسار الفعلي لبياناتك المستوردة والتي ترغب في استخدامها في DataFrame.

المزيد من المعلومات

استرجاع البيانات باستخدام PreparedStatement

حل مشكلة zIndex في تطبيق React Native

مقالات ذات صلة

تحسين اختبارات التكامل باستخدام MockRestServiceServer: إضافة تأخير وفحص الأوضاع الاستثنائية

تكامل متقدم لمستودعات البيانات في Spring Data Rest

تحديات تشغيل تطبيقات C على Android: فهم التوافق واستكشاف الحلول

تخصيص تنسيق التواريخ في Swift

أنت تستخدم إضافة Adblock