حساب التطابقات بين سلاسل النصوص باستخدام Python و pandas

في هذا السياق، يظهر أنك تسعى لتطوير وظيفة لحساب عدد التطابقات بين مجموعتين من السلاسل النصية في إطار بيانات. يمكن أن يكون هذا مهمًا عند تحليل البيانات والبحث عن التشابه بين سلاسل النصوص. لتحقيق ذلك، يمكن استخدام العديد من الطرق والأدوات في لغة البرمجة باستخدام الر.

في البداية، يُفضل استخدام مكتبة Python المتقدمة “pandas” للتعامل مع الإطارات البيانية. يمكنك بسهولة قراءة السلاسل من الإطار البياني ومن ثم استخدام دالة مخصصة لحساب عدد التطابقات. فيما يلي رمز بسيط يستخدم الأداة المساعدة “difflib” لتحقيق ذلك:

python
import pandas as pd
from difflib import SequenceMatcher

# الدالة لحساب عدد التطابقات
def count_matches(str1, str2, n):
    words1 = str1.split()
    words2 = str2.split()
    
    matches = 0
    for i in range(len(words1) - n + 1):
        ngram1 = ' '.join(words1[i:i + n])
        for j in range(len(words2) - n + 1):
            ngram2 = ' '.join(words2[j:j + n])
            similarity_ratio = SequenceMatcher(None, ngram1, ngram2).ratio()
            if similarity_ratio >= 0.8:  # يمكنك ضبط هذا الحد حسب الحاجة
                matches += 1

    return matches

# البيانات
data = {'string1': ["USA Canada UK Australia Japan India"],
        'string2': ["USA Canada India UK Australia China Brazil France"]}

# تحويل البيانات إلى إطار بيانات
df = pd.DataFrame(data)

# حساب عدد التطابقات
single_word_matches = count_matches(df['string1'].iloc[0], df['string2'].iloc[0], 1)
two_word_matches = count_matches(df['string1'].iloc  [0], df['string2'].iloc[0], 2)

# عرض النتائج
print(f"Single word match count = {single_word_matches}")
print(f"Two word match count = {two_word_matches}")
# يمكنك تكرار الخطوات السابقة للتحقق من التطابقات لعدد الكلمات الأكبر

هذا الرمز يعتمد على استخدام SequenceMatcher لحساب نسبة التشابه بين n-gram في السلسلتين. يمكنك تعديل الحد الأدنى للتشابه والتي تناسب احتياجاتك.

بهذا الشكل، يمكنك تطبيق هذه الوظيفة على إطارات البيانات الأكبر والعديد من السيناريوهات المختلفة.

المزيد من المعلومات

توجيهات OAuth للوصول إلى حساب Gmail باستخدام Gmail API

توليد حركات تشيكرز: دالة Python للاقتراحات الممكنة

مقالات ذات صلة

أقرب عنصر إلى الصفر

تحويل دفاتر Jupyter إلى عروض تقديمية تفاعلية باستخدام إضافة RISE

تقديم تصنيف للقيم في Excel

استرجاع أسماء الأغاني من الخادم باستخدام JavaScript وNode.js

أنت تستخدم إضافة Adblock