البرمجة

تحويل صفحة الويب إلى جدول: دليل R و Python

لقراءة صفحة الويب وتحويلها إلى جدول بيانات في لغة البرمجة R، يمكنك استخدام مجموعة متنوعة من الحزم والأدوات المتاحة لهذا الغرض. على سبيل المثال، يمكنك استخدام حزمة “rvest” لجلب محتوى صفحة الويب وتحليله، وحزمة “dplyr” لتنظيف البيانات وتنظيمها، وحزمة “readr” لقراءة البيانات في جداول. اليك كيف يمكن القيام بذلك:

R
# تحميل الحزم library(rvest) library(dplyr) library(readr) # عنوان صفحة الويب url <- "http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dZipCode%26searchString%3d44106%26foreclosureType%3d%26dateFrom%3d10%2f6%2f2016+12%3a00%3a00+AM%26dateTo%3d4%2f6%2f2017+11%3a59%3a59+PM" # قراءة صفحة الويب webpage <- read_html(url) # استخراج البيانات data <- webpage %>% html_nodes("table") %>% # تحديد الجدول على صفحة الويب html_table(fill = TRUE) # استخراج البيانات وتعبئة الخلايا الفارغة بقيمة NA # تحديد العمودين المطلوبين data <- data[[1]] %>% select(Address, Prorated_Tax) # تنظيف البيانات data$Prorated_Tax <- gsub("\\$", "", data$Prorated_Tax) # إزالة علامة الدولار من عمود Prorated_Tax data$Prorated_Tax <- as.numeric(gsub(",", "", data$Prorated_Tax)) # تحويل القيم إلى رقمية وإزالة الفواصل # طباعة البيانات print(data)

بالنسبة للخيار الآخر، يمكنك أيضًا تنفيذ هذه العملية باستخدام لغة البرمجة Python، وذلك باستخدام مكتبات مثل BeautifulSoup لتحليل صفحة الويب واستخراج البيانات، ومكتبة pandas لتنظيم البيانات في إطار بيانات. وفيما يلي مثال على كيفية القيام بذلك:

python
# استيراد المكتبات from bs4 import BeautifulSoup import pandas as pd import requests # عنوان صفحة الويب url = "http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dZipCode%26searchString%3d44106%26foreclosureType%3d%26dateFrom%3d10%2f6%2f2016+12%3a00%3a00+AM%26dateTo%3d4%2f6%2f2017+11%3a59%3a59+PM" # جلب محتوى صفحة الويب response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # استخراج البيانات table = soup.find('table') rows = table.find_all('tr') data = [] for row in rows: cols = row.find_all('td') cols = [col.text.strip() for col in cols] data.append(cols) # تنظيف البيانات وتحويلها إلى إطار بيانات df = pd.DataFrame(data[1:], columns=data[0]) df['Prorated_Tax'] = df['Prorated_Tax'].str.replace('$', '').astype(float) # طباعة البيانات print(df[['Address', 'Prorated_Tax']])

باستخدام أيٍّ من هذين النهجين، يمكنك قراءة صفحة الويب المحددة وتحويلها إلى جدول بيانات يحتوي على العناوين والقيم المرغوبة.

المزيد من المعلومات

بالتأكيد، إليك المقال المكتمل:


كيفية قراءة صفحة الويب وتحويلها إلى جدول بيانات باستخدام R و Python

في هذا المقال، سنتعلم كيفية قراءة صفحة الويب وتحويلها إلى جدول بيانات باستخدام لغتي البرمجة R و Python. سنستخدم عنوان موقع ويب معين ونقوم بتحليل البيانات الموجودة فيه لإنشاء جدول يحتوي على العناوين والقيم المطلوبة.

باستخدام R

في R، يمكننا استخدام الحزم التالية لقراءة صفحة الويب وتحليل البيانات:

  • rvest: لجلب محتوى صفحة الويب وتحليله.
  • dplyr: لتنظيف البيانات وتنظيمها.
  • readr: لقراءة البيانات في جداول.

أولاً، قم بتحميل الحزم وتحديد عنوان صفحة الويب:

R
# تحميل الحزم library(rvest) library(dplyr) library(readr) # عنوان صفحة الويب url <- "http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dZipCode%26searchString%3d44106%26foreclosureType%3d%26dateFrom%3d10%2f6%2f2016+12%3a00%3a00+AM%26dateTo%3d4%2f6%2f2017+11%3a59%3a59+PM"

ثم، استخراج البيانات وتنظيفها:

R
# قراءة صفحة الويب webpage <- read_html(url) # استخراج البيانات data <- webpage %>% html_nodes("table") %>% html_table(fill = TRUE) # تحديد العمودين المطلوبين data <- data[[1]] %>% select(Address, Prorated_Tax) # تنظيف البيانات data$Prorated_Tax <- gsub("\\$", "", data$Prorated_Tax) data$Prorated_Tax <- as.numeric(gsub(",", "", data$Prorated_Tax)) # طباعة البيانات print(data)

باستخدام Python

في Python، سنستخدم مكتبات مثل BeautifulSoup و pandas لتحليل صفحة الويب وتنظيم البيانات في جدول:

python
# استيراد المكتبات from bs4 import BeautifulSoup import pandas as pd import requests # عنوان صفحة الويب url = "http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dZipCode%26searchString%3d44106%26foreclosureType%3d%26dateFrom%3d10%2f6%2f2016+12%3a00%3a00+AM%26dateTo%3d4%2f6%2f2017+11%3a59%3a59+PM" # جلب محتوى صفحة الويب response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # استخراج البيانات table = soup.find('table') rows = table.find_all('tr') data = [] for row in rows: cols = row.find_all('td') cols = [col.text.strip() for col in cols] data.append(cols) # تنظيف البيانات وتحويلها إلى إطار بيانات df = pd.DataFrame(data[1:], columns=data[0]) df['Prorated_Tax'] = df['Prorated_Tax'].str.replace('$', '').astype(float) # طباعة البيانات print(df[['Address', 'Prorated_Tax']])

بهذه الطريقتين، يمكنك قراءة صفحة الويب المحددة وتحويلها إلى جدول بيانات يحتوي على العناوين والقيم المطلوبة. اختر اللغة والطريقة التي تفضلها وابدأ في استكشاف البيانات على صفحات الويب!

مقالات ذات صلة

زر الذهاب إلى الأعلى
إغلاق

أنت تستخدم إضافة Adblock

يرجى تعطيل مانع الإعلانات حيث أن موقعنا غير مزعج ولا بأس من عرض الأعلانات لك فهي تعتبر كمصدر دخل لنا و دعم مقدم منك لنا لنستمر في تقديم المحتوى المناسب و المفيد لك فلا تبخل بدعمنا عزيزي الزائر