تحويل صفحة الويب إلى جدول: دليل R و Python

لقراءة صفحة الويب وتحويلها إلى جدول بيانات في لغة البرمجة R، يمكنك استخدام مجموعة متنوعة من الحزم والأدوات المتاحة لهذا الغرض. على سبيل المثال، يمكنك استخدام حزمة “rvest” لجلب محتوى صفحة الويب وتحليله، وحزمة “dplyr” لتنظيف البيانات وتنظيمها، وحزمة “readr” لقراءة البيانات في جداول. اليك كيف يمكن القيام بذلك:

R
# تحميل الحزم
library(rvest)
library(dplyr)
library(readr)

# عنوان صفحة الويب
url <- "http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dZipCode%26searchString%3d44106%26foreclosureType%3d%26dateFrom%3d10%2f6%2f2016+12%3a00%3a00+AM%26dateTo%3d4%2f6%2f2017+11%3a59%3a59+PM"

# قراءة صفحة الويب
webpage <- read_html(url)

# استخراج البيانات
data <- webpage %>%
  html_nodes("table") %>%   # تحديد الجدول على صفحة الويب
  html_table(fill = TRUE)   # استخراج البيانات وتعبئة الخلايا الفارغة بقيمة NA

# تحديد العمودين المطلوبين
data <- data[[1]] %>%
  select(Address, Prorated_Tax)

# تنظيف البيانات
data$Prorated_Tax <- gsub("\\$", "", data$Prorated_Tax)   # إزالة علامة الدولار من عمود Prorated_Tax
data$Prorated_Tax <- as.numeric(gsub(",", "", data$Prorated_Tax))   # تحويل القيم إلى رقمية وإزالة الفواصل

# طباعة البيانات
print(data)

بالنسبة للخيار الآخر، يمكنك أيضًا تنفيذ هذه العملية باستخدام لغة البرمجة Python، وذلك باستخدام مكتبات مثل BeautifulSoup لتحليل صفحة الويب واستخراج البيانات، ومكتبة pandas لتنظيم البيانات في إطار بيانات. وفيما يلي مثال على كيفية القيام بذلك:

python
# استيراد المكتبات
from bs4 import BeautifulSoup
import pandas as pd
import requests

# عنوان صفحة الويب
url = "http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dZipCode%26searchString%3d44106%26foreclosureType%3d%26dateFrom%3d10%2f6%2f2016+12%3a00%3a00+AM%26dateTo%3d4%2f6%2f2017+11%3a59%3a59+PM"

# جلب محتوى صفحة الويب
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# استخراج البيانات
table = soup.find('table')
rows = table.find_all('tr')
data = []
for row in rows:
    cols = row.find_all('td')
    cols = [col.text.strip() for col in cols]
    data.append(cols)

# تنظيف البيانات وتحويلها إلى إطار بيانات
df = pd.DataFrame(data[1:], columns=data[0])
df['Prorated_Tax'] = df['Prorated_Tax'].str.replace('$', '').astype(float)

# طباعة البيانات
print(df[['Address', 'Prorated_Tax']])

باستخدام أيٍّ من هذين النهجين، يمكنك قراءة صفحة الويب المحددة وتحويلها إلى جدول بيانات يحتوي على العناوين والقيم المرغوبة.

كيفية قراءة صفحة الويب وتحويلها إلى جدول بيانات باستخدام R و Python

في هذا المقال، سنتعلم كيفية قراءة صفحة الويب وتحويلها إلى جدول بيانات باستخدام لغتي البرمجة R و Python. سنستخدم عنوان موقع ويب معين ونقوم بتحليل البيانات الموجودة فيه لإنشاء جدول يحتوي على العناوين والقيم المطلوبة.

باستخدام R

في R، يمكننا استخدام الحزم التالية لقراءة صفحة الويب وتحليل البيانات:

rvest: لجلب محتوى صفحة الويب وتحليله.
dplyr: لتنظيف البيانات وتنظيمها.
readr: لقراءة البيانات في جداول.

أولاً، قم بتحميل الحزم وتحديد عنوان صفحة الويب:

R
# تحميل الحزم
library(rvest)
library(dplyr)
library(readr)

# عنوان صفحة الويب
url <- "http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dZipCode%26searchString%3d44106%26foreclosureType%3d%26dateFrom%3d10%2f6%2f2016+12%3a00%3a00+AM%26dateTo%3d4%2f6%2f2017+11%3a59%3a59+PM"

ثم، استخراج البيانات وتنظيفها:

R
# قراءة صفحة الويب
webpage <- read_html(url)

# استخراج البيانات
data <- webpage %>%
  html_nodes("table") %>%
  html_table(fill = TRUE)

# تحديد العمودين المطلوبين
data <- data[[1]] %>%
  select(Address, Prorated_Tax)

# تنظيف البيانات
data$Prorated_Tax <- gsub("\\$", "", data$Prorated_Tax)
data$Prorated_Tax <- as.numeric(gsub(",", "", data$Prorated_Tax))

# طباعة البيانات
print(data)

باستخدام Python

في Python، سنستخدم مكتبات مثل BeautifulSoup و pandas لتحليل صفحة الويب وتنظيم البيانات في جدول:

python
# استيراد المكتبات
from bs4 import BeautifulSoup
import pandas as pd
import requests

# عنوان صفحة الويب
url = "http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dZipCode%26searchString%3d44106%26foreclosureType%3d%26dateFrom%3d10%2f6%2f2016+12%3a00%3a00+AM%26dateTo%3d4%2f6%2f2017+11%3a59%3a59+PM"

# جلب محتوى صفحة الويب
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# استخراج البيانات
table = soup.find('table')
rows = table.find_all('tr')
data = []
for row in rows:
    cols = row.find_all('td')
    cols = [col.text.strip() for col in cols]
    data.append(cols)

# تنظيف البيانات وتحويلها إلى إطار بيانات
df = pd.DataFrame(data[1:], columns=data[0])
df['Prorated_Tax'] = df['Prorated_Tax'].str.replace('$', '').astype(float)

# طباعة البيانات
print(df[['Address', 'Prorated_Tax']])

بهذه الطريقتين، يمكنك قراءة صفحة الويب المحددة وتحويلها إلى جدول بيانات يحتوي على العناوين والقيم المطلوبة. اختر اللغة والطريقة التي تفضلها وابدأ في استكشاف البيانات على صفحات الويب!

الوسوم

المزيد من المعلومات

كيفية قراءة صفحة الويب وتحويلها إلى جدول بيانات باستخدام R و Python

باستخدام R

باستخدام Python

جعل قائمة السحب الانسدادية غير قابلة للتحرير

استراتيجيات Angular 2 لتقسيم التطوير والإصدار المستقل

مقالات ذات صلة

استخدام قيم الإدخال في Java

حل مشكلة NetworkOnMainThreadException في تطبيق البحث عن فيديوهات YouTube على Android

تحليل وحل مشكلة IndexOutOfRangeException

استخدام تعابير البحث في Excel: بديل نصوص معينة بكل دقة

أنت تستخدم إضافة Adblock