Skip to content

Latest commit

 

History

History
46 lines (39 loc) · 2.7 KB

WebScraper_Persian.md

File metadata and controls

46 lines (39 loc) · 2.7 KB

استخراج عناوین از یک وب‌سایت با استفاده از Python

این کد برای ارسال درخواست به یک وب‌سایت و استخراج داده‌های خاص از آن طراحی شده است. عملکرد کلی کد در بخش‌های زیر توضیح داده می‌شود:

  1. وارد کردن کتابخانه‌ها
    • از requests برای ارسال درخواست HTTP استفاده می‌شود.
    • از BeautifulSoup برای تجزیه و تحلیل محتوای HTML استفاده می‌شود.
  2. تعیین آدرس وب‌سایت
    • متغیر url حاوی آدرس وب‌سایت هدف است که باید داده‌ها از آن استخراج شود.
  3. ارسال درخواست به وب‌سایت
    • با استفاده از requests.get(url) درخواست به سرور ارسال می‌شود و پاسخ آن در response ذخیره می‌شود.
  4. بررسی وضعیت پاسخ
    • اگر درخواست موفقیت‌آمیز باشد (کد وضعیت HTTP برابر 200 باشد)، کد به مرحله بعد می‌رود. در غیر این صورت، پیام خطا نمایش داده می‌شود.
  5. تجزیه محتوای HTML
    • محتوای HTML پاسخ با استفاده از BeautifulSoup تجزیه می‌شود و امکان کار با عناصر HTML فراهم می‌شود.
  6. استخراج داده‌ها
    • تمامی تگ‌های (h1) از محتوای HTML استخراج می‌شوند و در لیستی به نام headers ذخیره می‌شوند.
  7. نمایش داده‌های استخراج‌شده
    • متن هر تگ (h1) از لیست استخراج شده و چاپ می‌شود.

خلاصه عملکرد

این کد ابتدا یک وب‌سایت را باز کرده، محتوای آن را بررسی می‌کند و در صورت موفقیت، تمامی عناوین (h1) موجود در صفحه را چاپ می‌کند.

کد پایتون

import requests
from bs4 import BeautifulSoup

# URL هدف
url = 'https://example.com'  # آدرس وبسایت خود را اینجا وارد کنید

# ارسال درخواست به وبسایت
response = requests.get(url)

# بررسی وضعیت درخواست
if response.status_code == 200:
    # ساخت پارس از محتوای HTML
    soup = BeautifulSoup(response.text, 'html.parser')

    # استخراج داده‌ها از HTML (مثال: استخراج تمام تگ‌های <h1>)
    headers = soup.find_all('h1')

    # نمایش داده‌های استخراج شده
    for header in headers:
        print(header.text)
else:
    print(f"Failed to retrieve the webpage: {response.status_code}")