Playwrightの基本の使い方:小中規模Webスクレイピングツール

プログラミング

概要

Playwrightは、Pythonでブラウザを自動操作してブラウザを使ったテストを支援するツールです。
以前は、Seleniumがこの様な用途に使われていましたがそれを代替するものです。

Playwrightは、Webスクレイピングにも使えます。
で、これから数回に渡ってWebスクレイピングという観点からPlaywrightを解説しようと思います。

今回は、PythonでのPlaywrightの基本の使い方を解説します。

Playwrightのインストール

Playwrightを使うには、Python環境が必要です。
以下の手順でインストールしてください。

Playwrightのインストール

以下のコマンドをターミナルまたはコマンドプロンプトで実行します。

# Playwrightとその依存関係をインストール
pip install playwright

# 必要なブラウザバイナリをインストール
playwright install

Playwrightを使った初めてのスクリプト

Playwrightを使って、yahoo.co.jp にアクセスしてスクリーンショットを撮影するスクリプトを作成してみましょう。

スクリプトの書き方

  1. 「scraping_demo.py」というファイルを作成します。
  2. 以下のコードを記述します。
from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    # ブラウザを起動
    browser = p.chromium.launch(headless=True)
    page = browser.new_page()

    # Yahooにアクセス
    page.goto('https://yahoo.co.jp')

    # スクリーンショット撮影
    page.screenshot(path='screenshot.png')

    # ブラウザを閉じる
    browser.close()

実行方法

ターミナルで以下を実行して、スクリプトを動かします。

python scraping_demo.py

実行後、「screenshot.png」というファイルがスクリプトと同じフォルダ内に作成されます。

    # ブラウザを起動
    browser = p.chromium.launch(headless=True)

このコードの headless=True を False に変更すると。
ブラウザが実際に動いているところを確認することができます。

使えるブラウザのタイプ

Playwrightは以下のブラウザをサポートしています。

  • Chromium(Chromeでは、ありません)
  • Firefox
  • WebKit

ブラウザを切り替えたい場合は、スクリプト内の p.chromiump.firefoxp.webkit に変更するだけです。

まとめ

この記事では、PythonでのPlaywrightの基本的なインストールから、簡単なスクリプトの実行について解説しました。次の記事では、フォーム入力や複雑なインターフェイス操作について解説していきます。

Commnts