Beautifl Soupを使って、HTMLドキュメントを処理するには、BeautiflSoupをインポートして、BeautiflSoupオブジェクトを生成し、BeautiflSoupオブジェクトのメソッドを利用する必要があります。BeautiflSoupオブジェクトの生成にはBeautiflSoupオブジェクト関数を使います。
以下のスクリプトはリテラル文字列で与えられたHTMLドキュメントから、BeautiflSoupオブジェクトを生成し、prettifyメソッドを使って、HTMLソースを整形出力してprintで出力する単純なサンプルスクリプトです。
#coding: UTF-8
#HTMLパースのためのインポート
from BeautifulSoup import BeautifulSoup
#HTMLソース
doc = '<html><head><title>ねこや書店</title></head><body>ねこや書店へようこそ</body></html>'
#HTMLソースからBeautifulSoupオブジェクトを作る
soup = BeautifulSoup(doc)
#整形してコンソールに出力
print soup.prettify()
このスクリプトを実行すると、以下のようにHTMLのソースが整形されて出力されます。
$ python bs.py
<html>
<head>
<title>
ねこや書店
</title>
</head>
<body>
ねこや書店へようこそ
</body>
</html>
BeautifulSoupを使うにはBeautifulSoupモジュールをインポートする必要があります。詳細は
BeautifulSoupの機能のインポートを参照してください。BeautifulSoupモジュールをインポートした後、最初にやるべきことはBeautifulSoupを使ってHTMLソースからBeautifulSoupオブジェクトを作ることです(XMLを処理する場合は、これと少し異なります)。このサンプルではBeautiful Soupのprettifyメソッドを使って、HTMLソースを整形出力してprintで出力しています。