BeautifulSoup
アセンブラの魔女 ⧫ BeautifulSoup ⧫ HTMLドキュメントの処理
アセンブラの魔女 ⧫ BeautifulSoup ⧫ HTMLドキュメントの処理
 Beautifl Soupを使って、HTMLドキュメントを処理するには、BeautiflSoupをインポートして、BeautiflSoupオブジェクトを生成し、BeautiflSoupオブジェクトのメソッドを利用する必要があります。BeautiflSoupオブジェクトの生成にはBeautiflSoupオブジェクト関数を使います。 以下のスクリプトはリテラル文字列で与えられたHTMLドキュメントから、BeautiflSoupオブジェクトを生成し、prettifyメソッドを使って、HTMLソースを整形出力してprintで出力する単純なサンプルスクリプトです。
#coding: UTF-8

#HTMLパースのためのインポート
from BeautifulSoup import BeautifulSoup

#HTMLソース
doc = '<html><head><title>ねこや書店</title></head><body>ねこや書店へようこそ</body></html>'

#HTMLソースからBeautifulSoupオブジェクトを作る
soup = BeautifulSoup(doc)

#整形してコンソールに出力
print soup.prettify()
 このスクリプトを実行すると、以下のようにHTMLのソースが整形されて出力されます。
$ python bs.py 
<html>
  <head>
    <title>
      ねこや書店
    </title>
  </head>
  <body>
   ねこや書店へようこそ
  </body>
</html>
 BeautifulSoupを使うにはBeautifulSoupモジュールをインポートする必要があります。詳細はBeautifulSoupの機能のインポートを参照してください。BeautifulSoupモジュールをインポートした後、最初にやるべきことはBeautifulSoupを使ってHTMLソースからBeautifulSoupオブジェクトを作ることです(XMLを処理する場合は、これと少し異なります)。このサンプルではBeautiful Soupのprettifyメソッドを使って、HTMLソースを整形出力してprintで出力しています。
▼ Property
記事情報
datePublished2011-01-01
dateModified2018-06-27
authorアセンブラの魔女
headlinePython用HTML/XMLパーサー「BeautifulSoup」のHTMLドキュメント処理に関する説明ページです
keywordsBeautifulSoup
keywordsPython
keywordsXMLパーサー
keywordsHTMLパーサー
keywordsHTMLドキュメント処理
publisher name= wiredFish, logo.name= wiredFish, logo.url= https://books-nekoya.jp/Programming/chigu-hagu-title-01.png size= 208 pixel x 50 pixel
image.url url= https://books-nekoya.jp/Programming/chigu-hagu-title-01.png , size= 208 pixel x 50 pixel