この記事はブロックされています。続きを読みたい方はログインをして下さい。会員ではない方は新規会員登録をして下さい。


ワードプレス魔改造 オートブログ講座2 第二十回目 自動記事作成オートブログボット PHPで外部サイトにアクセスしてHTMLから必要な文章を抜き出す

  • ワードプレスで作るオートブログ講座2

今回はPHPで外部サイトにアクセスする方法です。Goutteというライブラリを使う予定だったのですが、使用できる環境に依存するため、過去に取り上げた方法同様にを使うことにします。残念。

▼ワードプレス×ツイッターによる無料でできるオートブログ 第二十一回目 アフィリエイト広告を自動で作成し稼ぐ方法その3

ワードプレス×ツイッターによる無料でできるオートブログ 第二十一回目 アフィリエイト広告を自動で作成し稼ぐ方法 その3

「Simple HTML DOM Parser」はDOMパーサー(解析)という名の通りHTMLの構文を解析してくれます。
DOMというのはDocument Object Modelの略で、HTMLやXMLの各要素、たとえば<p>とか<img>とかそういった類の要素にアクセスする仕組みのことです。このDOMを操作することによって、要素の値をダイレクトに操作することができます。
これによって外部サイトにアクセスして、取得したHTMLから好きな値を簡単に取り出すことができます。いわゆるスクレイピングが思いのままになります。

まずは Simple HTML DOM Parser」をダウンロードします。

http://sourceforge.net/projects/simplehtmldom/files/

画面中央あたりにあるzipファイルをダウンロードして下さい。
2014年5月19日現在ではバージョンが1.5となっています。

ダウンロードして解凍すると、いくつかのファイルが出てきます。
使用するファイルは「simple_html_dom.php」だけです。
このファイルを自分が作成したPHPのファイルと同じ場所にアップロードします。

使う時にはPHPの冒頭にライブラリの読み込みを宣言するだけです。

require_once 'simple_html_dom.php';

それではテストしてみましょう。フォームからURLを入力し [ ] ボタンをクリックするとそのURLにアクセスし、画像とリンクがあれば、そのリストを表示します。ちなみに画像は相対パスは表示されません。
以下がサンプルコードです。

関連記事