この記事はブロックされています。続きを読みたい方はログインをして下さい。会員ではない方は新規会員登録をして下さい。


ワードプレス魔改造 オートブログ講座2 第十八回目 自動記事作成オートブログボット 取得したコンテンツをスクレイピングする

前回はクロスドメインのコンテンツ取得までをやりましたが、今回は取得したコンテンツをスクレイピングする方法です。

前回はコンテンツをテキスト形式で取得していましたが、今回はHTML形式で取得します。
コンテンツはHTML形式で来ますので、これを必要な箇所だけに絞り込む必要があるのです。
これがスクレイピングです。スクレイピングというのは読みやすい形でデータを抽出する技術のことです。

HTMLで必要な箇所というのはリンク部分(アンカーテキストとURL)だけです。その他のデータは不要なので排除します。
前回のサンプルを改作して、外部URLにアクセスしてHTML形式で取得するプログラムを作ってみます。

サンプルは以下の通りです。コメントをたくさん付けてあるので分かりやすいと思います。

関連記事