フリーランスのためのネットビジネス専門学校 ネットで独立開業を目指す人を応援
フリーランスのためのネットビジネス専門学校 ネットで独立開業を目指す人を応援

ワードプレス魔改造 オートブログ講座2 第十八回目 自動記事作成オートブログボット 取得したコンテンツをスクレイピングする

前回はクロスドメインのコンテンツ取得までをやりましたが、今回は取得したコンテンツをスクレイピングする方法です。

前回はコンテンツをテキスト形式で取得していましたが、今回はHTML形式で取得します。
コンテンツはHTML形式で来ますので、これを必要な箇所だけに絞り込む必要があるのです。
これがスクレイピングです。スクレイピングというのは読みやすい形でデータを抽出する技術のことです。

HTMLで必要な箇所というのはリンク部分(アンカーテキストとURL)だけです。その他のデータは不要なので排除します。
前回のサンプルを改作して、外部URLにアクセスしてHTML形式で取得するプログラムを作ってみます。

サンプルは以下の通りです。コメントをたくさん付けてあるので分かりやすいと思います。

会員限定コンテンツ

この記事はブロックされています。続きを読みたい方はログインをして下さい。会員ではない方は新規会員登録をして下さい。

ログインはこちら

新規会員登録はこちら

パスワードをメールで送信します。

コメント

  1. 2018/04/09(月) 18:04:53
    ワードプレス鬼簡単だな〜。これはヤプログとかFC2とかを魔改造してたあの頃の私たちの記憶が蘇るなあ。トプ画をpict bearでなあ。

記事に戻る

コメントを残す