この記事はブロックされています。続きを読みたい方はログインをして下さい。会員ではない方は新規会員登録をして下さい。


ワードプレス魔改造 オートブログ講座2 第十九回目 自動記事作成オートブログボット PHPでコンテンツを分かち書き処理する

  • ワードプレスで作るオートブログ講座2

前回は検索エンジンの検索結果をスクレイピングして、URLとアンカーテキストの一覧を取得しました。
取得したデータは一旦AJAXとPHPを使ってサーバーに保存するのですが、この処理については後述するとして、先にPHPでコンテンツを分かち書き処理する方法です。

検索結果からコンテンツを取得するウェブページ一覧を取得したら、次はそのウェブページにアクセスをすることになります。そのウェブページは検索エンジンの検索結果とは違い、ひとつひとつが異なっています。当たり前ですね。

つまり、決め打ちでセレクタを指定してスクレイピングすることができないことを意味しています。
なので、一旦データを全て保存しておきます。データはテキスト処理に強いPHPで処理することにします。

分かち書きというのは文章を漢字・平仮名・カタカナ・アルファベット・数字・記号ごとに分割することです。分かち書きでなにをするのかというと、繰り返し出現する単語を見付けます。
あまり難しいことはできないのですが、文章中に繰り返し現れる単語をピックアップして、タグ付けすることができます。

分かち書きについては以前×ツイッターによる無料でできるオートブログ 第二十ニ回目 アフィリエイト広告を自動で作成し稼ぐ方法 その4」でやっているので、コードを流用します。

▼ワードプレス×ツイッターによる無料でできるオートブログ 第二十ニ回目 アフィリエイト広告を自動で作成し稼ぐ方法 その4
http://lesson-school.com/?p=24244

話は戻ります。
例えば、文章中にという言葉がある一定回数以上現れたら、その文章はビジネスとチャンスに関連している、ということが分かります。最近ではGoogleが検索ユーザーの検索キーワードを隠すようになったため、そのページに訪問したユーザーが、どんなキーワードで検索したかが分かりません。

そこで、逆説的に文章中の頻出単語を解析して、関連するキーワードを推測します。「ビジネス」「チャンス」という単語が多ければ、恐らくはユーザーも「ビジネス」や「チャンス」といった関連キーワードで検索してきたのではないかと推測するわけです。

頻出キーワードを取得したら、そのキーワードを元に検索エンジンで検索をし、検索結果を取得します。
これを繰り返すことで、関連キーワードのコンテンツを自動的に追加生産し自動成長していく、というのが狙いです。

前置きはこれくらいにして、分かち書き処理の方法です。
文字コードを文字被りの少ないUTF-8で処理し、文字コードの境界で分けていきます。
以下がサンプルコードです。処理の流れについてはコメントがたくさん付いているので分かりやすいと思います。

関連記事