この記事はブロックされています。続きを読みたい方はログインをして下さい。会員ではない方は新規会員登録をして下さい。


ワードプレス魔改造 オートブログ講座2 第二十四回目 コンテンツからキーワードを作成する

  • ワードプレスで作るオートブログ講座2

間が空いてしまいましたが、前回はPHPで外部サイトにアクセスする方法を説明しました。
ここまでで下準備が大体できたことになるので、次は個々に機能を構築し、最後に統合していくことになります。
今回は外部サイトから取得したコンテンツから分かち書きをしてキーワードを作る関数です。

分かち書きというのは、文章中の漢字やひらがなを分けることです。
例えば以下のような文章はこのように分割されます。

[note]こんにちは今日はMondayです 1日頑張りましょう[/note]

[note]こんにちは 今日 は Monday です 1 日頑張 りましょう[/note]

本当は文法を解析し単語のまとまりとして分けたいのですが、解析エンジンがないことと、それを導入すると処理に異常に時間が掛かりサーバに過大な負荷をかけてしまうことになるため、単純に文字コードの境界で分けています。
なのでたまに意図しない分かち方になることもあるのはご愛嬌。

関数名は「CONTENTS_2_KEYWORD」としています。
「CONTENTS_2_KEYWORD」は文章から漢字やカタカナ、平仮名、英数字を文字コードの境界で分割し、出現頻度をカウントする機能を持っています。
戻り値として文章と出現頻度の入った配列を返します。

[note]
list( $content , $A_word ) = CONTENTS_2_KEYWORD( “文章” , “モード0~7” , “除外するタグ名” );
[/note]

以下は単独テスト用のサンプルプログラムです。

▼サンプル

間が空いてしまいましたが、前回はPHPで外部サイトにアクセスする方法を説明しました。 ここまでで下準備が大体できたことになるので、次は個々に機能を構築し、最後に統合していくことに

テキストエリアになにか適当な文章を入力し、分かち書きするモードを選択し、実行ボタンをクリックします。
画面に分かち書きされた単語と出現頻度が表示されます。うまく利用すると記事からタグを自動生成できます。
分かち書きするモードは7種類あります。

[note]
0…フル
1…漢字とひらがなとカタカナ
2…漢字とカタカナ
3…漢字
4…ひらがなとカタカナ
5…ひらがな
6…カタカナ
7…英数字
[/note]

文章中に「<script>」「<style>」タグがあるとおかしなことになるので自動的に除去しています。
またHTMLタグは全て除去されます。オプションとして「除外するタグ名」「<>(山括弧)」ありで指定すると、そのタグは除去されません。複数指定可能です。
例えば「<br><strong>」と指定すると改行タグと強調タグは除去されません。

以下がサンプルコードです。コメントがたくさんあるので分かりやすいと思います。

関連記事