忍者ブログ
Linux管理をはじめて数年、これまでPleskにお任せして避けてきた自力サーバー管理をはじめることになった。自宅サーバーもやってみたいし。
[23] [22] [21] [20] [19] [18] [17] [16] [15] [14] [13]
アクセスログを解析したい!というケースが多いのだが、UNIXコマンドを使ってcronバッチで処理するというのがお手軽だ。
例えば特定のURLに対するアクセスのリファラ(参照元)を、ドメインごとに分けたい!などというケースであれば

grep index.php access_log | cut -d " " -f 11 |  sort | sed 's/\\(.*\\)\\/[^/]*$/\\1\\//' | uniq -c | sort -r

こんな感じのコマンドで実現可能。
このコマンドでやっていることは
grep 対象となるファイル(index.php)に対する行だけをアクセスログから抽出する
cut アクセスログの中から、参照元(リファラ)だけを抽出
sort ソートする
sed 最後のスラッシュまでを取得する
uniq 重複した行を1行にまとめて、重複回数を表示する
sort アクセスが多かったドメインから表示したいので降順にする
このような処理だ。

このコマンドでは
http://aaa.jp/dir/index.php
http://aaa.jp/dir/top.php
この2つのURLは同じものとして扱われるが、
http://aaa.jp/dir/index.php
http://aaa.jp/dir2/index.php
この2つのURLは別ものとして扱う。単純にドメインごとにしてしまうと、ブログからのアクセスなどがわけわからなくなるので、ディレクトリ単位で集計するイメージだ。
これによってどのサイトから、どのブログからどれくらいアクセスが発生しているかが分かる。


この記事にコメントする
お名前
タイトル
文字色
URL
コメント
パスワード Vodafone絵文字 i-mode絵文字 Ezweb絵文字
カレンダー
12 2017/01 02
S M T W T F S
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
プロフィール
HN:
No Name Ninja
性別:
非公開
バーコード
ブログ内検索
Powered by ニンジャブログ  Designed by ゆきぱんだ
Copyright © Plesk卒業日記 All Rights Reserved
忍者ブログ / [PR]
PR