電柱日報

日々の由無し事

ログ整理

上半期のメール送受信統計を取ることになりまして、職場を出入りするメールがすべて通るメールゲートウェイのログを漁って居っりました。
ログに記録された各メール毎に差出人と宛先のドメイン(職場のアドレスかどうか)と、接続してきたマシンのIPアドレス(職場のマシンかどうか)を拾って、各種統計を取るわけですが、差出人も宛先もIPアドレスもそれぞれ個別に記録されているので、セッションIDをモトに結び付けることになります。
しかも、必ずしもメールは1通ずつ処理されるわけではなく、複数メールのログが錯綜する上、中にはクライアント行だけ記録した後グレイリスティングで弾かれたりして差出人や宛先が出てこないやつもいたりして、ちゃんとやろうとすると結構面倒な作業でした。
おまけに、うちのゲートウェイは受けたメールを一旦同じサーバでやってるウィルスチェックにまわして、そこからチェック済みのメールを受け取るので、その分は抜かないといけませんしねー。
とりあえずRubyスクリプト書いてぶん回しましたが2時間ほどかけてようやく終了。
結構時間がかかったなぁと思い、改めて確認してみるとログの行数が半年で1億2000万を超えておりました。日本の人口1人当たり1行(w
まぁ、1通のメール処理が段階ごとに何行にもわたって記録されますので、実際に扱ったメールの量はそこまでまで多くありませんけどね。