Major redesign. All input is handled through XML. Raw input data is first
[gnucomo.git] / src / gcm_input / access_cooker.cpp
1
2 /**************************************************************************
3 **  (c) Copyright 2002, Andromeda Technology & Automation
4 ** This is free software; you can redistribute it and/or modify it under the
5 ** terms of the GNU General Public License, see the file COPYING.
6 ***************************************************************************
7 ** MODULE INFORMATION *
8 ***********************
9 **      FILE NAME      : access_cooker.cpp
10 **      SYSTEM NAME    : 
11 **      VERSION NUMBER : $Revision: 1.2 $
12 **
13 **  DESCRIPTION      :  Cooks Apache http daemon access log lines
14 **
15 **  EXPORTED OBJECTS : 
16 **  LOCAL    OBJECTS : 
17 **  MODULES  USED    :
18 ***************************************************************************
19 **  ADMINISTRATIVE INFORMATION *
20 ********************************
21 **      ORIGINAL AUTHOR : Arjen Baart - arjen@andromeda.nl
22 **      CREATION DATE   : Aug 11, 2003
23 **      LAST UPDATE     : Aug 11, 2003
24 **      MODIFICATIONS   : 
25 **************************************************************************/
26
27 /*****************************
28    $Log: access_cooker.cpp,v $
29    Revision 1.2  2003-12-04 10:38:09  arjen
30    Major redesign. All input is handled through XML. Raw input data is first
31    transformed into an XML document for further processing.
32    A collection of polymorphic classes handle the transformation of various
33    input formats into XML.
34    Classifying input data is done with a finite improbability calculation.
35
36    Revision 1.1  2003/08/11 16:56:15  arjen
37    Different kinds of log files are parsed by a collection of objects
38    of different classes, derived from the base class line_cooker
39    Depending on the message content or the message_type element in
40    XML, one of these objects is selected.
41
42    Logrunner is integrated with gcm_input. Although its functionality
43    is still limited, a connection between logrunner and gcm_input
44    is beginning to form.
45
46 *****************************/
47
48 /* static const char *RCSID = "$Id: access_cooker.cpp,v 1.2 2003-12-04 10:38:09 arjen Exp $"; */
49
50 #include <ctype.h>
51
52 #include "access_cooker.h"
53
54 static const regex re_accesslog("(GET|POST|HEAD) .+ HTTP");
55
56 bool access_cooker::check_pattern(String logline)
57 {
58    return logline == re_accesslog;
59 }
60
61 bool access_cooker::cook_this(String logline, UTC arrival)
62 {
63    if (check_pattern(logline))
64    {
65       String datestring = logline(regex("\\[.+\\]"));
66
67       datestring <<= 1;
68       datestring >>= 1;
69       datestring[datestring.index(':')] = ' ';
70
71       date   log_date = datestring;
72       hour   log_time = datestring;
73
74       log_date = datestring;
75       log_time = datestring;
76
77       ts = UTC(log_date, log_time);
78
79       hn  = "";
80       srv = "httpd";
81
82       return true;
83    }
84    else
85    {
86       return false;
87    }
88 }
89
90