用定制的PHP應(yīng)用程序來(lái)獲取Web服務(wù)器的狀態(tài)信息
大多數(shù)網(wǎng)站托管(Web hosting)公司都支持客戶對(duì)Web站點(diǎn)統(tǒng)計(jì)數(shù)據(jù)的訪問(wèn),但是你往往會(huì)覺(jué)得服務(wù)器所產(chǎn)生的狀態(tài)信息不夠全面。例如,配置不正確的Web服務(wù)器不能識(shí)別某些文件類(lèi)型,這些類(lèi)型的文件就不會(huì)出現(xiàn)在狀態(tài)信息之中。幸好,你可以用PHP來(lái)定制狀態(tài)信息收集程序,這樣你就可以獲取你所需要的信息了。
公共日志文件格式(Common Logfile Format,CLF)的結(jié)構(gòu)
CLF最初是NCSA為HTTPd(全球網(wǎng)服務(wù)器軟件)而設(shè)計(jì)的。CERN HTTPd是一個(gè)由萬(wàn)維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)維護(hù)的公共域Web服務(wù)器。W3C網(wǎng)站列出了該日志文件規(guī)范?;谖④浐蚒NIX的Web服務(wù)器都可以生成CLF格式的日志文件。CLF格式如下:Host IdentAuthuserTime_Stamp 'request' Status_codeFile_size
例如:21.53.48.83 - - [22/Apr/2002:22:19:12 -0500] 'GET /cnet.gif HTTP/1.0' 200 8237
下面是日志條目的細(xì)目分類(lèi):
Host是網(wǎng)站訪問(wèn)者的IP地址或者DNS名;在上面的例子中,它是21.53.48.83。 Ident是該訪客的遠(yuǎn)端身份(RFC 931)。破折號(hào)表明“未指定”。 Authuser是用戶ID(如果Web服務(wù)器已經(jīng)驗(yàn)證了驗(yàn)證網(wǎng)站訪問(wèn)者的身份的話)。 Time_Stam是服務(wù)器以“日/月/年”這種格式返回的時(shí)間。 Request是網(wǎng)站訪問(wèn)者的HTTP請(qǐng)求,例如GET或者POST。 Status_Code是服務(wù)器所返回的狀態(tài)代碼,例如:200代表“正確——瀏覽器請(qǐng)求成功”。 File_Size是用戶所請(qǐng)求文件的大小。在本例中,它為 8237字節(jié)。
服務(wù)器狀態(tài)代碼
你可以在HTTP標(biāo)準(zhǔn)中找到W3C所開(kāi)發(fā)的服務(wù)器狀態(tài)代碼規(guī)范。這些由服務(wù)器所產(chǎn)生的狀態(tài)代碼表示了瀏覽器和服務(wù)器之間的數(shù)據(jù)傳輸成功與否。這些代碼一般傳遞給瀏覽器(例如非常有名的404錯(cuò)誤“頁(yè)面沒(méi)有找到“)或者添加到服務(wù)器日志中去。
收集數(shù)據(jù)
創(chuàng)建我們的自定義應(yīng)用程序的第一步就是獲取用戶數(shù)據(jù)。每當(dāng)用戶選擇網(wǎng)站的某個(gè)資源時(shí),我們就希望創(chuàng)建一個(gè)對(duì)應(yīng)的日志條目。幸好,服務(wù)器變量的存在使得我們能夠查詢(xún)用戶瀏覽器并獲取數(shù)據(jù)。
報(bào)頭中的服務(wù)器變量攜帶了從瀏覽器傳遞到服務(wù)器的信息。REMOTE_ADDR就是一個(gè)服務(wù)器變量的例子。這個(gè)變量返回了用戶的IP地址:例子輸出:27.234.125.222
下面的PHP代碼將顯示出當(dāng)前用戶的IP地址:<?php echo $_SERVER['REMOTE_ADDR']; ?>
讓我們看看我們的PHP應(yīng)用程序的代碼。首先,我們需要定義我們想跟蹤的網(wǎng)站資源并指定文件大?。?/獲取我們想記錄的文件名稱(chēng)$fileName='cnet-banner.gif';$fileSize='92292';
你無(wú)需把這些值保存到靜態(tài)變量中去。如果你要跟蹤許多條目,那么你可以把它們保存到數(shù)組或者數(shù)據(jù)庫(kù)中去。在這種情況下,你可能會(huì)希望通過(guò)一個(gè)外部鏈接來(lái)找到每個(gè)條目,如下所示:<a href='http://www.aoyou183.cn/bcjs/weblogger.php?bannerid=123'><imgsrc='cnet-banner.gif' border='0'></a>
其中“123”表示“cnet-banner.gif”所對(duì)應(yīng)的記錄。然后,我們通過(guò)服務(wù)器變量來(lái)查詢(xún)用戶瀏覽器。這樣我們就得到在我們的日志文件中添加新條目所需的數(shù)據(jù)://得到網(wǎng)站瀏覽者的CLF信息$host=$_SERVER['REMOTE_ADDR'];$ident=$_SERVER['REMOTE_IDENT'];$auth=$_SERVER['REMOTE_USER'];$timeStamp=date('d/M/Y:H:i:s O');$reqType=$_SERVER['REQUEST_METHOD'];$servProtocol=$_SERVER['SERVER_PROTOCOL'];$statusCode='200';
然后,我們檢查服務(wù)器是否返回了空值(null)。根據(jù)CLF規(guī)范,空值應(yīng)該用破折號(hào)來(lái)代替。這樣,下一個(gè)代碼塊的任務(wù)就是尋找空值并用破折號(hào)來(lái)取代它://給空值添加破折號(hào)(根據(jù)規(guī)范)if ($host==''){ $host='-'; }if ($ident==''){ $ident='-'; }if ($auth==''){ $auth='-'; }if ($reqType==''){ $reqType='-'; }if ($servProtocol==''){ $servProtocol='-'; }
一旦我們獲取了必要的信息,這些值將被組織成一種符合CLF規(guī)范的格式://創(chuàng)建CLF格式的字符串$clfString=$host.' '.$ident.' '.$auth.' ['.$timeStamp.'] ''.$reqType.' /'.$fileName.' '.$servProtocol.'' '.$statusCode.' '.$fileSize.'rn';
創(chuàng)建自定義日志文件現(xiàn)在,格式化之后的數(shù)據(jù)可以存放到我們的自定義日志文件中去。首先,我們將創(chuàng)建一種文件命名協(xié)定,并編寫(xiě)每日產(chǎn)生一個(gè)新日志文件的方法(函數(shù))。在本文所舉的例子中,每個(gè)文件都以“weblog-”開(kāi)頭,然后是按月/日/年表示的日期,文件擴(kuò)展名為.log。.log擴(kuò)展名一般表示服務(wù)器日志文件。(實(shí)際上,絕大多數(shù)日志分析器都搜索.log文件。)// 用當(dāng)前日期來(lái)命名日志文件$logPath='./log/';$logFile=$logPath.'weblog-'.date('mdy').'.log';
現(xiàn)在,我們需要判斷當(dāng)前日志文件是否存在。如果存在,我們就向它添加條目;否則,應(yīng)用程序就創(chuàng)建新的日志文件。(新日志文件的創(chuàng)建一般發(fā)生在日期更改時(shí),因?yàn)檫@時(shí)文件名發(fā)生變化了。)//檢查日志文件是否已經(jīng)存在if (file_exists($logFile)){//如果存在,則打開(kāi)已存在的日志文件$fileWrite = fopen($logFile,'a');}else {//否則,創(chuàng)建新的日志文件$fileWrite = fopen($logFile,'w'); }
如果你在寫(xiě)或者追加文件時(shí),收到“權(quán)限不足(Permission Denied)”錯(cuò)誤信息,請(qǐng)更改目標(biāo)日志文件夾的權(quán)限來(lái)允許寫(xiě)操作。絕大多數(shù)Web服務(wù)器的默認(rèn)權(quán)限為“可讀可執(zhí)行”。你可以用CHMOD命令或者使用FTP客戶端來(lái)改變文件夾的權(quán)限。
然后,我們創(chuàng)建文件鎖定機(jī)制,這樣當(dāng)兩個(gè)或者更多用戶同時(shí)訪問(wèn)日志文件時(shí),只有其中的一個(gè)用戶可以對(duì)該文件進(jìn)行寫(xiě)操作://創(chuàng)建文件寫(xiě)操作的鎖定機(jī)制flock($fileWrite, LOCK_SH);
最后,我們寫(xiě)入條目的內(nèi)容://寫(xiě)CLF條目fwrite($fileWrite,$clfString);//解除文件鎖定狀態(tài)flock($fileWrite, LOCK_UN);//關(guān)閉日志文件fclose($fileWrite);
處理日志數(shù)據(jù)
在該系統(tǒng)產(chǎn)品化之后,客戶希望得到對(duì)所收集到的訪問(wèn)者數(shù)據(jù)的詳細(xì)統(tǒng)計(jì)分析。由于所有的定制日志文件都是按照一個(gè)標(biāo)準(zhǔn)的格式組織的,因此任何一個(gè)日志分析器都可以處理它們。日志分析器是一個(gè)工具,它分析大的日志文件并產(chǎn)生餅圖、直方圖以及其它統(tǒng)計(jì)圖形。日志分析器也用來(lái)收集數(shù)據(jù),并綜合出提供哪些用戶訪問(wèn)你的網(wǎng)站、點(diǎn)擊數(shù)等方面的信息。
下面列出了幾個(gè)比較流行的日志分析器:
WebTrends是一個(gè)非常不錯(cuò)的日志分析器,它適用于大規(guī)模網(wǎng)站以及企業(yè)級(jí)的網(wǎng)絡(luò)。 Analog是一個(gè)頗受歡迎的免費(fèi)日志分析器。 Webalizer是一個(gè)免費(fèi)的分析程序。它可以產(chǎn)生HTML報(bào)告,這樣大多數(shù)網(wǎng)絡(luò)瀏覽器都可以查看它的報(bào)告。
遵守標(biāo)準(zhǔn)
我們可以輕松的擴(kuò)展該應(yīng)用程序來(lái)讓它支持其它類(lèi)型的日志記錄。這樣你就可以捕獲到更多的數(shù)據(jù),如瀏覽器類(lèi)型以及referrer(referrer指得是鏈接到當(dāng)前網(wǎng)頁(yè)的前一個(gè)網(wǎng)頁(yè))。這里的經(jīng)驗(yàn)就是:在你編程的時(shí)候遵循標(biāo)準(zhǔn)或者慣例終究會(huì)簡(jiǎn)化工作。
