基于SEO的Log 日志分析软件应该提供那些功能?

今天是连续第3个要过了12点才睡的日子了,希望今天可以告一个段落.

最近在考虑如何做基于 SEO 的日志分析工具, 每天都熬夜, 还真吃不消啊.


当用户在浏览器地址栏输入一个网址的时候,web服务器在返回用户需要页面的同时也记录用户的其他数据,比如用户的浏览器是什么牌子的,用户使用的IP地址,操作系统甚至记录了用户是输入的网址还是从其他链接跳转过来的等等。(好罗嗦)这部分记录无疑是最基础也是最重要的数据,很多web数据挖掘工作都是从这里作为起点进行的。

看过web服务器(比如apache , iis )日志的朋友们都知道,当用户访问一个页面产生的日志并不是只有一行,而是有很多行。稍加注意就会发现,web服务器为当前访问页面中包含的每个文件(图片、javascript脚本等)都生成了一行记录。这一行行的记录就组成了原始日志文件。

对SEO工作来说,分析日志是一项必不可少的基本功。与SEO最相关的信息莫过于搜索引擎的来访记录和从搜索引擎带来的流量2个指标。目前国内网站用户使用的web log 日志分析工具大多使用 awstats 一类的开源工具。可以说awstats的流行,与日志分析爱好者的引荐是有很大关系的比如车东等人。 数据挖掘交友

虽然我也使用awstats等工具,但毫无疑问现在市场上专门针对seo的log日志分析工具还很少见。同时由于awstats采用perl编写,加上使用awstats自有的文件格式,这就导致了在awstats的基础上加以修改提供基于seo的日志分析功能也非容易之事。

那么基于SEO的日志分析应该提供那些功能呢,这就是我这几天想的问题.

目前已经实现了以下三个部分:

1.从原始日志文件中提取 页面访问 的记录 .(去掉 .js , .css , .jpg 等记录)见:"原始Log -> 页面 Log "

2.针对提取出的 页面访问记录 进行派重 (bloom filter), 提取唯一的访问记录.见:"页面Log -> sitemap "

3.针对提取出的  页面访问记录 ,提取从 google 和 baidu 过来的搜索关键词 记录.
见:"页面Log-> 搜索关键字分析"

准备提供的功能:
通用功能: 除去没有意义的请求(如JPG,GIF等), 分析真实的访问请求
多日日志: 蜘蛛的图表
单日日志: 蜘蛛的来访数字, 蜘蛛的来访时间段(这个很重要,可以判定搜索引擎更新频率)



alpha 下载地址





基于SEO的日志分析
[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:面向Web的数据挖掘
下一篇:基于SEO的Log 日志分析软件应该提供那些功能?
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • Web数据挖掘的研究现状及发展
  • Web数据挖掘技术综述
  • 百度申请精确广告专利 欲抑制Google步伐
  • Web数据自动采集及其应用研究
  • 信息安全中的数据挖掘
  • 面向Web的数据挖掘
  • Extended Log File Format
  • 基于XML的Web数据挖掘在数字图书馆中的应用
  • XML与Web数据挖掘
  • Web数据挖掘
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • Any Extract (AE) 网站在线编辑
  • 信息安全中的数据挖掘
  • 基于XML的Web数据挖掘在数字图书馆中的应用
  • Web数据挖掘技术综述
  • Web数据挖掘
  • 北大计算机所万小军博士接连在国际一流学术
  • Refereed Papers on WWW2007
  • WWW2007 tutorials
  • WWW2007 workshops
  • Why ’08 Matters for the Web
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静