服务器日志分析工具，通过网站日志能得到哪些重要的信息

通过分析网站日志Log文件可以看到用户和搜索引擎访问网站的数据代备案，这些数据可以分析出用户和搜索引擎对网站的喜好以及网站的情况服务器日志分析工具。网站日志分析主要是分析蜘蛛爬虫的爬行轨迹。服务器日志分析工具，通过网站日志能得到哪些重要的信息蜘蛛爬虫抓取和收录的过程中，搜索引擎会给特定权重网站分配相应的资源量。一个符合搜索引擎友好性的网站应该充分的利用这些资源，可以让蜘蛛爬虫快速、准确、全面的抓取有价值、用户又喜欢的内容，而不是浪费资源，访问没有价值的内容上。接下来就详细的了解一下，网站日志如何分析吧！1、访问次数、停留时间、抓取量从这三项数据中可以知道平均每次抓取页面的数量、单页抓取停留时间和平均每次停留的时间。从这些数据可以看出蜘蛛爬虫的活跃度、亲和程度、抓取深度等等，总访问的次数、停留时间、抓取量、平均抓取页面、平均停留时间越长，就说明网站越受搜索引擎喜欢。而单页抓取停留时间表明网站页面访问速度，时间越长，网站访问速度越慢，越不利于搜索引擎的抓取，应该尽量提高网站页面加载速度，减少单页抓取停留时间，这样可以让搜索引擎收录更多页面。另外，根据数据也可以统计出一段时间内网站运营的整体趋势，例如，蜘蛛访问次数趋势、停留时间趋势、抓取趋势。2、目录抓取统计通过分析网站日志可以了解到网站哪些目录蜘蛛爬虫比较喜欢，抓取目录的深度、重要页面目录抓取情况、无效页面目录抓取情况等等。通过对比目录下页面的抓取以及收录情况可以发现更多问题。对于重要目录，需要通过内外调整增加权重以及抓取率，对于无效页面，可以在robots.txt中进行屏蔽。另外，通过网站日志可以看到网站目录的效果、优化的是否合理，是否达到预期效果。于同一目录，以长期时间段来看，我们可以看到该目录下页面表现，根据行为推测表现的原因等。3、页面抓取在网站日志分析中，可以看到搜索引擎抓取的具体页面。在这些页面中，可以分析出哪些页面是不被抓取的，哪些页面是没有价值的，还有就是抓取了哪些重复的URL等等，必须充分的利用资源，将这些地址添加到robots.txt中。另外还可以分析未收录页面的原因，对于新文章，是因为没有被抓取而未收录，还是抓取了没有放出来。4、蜘蛛访问IP通过蜘蛛IP是否能判断出网站降权情况，答案是不能的。网站降权主要从前三项数据来判断，，如果想用IP来判断，那是不可能的。5、访问状态码蜘蛛经常出现301、404状态码，如果返回状态码是304，那么网站就是没有更新的，出现这些状态码的时候，一定要及时处理，要不然会对网站造成不好的影响。6、抓取时间段通过分析对比搜索引擎的抓取量，可以了解搜索引擎在特定的时间的活跃度。通过对比周数据，可以了解到搜索引擎的活跃周期，这样对于网站更新内容有着重要意义。7、搜索引擎抓取路径在网站日志中，可以跟踪到特定IP的访问路径，跟踪特定的搜索引擎的访问路径能够发现对网站抓取路径的喜好。所以，可以引导搜索引擎来进入抓取路径中，这样可以让搜索引擎抓取更重要，更有价值的内容。Flume和Kafka有一部分功能是相同的，但是整体来看，两者的差别还是很大的；它们使用的场景有所不同，但是可以相互配合使用。Flume简单的说，Flume是分布式日志收集系统，它把各个服务器上的日志收集起来，传送到制定的地方，比如传送到HDFS中。KafkaKafka的定位是分布式消息中间件，自带存储，提供push和pull存取数据功能。使用场景在实际应用中，系统实时产生的日志需要最后进入HDFS，但是生产上的日志数量会有波动，比如由于访问量的增加，导致突然之间产生大量的日志，这时候可能会导致日志写入HDFS失败，所以这时候可以先把日志数据写入到Kafka中，再由Kafka导入到HDFS中。总结：在日志采集系统中，把Kafka当做日志缓存更加合适，Flume做数据采集，因为它可以定制很多数据源，减少开发量，所以Flume和Kafka可以配合起来一起工作。整体的流程是这样的:服务器上的日志<–Flume–>Kafka–>HDFS–>离线计算服务器上的日志<–Flume–>Kafka–>Storm希望我的回答能够帮助到你！

相关文章