靠谱运维

原创推荐 2014-09-09 13:51:20 10000+阅读 2点赞 7评论

《高性能Linux服务器构建实战Ⅱ》热销中，附试读章节下载

其实很久没写过非技术方面的文章了，一方面是因为自己确实不擅长写这方面的东西，另一方面是因为繁忙的工作，思考的时间也少了，最近偶有感触，寥寥数笔,一吐思绪吧！

多年后，才知道自己是多么的无知

自尊心

原创推荐 2014-08-26 16:21:42 10000+阅读 93点赞 1收藏 56评论

Keepalived中Master和Backup角色选举策略

在Keepalived集群中，其实并没有严格意义上的主、备节点，虽然可以在Keepalived配置文件中设置“state”选项为“MASTER”状态，但是这并不意味着此节点一直就是Master角色。控制节点角色的是Keepalived配置文件中的“priority”值，但并它并不控制所有节点的角色，另一个能改变节点角色的是在vrrp_script模块中设置的“weight”值，这两个选项对应的都是

Backup

配置文件

角色

优先级

原创推荐 2014-08-25 19:07:23 10000+阅读 10点赞 8评论

运维实战案例之文件已删除但空间不释放问题解析

1、错误现象运维的监控系统发来通知，报告一台服务器空间满了，登陆服务器查看，根分区确实没有空间了，如下图所示：这里首先说明一下服务器的一些删除策略，由于Linux没有回收站功能，我们的线上服务器所有要删除的文件都会首先移动到系统/tmp目录下，然后定期清除/tmp目录下的数据。这个策略本身没有问题，但是通过检查发现这台服务器的系统分区中并没有单独划分/tmp分区，这样/tmp下的数据其

经过近2年的酝酿，几个月的修正，《高性能Linux服务器构建实战Ⅱ----系统安全、故障排查、自动化运维与集群架构》一书出版在即，马上就要与读者见面了。《高性能Linux服务器构建实战Ⅱ----系统安全、故障排查、自动化运维与集群架构》仍然沿用了《高性能Linux服务器构建实战---运维监控、性能调优、集群应用》的写作特点：实战、实用、通俗、易懂的特点，而在内容上更加实战化，从运维的多个方面以

回收站

监控系统

原创推荐 2014-07-08 12:13:03 10000+阅读 18点赞 4收藏 15评论

《高性能Linux服务器构建实战Ⅱ》已出版发售，附封面照！

mysql

NAS操作系统内核为Linux，自带的存储有16块硬盘，总共分两组，每组做了RAID5，Linux操作系统无法正常启动，在服务启动到cups那里就停止了，按键ctrl+c强制断开也没有响应，查看硬盘状态，都是正常的，没有报警或者警告现象。

监控

原创 2014-07-07 16:13:48 8542 阅读 40点赞 61评论

一次因NAS存储故障引起的Linux系统恢复案例

作为一名运维人员来说，这个错误并不陌生，在执行rm、cp、mv等命令时，如果要操作的文件数很多，可能会使用通配符批量处理大量文件，这时就可能会出现“Argument list too long”这个问题了。1、错误现象这是一台Mysql数据库服务器，在系统中运行了很多定时任务，今天通过crontab命令又添加了一个计划任务，退出时发生了如下报错：#crontab -e编辑完成后，保存退出

应用程序

操作系统

管理软件

原创推荐 2014-07-03 10:47:56 7841 阅读 20点赞 14评论

运维实战案例之“Argument list too long”错误与解决方法

一、问题现象这是一个基于Java的Web应用系统，在后台添加数据时提示无法添加，于是登录服务器查看tomcat日志，发现了如下异常信息：java.io.IOException: Too many open files通过这个错误，基本判断是系统可用的文件描述符不够了，由于tomcat服务是系统www用户启动的，于是用www用户登录系统，通过“ulimit -n”命令查看系统可以打开最大文件描述符的

数据库

计划

提示信息

原创推荐 2014-07-02 10:37:32 10000+阅读 8点赞 2收藏 10评论

运维实战案例之“Too many open files”错误与解决方法

IT行业发展到现在，安全问题已经变得至关重要，从最近的“棱镜门”事件中，折射出了很多安全问题，信息安全问题已变得刻不容缓，而做为运维人员，就必须了解一些安全运维准则，同时，要保护自己所负责的业务，首先要站在攻击者的角度思考问题，修补任何潜在的威胁和漏洞。

用户登录

files

原创推荐 2014-06-30 16:38:54 10000+阅读 12点赞 11评论

一次Linux系统被攻击的分析过程

信息安全

网站服务器

电信机房

原创推荐 2014-06-26 18:00:36 10000+阅读 46点赞 1收藏 33评论

Hadoop基础入门学习笔记（基本概念）

一、数据块(blck) HDFS(Hadp Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。二、元数据节点(Namende)和数据节点(datande) 元数据

客户端

文件夹

周期性

原创 2014-06-19 16:57:37 3564 阅读 3点赞

Ganglia监控扩展实现机制

默认情况下，ganglia通过gmond守护进程收集cpu、memory、disk、I/O、process、network六大方面的数据，然后汇总到gmetad守护进程下，使用rrdtools存储数据，最后将历史数据以曲线方式通过php页面呈现，但是很多情况下，这些基础数据还不足以满足我们的监控需要，我们还需要根据应用的不同，扩展ganglia的监控范围，

network

监控

python

memory

process

原创推荐 2014-04-24 11:10:03 10000+阅读 7点赞 5评论

基于Web应用的性能分析及优化案例

一、基于动态内容为主的网站优化案例1．网站运行环境说明硬件环境：1台IBM x3850服务器, 单个双核Xeon 3.0G CPU，2GB内存，3块72GB SCSI磁盘。操作系统：CentOS5.4。网站架构：Web应用是基于LAMP架构，所有服务都在一台服务器上部署。2．性能问题现象及处理措施现象描述网站在上午10点左右和下午3点左右访问高峰时，网页无法打开，重启

原创推荐 2014-04-18 11:07:30 7407 阅读 9点赞 1收藏 2评论

基于Linux服务器的性能分析与优化（2）

上接http://ixdba.blog.51cto.com/2895551/1397305一、几种典型应用对系统资源使用的特点1.1 以静态内容为主的Web应用这类应用的一个主要特点是小文件居多，并且读操作频繁，Web服务器一般为Apache或Nginx，因为这两个HTTP服务器对静态资源的处理非常迅速和高效。在Web访问量不大时，可以直接对外提供服务，但是在有很大并发请求时，单一的Web服务无法

作为一名Linux系统管理员，最主要的工作是优化系统配置，使应用在系统上以最优的状态运行，但硬件问题、软件问题、网络环境等的复杂性和多变性，导致了对系统的优化变得异常复杂，如何定位性能问题出在哪个方面，是性能优化的一大难题。本文从系统入手，重点讲述由于系统软、硬件配置不当造成的性能问题，并且给出了检测系统故障和优化性能的一般方法和流程。一、系统性能分析的目的1.1 找到系统性能的瓶颈系统的性能

原创 2014-04-17 16:23:46 2933 阅读 3点赞 1收藏

基于Linux服务器的性能分析与优化（1）

原创推荐 2014-04-17 16:14:04 5808 阅读 9点赞 2收藏 3评论

分布式日志收集系统scribe的安装

最近接到很多朋友说安装scribe比较麻烦总是失败，特此总结一下安装scribe的方法。下面是个安装过程，比较简单，因而没有特别描述。1.系统版本：基于CentOS-6.3-x86_642.gcca)安装版本为4.4.6 官方要求>=3.3.5，但低于4会有问题b)g++ 如果g++的结果是no inputfiles表示已安装，不是则安装：yum -y install gcc+ gcc-c+

python

boost

scribe

原创推荐 2014-03-05 18:24:33 5252 阅读 1收藏

分布式日志收集系统scribe介绍

Scribe是facebook开源的日志收集系统，在facebook内部已经得到大量的应用。 Scribe是基于一个使用非阻断C++服务器的thrift服务的实现。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。它为日志的“分布式收集，统一处理”提供了一个可扩展的，高容错的方案。一、Scribe的系统架构如上图所示：Scrib

facebook

日志收集系统

原创 2014-03-05 17:35:47 5409 阅读

图书抄袭何时休，技术人的版权在哪里？

今天，一个很偶然的机会，看到了一本北京邮电大学出版社出版的技术图书《Linux服务器架设、性能调优、集群管理教程——实训与项目案例》，感觉有种似曾相识的感觉，于是打开目录大概了解了下，一个我不想看到的现象发生了：此时一共有16章，而最后4章看着眼熟，于是仔细看了下目录结构，竟然与我2009年写的一本书《循序渐进Linux》部分章节结构完全相同，带着好奇心重的看了一下最后四章的内容，结果我很震惊，同

一、Puppet概述 Puppet是开源的基于Ruby的系统配置管理工具，基于C/S的部署架构。是一个为实现数据中心自动化管理而设计的配置管理软件，它使用跨平台语言规范，管理配置文件、用户、软件包、系统服务等。客户端默认每隔半小时会和服务器通信一次，确认是否有更新。当然也可以配置主动触发来强制客户端更新。这样就把日常的系统管理任务代码化了，代码化的好处是可以分享，保存，避免重复劳动，也可以快速恢

抄袭

原创 2013-10-23 17:37:24 4743 阅读 21点赞 20评论

自动化部署工具PUPPET介绍

puppet

自动化部署工具

puppet工具

原创推荐 2013-03-07 11:29:37 10000+阅读 14点赞 1收藏 5评论

分布式监控系统ganglia配置文档

一、Ganglia的组件 Ganglia包括如下程序，他们之间通过XML格式传递监控数据，达到监控效果。 Gmetad 这个程序负责收集各个cluster的数据，并更新到rrd数据库中。 Gmond 收集本机的监控数据，发送到其他机器上。收集其他机器的监控数据，供Gmetad读取。默认监听端口8649 web front-end 一个基

监控系统ganglia

原创推荐 2013-03-07 10:39:03 10000+阅读 7点赞 4评论

Oracle RAC系列之:测试RAC数据库集群功能

Oracle RAC是一个集群数据库，可以实现负载均衡和故障无缝切换。如何知道RAC数据库已经实现了这些功能呢，下面就对此进行功能测试。一、负载均衡测试 RAC数据库的负载均衡是指对数据库连接的负载均衡，当一个新的会话连接到RAC数据库时，通过指定的分配算法将请求分配到集群的任一节点上，这就是RAC数据库完成的功能。负载均衡在RAC中分为两种：一种是基于客户端连接的负载均衡；一种

srvctl即Server Control，是Oracle提供的一个命令行工具，用以用于管理Oracle的RAC环境。srvctl在Oracle 9i中被引入，Oracle10g、11g对其功能进行了很大的增强和改进。下面介绍下此命令的简单用法。一、查看实例状态（srvctl status）查询所有实例和服务的状态： [oracle@node-rac1 ~]$ srvctl

IP地址

的

数据库连接

原创推荐 2012-09-12 13:58:32 10000+阅读 5点赞 4评论

Oracle RAC系列之：利用srvctl管理RAC数据库

ASM（自动存储管理）是一个专门为Oracle数据库服务的数据文件存储机制，通过ASM管理数据文件，DBA不用再担心I/O性能问题，也不需要知道文件的名称，同时ASM也提供了文件系统到卷管理器的集成，下面依次介绍。一、 ASM的特点（1）自动调整I/O负载 ASM可以在所有可用的磁盘中自动调整I/O负载，不但避免了人工调整I/O的难度，而且也优化了性能，同时，利用ASM可以在线

查询

的

running

status

原创 2012-08-23 09:37:09 10000+阅读

Oracle RAC系列之：ASM基本操作维护

的

设备

数据库文件

数据库服务

原创推荐 2012-08-23 09:33:37 10000+阅读 4点赞 2收藏 2评论

win7 下设置挂载Linux服务器nfs共享的数据

win7下增加了很多有用的功能，只是默认没有开启而已，今天简述下一个WIN7下的NFS功能，通过这个功能，可以让win7共享Linux下面的磁盘分区或者目录数据，这个功能原理只能通过samba或者ftp来实现，并且配置复杂，而现在通过在win7下开启NFS功能，只需一分钟时间即可完成配置，简单方便。 1：

CRS提供了很多命令可以管理和查看集群服务状态，常用的有crs_stat、crs_start、crs_stop、crsctl等，这里依次介绍。 1、查看集群状态通过crs_stat命令可以查看集群中所有资源的状态，包括资源状态、资源运行在哪个节点上、资源类型等信息。例如：

linux系统

nfs

win7

原创推荐 2012-07-05 09:10:19 10000+阅读 17点赞 14评论

Oracle CRS的管理与维护

在Oracle ClusterWare安装成功后，开始进入Oracle数据库的安装，以oracle用户身份登录到任意一个集群节点，执行如下命令开始安装： [oracle@node-rac2 rac]$ /rac/database/runInstaller 接着就会弹出图形安装向导界面：

的

信息

资源

原创 2012-06-18 13:50:43 7934 阅读

Oracle系列：安装Oracle RAC数据库（三）

orale RAC数据库

原创 2012-06-18 13:33:41 10000+阅读 3点赞 2收藏 2评论

Oracle系列：安装Oracle RAC数据库（二）

紧接着上面的文章：http://ixdba.blog.51cto.com/2895551/880511 14：安装Oracle Clusterware （1）解压软件包这里假定数据库所有软件放在了/rac目录下，首先需要解压Oracle的两个软件包，操作如下： [root@node-rac1 rac]#ls linux_11gR1_database_1013.zip&nbs

安装Oracle

RAC数据库

Oracle Clusterware

原创推荐 2012-05-30 11:00:58 6628 阅读 3点赞 2收藏 1评论

Oracle系列：安装Oracle RAC数据库（一）

Oracle RAC数据库的安装相对单机数据库复杂一些，因为整个安装过程涉及网络、操作系统、存储等方面，一个环节设置不当，都可能导致安装失败。本文将详细的讲述RAC数据库的安装过程。 1、安装前的系统配置需求安装Oracle Rac数据库需要的组件可以分为软硬件两部分，下面是一个软硬件推荐配置: 为了方便安装RAC数据库，在安装操作系统时，建