Exadata FAQ——为什么ASM rebalance hang在EST_MINUTES=0

原文链接： http://www.dbaleet.org/why_asm_rebanlance_hang_at_est_minutes_eq_zero/ 最早故事大概发生在一年前，当时某个客户Exadata有几个盘坏了，需要更换。当时正好我在客户现场做一个变更，正好帮忙换一下硬盘，因为Exadata换盘的步骤比较繁琐，客户也是第一次遇到这样的事情，所以也格外谨慎。变更是在凌晨，此时业务量非常小，所以索性将ASM_POWER_LIMIT开足马力调整到11。期望rebalance能快点结束。还好一切顺利，中间并没有遇到什么差错。最后一部将ASM磁盘加回到asm diskgroup也很顺利，然后不停的在刷着select * from v$asm_opearation; /之类的。两小时后，眼看EST_MINUTES就马上接近于零了，换盘工作也即将结束。于是乎就去找客户闲聊，拉拉家常。半个小时过去了，我回到座位，熟练的敲了一下/，口里还念叨了一句：no row selected大大出乎我的意料的是竟然还有记录。越想越不对，10g的ASM也算换过不少次了，从来没出现像现在这样的。难道这个参数不准？下意识的去存储节点看了下iostat的结果，发现I/O量还是很大的。这个时候已经是凌晨3点了，不应该有这么大的访问量才对呀。我又简单的看了下db的负载一切正常，这就奇怪了。干脆一不做，二不休等吧。查询v$asm_operation得到的结果基本是这样的：

SQL>select * from v$asm_operation;

GROUP_NUMBER OPERA STAT      POWER     ACTUAL      SOFAR   EST_WORK   EST_RATE EST_MINUTES ERROR_CODE

------------ ----- ---- ---------- ---------- ---------- ---------- ---------- ----------- --------------------------------------------

           1 REBAL RUN          11         11       5518       5917       3250           0

一个小时过去了，没变。两个小时过去了，不见动静。四个小时过去了，马上就天亮了。如果还不完成的话，那么就立即到营业时间了，眼看就快过了维护窗口了，如果不能完成可能就影响到业务了。我不停的刷着/，期望rebalace能尽快结束，终于在四个半小时小时以后出现了久违的no row selected。当时我就想肯定是这个EST_MINUTES估算值不准导致的。因为10g时代已经习惯了v$session_longops不准了。但是令人十分费解的是加几个盘也用不了这么久吧？正常情况下两个小时就结束了，Exadata号称性能最强的数据库一体机，连普通的PC server都不如？一个月以后，同样的事情有一次碰到，但是我不在客户现场了。这是国内某大型的金融客户。客户告诉我，他们加盘的动作是设定某个时间段进行，预估的时间是根据个EST_MINUTES算出来，然后多加一个小时，在10g时代，客户一直是这么做的。结果竟然2-3小时还没完，影响到业务了。这个时候，这个问题我已经知道是为什么了，但是我并没有说明具体的原因，只是告诉他这个估算出来的值不准，并且加盘减盘最好不要设定死固定的窗口， ASM_POWER_LIMIT不要虽然调整到最大值，设置为4就行了，这样不会影响业务。时隔不久，竟然又有同事遇到了同样的问题，但是这次不是在exadata上，只是普通的11.2.0.2的数据。实际上：EST_MINUTES 是按照以下公式计算的： EST_MINUTES = (EST_WORK-SOFAR)/ EST_RATE 客户这个例子EST_MINUTES=(5917-5518)/3250=0.12m 约等于0, 证明rebalance已经“结束”。但为什么select * from v$asm_operation中还显示有记录呢，并且时间都是非常的长。那这两者会有什么不同，这个时候，ASM正在做什么呢？我们猜测在EST_MINUTES=0, 并且select * from v$asm_operation的时候，ASM一定在后台进行某种秘密的活动。因为最终的rebalance是由ARB0完成的，所以我们想通过对ARB0进程在这两个阶段分别进行debug，然后对比其异同：首先在EST_MINUTES不为0的时候，ARB0的堆栈如下：

kfk_reap_oss_async_io <-kfk_reap_ios_from_subsys<-kfk_reap_ios<-kfk_io1<-kfkRequest<-kfk_transitIO<-kffRelocateWait<-kffRelocate<-kfdaExecute <-kfgbRebalExecute<-kfgbDriver<-ksbabs<-kfgbRun<-ksbrdp<-opirip<-opidrv <-sou2o<-opimai_real<-ssthrdmain <-main

从上面的堆栈函数，我们可以猜测到此时ARB0进程一定是在做段的分配，并且等待段的分配的完成。当EST_MINUTES=0, 但是v$asm_operation视图还有值的时候，再ARB0进行debug：得到的堆栈信息明显就有不一样了：

kfk_reap_oss_async_io<-kfk_reap_ios_from_subsys<-kfk_reap_ios<-kfk_io1
<-kfkRequest<-kfk_transitIO<-kffRelocateWait<-kffRelocate<-kfdaExecute<-kfdCompact<-kfdExecute<-kfgbRebalExecute<-kfgbDriver<-ksbabs<-kfgbRun<-ksbrdp<-opirip<-opidrv<-sou2o<-opimai_real<-ssthrdmain<-main

可以看到其中有个函数的名字叫做kfdCompact, 所以我们猜测这个神秘的阶段ARB0进程是在做compact这个动作。从这个compact来看，这个动作显然是11.2ASM的一个未公开的新特性，一个对数据进行重组和优化的阶段。后来发现这个动作并不是每次rebalance的时候都会发生。这个动作所做的事情实际上是把数据尽量挪到外圈加快访问速度。这个过程并不是必须的，可以通过以下隐含参数禁用：_DISABLE_REBALANCE_COMPACT=TRUE，值得注意的是这个神奇的参数在11.2.0.3以下版本最好不要禁用，原因在于： Bug 10022980 – DISK NOT EXPELLED WHEN COMPACT DISABLED，这个bug在11.2.0.3修复。当然还有一种方式就是隐含参数_REBALANCE_COMPACT设置为false。我的建议是，如果对于lun，数据本身已经打散，ASM根本不知道磁盘的最外圈在什么地方，所以这种情况下，应该将这个compact这个过程禁用，以免耽误很长的时候，而结果却适得其反。如果ASM盘是裸盘，则不要关闭这个特性。在Exadata上，同样不要禁用这个特性。当然同时，请不要将轻易将ASM_POWER_LIMIT设置为最大值，然后进行rebalance，一种思路是将ASM_POWER_LIMIT调整到4左右，然后添加/删除/替换磁盘，让其在后台进行，然后写一个脚本每隔几分钟查询一次v$asm_operation，如果返回空行，则表示rebalance已经成功，然后想dba team发送邮件或者短信通知。最后需要补充一句的事情是：这个问题已经被oracle当作一个bug处理，Bug 9311185: EST_MINUTES IN V$ASM_OPERATION MAY SHOW ZERO FOR EXTENDED PERIODS，也就是没有办法监控到compact的完成度，这个由于已有的代码问题，在11.2中几乎无法修复。12c中确认已经修复。以上