服务器数据恢复环境&故障:
EMC NAS(Isilon S200),共3个节点,每个节点配置12块STAT硬盘。数据分两部分:一部分数据为vmware虚拟机(WEB服务器),通过NFS协议共享到ESX主机;另一部分数据为视频教学文件,通过CIFS协议共享给虚拟机(WEB服务器)。
外部入侵导致视重要数据被删除,其中包括MSSQL数据库,MP4、ASF和TS类型的视频教学文件。主要是删除了NFS共享的所有数据(虚拟机),而CIFS共享的数据则没有影响。
服务器数据恢复过程:
1、在Isilon的web管理界面操作将设备关机,将所有硬盘编号后取出,以只读方式将所有磁盘进行扇区级全盘镜像,镜像完成后将所有磁盘按照原样还原到原存储中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
Tips:Isilon使用的是分布式文件系统OneFS。在Isilon存储集群中,每个节点都是一个单一的OneFS文件系统,因此Isilon支持横向扩展,且不会影响正在使用的数据。在集群工作时,所有节点提供相同的功能,节点与节点之前没有主备之分。当用户往集群中存储文件时,OneFS层会将文件分成128K的片段分别存到不同的节点中,而在节点层又会将128K的片段分成8K的小片段分别存到该节点的不同硬盘中。而用户文件的Indoe信息、目录项及数据MAP则会分别存储在所有节点中,这样可以确保用户不管从那个节点都可以访问到所有数据。Isilon在初始化时会让用户选择相应的冗余模式,不同的冗余模式所提供的数据安全级别也不一样(默认3个节点采用N+2:1模式)。
2、由于数据是被删除的,因此不用过多考虑存储的冗余级别,重点需要分析文件删除后,文件Indoe及数据MAP是否发生变化。和用户方沟通后得知被删除的虚拟磁盘文件都在64G或以上,并且存储中不存在其他类型的大文件。北亚企安数据恢复工程师编写程序扫描所有文件Indoe,将大小等于或者大于64G的文件Indoe都扫描出来。分析扫描出来的Indoe后发现Indoe中记录的数据MAP位置,其index指向的内容已不再是正常数据,并且所有节点上的Indoe均是同样的情况。仔细分析Inode,发现大文件的数据MAP会有多层(树结构),并且数据MAP中会记录文件的唯一ID,因此可以尝试找到文件最底层的数据MAP。尝试对文件最底层的数据MAP做遍历跟踪操作,发现最低层的数据MAP果然还在。
3、编写程序从文件的Inode中取出文件的唯一ID,然后对所有符合该ID的数据MAP做聚合。根据数据MAP中的VCN号做排序,发现每个文件的前17088项数据MAP都不存在,也就意味着每个文件的前17088项数据无法恢复。
4、经过换算发现丢失的数据MAP项数据量很小,而删除的全部是虚拟机的vmdk文件(NTFS文件系统),而NTFS文件系统的MFT基本都在3G的位置,也就是说只需要在每个vmdk文件的头部手动伪造一个MBR和DBR就可以解释vmdk里面的数据。编写程序解释扫描到的数据MAP,并根据VCN号的顺序导出数据,没有MAP的情况保留为零。
5、编写好程序后尝试导出一个vmdk文件,发现导出的vmdk文件比实际要小,并且vmdk中MFT的位置也与自身描述不符。随机验证了几个MAP发现都能指向数据区,而程序解释MAP的方式也都没有问题。考虑到各种可能性后,根据数据MAP进行验证,发现文件是稀疏的。
6、修改代码,重新导出刚才的vmdk,这次vmdk大小符合实际大小,且MFT的位置也在相应位置。手工伪造一个MBR,分区表以及DBR,再用开发的文件系统解释工具成功解释文件系统,导出vmdk里面的数据库及视频文件。
在验证了此vmdk中的数据库及视频文件没问题后,批量导出所有重要的vmdk文件,再手工一个一个的去修改每个vmdk文件。
7、所有重要的数据恢复完成后,由用户方安排工程师对恢复的数据做完整性及准确性检测,经过仔细验证,确定数据完全没有问题。