




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
DATE\@"yyyy-M-d"2025-3-21第PAGE\*romani頁,共143頁H3CONEStor維護手冊指南第ii頁,共143頁Catalog目錄1概述 12信息查看與收集 12.1管理界面信息 12.1.1概覽界面 12.1.2主機界面 22.1.3運維監(jiān)控界面 22.1.4常見告警說明 22.2日志 33系統(tǒng)升級 33.1離線升級 34系統(tǒng)維護 44.1常見網絡問題及解決方法 44.1.1由于vlan配置引起的網絡不通 44.1.2開啟防火墻出現添加存儲或者監(jiān)控節(jié)點失敗 44.2瀏覽器支持和設置問題 54.3License變更 54.4集群擴容 54.4.1節(jié)點擴容 54.4.2硬盤數量擴容 104.4.3硬盤容量擴容 154.5集群縮容 174.5.1節(jié)點縮容 174.5.2硬盤縮容 184.6組件恢復 194.6.1HandyHA有一個Handy節(jié)點損壞 194.7集群異常問題的恢復處理 204.7.1集群常見告警及處理 204.7.2創(chuàng)建集群失敗后重新創(chuàng)建的操作 254.7.3硬盤數據分布不均勻的恢復 254.7.4硬盤空間使用過滿(≥95%)時存儲塊無法刪除的恢復 264.8節(jié)點異常問題的恢復處理 264.8.1系統(tǒng)盤占滿導致的主機異常 264.9增刪主機或硬盤的過程中網絡故障導致的異常 274.9.1硬盤還沒有開始刪除就出現網絡故障 274.9.2刪除掉部分硬盤時出現網絡故障 274.9.3硬盤全部從集群中移除了,但是在格式化硬盤數據的時候出現網絡故障 274.9.4對象網關離線刪除和恢復 274.9.5監(jiān)控節(jié)點離線刪除和恢復 284.9.6存儲節(jié)點離線刪除和恢復 285硬盤維護 295.1硬盤使用注意事項 295.2硬盤異常處理 305.2.1主機重啟導致系統(tǒng)下sdX盤號丟失或錯位的恢復方法 305.2.2查詢OSD目錄所mount的數據分區(qū)、journal(寫加速)分區(qū) 305.2.3Handy界面未刪除故障osd,直接更換新盤導致原osd無法刪除的解決方法 315.3硬盤拔插(插回原盤) 325.3.1無flashcache加速的數據盤被錯誤拔出(以R4900G3為例,插回原盤) 325.3.2被flashcache加速的數據盤被錯誤拔出(以4900G2為例,插回原盤) 375.3.3Flashcache緩存盤被錯誤拔出(以4900G2為例,插回原盤) 405.4硬盤更換(插入新盤) 445.4.1無flashcache加速的數據盤更換(R4900G3為例,插入新盤) 445.4.2被flashcache加速的數據盤更換(以R4900G2為例,插入新盤) 545.4.3Flashcache緩存盤更換-back模式(以R4900G2為例,插入新盤) 615.4.4Flashcache緩存盤更換-around模式(以R4900G2為例,插入新盤) 685.4.5輸入cephosdtree如果發(fā)現osd7,osd11的狀態(tài)為”up”and“in”,則說明換盤成功。 755.5R390X服務器上硬盤的拔插恢復方法 755.5.1部署了寫加速或者無加速盤集群的數據盤原盤拔出后插回的恢復方法 755.5.2部署了讀加速或者讀寫加速集群的數據盤原盤拔出后插回的恢復方法 795.5.3加速盤原盤拔出后插回方法 835.5.4數據盤增加新盤后的恢復方法(擴容) 835.5.5數據盤壞盤更換新盤方法 855.5.6加速盤壞盤更新方法 865.6Megacli對LSI的RAID卡上的硬盤的拔插修復 866典型問題排查與處理 876.1集群狀態(tài)相關 876.1.1健康度不到100% 876.1.2節(jié)點暫無數據 896.2管理頁面相關 896.2.1Handy無法打開 896.2.2Handy無法顯示集群信息 956.2.3部署相關異常 966.2.4集群任務異常 996.3license相關 1006.3.1License激活失敗 1006.3.2License失效 1056.4iSCSI高可用相關 1086.4.1高可用IP不通 1086.4.2高可用IP通但是IO不通 1106.5fence相關 1106.5.1網絡不通 1106.5.2存儲IO能力達到極限 1116.6SSD無法識別 1126.7密碼相關 1136.8tgt相關 1136.9精簡配置相關 1136.10mon異常修復 1156.10.1系統(tǒng)盤空間利用率過高導致的mondown 1156.10.2網絡錯誤導致的mondown 1166.10.3掉電問題引起的mondown 1176.11刪除主機相關 1186.11.1刪除主機提示刪除失敗,實際刪除成功 1186.12硬盤無法添加 1196.12.1無可用的硬盤 1196.13OSD無法啟動 1216.13.1rocksdb損壞導致OSD無法啟動 1216.13.2osdmap丟失導致osd進程無法啟動 1226.14主機管理 1226.14.1刪除存儲節(jié)點過程中,由于誤操作拔出了該存儲節(jié)點對應的osd,導致讀緩存殘留 1226.15SNMP相關 1246.15.1網管平臺接收不到get響應 1246.16增值業(yè)務相關 1266.16.1業(yè)務查詢詳情結果與展示結果不一致 1266.16.2卷掛載給windows客戶端在線創(chuàng)建快照可能會出現數據不一致情況 1266.16.3同一個卷的不同時間點的多個只讀快照或者可寫快照同時映射給一個windows客戶端,有些快照顯示“沒有初始化,未分配”,不可用 1266.16.4對卷打快照后,Handy界面把卷移除映射后(不執(zhí)行掃盤和斷iscsi連接操作),進行快照回滾,原卷數據未恢復到快照時間點數據。 1276.16.5原卷mount到目錄下時,對原卷創(chuàng)建只讀快照,創(chuàng)建完成后,只讀快照不能mount 1276.16.6快照可能出現創(chuàng)建中,刪除中和回滾失敗的中間狀態(tài) 1276.16.7servicevaedrestart(stop)無法使vae進程正常退出 1276.17兼容性問題 1276.17.1低限制的qos策略引起客戶端慢盤現象分析 1276.17.2判斷主機網卡流控是否開啟及手動開啟網卡流控的方法 1292/2概述本手冊目標讀者為ONEStor運維工程師。主要描述ONEStor產品運維操作以及如何針對出現的問題進行定位和排查(UniStor為其管理界面)。信息查看與收集管理界面信息概覽界面 主機界面存儲節(jié)點管理監(jiān)控節(jié)點管理當監(jiān)控節(jié)點網絡不通、處于關機狀態(tài)或進程異常時,狀態(tài)顯示為異常。運維監(jiān)控界面通過監(jiān)控界面可以監(jiān)控集群運行狀態(tài),監(jiān)控窗口只是將集群的性能參數以折線圖形式表現出來,集群是否正常需觀察判斷:如觀察到折線圖跳變、中斷或突然增大等異常現象,需根據具體業(yè)務情況,分析判斷集群是否處于正常狀態(tài),以及是否存在潛在風險。性能方面:ONEStor配置評估工具計算出的IOPS和帶寬數據為保守的理論評估值,實際工作中建議將IOPS峰值控制在評估值的80%以下,存儲卷時延正常情況下20ms以內。常見告警說明登錄Handy,點擊告警信息,打開實時告警頁面,選中其中某條告警,點擊詳情或雙擊此條告警,在彈出框中有該告警詳細描述、告警原因及維護建議。日志由于當前版本一鍵收集日志功能不可用,日志收集需在后臺手動收集。日志收集方法如下:與問題定位人員確定需要收集日志的節(jié)點,如node191、node192、node193;與問題定位人員確定需要收集的日志文件或目錄,如果無明確要求則默認需要導出/var/log整個目錄;在本地PC上剩余空間最多的盤下,如D:盤下,創(chuàng)建與(1)中節(jié)點主機名一致的目錄,如D:\node191、D:\node192、D:\node193;后臺登錄各節(jié)點,通過xftp或其它工具將(2)中各節(jié)點日志文件或目錄導出至本地PC上對應主機名的目錄下,如node191的日志文件或目錄導出到D:\node191目錄下,以此類推;將PC上各收集目錄壓縮打包即為收集到的日志。系統(tǒng)升級離線升級詳見隨版本發(fā)布的對應目標版本的版本說明書,獲取方式:登錄內部版本歸檔FTP:地址:端口號:21公共用戶名:shareuser密碼:h3care歸檔路徑:/New_Internal_Versions(新內部版本歸檔)/11-服務器及商用存儲產品/02-Storage/01-H3CONEStor/02-受限版本/3.0版本/系統(tǒng)維護常見網絡問題及解決方法由于vlan配置引起的網絡不通各節(jié)點服務器的存儲網或業(yè)務網或管理網端口綁定到不同的vlan中,可以登錄到交換機網絡,查看各節(jié)點的存儲網/業(yè)務網/管理網端口是否綁定到不同的vlan。查看端口配置[H3C-vlan2]displaycurrent-configurationinterfaceTen-GigabitEthernet1/0/18#interfaceTen-GigabitEthernet1/0/18portlink-modebridgeportaccessvlan2將各節(jié)點的存儲或業(yè)務或管理網端口配置到相同的vlan中即可。開啟防火墻出現添加存儲或者監(jiān)控節(jié)點失敗Handy節(jié)點服務器防火墻開啟后:#systemctlstartfirewalld.service//打開防火墻#systemctlstatusfirewalld.service//查詢防火墻狀態(tài)解決方案:在部署集群時要確保Handy節(jié)點的防火墻是關閉的??蓤?zhí)行一次systemctlstatusfirewalld.service進行檢查,如果是打開的,請執(zhí)行systemctlstopfirewalld.service進行關閉防火墻。瀏覽器支持和設置問題ONEStor后臺管理系統(tǒng)通過瀏覽器訪問管理,支持火狐和谷歌瀏覽器,建議使用28.0以上版本的Chrome瀏覽器,或36.0以上版本的Firefox瀏覽器進行訪問,不支持IE。瀏覽器緩存會導致部分信息不能被及時更新到,需及時清除瀏覽器緩存,最好設置瀏覽器保存緩存時長為0。如發(fā)現有按鈕點擊無效,可刷新頁面或者清理瀏覽器緩存處理。License變更一旦Handy所在節(jié)點的服務器發(fā)生變更,即mac地址變化,需要重新申請license,進行注冊。集群擴容業(yè)務上線后,集群擴容操作會觸發(fā)數據重新平衡,導致集群性能降低,應選擇業(yè)務量小的時間段擴容,避免因集群壓力過大,影響業(yè)務正常運行。節(jié)點擴容1、將裝好操作系統(tǒng)的服務器管理網、業(yè)務網、存儲網配置好(與集群節(jié)點相應網絡在同一網段),保證各個網絡層面能通2、在ONEStor管理界面添加該服務器,添加方法有兩種即單機部署和批量部署A:單機部署選擇集群管理==》主機管理==》存儲節(jié)點==》單機部署后如下圖填入需要添加的服務器的管理網IP,選擇節(jié)點池和機架并輸入root用戶密碼后點擊下一步(此處注意,節(jié)點池和機架應與原集群的機架一致)根據硬盤池配置規(guī)則,選擇數據盤加入對應的硬盤池(此處注意:主機擴容時:需滿足硬盤池下各主機間加入的數據盤數相差不大于1的限制),點擊下一步之后確認配置信息,信息無誤則點擊確定點擊確定之后,則會在任務臺中執(zhí)行添加存儲節(jié)點任務,執(zhí)行完成,則單機部署擴容完成。B:批量部署選擇集群管理==》主機管理==》存儲節(jié)點==》批量部署后如下圖配置好管理網網段地址并輸入root密碼后點擊確定發(fā)現已識別的服務器,選中需要擴容的服務器并選擇好節(jié)點池和機架(節(jié)點池和機架應與原集群機架一致)后點擊選擇硬盤根據硬盤池配置規(guī)則,選擇需要的數據盤加入對應的硬盤池(此處注意:主機擴容時:需滿足硬盤池下各主機間加入的數據盤數相差不大于1的限制),點擊部署。之后確認配置信息,信息無誤則并點擊部署如下,批量部署的服務器節(jié)點就添加進來了硬盤數量擴容首先在服務器新增硬盤,之后做如下操作添加方法有兩種即單節(jié)點加硬盤和硬盤池加硬盤A:單節(jié)點加硬盤在ONEStor的管理界面集群管理==》主機管理==》存儲節(jié)點點擊需要擴容的主機名稱點擊后如下點擊增加按鈕在此處選擇新增的硬盤作為數據盤后點擊下一步(此處注意:硬盤數量擴容時:需滿足硬盤池下各主機間加入的數據盤數相差不大于1的限制)最后點擊確定即可,添加成功后如下B:硬盤池加硬盤在ONEStor的管理界面集群管理==》資源管理==》硬盤池點擊需要擴容的硬盤池,然后點擊更多==》增加硬盤點擊后如下在此處選擇各主機需新增的數據盤后點擊部署(此處注意:硬盤數量擴容時:需滿足硬盤池下各主機間加入的數據盤數相差不大于1的限制)最后確認信息后,點擊部署即可硬盤容量擴容本章節(jié)僅適用于不重裝系統(tǒng),對節(jié)點數據盤進行更換擴容(即節(jié)點所有數據盤更換為大容量數據盤)。由于操作會涉及到數據遷移,導致集群性能降低,應選擇業(yè)務量小的時間段操作,避免因集群壓力過大,影響業(yè)務正常運行,操作前確保集群健康度100%,且無異常告警。該方法只支持一次操作一個節(jié)點,待數據平衡完畢之后操作下一個。1.刪除一個待擴容的存儲節(jié)點。選擇集群管理==》主機管理==》存儲節(jié)點==》選擇節(jié)點==》刪除主機。2.刪除對應的數據盤RAID。登陸對應節(jié)點的后臺,使用lsblk查看,可以看到所有磁盤信息,可以看到數據盤為sdb,sdc,sdd,sde刪除數據盤的raid。注意:不要誤刪了系統(tǒng)盤的RAID。3.拔出舊盤,插入新盤拔出舊盤,插入容量大的新盤,使用RAID管理工具對單塊磁盤做RAID0操作,注意:關閉物理磁盤的緩存,開啟RAID卡的緩存。具體關閉開啟方法參考開局指導書。使用lsblk命令檢驗,查看是否所有數據盤均能被識別。4.添加該節(jié)點到集群中作為存儲節(jié)點。選擇集群管理==》主機管理==》存儲節(jié)點==》單機部署==》添加主機信息==》選擇硬盤==》部署5.等待數據平衡查看告警信息或者輸入ceph–s,當集群健康度為100%之后,對另一個節(jié)點重復1-5步,直到所有節(jié)點的數據盤均更換為大容量硬盤。注:若數據量大,數據平衡會消耗大量時間,建議停業(yè)務操作。擴容失敗手動清理環(huán)境方法擴容主機失敗,cephosdtree中有殘留在集群handy節(jié)點依次執(zhí)行下列命令:cephosdout0cephosddown0cephosdrm0cephosdcrushremoveosd.0cephosdcrushremovedevice0cephauthdelosd.0(其中0對應為osdid)清除完所有osd后執(zhí)行“cephosdcrushremove<nodename>”刪除對應的hostbucket擴容硬盤失敗,cephosdtree中有殘留在存在殘留的節(jié)點依次執(zhí)行下列命令: systemctlstopceph-osd@0.service umount/var/lib/ceph/osd/ceph-0 rm-rf/var/lib/ceph/osd/ceph-0 cephosdout0 cephosddown0 cephosdrm0 cephosdcrushremoveosd.0 cephosdcrushremovedevice0 cephauthdelosd.0 ceph-diskrmfcache--fastremove--fcache28c80b1f-e89d-487d-9585-6da276363d17--/dev/sdj(若部署了flashcache時需要執(zhí)行該命令,28c80b1f-e89d-487d-9585-6da276363d17為osd對應的fcacheuuid) ceph-diskzap/dev/sd*(osd對應盤符)(其中0對應為osdid)注:umount/var/lib/ceph/osd/ceph-0命令執(zhí)行會存在失敗的情況,是因為osd存在服務自動拉起的機制,這時重新執(zhí)行一遍systemctlstopceph-osd@0.service命令即可集群縮容業(yè)務上線后,集群縮容操作會觸發(fā)數據重新平衡,導致集群性能降低,應選擇業(yè)務量小的時間段縮容,避免因集群壓力過大,影響業(yè)務正常運行,縮容前確保集群健康度100%,無異常告警。節(jié)點縮容選擇集群管理==》主機管理==》存儲節(jié)點==》選擇節(jié)點==》刪除主機,刪除主機后需要等待一段時間,集群健康度100%完成后才能刪除其它的主機。刪除主機時不能打開該主機上的osd目錄。硬盤縮容選擇集群管理==》主機管理==》存儲節(jié)點,點擊主機名稱進入硬盤列表,點選硬盤后點擊刪除按鈕,刪除硬盤后需要等待一段時間,集群健康度100%后才能刪除其它的硬盤。組件恢復HandyHA有一個Handy節(jié)點損壞1.離線刪除損壞的Handy節(jié)點首先,通過管理高可用IP登錄ONEStor系統(tǒng),進入管理高可用頁面,查看管理高可用節(jié)點的狀態(tài),發(fā)現有一個Handy節(jié)點被損壞:然后,退出當前ONEStor系統(tǒng),通過當前工作節(jié)點IP再次登錄到ONEStor系統(tǒng),在管理高可用頁面,選中該條管理高可用記錄,點擊”刪除”按鈕,頁面中彈出刪除提示框如下,點擊提示框中的”確定”按鈕,通過離線刪除的方式刪除掉該管理高可用.2.安裝新的Handy節(jié)點管理高可用刪除成功后,重新選擇集群外或集群內的一個節(jié)點,在該節(jié)點上上傳與待創(chuàng)建管理高可用Handy節(jié)點相同的ONEStor安裝包,解壓該安裝包,執(zhí)行安裝腳本,新建一個Handy節(jié)點.當控制臺打印出”Installationcomplete!”的信息,說明Handy節(jié)點安裝成功.3.更新雙機熱備授權文件當管理高可用更換Handy節(jié)點時,需要走設備變更流程,重新申請雙機熱備License。登錄到待更換的Handy節(jié)點,申請新的License信息,請先在登錄頁面點擊”產品注冊”按鈕——>注冊License——>填寫主機信息——>點擊下一步——>點擊下載主機信息文件——>再用該文件和正常的Handy節(jié)點主機信息文件重新申請雙機熱備License。4.重新創(chuàng)建管理高可用在待建立管理高可用的兩個Handy節(jié)點上分別激活雙機熱備License,登錄ONEStor系統(tǒng),在管理高可用頁面重新創(chuàng)建管理高可用.集群異常問題的恢復處理集群常見告警及處理時鐘不同步,“Monitorclockskewdetected”集群中的主機會和其中一臺主機進行時鐘同步。使用管理網絡ssh登錄到各個主機,首先查看各個主機時間“date”,檢查所有的監(jiān)控節(jié)點ntp設置是否正確“ntpq-p”:所有的主機應該指向同一個remote,poll的時間不應過長,如果配置無誤等待一段時間后集群會自動同步,如果remote不正確需要手動修改ntp配置文件。修改ntpserver端配置,編輯“vi/etc/ntp.conf”文件進行如下設置,保存以后重啟ntpserver服務“servicentprestart”:修改ntpclient端配置,編輯“vi/etc/ntp.conf”文件進行如下設置,保存以后手動同步一次“ntpdate-u1(ntpserverIP)”配置好之后集群一段時間后會自動同步。mon節(jié)點down“1monsdown”原因:mon節(jié)點所在主機掉電、關機、網絡異常。在“主機管理”->“監(jiān)控節(jié)點”,檢查監(jiān)控節(jié)點的狀態(tài):檢查異常的監(jiān)控節(jié)點是否掉電、關機,然后檢查暫無數據的主機與集群之間網絡是否正常。osd狀態(tài)為down,例如“3osdsaredown”原因:osd所在的主機掉電、關機、網絡異常。在“主機管理”->“存儲節(jié)點”,檢查存儲節(jié)點狀態(tài),如果主機掉電、關機、業(yè)務網絡異常存儲節(jié)點會顯示暫無數據,如下圖:如果存儲網異常,會顯示該節(jié)點全部OSD狀態(tài)為down,如下圖,顯示為0/19:檢查暫無數據的主機是否掉電、關機,否則檢查暫無數據的主機與集群之間網絡是否正常。osd進程異常關閉在“主機管理”->“存儲節(jié)點”,檢查存儲節(jié)點硬盤狀態(tài)是否正常,點擊硬盤狀態(tài)異常的存儲節(jié)點,查看每個存儲設備的狀態(tài),查看是否異常:使用管理網ssh登錄存儲節(jié)點異常的主機IP(界面沒顯示IP,在網絡管理員處通過主機名查詢IP),輸入命令行“cephosdtree”顯示所有的osd狀態(tài):查看所有osd進程是否已啟動“ps-ef|grepceph-osd”:將未啟動的osd進程手動啟動“startceph-osdid=xx”:OSD軟連接丟失先使用lsblk命令找到down的硬盤對應的osd目錄,如下進入該目錄cd/var/lib/ceph/osd/ceph-4輸入ll查看軟連接是否存在,正常如下,journal文件對應了一個disk的uuid若這個軟連接不存在,請輸入一下命令進行修復ceph-diskactivate-all硬盤松動、故障如果某個硬盤故障,則對應OSD進程down。此時可以通過觀察服務器硬盤故障燈來確認,進行硬盤更換。操作方法參照“硬盤維護”章節(jié)的”硬盤更換”小節(jié)的步驟。pg狀態(tài)告警,例如“32pgsdegraded”“108pgsstale”“15pgsstuckunclean”“32pgsundersized”若此時無其他告警,表明數據正在遷移,一段時間后pg狀態(tài)會自動恢復正常。創(chuàng)建集群失敗后重新創(chuàng)建的操作集群創(chuàng)建如果因為誤操作或者物理機故障導致創(chuàng)建失敗,需要做一些清理工作,重新添加集群,此操作會清除所有數據,慎用。如果集群構成簡單,可直接使用命令:onestor-clidestroy--hosts你的各節(jié)點地址(逗號分隔)示例:onestor-clidestroy--hosts0,1,02如果集群構成比較復雜,可先使用“探測”(probe)命令探測集群主機,該命令的唯一作用就是生成一個集群主機信息文件。這個文件路徑為:/etc/onestor_cli/cluster_hosts,它表明了這個集群中的各個主機的信息。使用規(guī)則:1)先“探測”集群中各個主機信息 onestor-cliprobe你的ONEStor后臺管理系統(tǒng)節(jié)點地址2)根據生成的信息文件,銷毀集群,不用跟任何參數,默認會使用剛才生成的集群信息文件進行銷毀onestor-clidestroy特殊說明: probe命令只是嘗試去探測你的集群中的主機信息并生成一個文件,但是并不能保證完全正確,在探測時會輸出我們認為的各節(jié)點信息,如果你覺得主機信息有問題,可以到提示的文件位置去修改文件,修改后直接執(zhí)行onestor-clidestroy即可硬盤數據分布不均勻的恢復ONEStor中數據的分布遵循crush算法,但會隨機出現OSD不均勻的情況。輸入cephosddf查看各個硬盤(OSD)上的數據使用率,如下:圖中%USE為每個硬盤已使用空間的百分比若有個別硬盤先快寫滿而其余大部分硬盤還有較大空間,輸入cephosdreweight-by-utilization命令觸發(fā)重新平衡。重新平衡的過程中集群的讀寫壓力較大,請注意是否會影響業(yè)務。等待ceph-s顯示healthHEALTH_OK后硬盤的數據平衡完成。硬盤空間使用過滿(≥95%)時存儲塊無法刪除的恢復當集群硬盤使用空間過滿,個別OSD使用率達到95%時,集群就會異常告警。此時需要擴容,擴容方法詳見4.4章節(jié),需注意的是:業(yè)務上線后,集群擴容操作會觸發(fā)數據重新平衡,導致集群性能降低,應選擇業(yè)務量小的時間段或停止業(yè)務后擴容,避免因集群壓力過大,影響業(yè)務正常運行。節(jié)點異常問題的恢復處理系統(tǒng)盤占滿導致的主機異常系統(tǒng)盤空間可以通過df-h查看,若Use達到100%則系統(tǒng)盤被占滿,會導致主機異常,比如apache、ceph的mon進程等無法啟動,導致的現象如mondown,管理節(jié)點無法登錄等。root@cvknode86:~#df-hFilesystemSizeUsedAvailUse%Mountedon/dev/sda128G4.0G23G16%/導致系統(tǒng)盤空間占滿的原因及解決方法:大文件占用、log日志過多可以進入/var/log等相關目錄下查看,使用du-h--max-depth=1查看當前目錄下各個文件夾的大小,刪除不需要的文件。fio測試工具操作失誤執(zhí)行fio時未指定--filename的情況下,fio的數據會自動寫入系統(tǒng)盤,生成一個test0.0的大文件占據大量磁盤空間。rm-rfXXX刪除該文件釋放空間即可。增刪主機或硬盤的過程中網絡故障導致的異常在增刪主機或硬盤的過程中該主機出現網絡故障,頁面檢測到之后會彈出以下提示框:根據網絡故障的時間點不同,會有以下三種不同的現象:硬盤還沒有開始刪除就出現網絡故障解決方法:等主機網絡恢復正常后,再次從頁面選擇該主機進行刪除即可。如果極端情況下主機操作系統(tǒng)損壞不可修復,也可以從頁面選擇該主機進行離線刪除操作,但是主機硬盤上的數據將會殘留。刪除掉部分硬盤時出現網絡故障同現象1的解決方法。硬盤全部從集群中移除了,但是在格式化硬盤數據的時候出現網絡故障問題現象:在頁面上該主機已經不可見了,但是硬盤中的數據和Ceph分區(qū)會殘留,重啟主機后這部分硬盤會自動掛載到操作系統(tǒng)上,導致再次增加該主機時這些硬盤無法被掃描到。解決方法:增加主機之前先手動umount掉這些殘留的硬盤即可。對象網關離線刪除和恢復對象網關離線刪除,是在主機網絡無法恢復情況下,將主機從集群徹底刪除進行的界面操作。對象網關離線刪除不再依賴是否有高可用,而是直接從集群刪除。用戶若想重新加入離線刪除的對象網關,則需要將該主機所有在集群的角色刪除,然后銷毀該主機,重新加入作為存儲、監(jiān)控或管理高可用節(jié)點,再次創(chuàng)建對象網關。監(jiān)控節(jié)點離線刪除和恢復監(jiān)控節(jié)點離線刪除,是在主機網絡無法恢復情況下,將主機從集群徹底刪除進行的界面操作。監(jiān)控節(jié)點離線刪除是直接從集群刪除。用戶若不想讓離線的監(jiān)控節(jié)點對集群造成影響,則需要將該主機所有在集群的角色刪除,然后銷毀該主機,之后可重新加入作為存儲、監(jiān)控或管理高可用節(jié)點。注意:節(jié)點銷毀操作會造成該節(jié)點數據全部破壞,請確認清楚該節(jié)點是否已經不再使用!存儲節(jié)點離線刪除和恢復存儲節(jié)點離線刪除,是在主機網絡無法恢復情況下,將主機從集群徹底刪除進行的界面操作。存儲節(jié)點離線刪除是直接從集群刪除。在當前節(jié)點所屬硬盤池存在異常PHG的情況下,此時可能正在進行數據平衡,為防止數據丟失,請勿此時刪除該節(jié)點。在存儲節(jié)點所屬硬盤池健康狀態(tài)下,則可以正常刪除該節(jié)點。用戶若不想讓離線的存儲節(jié)點對集群造成影響,則需要將該主機所有在集群的角色刪除,然后銷毀該主機,之后可重新加入作為存儲、監(jiān)控或管理高可用節(jié)點。注意:節(jié)點銷毀操作會造成節(jié)點數據全部破壞,請確認清楚該節(jié)點是否已經不再使用!硬盤維護硬盤使用注意事項系統(tǒng)盤至少需要2塊硬盤,做RAID1用來安裝ONEStor等系統(tǒng)軟件。數據盤建議每個數據盤都單獨做RAID0,同時每個數據盤的大小必須保證相同。若服務器沒有RAID卡緩存,默認只能做兩個RAID,系統(tǒng)盤做一個RAID1的話,剩余所有數據盤只能做一個大的RAID0,影響多個數據盤作為多個OSD使用當配置兩個P840RAID卡,所有硬盤均做RAID時,默認啟動盤sda在slot1上;如果系統(tǒng)盤RAID1在slot3上,安裝完成后系統(tǒng)無法啟動。如果RAID卡緩存有電池/電容保護,才可以開啟寫緩存;磁盤本身的緩存由于沒有任何保護措施,所以一定要關閉;硬盤異常處理主機重啟導致系統(tǒng)下sdX盤號丟失或錯位的恢復方法在拔除硬盤時,RAID卡上的邏輯分區(qū)會由OK變?yōu)镕AIL,正常操作下sdX的盤號不會變化,再使用恢復步驟將邏輯分區(qū)從FAIL修復為OK,硬盤即可正常使用。但是,當在邏輯分區(qū)FAIL時不慎將主機重啟,將會造成該硬盤在操作系統(tǒng)上不可見,lsblk或fdisk觀察少了一個硬盤。例如,lsblk查看原本硬盤為sda、sdb、sdc、sdd、sde,ONEStor界面觀察sdd異常,輸入hpssaclicontrollerallshowconfig發(fā)現sdd對應的邏輯分區(qū)FAIL,如下圖:此時主機意外重啟后,sdd硬盤系統(tǒng)將不可見,后面的sde硬盤號向前漂移變?yōu)閟dd,使得只能查看到sda、sdb、sdc、sdd,少了一個硬盤。此時即使將該邏輯分區(qū)修復為OK,丟失的硬盤也不可見。解決該問題的方法:將原本FAIL的邏輯分區(qū),不管現在其在FAIL或OK狀態(tài),將其刪除 hpssaclictrlslot=0logicaldrive4deleteforced輸入hpssaclicontrollerallshowconfig,找到最后顯示unassigned,未被分配的物理硬盤,如下:重新創(chuàng)建邏輯分區(qū)hpssaclictrlslot=0createtype=lddrives=2I:2:3raid=0此時lsblk下查看,該新增盤添加在現有盤號的末尾,為sde。此時將原本的OSD目錄重新掛載至/dev/sde1硬盤分區(qū)。mount/dev/sde1/var/lib/ceph/osd/ceph-4若此時ONEStor界面還顯示sde異常,將sde刪除后重新添加,即可恢復正常。查詢OSD目錄所mount的數據分區(qū)、journal(寫加速)分區(qū)正常mount狀態(tài):umount狀態(tài):當硬盤異常后想要從umount狀態(tài)恢復至mount狀態(tài),或者想找到一個OSD的journal(寫加速)盤分區(qū),需要通過查詢partuuid來準確地查詢到對應關系。查看OSD目錄下的fdis文件,里面記錄了OSD數據分區(qū)的partuuidcat/var/lib/ceph/osd/ceph-8/fsidd6d97f59-171e-46f7-9759-8037c7209bf1查看OSD目錄下的journal_uuid文件,里面記錄了OSD所對應的journal分區(qū)的partuuidcat/var/lib/ceph/osd/ceph-8/journal_uuid1f8b0b99-69c6-404a-acfe-186f435fd877查詢主機下所有分區(qū)的partuuidll/dev/disk/by-partuuid/(下面列出的結果是寫緩存SSDsdf的值)lrwxrwxrwx1rootroot10Dec619:551f8b0b99-69c6-404a-acfe-186f435fd877->../../sdf1lrwxrwxrwx1rootroot10Dec619:55260c435a-2c35-4562-979d-7a3d641dda48->../../sdf2找到相同的partuuid對應即可Handy界面未刪除故障osd,直接更換新盤導致原osd無法刪除的解決方法Handy界面上未刪除壞盤的OSD,直接更換新的硬盤后,Handy上添加新的硬盤做osd,導致原來的OSD顯示暫無數據,無法刪除,此時可以通過后臺命令刪除該osdlsblk查看舊osd是否仍然掛載,保證已取消掛載正常mount狀態(tài):umount狀態(tài):通過ps–ef|greposd查看舊osd進程是否停止通過后臺指令停止osd進程,x為osd進程編號stopceph-osdid=xcephosdoutosd.xcephosdcrushremoveosd.xcephauthdelosd.xcephosdrmosd.x注意:此類命令會直接清除用戶數據,請謹慎使用,如果有疑問聯系總部。通過ceph
osdtree查看osd是否成功從集群移除登錄Handy界面查看osd已刪除硬盤拔插(插回原盤)本小結給出是,當硬盤被錯誤拔出時,ONEStor集群的恢復方法。注意:硬盤拔插會造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響?。。?、RAID卡需配置有電池模塊,否則需關閉RAID卡寫緩存。2、基于PMC芯片的RAID卡,不支持硬盤熱插拔。如果出現熱插拔導致集群或數據異常,請聯系H3C技術工程師。無FlashCache加速的數據盤被錯誤拔出(以R4900G3為例,插回原盤)將一塊數據盤被誤拔時,ONEStor軟件會監(jiān)控到正常硬盤數量減少,如下圖變?yōu)?/5。點擊主機名稱,進入硬盤界面,找到該盤號“sdg”為“異常”。找到誤拔插的硬盤。進入storcli目錄。cd/opt/MegaRAID/storcli輸入./storcli64/c0/eall/sallshow查看物理盤的enclosure和slot號,用于定位損壞的盤。如圖所示,UBad的osd為插拔的硬盤,enclosureID(EID)為252,slotID(Slt)為7?;謴蜖顟B(tài)./storcli64/c0/e<num>/s<num>setgoodforce,輸出結果為success時代表命令執(zhí)行成功;恢復邏輯盤輸入命令./storcli64/c0/fallimport,輸出結果為success時代表命令執(zhí)行成功;lsblk可見新增一個盤號為sdk的硬盤對盤進行掛載首先需要umount原來硬盤的掛載:umount/var/lib/ceph/osd/cep-8將新盤sdkmount到對應的osd目錄,輸入mount/dev/sdk1/var/lib/ceph/osd/ceph-8;lsblk可查看到sdk已經掛載相應的osd目錄;此時ONEStor管理界面上已經可以正常ceph看到盤名為sdk的硬盤了。被FlashCache加速的數據盤被錯誤拔出(以4900G2為例,插回原盤)注意:硬盤拔插操作會造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響?。?!1、插回被錯誤拔出的硬盤。當集群中數據盤被錯誤拔出時,主機管理頁面,監(jiān)控到硬盤數減少。(圖中node127節(jié)點)進入該主機后,能夠查看具體故障的硬盤。(圖中sdc)2、umount被誤拔的OSD。Xshell登陸到該節(jié)點,執(zhí)行cephosdtree,查看故障的osd。(圖中osd7)執(zhí)行mount查看該osd的掛載信息執(zhí)行umount,取消被拔硬盤的掛載(圖中osd7)3、尋找被拔出的盤符獲取拔插后的硬盤盤符,注意拔插后的盤符會變。Step1:確認被拔插盤符的FLASHCAHE標識碼。執(zhí)行l(wèi)sblk,查看緩存盤下flashcache的flashcahe標識碼。(圖中,兩個SSD緩存盤sdk、sdj)執(zhí)行l(wèi)sblk|grep“flashcahe標識碼”,只有一條記錄的即為被拔掉硬盤的flashcache分區(qū)。(圖中為e3abd762-ad2e-4221-b6d6-e9a29b6eae82)Step2:找到被拔插硬盤的盤符。執(zhí)行blkid|grep“flashcahe標識碼”,找出拔插后的硬盤盤符,拔插后盤符會有變化(圖中,拔插前盤符為sdc,拔插后變?yōu)閟dr)。4、移除拔插硬盤失效的flashcache信息。Step1:查找被拔插硬盤對應的flashcache信息。執(zhí)行l(wèi)s/proc/sys/dev/flashcache|grep“flashcahe標識碼”,查找flashcache信息,Step2:移除該硬盤上的flashcache信息[root@node127~]#sysctl-wdev.flashcache.f28c1e04-cf71-4853-b628-8017db519b4a+e3abd762-ad2e-4221-b6d6-e9a29b6eae82.fast_remove=1 說明:around的模式沒有fast_remove標記。不需要執(zhí)行sysctl–w的命令,back模式需要。[root@node127~]#dmsetupremovee3abd762-ad2e-4221-b6d6-e9a29b6eae825、重新激活對應的osd.注意:OSD重新加入集群,會造成集群性能下降。建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響?。?!執(zhí)行ceph-diskactivate/dev/sdr16、查看硬盤是否被正常修復在Handy頁面上,看到對應的硬盤狀態(tài)恢復正常。FlashCache緩存盤被錯誤拔出(以4900G2為例,插回原盤)注意:硬盤拔插操作會造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響?。?!1、插回故障的flashcache的緩存盤、A、在back模式下,輸入cephosdtree,被緩存盤加速的數據盤OSD為DOWN。不需要做額外的操作。B、在around模式下,輸入cephosdtree,被緩存盤加速的數據盤osd仍舊為up且in。但實際上OSD已失去讀加速效果,需要人工恢復。說明:在back模式,此緩存盤加速的osd自己就會down,無需手動停止。Step1:執(zhí)行l(wèi)sblk,查看硬盤上得”flashcahe標識碼”沒有對應的緩存盤,即為失去加速效果的OSD,需要手動停掉這些OSD。(如下圖的osd7、osd11)Step2:關閉OSD的守護進程,以免OSD自動拉起。執(zhí)行命令touch/var/lib/ceph/shell/watch_maintaining以免osd自動拉起,Step3:然后再停掉對應的OSD。注意:OSD被踢出集群,會造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響?。。?、刪除數據盤上的flashcache信息Step1:查看flashcache信息。執(zhí)行l(wèi)s/proc/sys/dev/flashcache|grep“flashcahe標識碼”,查找flashcache信息Step2:去除flashcache的殘留信息sysctl-wdev.flashcache.26da0792-aa9d-43ae-b8bf-a36f4323a81d+e8f978d7-e503-4bcd-a7d7-35089f9b4e6c.fast_remove=1sysctl-wdev.flashcache.bb926aad-9e4f-4d7b-9185-f366466d2acc+8140a3c1-2816-4464-b417-6ec758cbabed.fast_remove=1說明:around模式不需要執(zhí)行sysctl–w的命令,back模式需要。然后執(zhí)行dmsetup刪除數據盤上的flashcache信息3、umount緩存加速盤對應的數據盤。執(zhí)行mount獲取掛載信息,然后執(zhí)行umount取消掛載4、重新恢復OSD的守護進程。(如果集群是back模式,則跳過此步驟)執(zhí)行rm/var/lib/ceph/shell/watch_maintaining刪除[root@node127~]#rm/var/lib/ceph/shell/watch_maintainingrm:removeregularemptyfile‘/var/lib/ceph/shell/watch_maintaining’?y5、重新激活flashcache盤對應的OSD.注意:OSD重新加入集群,造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響?。。?zhí)行ceph-diskactivate/dev/sdc1重新激活osd11。執(zhí)行ceph-diskactivate/dev/sde1重新激活osd7至此osd激活成功,flashcache緩存盤拔插修復完成。執(zhí)行cephosdtree查看對應的osdup且in。硬盤更換(插入新盤)無FlashCache加速的數據盤更換(R4900G3為例,插入新盤)輸入lsblk,觀察HDD的數據盤分區(qū)情況,且結合集群情況,判定集群無SSD加速盤。如下圖所示,HDD的磁盤分區(qū)后面不跟其他字符內容。將一塊數據盤被誤拔時,ONEStor管理軟件會監(jiān)控到正常硬盤數量減少,如下圖變?yōu)?/5。點擊主機名稱,進入硬盤界面,找到該盤號“sdg”為“異常”。后臺lsblk可查看到sdg對應的osdid為8。此時進行熱拔插操作。首先需要umount原來硬盤的掛載:umount/var/lib/ceph/osd/cep-8輸入lsscsi可查看到后臺sdg對應是0:2:6:0;登錄服務器ILO界面,進入系統(tǒng)信息的硬件信息界面,在存儲頁簽,可看到邏輯驅動器6的對應槽位是7;輸入megacli-PDList-aALL可查看到所有的硬盤信息,找到槽位為7的硬盤的相關信息;EnclosureDeviceID背板號SlotNumber硬盤位置點亮故障的硬盤,輸入megacli-PdLocate-start-physdrv[E0:S0]-aN(E和S代表前一步驟查看的背板和硬盤位置,N代表Adapter號)megacli-PdLocate-start-physdrv[252:7]-a0,故障硬盤亮紅燈;5、拔掉故障硬盤,并插入新的硬盤,此時,需要給新硬盤做raid0;輸入/opt/MegaRAID/storcli/storcli64/c0/eall/sallshow查看槽位7的硬盤狀態(tài)硬盤狀態(tài)為UBad狀態(tài),Uncfgurebad狀態(tài)硬盤,無法對其進行操作。因此需要激活成good。命令:megacli-PDMakeGood-PhysDrv[252:7]-a0清除硬盤的foreign信息命令:megacli-CfgForeign-Scan-a0//掃描foreign信息命令:megacli-CfgForeign-Clear-a0//清除foreign信息輸入命令megacli-CfgLdAdd-rX[E0:S0,E1:S1,...]-aN(X表RAID級別,,E和S代表2.2中查看的背板和硬盤位置,N代表Adapter號)megacli-CfgLdadd-r0[252:7]-a0對新插入的硬盤做raid0lsblk可查看到新盤的盤符為sdk;6、將新盤mount到對應的osd目錄首先使用gdisk/dev/sdk命令對新盤進行分區(qū)操作;lsblk可查看到sdk盤多出分區(qū)sdk1;對/dev/sdk1創(chuàng)建xfs文件系統(tǒng);將新盤sdkmount到對應的osd目錄,輸入mount/dev/sdk1/var/lib/ceph/osd/ceph-8;lsblk可查看到sdk已經掛載相應的osd目錄;確保集群的健康度是100%,在Handy界面找到異常的盤,選擇刪除,等待刪除過程完成。一次只能在一個節(jié)點操作。此時集群通過Handy界面,將新換的盤添加回來即可。點擊“增加”按鈕,將新盤sdk添加到原先的硬盤池中,直接點擊“下一步”;確認信息,點擊確定添加硬盤。然后需要較長一段時間,等待硬盤部署完畢,集群的數據重新遷移和完成平衡。被FlashCache加速的數據盤更換(以R4900G2為例,插入新盤)注意:硬盤更換會造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響!??!1、當集群中數據盤故障時,主機管理頁面,監(jiān)控到硬盤數減少。(圖中node127節(jié)點)點擊進入該主機,查看對應故障的硬盤。(圖中為sde故障)2、取消故障硬盤的掛載。Xshell登陸到該節(jié)點,執(zhí)行cephosdtree,查看故障的osd。(圖中osd7)執(zhí)行mount查看該osd的掛載信息執(zhí)行umount,取消被拔硬盤的掛載(圖中osd7)3、插入的新盤做raid,并且關閉硬盤緩存。Step1:給新插入的盤做RAID。本例中RAID卡:UN-RAID-2000-M2執(zhí)行arcconfgetconfig1pd查看物理盤信息,State為Ready未做RAID的新盤。ReportedChannel,Device(T:L):0,13(13:0)執(zhí)行arcconfCREATE1LOGICALDRIVEMAXSIMPlE_VOLUME013,為Channel0Device13創(chuàng)建SIMPlE_VOLUME,需輸入“y”確認再次執(zhí)行arcconfgetconfig1pd查看物理盤信息,State為Online,WriteCache為關閉。Step2:關閉RAID卡的緩存執(zhí)行arcconfgetconfig1ld,查看邏輯盤執(zhí)行arcconfsetcache1logicaldrive2ROFF,關閉邏輯盤讀緩存。執(zhí)行arcconfsetcache1logicaldrive2wt,關閉邏輯盤寫緩存。再次執(zhí)行arcconfgetconfig1ld,查看邏輯盤,讀寫緩存均關閉4、記錄新盤的盤符。執(zhí)行l(wèi)sscsi,獲取新盤盤符(圖中為sde)5、格式化新盤,并重新mount。執(zhí)行gdisk/dev/sde,做分區(qū),輸入n后,3次回車,然后輸入w,y。執(zhí)行l(wèi)sblk查看sde盤做好分區(qū)執(zhí)行mkfs.xfs-f/dev/sde1,做文件系統(tǒng)。執(zhí)行mount/dev/sde1/var/lib/ceph/osd/ceph-7,將新盤mount到被拔的osd。6、在Handy頁面上刪除殘留的硬盤信息。注意:只有集群健康時,才能刪除硬盤。查看Handy頁面,選擇硬盤sde然后刪除。刪除flashcache緩存盤上的緩存分區(qū)Step1:確認被拔插盤的flashcahe標識碼。執(zhí)行l(wèi)sblk,查看緩存盤下flashcache的標識碼。(圖中,兩個SSD緩存盤sdk、sdj)執(zhí)行l(wèi)sblk|grep“flashcache標識碼”,只有一條記錄的即為被拔掉硬盤的flashcache分區(qū)的標識碼。(圖中為e3abd762-ad2e-4221-b6d6-e9a29b6eae82)Step2:查看ls/proc/sys/dev/flashcache是否有殘留的flashhcahde信息,如果有則刪除。否則則跳過這一步。執(zhí)行l(wèi)s/proc/sys/dev/flashcache|grep“flashcache標識碼”,查找flashcache信息,(1)執(zhí)行如下命令,移除該硬盤上的flashcache信息[root@node127~]#sysctl-wdev.flashcache.f28c1e04-cf71-4853-b628-8017db519b4a+e3abd762-ad2e-4221-b6d6-e9a29b6eae82.fast_remove=1說明:around的模式沒有fast_remove標記。不需要執(zhí)行sysctl–w的命令,back模式需要。[root@node127~]#dmsetupremovee3abd762-ad2e-4221-b6d6-e9a29b6eae82(2)執(zhí)行l(wèi)sblk,查看對應的緩存盤的信息(圖中sdk2的”flashcahe標識碼”已經被刪除)(3)執(zhí)行parted/dev/sdk-srm2,刪除對應緩存盤的分區(qū)(4)檢查緩存盤信息是否被刪除干凈。執(zhí)行l(wèi)sblk,查看對應的緩存盤,(圖中sdk的第二個分區(qū)已經被刪除)8、登錄Handy頁面,增加新的數據盤。注意:硬盤重新加入集群,會造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響?。。。▓D中新插入硬盤sde)等待新盤加入集群后,換盤成功。查看cephosdtreeFlashCache緩存盤更換-back模式(以R4900G2為例,插入新盤)注意:硬盤更換會造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響?。?!1、當flashcache的緩存盤SSD故障時,可以通過cephosdtree命令查看故障的硬盤。back模式下,輸入cephosdtree,發(fā)現被緩存盤加速的數據盤OSD狀態(tài)為DOWN。2、查看緩存盤的flashcache標識碼。通過命令lsblk查看對應down掉的osd的flashcache的”flashcahe標識碼”。3、刪除數據盤上的flashcache信息Step1:查找flashcache信息。執(zhí)行l(wèi)s/proc/sys/dev/flashcache|grep“flashcahe標識碼”,查找flashcache信息Step2:刪除flashcache標識碼。a、執(zhí)行如下命令移除fast_remove標記sysctl-wdev.flashcache.26da0792-aa9d-43ae-b8bf-a36f4323a81d+e8f978d7-e503-4bcd-a7d7-35089f9b4e6c.fast_remove=1sysctl-wdev.flashcache.bb926aad-9e4f-4d7b-9185-f366466d2acc+8140a3c1-2816-4464-b417-6ec758cbabed.fast_remove=1b、刪除數據盤上的flashcache信息通過dmsetup刪除數據盤上的flashcache信息4、umount對應的osd目錄,然后刪除被緩存加速的數據盤osd注意:OSD的刪除會造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響?。。?刪除osd7[root@node127~]#umount/var/lib/ceph/osd/ceph-7[root@node127~]#cephosdcrushremoveosd.7removeditemnames'osd.7'fromcrushmap[root@node127~]#cephauthdelosd.7updated[root@node127~]#cephosdrmosd.7removedosd.7#刪除osd11[root@node127~]#umount/var/lib/ceph/osd/ceph-11[root@node127~]#cephosdcrushremoveosd.11removeditemnames'osd.11'fromcrushmap[root@node127~]#cephauthdelosd.11updated[root@node127~]#cephosdrmosd.11removedosd.74、對插入的新SSD盤做raid,并且關閉硬盤緩存。得到緩存盤的盤符是“sdp”R4900G2可以參考如下方法。Step1:給新插入的盤做RAID。(1)執(zhí)行arcconfgetconfig1pd查看物理盤信息,State為Ready未做RAID的新盤。ReportedChannel,Device(T:L):0,13(13:0)(2)執(zhí)行arcconfCREATE1LOGICALDRIVEMAXSIMPlE_VOLUME013,為Channel0Device13創(chuàng)建SIMPlE_VOLUME,需輸入“y”確認(3)再次執(zhí)行arcconfgetconfig1pd查看物理盤信息,State為Online,WriteCache為關閉。Step2:關閉RAID卡的緩存(1)執(zhí)行arcconfgetconfig1ld,查看邏輯盤(2)執(zhí)行arcconfsetcache1logicaldrive2ROFF,關閉邏輯盤讀緩存。(3)執(zhí)行arcconfsetcache1logicaldrive2wt,關閉邏輯盤寫緩存。(4)再次執(zhí)行arcconfgetconfig1ld,查看邏輯盤,讀寫緩存均關閉5、格式化對應的數據盤[root@node127~]#ceph-diskzap/dev/sdc[root@node127~]#ceph-diskzap/dev/sde6、Handy上增加該數據盤,選擇新插入的flashcache緩存盤。至此SSD盤更換成功,等待集群恢復平衡。FlashCache緩存盤更換-around模式(以R4900G2為例,插入新盤)1、當flashcache的緩存盤SSD故障時,在around模式下,輸入cephosdtree,會發(fā)現所有osd狀態(tài)仍舊為up且in。但實際上OSD已失去讀加速效果,需要人工恢復。Step1:執(zhí)行l(wèi)sblk,發(fā)現osd7,osd11自身的flashcache標識碼沒有關聯的SSD緩存盤。則可判定,這兩個OSD失去了緩存加速效果。說明:當集群中硬盤較多時,可以執(zhí)行l(wèi)sblk|grep“數據盤的flashcahce標識碼”。只有1條記錄的,則說明沒有對應的緩存加速盤。Step2:關閉OSD守護進程。防止OSD被自動拉起。先執(zhí)行touch/var/lib/ceph/shell/watch_maintaining以免osd自動拉起,Step3:停止OSD進程。注意:OSD被踢出集群,會造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響?。。∪缓髨?zhí)行systemctlstopceph-osd@id.service在停掉對應的OSD。
2、刪除數據盤上的flashcache信息通過lsblk找到flashcache的標識碼。Step1:查找被拔插硬盤對應的flashcache信息。執(zhí)行l(wèi)s/proc/sys/dev/flashcache|grep“flashcahe標識碼”,查找flashcache信息,Step2:移除該硬盤上的flashcache信息[root@node127~]#sysctl-wdev.flashcache.f28c1e04-cf71-4853-b628-8017db519b4a+e3abd762-ad2e-4221-b6d6-e9a29b6eae82.fast_remove=1 說明:around的模式沒有fast_remove標記。不需要執(zhí)行sysctl–w的命令,back模式需要。執(zhí)行dmsetupremove“flashcahe標識碼”清除數據盤的flashcache信息。3、對插入的新SSD盤做raid,并且關閉硬盤緩存。得到緩存盤的盤符是“sdp”R4900G2可以參考如下方法。Step1:給新插入的盤做RAID。執(zhí)行arcconfgetconfig1pd查看物理盤信息,State為Ready未做RAID的新盤。ReportedChannel,Device(T:L):0,13(13:0)執(zhí)行arcconfCREATE1LOGICALDRIVEMAXSIMPlE_VOLUME013,為Channel0Device13創(chuàng)建SIMPlE_VOLUME,需輸入“y”確認再次執(zhí)行arcconfgetconfig1pd查看物理盤信息,State為Online,WriteCache為關閉。Step2:關閉RAID卡的緩存(1)執(zhí)行arcconfgetconfig1ld,查看邏輯盤(2)執(zhí)行arcconfsetcache1logicaldrive2ROFF,關閉邏輯盤讀緩存。(3)執(zhí)行arcconfsetcache1logicaldrive2wt,關閉邏輯盤寫緩存。(4)再次執(zhí)行arcconfgetconfig1ld,查看邏輯盤,讀寫緩存均關閉4、在Handy頁面上,獲取故障硬盤池的硬盤池名稱和緩存分區(qū)大小。Step1:依次點擊“資源管理”—>“硬盤池”>“詳情”可以看到硬盤池的詳情Step2:記錄下硬盤池名稱和緩存分區(qū)大小。5、對插入的新的SSD盤(/dev/sdp),創(chuàng)建一個分區(qū)。注意:標黃部分為需要根據現場的環(huán)境,填寫實際的硬盤池名稱執(zhí)行命令ceph-diskmarktype--fcache--dev/dev/sdp:diskpool:SSD,其中diskpool為對應的硬盤池的名稱。說明:”diskpool”需要填寫為故障硬盤池的名稱。6、對新插入的緩存盤,創(chuàng)建緩存分區(qū),腳本如下:注意:標黃部分為需要根據現場的環(huán)境,填寫實際的信息#!/bin/bashosds="711" #該緩存分區(qū)對應的osdfcache_disk=/dev/sdpnum=2forosd_idin$osds;dofcache_uuid=$(sudocat/var/lib/ceph/osd/ceph-$osd_id/fcache_uuid)sgdisk--new=$num:0:+204800M--change-name=$num:'cephflashcachediskpoolSSD'--partition-guid=$num:$fcache_uuid--typecode=$num:0b3d2740-0da6-47d2-ac25-4c01093d1d7b--mbrtogpt$fcache_disknum=$(($num+1))done#osds為被緩存盤加速的數據盤的osdid,如果存在多個osd,則以空格隔離。#fcache_disk為緩存盤的盤符/dev/sdp#+204800M為緩存分區(qū)的大小,在第四步中,可以看出當前的緩存分區(qū)為200G#diskpool為故障硬盤池的名稱7、UMOUNT故障數據盤OSD。當前環(huán)境為OSD7,OSD118、恢復OSD守護進程執(zhí)行rm/var/lib/ceph/shell/watch_maintaining刪除[root@node127~]#rm/var/lib/ceph/shell/watch_maintainingrm:removeregularemptyfile‘/var/lib/ceph/shell/watch_maintaining’?y9、重新激活OSD。注意:OSD重新加入集群,造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響!!?。?)執(zhí)行ceph-diskactivate/dev/sdc1激活osd11(2)執(zhí)行ceph-diskactivate/dev/sde1激活osd7檢查數據盤的OSD是否恢復正常。輸入cephosdtree如果發(fā)現osd7,osd11的狀態(tài)為”up”and“in”,則說明換盤成功。R390X服務器上硬盤的拔插恢復方法部署了寫加速或者無加速盤集群的數據盤原盤拔出后插回的恢復方法R390X服務器帶的是基于PMC8060芯片的UIS-RAID-1000-M2RAID卡,硬盤默認的RAID配置方式為SIMPLEVOLUME。該配置方式下,硬盤拔插都可以被操作系統(tǒng)直接識別,不需要使用RAID管理軟件在命令行人為地去修復,但是硬盤拔插后操作系統(tǒng)上所識別的盤號會發(fā)生變化。原盤插拔盤分2種:有計劃的拔盤和誤操作拔盤R390XG2有計劃的插拔盤,請參考章節(jié)5.3.1。只是由于R390XG2的RAID模式和磁盤飄移情況,插回原盤后不需要做RAID,在mountOSD目錄的時候需要根據新盤符來掛載。例子如下:通過lsblk命令記錄OSD的mount關系停止需要插拔盤的OSD,umount原有掛載例如計劃插拔磁盤sdf,則先停OSDstopceph-osdid=16umount/var/lib/ceph/osd/ceph-16插拔盤sdf根據arcconf命令和邏輯盤sdf查找到對應的物理盤位置,具體方法參考章節(jié)2.2.3。等待一段時間插回原盤,再次使用lsblk,發(fā)現磁盤sdf消失,出現新的盤符sdn這是由于R390XG2的識別機制導致的,屬于正?,F象。重新掛載OSD目錄,啟動OSD即可umount/dev/sdn1/var/lib/ceph/osd/ceph-16startceph-osdid=16其他如果超過30分鐘之后,再插回去磁盤,則因為ceph的機制30分鐘內如果異常退出的話,會限制拉起的次數,目前是拉3次,如果3次不能拉成功,則不會去拉osd了,osd的進程會退出。所以這個時候需要手動激活該osd,使用ceph-diskactivate/dev/sdn1命令來激活注意:如果是插拔了多塊盤,必須按照順序進行mount。R390XG2誤操作的插拔盤未按照要求,直接將磁盤拔出,并插回原盤可以從Handy界面看到異常的磁盤,后臺lsblk可以看到一塊有分區(qū),無掛載的磁盤sdn,且通過cephosdtree發(fā)現異常的OSD號為16使用df命令查看,原有的掛載依然存在,sdf已經飄移為sdn解掛原有OSD目錄掛載,新盤符重新掛載輸入umount/var/lib/ceph/osd/ceph-16將舊OSD目錄從原有關系解掛,使用命令掛載新關系mount/dev/sdn1/var/lib/ceph/osd/ceph-16啟動OSDstartceph-osdid=16即可啟動,如果發(fā)現OSD仍然處于down的狀態(tài),則需要手動激活該osd,使用ceph-diskactivate/dev/sdn1命令來激活。此時ONEStor管理平臺上界面已經可以正??吹絪dd盤了。若5分鐘該sdd盤仍舊處于異常狀態(tài),則需要在界面上刪除并重新添加進集群,等待數據平衡后,集群即可恢復正常。注意:如果是插拔了多塊盤,必須按照順序進行mount。UIS-RAID-1000-M2RAID必須更新到最新驅動,否則拔盤可能導致無法修復,需要重啟主機恢復。部署了讀加速或者讀寫加速集群的數據盤原盤拔出后插回的恢復方法R390X服務器帶的是基于PMC8060芯片的UIS-RAID-1000-M2RAID卡,硬盤默認的RAID配置方式為SIMPLEVOLUME。該配置方式下,硬盤拔插都可以被操作系統(tǒng)直接識別,不需要使用RAID管理軟件在命令行人為地去修復,但是硬盤拔插后操作系統(tǒng)上所識別的盤號會發(fā)生變化。原盤插拔盤分2種:有計劃的拔盤和誤操作拔盤R390XG2有計劃的插拔盤,請參考章節(jié)5.3.2。只是由于R390XG2的RAID模式和磁盤飄移情況,插回原盤后不需要做RAID,在mountOSD目錄的時候需要根據新盤符來掛載。例子如下:通過lsblk命
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 秋冬疾病預防指南
- 2025西安鐵路職業(yè)技術學院輔導員考試試題及答案
- 2025遼寧石化職業(yè)技術學院輔導員考試試題及答案
- 2025貴州黔南經濟學院輔導員考試試題及答案
- T/ZHCA 005-2019化妝品影響皮膚彈性測試方法
- 過敏性疾病的一級預防
- 親子活動設計方案
- 2025年廣東省深圳市坪山區(qū)中考歷史二模試卷
- T/ZBH 026-2023晶硅光伏組件用材料第3部分:雙玻光伏組件用壓延玻璃彎曲強度、抗沖擊性及表面應力技術規(guī)范
- 健康體檢課件
- 真石漆飾面工程檢驗批質量驗收記錄
- 婦產科手術配合課件
- 地基強夯工程專項施工方案專家論證版
- (中職)中國稅收:稅費計算與申報項目十四 企業(yè)所得稅計算與申報課件
- 心理照護教材課件匯總完整版ppt全套課件最全教學教程整本書電子教案全書教案課件合集
- 男朋友申請表
- 高中心理健康:我心換你心——心理主題:人際交往 課件(22張PPT)
- 高清元素周期表(專業(yè)版)
- 北京中考英語作文模板
- 訂單運作與產品交付流程
- 暗黑破壞神2所有綠色套裝(大圖)
評論
0/150
提交評論