Sata Link Problem

dimanche 26 avril 2015

Hallo

Da mir der Support nicht mehr antwortet versuch ich mein Glück hier mal... :)

Ich hab mir vor bald 4 Monaten E3-SSD-3 bei SYS geholt. Lief soweit eigentlich auch super, jedoch ein paar Tage nachdem ich das System in Produktion gestellt hatte, fror der Server teilweise für ca. 30 Sekunden ein und der Load stieg teilweise bis zu 30. Kernel-Log zeigte folgendes:

Code:

Jan 31 03:28:02 lion kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Jan 31 03:28:02 lion kernel: ata2.00: failed command: FLUSH CACHE
Jan 31 03:28:02 lion kernel: ata2.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Jan 31 03:28:02 lion kernel:        res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Jan 31 03:28:02 lion kernel: ata2.00: status: { DRDY }
Jan 31 03:28:02 lion kernel: ata2: hard resetting link
Jan 31 03:28:02 lion kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jan 31 03:28:02 lion kernel: ata2.00: configured for UDMA/133
Jan 31 03:28:02 lion kernel: ata2.00: retrying FLUSH 0xe7 Emask 0x4
Jan 31 03:28:02 lion kernel: ata2.00: device reported invalid CHS sector 0
Jan 31 03:28:02 lion kernel: ata2: EH complete

Jan 31 09:58:01 lion kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Jan 31 09:58:01 lion kernel: ata2.00: failed command: FLUSH CACHE
Jan 31 09:58:01 lion kernel: ata2.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Jan 31 09:58:01 lion kernel:        res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Jan 31 09:58:01 lion kernel: ata2.00: status: { DRDY }
Jan 31 09:58:01 lion kernel: ata2: hard resetting link
Jan 31 09:58:02 lion kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jan 31 09:58:02 lion kernel: ata2.00: configured for UDMA/133
Jan 31 09:58:02 lion kernel: ata2.00: retrying FLUSH 0xe7 Emask 0x4
Jan 31 09:58:02 lion kernel: ata2.00: device reported invalid CHS sector 0
Jan 31 09:58:02 lion kernel: ata2: EH complete

Jan 31 10:01:01 lion kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Jan 31 10:01:01 lion kernel: ata2.00: failed command: FLUSH CACHE
Jan 31 10:01:01 lion kernel: ata2.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Jan 31 10:01:01 lion kernel:        res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Jan 31 10:01:01 lion kernel: ata2.00: status: { DRDY }
Jan 31 10:01:01 lion kernel: ata2: hard resetting link
Jan 31 10:01:02 lion kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jan 31 10:01:02 lion kernel: ata2.00: configured for UDMA/133
Jan 31 10:01:02 lion kernel: ata2.00: retrying FLUSH 0xe7 Emask 0x4
Jan 31 10:01:02 lion kernel: ata2.00: device reported invalid CHS sector 0
Jan 31 10:01:02 lion kernel: ata2: EH complete

Jan 31 13:28:02 lion kernel: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Jan 31 13:28:02 lion kernel: ata2.00: failed command: FLUSH CACHE
Jan 31 13:28:02 lion kernel: ata2.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Jan 31 13:28:02 lion kernel:        res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Jan 31 13:28:02 lion kernel: ata2.00: status: { DRDY }
Jan 31 13:28:02 lion kernel: ata2: hard resetting link
Jan 31 13:28:03 lion kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jan 31 13:28:03 lion kernel: ata2.00: configured for UDMA/133
Jan 31 13:28:03 lion kernel: ata2.00: retrying FLUSH 0xe7 Emask 0x4
Jan 31 13:28:03 lion kernel: ata2.00: device reported invalid CHS sector 0
Jan 31 13:28:03 lion kernel: ata2: EH complete

Okay dachte ich mir, hats halt eine der SSDs erwischt, also die SSD betroffene SSD als failed markiert und so dem RAID geworfen. Hab dann mal SMART über die Platte laufen lassen und wollte dann dem Support schreiben. Dummerweise sieht SMART gut aus (kann euch Auszüge daraus gerne nachreichen). Jedenfalls kurz darauf fror der Server wieder ein, diesmal die andere Platten:

Code:

Jan 31 20:27:22 lion kernel: ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Jan 31 20:27:22 lion kernel: ata3.00: failed command: SMART
Jan 31 20:27:22 lion kernel: ata3.00: cmd b0/d5:01:01:4f:c2/00:00:00:00:00/00 tag 0 pio 512 in
Jan 31 20:27:22 lion kernel:        res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Jan 31 20:27:22 lion kernel: ata3.00: status: { DRDY }
Jan 31 20:27:22 lion kernel: ata3: hard resetting link
Jan 31 20:27:23 lion kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jan 31 20:27:23 lion kernel: ata3.00: configured for UDMA/133
Jan 31 20:27:23 lion kernel: ata3: EH complete


Feb  3 13:28:01 lion kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Feb  3 13:28:01 lion kernel: ata1.00: failed command: FLUSH CACHE
Feb  3 13:28:01 lion kernel: ata1.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Feb  3 13:28:01 lion kernel:        res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Feb  3 13:28:01 lion kernel: ata1.00: status: { DRDY }
Feb  3 13:28:01 lion kernel: ata1: hard resetting link
Feb  3 13:28:02 lion kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Feb  3 13:28:02 lion kernel: ata1.00: configured for UDMA/133
Feb  3 13:28:02 lion kernel: ata1.00: retrying FLUSH 0xe7 Emask 0x4
Feb  3 13:28:02 lion kernel: ata1.00: device reported invalid CHS sector 0
Feb  3 13:28:02 lion kernel: ata1: EH complete

Und seither immer wieder mal...

Code:

Apr  5 17:28:01 lion kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Apr  5 17:28:01 lion kernel: ata1.00: failed command: FLUSH CACHE
Apr  5 17:28:01 lion kernel: ata1.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Apr  5 17:28:01 lion kernel:        res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Apr  5 17:28:01 lion kernel: ata1.00: status: { DRDY }
Apr  5 17:28:01 lion kernel: ata1: hard resetting link
Apr  5 17:28:01 lion kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Apr  5 17:28:01 lion kernel: ata1.00: configured for UDMA/133
Apr  5 17:28:01 lion kernel: ata1.00: retrying FLUSH 0xe7 Emask 0x4
Apr  5 17:28:01 lion kernel: ata1.00: device reported invalid CHS sector 0
Apr  5 17:28:01 lion kernel: ata1: EH complete


Der Support liess mich einen Hardware-Check im Rescue Modus machen. Dieser stellte jedoch keine Fehler fest. Nachdem ich dies dem Support mitgeteilt hatte, kam dann auch keine Antwort mehr...

Hat jemand von euch vielleicht eine Idee?


0 commentaires:

Enregistrer un commentaire