BSOD de plus en plus fréquents

Source de BSODs DRIVER_POWER_STATE_FAILURE – CRITICAL_PROCESS_DIED

a marqué ce sujet comme résolu.

Bonjour,

Je requiers de l’aide pour une dé-BSOD-isation ; je suis développeur logiciel, mais n’ai que de maigres connaissances en hardware…

Les BSODs que je rencontre sont souvent des DRIVER_POWER_STATE_FAILURE, ou CRITICAL_PROCESS_DIED.

J’aimerais surtout connaître l’origine du bug — matériel, drivers, logiciel. J’ai mon opinion là-dessus, mais, d’une part, je ne tiens à influencer personne, et, d’autre part, elle n’est pas très élaborée.

Cordialement. Novax.


Informations sur l’ordinateur :

  • C’est un Clevo WA50SHQ, acheté chez LDLC, il y a 4 – 5 ans.
  • Après environ 1 mois sous Fedora, j’ai installé Windows 8.1 x64. J’ai dû recommencer plusieurs fois.
  • J’ai suivi un tutoriel du genre "10 choses à faire après avoir installer Windows". J’ai notamment déplacé les dossiers Documents, Pictures, Desktop, et Downloads du volume C vers D.
  • C’est un portable, mais, dans les faits, il est très sédentaire.
  • Il est branché en permance à son réhausseur – ventilateur – hub pour clavier et souris.
  • Il est toujours en veille, je ne l’éteins que pour faire les mises à jour.

Les BSODs ont commencés il y a 2 – 3 ans, quand je suis allé en Roumanie. Là où j’étais, les prises électriques n’avaient pas la terre. C’est là que mon PC a fait son premier BSOD.

Une fois, mon PC est tombé — de la hauteur d’un siège, j’ai réussi à le retenir un peu, mais il a quand même heurté le sol — sur le coin où se branche le chargeur. À partir de ce moment, la batterie a commencé à bugger : vers les 50% de charge, le PC force la mise en veille, comme s’il n’y avait plus d’énergie.

Windows 10 est sorti en grande pompe, avec un programme de mise à jour automatique. Celui-ci posant des problèmes d’incompatibilité sur certaines machines, et de sécurité avec son niveau de permissions trop élevé, j’ai ignoré la mise à jour KB2976978, et désactivé ce programme — comme un bourrin, il faut le dire : à chaque démarrage, une fenêtre d’erreur m’indique que ce programme ne démarre pas.

Au début de l’histoire, mon PC faisait des BSODs tous les ans, puis tous les mois… Depuis 2 – 3 semaines, c’est plutôt tous les jours. Pendant un certain temps, je pouvais redémarrer immédiatement après le BSOD, mais depuis 4 mois, le PC demande à ce qu’un "bootable drive soit inséré, puis tapez sur une touche" ; solution : laisser poser 20 – 30 minutes sans courant électrique, puis réessayer. En allant faire un tour dans le BIOS, j’ai découvert que le SSD était mesuré à 0.0GB ; en ouvrant le PC et retirant le SSD, rien ne m’a paru choquant : pas de trace de cramé, pas de pin arraché, mais, comme dit, je reste novice en hardware…


En utilisant http://www.osronline.com/page.cfm?name=Analyze sur les minidumps que j’ai pu trouver, j’ai pu en extraire le Chinois suivant :

  1. 04/2016 : DRIVER_POWER_STATE_FAILURE (9f) A driver has failed to complete a power IRP within a specific time (usually 10 minutes).

    • Arg1 : 0000000000000003, A device object has been blocking an Irp for too long a time
    • Arg2 : ffffe001431844e0, Physical Device Object of the stack
    • Arg3 : ffffd0010c9ff960, nt!TRIAGE_9F_POWER on Win7, otherwise the Functional Device Object of the stack
    • Arg4 : ffffe0014ddf97e0, The blocked IRP
    • OVERLAPPED_MODULE : Address regions for 'usbccgp' and 'WUDFRd.sys’ overlap
    • DRVPOWERSTATE_SUBCODE : 3
    • IMAGE_NAME : pci.sys
    • PROCESS_NAME : System
  2. 05/2016 : DRIVER_POWER_STATE_FAILURE (9f) A driver has failed to complete a power IRP within a specific time (usually 10 minutes).

    • Arg1 : 0000000000000003, A device object has been blocking an Irp for too long a time
    • Arg2 : ffffe00046540060, Physical Device Object of the stack
    • Arg3 : ffffd0019327a960, nt!TRIAGE_9F_POWER on Win7, otherwise the Functional Device Object of the stack
    • Arg4 : ffffe0004c633c10, The blocked IRP
    • IMAGE_NAME : pci.sys
    • PROCESS_NAME : System
  3. 12/2017 : DRIVER_POWER_STATE_FAILURE (9f) A driver has failed to complete a power IRP within a specific time (usually 10 minutes).

    • Arg1 : 0000000000000003, A device object has been blocking an Irp for too long a time
    • Arg2 : ffffe00118f25560, Physical Device Object of the stack
    • Arg3 : ffffd0004486a960, nt!TRIAGE_9F_POWER on Win7, otherwise the Functional Device Object of the stack
    • Arg4 : ffffe0011f2f6740, The blocked IRP
    • DRVPOWERSTATE_SUBCODE : 3
    • IMAGE_NAME : UsbHub3.sys
    • PROCESS_NAME : System
  4. 12/2017 : DRIVER_POWER_STATE_FAILURE (9f) A driver has failed to complete a power IRP within a specific time (usually 10 minutes).

    • Arg1 : 0000000000000003, A device object has been blocking an Irp for too long a time
    • Arg2 : ffffe001a2ef8060, Physical Device Object of the stack
    • Arg3 : ffffd0007c7a2960, nt!TRIAGE_9F_POWER on Win7, otherwise the Functional Device Object of the stack
    • Arg4 : ffffe001a0429580, The blocked IRP
    • DRVPOWERSTATE_SUBCODE : 3
    • IMAGE_NAME : pci.sys
    • PROCESS_NAME : System
  5. 02/2018 : DRIVER_POWER_STATE_FAILURE (9f) A driver has failed to complete a power IRP within a specific time (usually 10 minutes).

    • Arg1 : 0000000000000003, A device object has been blocking an Irp for too long a time
    • Arg2 : ffffe0005a145760, Physical Device Object of the stack
    • Arg3 : ffffd0018932f960, nt!TRIAGE_9F_POWER on Win7, otherwise the Functional Device Object of the stack
    • Arg4 : ffffe0005c8e8c10, The blocked IRP
    • DRVPOWERSTATE_SUBCODE : 3
    • IMAGE_NAME : pci.sys
    • PROCESS_NAME : System
  6. 03/2018 : DRIVER_POWER_STATE_FAILURE (9f) A driver has failed to complete a power IRP within a specific time (usually 10 minutes).

    • Arg1 : 0000000000000003, A device object has been blocking an Irp for too long a time
    • Arg2 : ffffe000552f4880, Physical Device Object of the stack
    • Arg3 : ffffd001ff647960, nt!TRIAGE_9F_POWER on Win7, otherwise the Functional Device Object of the stack
    • Arg4 : ffffe000538c7420, The blocked IRP
    • DRVPOWERSTATE_SUBCODE : 3
    • IMAGE_NAME : pci.sys
    • FAULTING_MODULE : fffff801132f5000 pci
    • PROCESS_NAME : System
  7. 07/2018 : KERNEL_DATA_INPAGE_ERROR (7a) The requested page of kernel data could not be read in. Typically caused by a bad block in the paging file or disk controller error. Also see KERNEL_STACK_INPAGE_ERROR. If the error status is 0xC000000E, 0xC000009C, 0xC000009D or 0xC0000185, it means the disk subsystem has experienced a failure. If the error status is 0xC000009A, then it means the request failed because a filesystem failed to make forward progress.

    • Arg1 : fffff6e80010c100, lock type that was held (value 1,2,3, or PTE address)
    • Arg2 : ffffffffc0000185, error status (normally i/o status code)
    • Arg3 : 0000000086b14be0, current process (virtual address for lock type 3, or PTE)
    • Arg4 : ffffd00021820000, virtual address that could not be in-paged (or PTE contents if arg1 is a PTE address)
    • ERROR_CODE : (NTSTATUS) 0xc0000185 - The I/O device reported an I/O error.
    • DISK_HARDWARE_ERROR : There was error with disk hardware
    • PROCESS_NAME : System
    • MODULE_NAME : nt
    • IMAGE_NAME : memory_corruption
  8. 02/2019 : CRITICAL_PROCESS_DIED (ef) A critical system process died

    • Arg1 : ffffe0007a412080, Process object
    • Arg2 : 0000000000000000
    • Arg3 : 0000000000000000
    • Arg4 : 0000000000000000
    • PROCESS_NAME : csrss.exe
    • MODULE_NAME : nt
    • IMAGE_NAME : ntkrnlmp.exe

Bon de manière générale, ce qu’on peut voir c’est que toutes les erreurs sont en rapport avec le stockage, sauf la dernière CRITICAL_PROCESS_DIED où le lien n’est pas claire.

Si en plus, le BIOS te signal un SSD de 0Go, c’est clairement qu’il y a un truc qui cloche à ce niveau là. En tout cas, c’est cohérent avec le fait qu’il te demande d’insérer un disque bootable.

On peut supposer que soit certaines données sur le disque sont corrompues et donc une réinstallation totale devrait faire le travail, soit le SSD est mort (ou a un problème majeur !), ce qui est plus probable et cohérent avec un affichage de 0.0Go dans le Bios. Dans tous les cas, le changer devrait résoudre le problème.

+0 -0

Il y a beaucoup de DRIVER_POWER_STATE_FAILURE dans les minidumps que j’ai trouvés ; dans les faits, je rencontre aussi plein de CRITICAL_PROCESS_DIED, particulièrement au moment de valider mon mot de passe.

Si possible, j’aimerais éviter de changer le SSD et tout réinstaller. Comment tester l’hypothèse des données corrompues ?

Il existe un protocole pour ça. C’est SMART. Tu devrais pouvoir lire les données SMART fournie par ton disque depuis Windows en utilisant un logiciel approprié par exemple (ici).

Le plus simple étant cependant de booter sur un système d’exploitation alternatif pour lire les données SMART. Par exemple un live-USB.

Smart ne t’indiquera que des indications sur l’état du disque dur. Rien sur les possibles données corrompues.

Pour ce qui est des données corrompues, y a pas 36 solutions. Il faut booter sur un système alternatif et vérifier le disque suspicieux avec fsck par exemple. Il y a certainement d’autres méthodes que je ne connais pas mais e principe est le même. Booter sur un autre disque et vérifier le disque incriminé avec un utilitaire.

Sachant que le plus probable est quand même que ton disque soit mort.

Note: Il est très probable que fsck t’indique des erreurs. L’opération n’est pas sans risque ! Perte de donnée possible ! je te conseil au plus vite de sauvegarder tes données !

+0 -0

J’ai suivi les liens SMART que tu m’as donné, et j’ai installé le moniteur de SSD de Kingston ; je joint le rapport pondu par l’outil à ce message.

À première vue, j’aurais tendance à penser qu’un Read Error Rate à 95/50 n’est pas vraiment bon signe… Malgré tout, tous les voyants de l’outil de monitoring sont au vert, et le SSD est marqué comme healthy. o_O Je n’sais pas trop quoi penser…


Vendor/Model: KINGSTON SMS200S3120G       
Serial #: 50026B724604830F
Firmware: 60AABBF0_28180

   Id [hex] - Description:
Norm  Worst Thresh         Raw             Flags

======================================================

  1 [0x01] - Read Error Rate:
   95    95    50   0x00000002006b75e5   0x32,SP,EC,OC

  5 [0x05] - Bad Block Count:
  100   100     3   0x0000000000000000   0x33,SP,EC,OC,PW

  9 [0x09] - Power On Hours:
   90    90     0   0x0002b82c00002274   0x32,SP,EC,OC

 12 [0x0c] - Power Cycles:
   95    95     0   0x0000000000001575   0x32,SP,EC,OC

171 [0xab] - Program Fail Count:
  100   100     0   0x0000000000000000   0x0a,ER,OC

172 [0xac] - Erase Fail Count:
  100   100     0   0x0000000000000000   0x32,SP,EC,OC

174 [0xae] - Unexpected Power Loss:
    0     0     0   0x0000000000000048   0x30,SP,EC

177 [0xb1] - Wear Leveling Range Percent:
    0     0     0   0x0000000000000002   0x00

181 [0xb5] - Program Fail Count:
  100   100     0   0x0000000000000000   0x0a,ER,OC

182 [0xb6] - Erase Fail Count:
  100   100     0   0x0000000000000000   0x32,SP,EC,OC

187 [0xbb] - Uncorrectable ECC Errors:
  100   100     0   0x0000000000000000   0x12,EC,OC

194 [0xc2] - Temperature:
   54    67     0   0x000000eb00430036   0x22,SP,OC

195 [0xc3] - RAISE Recovered:
  100   100     0   0x00000002006b75e5   0x1c,EC,ER,PE

196 [0xc4] - Reallocation Events:
  100   100     3   0x0000000000000000   0x33,SP,EC,OC,PW

201 [0xc9] - Uncorrectable Soft ECC Rate:
  100   100     0   0x00000002006b75e5   0x1c,EC,ER,PE

204 [0xcc] - Soft ECC Correction Rate:
  100   100     0   0x00000002006b75e5   0x1c,EC,ER,PE

230 [0xe6] - Drive Life Protection Status:
  100   100     0   0x0000000000000064   0x13,EC,OC,PW

231 [0xe7] - SSD Wear Indicator:
  100   100    10   0x0000000000000000   0x13,EC,OC,PW
+0 -0

C’est toujours délicat d’analyser ces données, j’ai jamais vraiment appris, mais de ce que j’ai compris.
Et vu ce qu’il nous sort, d’après le compte rendu SMART, ton disque est en pleine forme. ¯\_(ツ)_/¯

Juste, attention à la température et il y a un problème avec les indicateurs "Unexpected Power Loss" et "Wear Leveling Range Percent" que je n’explique pas, ils sont à 0.

Sur ce, je sais pas trop quoi te conseiller. Le seul truc dont je suis sûr, c’est que tu ferais bien de sauvegarder tes données. Ensuite, il faudrait faire des tests, formatage et réinstallation ou un coup de fsck.

+0 -0

Aux nouvelles !

J’ai réactiver ce que Windows appelle l’optimisation pour le SSD. C’est une opération automatique hebdomadaire équivalente à la défragmentation pour les HDD. Ça faisais 5 ans que je l’avais désactivé, sur les conseils d’un tutoriel qui disait que ça endommagerait les SSDs.

J’ai désinstallé les drivers NVIDIA. Je ne sais pas comment ça se passe entre la Intel 4600 et la NVidia mais ça affiche encore des choses à l’écran… Il semble qu’il y ai toujours un driver NVIDIA installé cependant, ça n’a pas l’air d’être possible de le désinstaller totalement. Windows propose un update pour le driver, que je viens juste d’installer.

Note: l’affichage n’est pas hyper fluide — adieux les 60 FPS — et je sens des lenteurs dans l’exécutions de certains programmes, mais il n’y a pas eu de BSOD depuis que j’ai fait ces modifications.

Un de ces jours, j’essaierai de réinstaller les drivers NVidia, ainsi que faire un test avec FSCK.

Je pense cependant que les problèmes venaient du SSD non-optimisé.

Encore merci à toi, @ache. Novax.

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte