パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

リーナス・トーバルズ氏、Intelが一般向け製品でECCメモリに対応しないことを批判」記事へのコメント

  • by tmiura (6268) on 2021年01月06日 12時50分 (#3953878) 日記

    かつて職場では、SPARC SolarisがECCによる誤り訂正イベントをsyslogに吐いてくれていたので、100台動かしていると1年で100発くらいソフトエラー訂正がかかるということが可視化されていました。

    また、シングルイベントだけでなく系統的なエラー発生からチップ故障やモジュール故障が示唆されて「このモジュールを交換せよ」までログに出ていたのでまあありがたかったです。

    PCサーバになるとSolarisでもLinuxでも誤り訂正ログが出なくなってしまい、DellやHPやIBMのECCも音無しで訂正してくれるだけ(モジュール故障はインジケータにランプがつくので交換の契機にできますが)になったので、ECCの必要性が見えてこなくて気持ち悪いことになりました。

    私が調査をさぼっているだけで本当はチップセットドライバなどでログ出せたりするのかしら。

    Intelがデスクトップ環境にはECC要らんと強弁するのに対しては、ECCを使える環境にある人が誤り訂正イベントをログに吐いて必要性を可視化するしかないと思うんですよね。

    • by Anonymous Coward on 2021年01月06日 16時57分 (#3954067)

      syslogにEDAC等のモジュール経由で出る。過去にベンダのエラーログツールとの相性で無効化されるとか有ったけど。
      WindowsならイベントログのKernel-WHEAとか。

      https://www.dell.com/support/kbdoc/ja-jp/000177028/ [dell.com]

      親コメント
      • by Anonymous Coward

        WHEAは7以降だけどドライバが吐く分が以前からあるよね。

    • by Anonymous Coward

      BMCのSELに発生日時と対象スロットが記録されるのでは?

    • by Anonymous Coward

      大概のPCサーバならイベントに出ますよ?。監視入れましょう。

      Windows上でもイベントログ出てます。全ての環境でどうかは知らないけど。
      チップセットの謎イベントにしか見えないので、よく調べないとなんだか分からないのだけど。

      台数見てるとシングルビットエラーはそれなりの数出ますね。

物事のやり方は一つではない -- Perlな人

処理中...