パスワードを忘れた? アカウント作成
15045580 story
Intel

リーナス・トーバルズ氏、Intelが一般向け製品でECCメモリに対応しないことを批判 110

ストーリー by nagazou
エラー 部門より
あるAnonymous Coward 曰く、

「何十年も説明できない奇妙なカーネルエラーに悩まされてきましたが、それらはおそらくメモリのエラーによるものです」とトーバルズ氏は推測しており、ECCがあれば回避できたエラーに遭遇し続けていることに腹を立てているとのこと。「現代のメモリは信頼性が高いので、ECCは必要ない」という意見を自身の経験から一蹴しています。

Linuxカーネルレベルの話になると、メモリ起因としか思えないトラブルも定期的にやってくるんでしょうな。そりゃトーバルズ氏の立場なら怒るかも。

情報元へのリンク

リーナス・トーバルズ氏が、コミュニティ「Real World Tech」で、IntelのECCに対する方策を批判するコメントをしたらしい。書かれているのはRyzen 9 5000シリーズ関連のトピック。曰く、

ECCの可用性は非常に重要だ。しかしIntelが市場を細分化をしたことにより、ECC業界全体を殺してしまった。今、市場でECC対応のDIMMを買おうとしても探すのはとても大変だ。最近は少しは入手性もマシになってきたが、それはAMDのおかげだろう。Intelは、ECCに関するポリシーは業界全体とユーザーに悪影響を及ぼしている。

(中略)

メモリメーカー側は経済性と低電力を実現するための措置だとしている。しかし、これらの「ピー(放送禁止用語)」どもは、壊れたハードウェアを消費者に喜んで販売している。私からすれば手抜きを販売しているにすぎない。

といった感じの発言になっている。発言の背景等についてはGIGAZINEの記事に詳しい。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by tmiura (6268) on 2021年01月06日 12時50分 (#3953878) 日記

    かつて職場では、SPARC SolarisがECCによる誤り訂正イベントをsyslogに吐いてくれていたので、100台動かしていると1年で100発くらいソフトエラー訂正がかかるということが可視化されていました。

    また、シングルイベントだけでなく系統的なエラー発生からチップ故障やモジュール故障が示唆されて「このモジュールを交換せよ」までログに出ていたのでまあありがたかったです。

    PCサーバになるとSolarisでもLinuxでも誤り訂正ログが出なくなってしまい、DellやHPやIBMのECCも音無しで訂正してくれるだけ(モジュール故障はインジケータにランプがつくので交換の契機にできますが)になったので、ECCの必要性が見えてこなくて気持ち悪いことになりました。

    私が調査をさぼっているだけで本当はチップセットドライバなどでログ出せたりするのかしら。

    Intelがデスクトップ環境にはECC要らんと強弁するのに対しては、ECCを使える環境にある人が誤り訂正イベントをログに吐いて必要性を可視化するしかないと思うんですよね。

  • by kusakan (11993) on 2021年01月06日 12時20分 (#3953863) 日記
    センマイのモジュールなら チップは問わん
  • by tmiura (6268) on 2021年01月06日 12時56分 (#3953881) 日記

    まだRyzenが出る前、Intelの方が性能が高かったころに組んだおうちPCは、それでもECCが欲しかったので、CPUをXeon E3にしました。買おうと思って調べると、シングルソケット用XeonはCore i5並の値段だったので、なあんだ、って感じでした。

    ただ、メジャーなマザーボードの選択肢がほとんどなくて(ASUSのWSサフィックスのついているやつぐらいしかない)困りましたが。

  • CPU側のコストがあまり変わらないとしてもメモリのコストは上がる。それで得られるメリットが1年一回の「おそらくは何にも影響しないエラーを防ぐ」なのでコストに見合ってない。それよりはLinux由来のエラーの方が致命的だし多い。

    メモリエラーが致命的だとしてもOSやソフト側で対処する方がECCよりもコストに安いはず。
    例えば「1bitのフラグを多bitにする」「deamonでCRC検査」

    そんな研究が流行ってないってことはそういうこと。
  • コスト的には配線が1/8増えるけど、
    だからと言ってわざわざ無効化しなくてもとは思う。

    Rdgisteredと両対応になればなお良いんだけどな…

  • 買えよ (スコア:0, 荒らし)

    by Anonymous Coward on 2021年01月06日 8時27分 (#3953718)

    ECC対応の製品買えよって思う

    • Re:買えよ (スコア:3, 参考になる)

      by Anonymous Coward on 2021年01月06日 8時55分 (#3953734)

      リーナスはRyzenを使用しているはずで、Ryzenは全製品非公式とはいえECCメモリに対応しています。 正式対応はryzen proのみ。
      Xeonだってシングルソケット向けはcoreシリーズと同じダイを流用してるので、Intelがその気になればcoreシリーズでもECCメモリ対応は容易な事だから対応しろ、というお話だと思います。
      中華マザーボードにはデスクトップ向けチップセットでXeon&ECCメモリ対応しているのもあるので、チップセットもデスクトップ向けで大丈夫っぽいです。

      親コメント
      • by eru (12367) on 2021年01月06日 11時23分 (#3953830) 日記

        そもそも、メモリーコントローラー自体が同じなのでわざわざ機能を殺して売ってるんだよねぇ。
        # どっかの世代だとCeleronだかPentiumがECC対応でCore iは非対応なんてのがあった気がする。

        親コメント
    • by nekopon (1483) on 2021年01月06日 8時41分 (#3953724) 日記
      "売れよ" と言ってるわけで
      // ECCは知っててもそれだけじゃ困ります…
      親コメント
    • by Anonymous Coward

      リーナスが買っても、ECC対応買ってない人からメモリ起因のせいで解決できないエラー報告が来るんだよ。
      だから「例外なくECC付けろよエラー減るから」って話。

    • by Anonymous Coward

      どうせならMPU(チップセット)からマザーボードまで作っちまえよって思う。

      # 関係ないけどZynqでECC使うと半分しかDDR使えんってどういう仕様なんだよ…

    • by Anonymous Coward

      リーナス・トーバルズ氏がIntel社を買い取れば解決するって話?

  • DRAMは、微細化による信頼性低下の影響をかなり受けやすくなってる
    また、ROWHAMMERや類似攻撃は、ECCがあれば影響を緩和できる

  • by Anonymous Coward on 2021年01月06日 8時41分 (#3953725)

    記憶にあるのは30PIN SIMMの頃かな。ちょい増しの値段で普通にECC対応が売られてた。
    まあ買ったのは非対応メモリだったけど。一万/1MBだった。

  • by Anonymous Coward on 2021年01月06日 8時55分 (#3953733)

    消費電力を減らしてCO2を削減しよう!!

  • by Anonymous Coward on 2021年01月06日 9時44分 (#3953765)

    ECC付きのメモリで、ちゃんとステータスが取れるサーバだったら分かるのだろうけど。
    どなたか情報持ってませんかね。

    • by Anonymous Coward on 2021年01月06日 9時56分 (#3953776)

      ググれば古いも(2009年)のなら簡単に見つかるんだけど
      「グーグルの研究が示すメモリエラーの真実--明らかになった高い発生率」
      https://japan.cnet.com/article/20401367/ [cnet.com]
      最近の状況が知りたいね。

      親コメント
      • by Anonymous Coward on 2021年01月06日 21時44分 (#3954208)

        エラーの理由が宇宙線由来のソフトエラーなら、搭載するモジュールの数が変わらなければ、エラー発生率もそれほど変わってないはず。
        というのも単位面積あたりに降り注ぐ宇宙線が変わらないので、それを受けるチップの面積が変わらなければ発生確率も変わらない。

        もうちょっと補足すると、DRAM自体は微細化でトランジスタが小さくなってるんだけど、保持する容量・電荷はプロセス改良であまり減ってないので、ソフトエラー耐量もそれほど変わってない。

        親コメント
    • by Anonymous Coward on 2021年01月06日 23時36分 (#3954263)

      このGoogleのやつは
      「メモリが故障してもECCで訂正できるうちは交換しなくてヨシ!」っていう運用ポリシーのもとで
      壊れたメモリが同じ場所で吐くエラーを全部カウントして
      「エラー発生率は従来考えられていたよりずっと高い!」とかいってるアホ研究だぞ

      親コメント
    • by Anonymous Coward

      昔から言われてることですけどメモリのα線エラーとかは一定の確率で起こっている
      しかし、ほとんどの場合は暴走等の重大トラブルにまで至らないのでユーザーが気づくことは無い、気がついても再現性の無い一時的な挙動の異常としか認識されない...........
      組込の制御システムとかだと重大トラブルに繋がる危険性がありますが、その手のプロセッサではウォッチドッグ・タイマーを使って異常時には自動的にリセット・再起動かけてるので、やっぱりメモリ・エラーに気づくことはほとんど無い(そもそもローエンドの方の組込プロセッサは集積度が低いからメモリ・エラーの発生確率も低い)

  • by Anonymous Coward on 2021年01月06日 10時13分 (#3953788)

    どーなんだ?

  • by Anonymous Coward on 2021年01月06日 10時41分 (#3953805)

    DDR5はECC必須になるらしいから
    そのうち対応するでしょ

  • by Anonymous Coward on 2021年01月06日 10時51分 (#3953811)

    エラーでなけりゃOK?違うの?
    CPU負荷とか関係していたら違ってくるかもだけど
    # CPU内部キャッシュはECC無くていいのか そしたら内部レジスタにもECC要る?
    # 宇宙用とかだと付いているかもしれないな

  • by Anonymous Coward on 2021年01月06日 11時11分 (#3953825)

    DDR5からはオンダイECCが基本仕様になるから、Intelも否応なく対応すると思われるけど、
    高速化・微細化による信頼性の低下の補完だから、従来方式を御所望って感じなのかしら。

typodupeerror

犯人はmoriwaka -- Anonymous Coward

読み込み中...