リーナス・トーバルズ氏、Intelが一般向け製品でECCメモリに対応しないことを批判 110
ストーリー by nagazou
エラー 部門より
エラー 部門より
あるAnonymous Coward 曰く、
「何十年も説明できない奇妙なカーネルエラーに悩まされてきましたが、それらはおそらくメモリのエラーによるものです」とトーバルズ氏は推測しており、ECCがあれば回避できたエラーに遭遇し続けていることに腹を立てているとのこと。「現代のメモリは信頼性が高いので、ECCは必要ない」という意見を自身の経験から一蹴しています。
Linuxカーネルレベルの話になると、メモリ起因としか思えないトラブルも定期的にやってくるんでしょうな。そりゃトーバルズ氏の立場なら怒るかも。
情報元へのリンク
リーナス・トーバルズ氏が、コミュニティ「Real World Tech」で、IntelのECCに対する方策を批判するコメントをしたらしい。書かれているのはRyzen 9 5000シリーズ関連のトピック。曰く、
ECCの可用性は非常に重要だ。しかしIntelが市場を細分化をしたことにより、ECC業界全体を殺してしまった。今、市場でECC対応のDIMMを買おうとしても探すのはとても大変だ。最近は少しは入手性もマシになってきたが、それはAMDのおかげだろう。Intelは、ECCに関するポリシーは業界全体とユーザーに悪影響を及ぼしている。
(中略)
メモリメーカー側は経済性と低電力を実現するための措置だとしている。しかし、これらの「ピー(放送禁止用語)」どもは、壊れたハードウェアを消費者に喜んで販売している。私からすれば手抜きを販売しているにすぎない。
といった感じの発言になっている。発言の背景等についてはGIGAZINEの記事に詳しい。
まず必要性を示そう (スコア:5, 興味深い)
かつて職場では、SPARC SolarisがECCによる誤り訂正イベントをsyslogに吐いてくれていたので、100台動かしていると1年で100発くらいソフトエラー訂正がかかるということが可視化されていました。
また、シングルイベントだけでなく系統的なエラー発生からチップ故障やモジュール故障が示唆されて「このモジュールを交換せよ」までログに出ていたのでまあありがたかったです。
PCサーバになるとSolarisでもLinuxでも誤り訂正ログが出なくなってしまい、DellやHPやIBMのECCも音無しで訂正してくれるだけ(モジュール故障はインジケータにランプがつくので交換の契機にできますが)になったので、ECCの必要性が見えてこなくて気持ち悪いことになりました。
私が調査をさぼっているだけで本当はチップセットドライバなどでログ出せたりするのかしら。
Intelがデスクトップ環境にはECC要らんと強弁するのに対しては、ECCを使える環境にある人が誤り訂正イベントをログに吐いて必要性を可視化するしかないと思うんですよね。
Re:まず必要性を示そう (スコア:1)
syslogにEDAC等のモジュール経由で出る。過去にベンダのエラーログツールとの相性で無効化されるとか有ったけど。
WindowsならイベントログのKernel-WHEAとか。
https://www.dell.com/support/kbdoc/ja-jp/000177028/ [dell.com]
Re:まず必要性を示そう (スコア:1)
これが嬉しくない
センマイ買っとけ (スコア:2)
desktop Xeon (スコア:2)
まだRyzenが出る前、Intelの方が性能が高かったころに組んだおうちPCは、それでもECCが欲しかったので、CPUをXeon E3にしました。買おうと思って調べると、シングルソケット用XeonはCore i5並の値段だったので、なあんだ、って感じでした。
ただ、メジャーなマザーボードの選択肢がほとんどなくて(ASUSのWSサフィックスのついているやつぐらいしかない)困りましたが。
Linuxの信頼性がメモリエラーよりも高いとかありえない (スコア:2)
メモリエラーが致命的だとしてもOSやソフト側で対処する方がECCよりもコストに安いはず。
例えば「1bitのフラグを多bitにする」「deamonでCRC検査」
そんな研究が流行ってないってことはそういうこと。
手元の環境がECCになってからカーネルエラー減ったのかな? (スコア:1)
コスト的には配線が1/8増えるけど、
だからと言ってわざわざ無効化しなくてもとは思う。
Rdgisteredと両対応になればなお良いんだけどな…
買えよ (スコア:0, 荒らし)
ECC対応の製品買えよって思う
Re:買えよ (スコア:3, 参考になる)
リーナスはRyzenを使用しているはずで、Ryzenは全製品非公式とはいえECCメモリに対応しています。 正式対応はryzen proのみ。
Xeonだってシングルソケット向けはcoreシリーズと同じダイを流用してるので、Intelがその気になればcoreシリーズでもECCメモリ対応は容易な事だから対応しろ、というお話だと思います。
中華マザーボードにはデスクトップ向けチップセットでXeon&ECCメモリ対応しているのもあるので、チップセットもデスクトップ向けで大丈夫っぽいです。
Re:買えよ (スコア:1)
そもそも、メモリーコントローラー自体が同じなのでわざわざ機能を殺して売ってるんだよねぇ。
# どっかの世代だとCeleronだかPentiumがECC対応でCore iは非対応なんてのがあった気がする。
Re:買えよ (スコア:2)
// ECCは知っててもそれだけじゃ困ります…
Re:買えよ (スコア:2)
ですから Linus 曰く「Intel は一般向け製品に ECC 積んで売れよ」と言っていると
そして当の本人は ECC ついてる Ryzen 買ってるわけで
// もっとも ECC もダメなときはダメ (ECC付のカード設計してて思った)
Re:買えよ (スコア:1)
なんで例え下手な人に限って無理に例えようとするのだろう?
Re:買えよ (スコア:1)
何とか言い返したい、つまり自分の意見のほうが正しいということにしたいが
ダイレクトな理屈では既に言い負けているため
自分の意見にマッチする、別の状況を引っ張ってくる
分かりやすくするためではなくて論理を都合よくねじ曲げるための例え話なので
聞かされる方は、そういう話じゃねーんだけど、となる
Re:買えよ (スコア:1)
この程度でいいだろうではなく、このケースでは上手いこと言ったと本人が自己満足してるだけな気がしてならない
Re: (スコア:0)
「要望するくらいなら強制すれば?」とはとんだ極論だな
Re:買えよ (スコア:1)
記事読んで~
売ってるは売ってるけど、Intel がマーケティングとして ECC を蔑ろにして市場を殺したってことに憤っているんですよ
で、(恐らく)AMD のお陰で少し良くなってきている
linus としては、もっと広く ECC が使われることで、Linux で時たま起きる(しかし世界規模でいけばそれなりの頻度の)奇妙なカーネルエラーが減ることを期待しています
Re: (スコア:0)
議論どころか読めばわかるだろ
Re: (スコア:0)
読まずに議論するなよ
アホかと
Re: (スコア:0)
>「ECC売れよ」という言葉から、「Intelは一般向け製品を含めてすべてにECCを搭載して売れ」というところまで導き出すのは困難ですので、
自らの読解力のなさを吐露されましても(苦笑)
読んでれば話の流れからわかると思うんですけどねぇ・・・
Re: (スコア:0)
あとからって、ストーリー読んでそれ以外どう解釈しろと。
Re: (スコア:0)
ああCPUがECCに対応してないって話か
Re: (スコア:0)
リンク先を見ると「ECCメモリー対応 いいえ」となっているので、普通には買えない気が…
Re: (スコア:0)
リーナスが買っても、ECC対応買ってない人からメモリ起因のせいで解決できないエラー報告が来るんだよ。
だから「例外なくECC付けろよエラー減るから」って話。
Re: (スコア:0)
どうせならMPU(チップセット)からマザーボードまで作っちまえよって思う。
# 関係ないけどZynqでECC使うと半分しかDDR使えんってどういう仕様なんだよ…
Re: (スコア:0)
リーナス・トーバルズ氏がIntel社を買い取れば解決するって話?
DRAMの微細化が進んで一般ユーザーでもECC必要になった (スコア:0)
DRAMは、微細化による信頼性低下の影響をかなり受けやすくなってる
また、ROWHAMMERや類似攻撃は、ECCがあれば影響を緩和できる
ECC対応メモリ (スコア:0)
記憶にあるのは30PIN SIMMの頃かな。ちょい増しの値段で普通にECC対応が売られてた。
まあ買ったのは非対応メモリだったけど。一万/1MBだった。
Re:ECC対応メモリ (スコア:2)
30ピンの頃はパリティビット付きだと記憶。
こちら、エラーはチェックできても訂正はできない。
IBM PC系はパリティあり、appleはパリティ無しだった。
Re:ECC対応メモリ (スコア:2)
はい、72pinからかと思われます。
Re:ECC対応メモリ (スコア:1)
Windows95時台のNEC製PCはECCメモリーだったんだよなぁ。
数年でやめたけど。
Re:ECC対応メモリ (スコア:1)
遠い昔に1度だけ奮発してECC積んだ記憶が。
買う人がいなかったからECC市場は死んだような気もするのでIntelを責めるのも酷な気が。
Re: (スコア:0)
>買う人がいなかったからECC市場は死んだ
デスヨネー
一般人は1bitのエラーがたまたま致命的な結果になる確率を避けるために保険に投資することを選ばないから。
CO2削減だろ (スコア:0)
消費電力を減らしてCO2を削減しよう!!
Re: (スコア:0)
えっ、電気は CO2 出さないんじゃないですか?!
じゃないと電気自動車がクリーンという大義名分が……
Re:CO2削減だろ (スコア:1)
実際にどのくらいエラーが発生しているんだろう? (スコア:0)
ECC付きのメモリで、ちゃんとステータスが取れるサーバだったら分かるのだろうけど。
どなたか情報持ってませんかね。
Re:実際にどのくらいエラーが発生しているんだろう? (スコア:2, 参考になる)
ググれば古いも(2009年)のなら簡単に見つかるんだけど
「グーグルの研究が示すメモリエラーの真実--明らかになった高い発生率」
https://japan.cnet.com/article/20401367/ [cnet.com]
最近の状況が知りたいね。
Re:実際にどのくらいエラーが発生しているんだろう? (スコア:1)
エラーの理由が宇宙線由来のソフトエラーなら、搭載するモジュールの数が変わらなければ、エラー発生率もそれほど変わってないはず。
というのも単位面積あたりに降り注ぐ宇宙線が変わらないので、それを受けるチップの面積が変わらなければ発生確率も変わらない。
もうちょっと補足すると、DRAM自体は微細化でトランジスタが小さくなってるんだけど、保持する容量・電荷はプロセス改良であまり減ってないので、ソフトエラー耐量もそれほど変わってない。
Re:実際にどのくらいエラーが発生しているんだろう? (スコア:1)
過去記事どうぞ
DRAM のエラー発生率は従来考えられていたよりずっと高い? [hardware.srad.jp]
Re:実際にどのくらいエラーが発生しているんだろう? (スコア:1)
このGoogleのやつは
「メモリが故障してもECCで訂正できるうちは交換しなくてヨシ!」っていう運用ポリシーのもとで
壊れたメモリが同じ場所で吐くエラーを全部カウントして
「エラー発生率は従来考えられていたよりずっと高い!」とかいってるアホ研究だぞ
Re: (スコア:0)
昔から言われてることですけどメモリのα線エラーとかは一定の確率で起こっている
しかし、ほとんどの場合は暴走等の重大トラブルにまで至らないのでユーザーが気づくことは無い、気がついても再現性の無い一時的な挙動の異常としか認識されない...........
組込の制御システムとかだと重大トラブルに繋がる危険性がありますが、その手のプロセッサではウォッチドッグ・タイマーを使って異常時には自動的にリセット・再起動かけてるので、やっぱりメモリ・エラーに気づくことはほとんど無い(そもそもローエンドの方の組込プロセッサは集積度が低いからメモリ・エラーの発生確率も低い)
Apple M1 (スコア:0)
どーなんだ?
Re: (スコア:0)
こうなのよ。
Re: (スコア:0)
道東でしょ
時間が経てば (スコア:0)
DDR5はECC必須になるらしいから
そのうち対応するでしょ
MEMTEST86してみて (スコア:0)
エラーでなけりゃOK?違うの?
CPU負荷とか関係していたら違ってくるかもだけど
# CPU内部キャッシュはECC無くていいのか そしたら内部レジスタにもECC要る?
# 宇宙用とかだと付いているかもしれないな
Re:MEMTEST86してみて (スコア:2)
Re:MEMTEST86してみて (スコア:1)
違うの。
データ化けは単なる恒久的なハードウェア不良ってわけじゃないから、MEMTEST86かけてもわからない。
DDR5からECCが基本仕様になるはず... (スコア:0)
DDR5からはオンダイECCが基本仕様になるから、Intelも否応なく対応すると思われるけど、
高速化・微細化による信頼性の低下の補完だから、従来方式を御所望って感じなのかしら。