アカウント名:
パスワード:
ECC付きのメモリで、ちゃんとステータスが取れるサーバだったら分かるのだろうけど。どなたか情報持ってませんかね。
ググれば古いも(2009年)のなら簡単に見つかるんだけど「グーグルの研究が示すメモリエラーの真実--明らかになった高い発生率」https://japan.cnet.com/article/20401367/ [cnet.com]最近の状況が知りたいね。
エラーの理由が宇宙線由来のソフトエラーなら、搭載するモジュールの数が変わらなければ、エラー発生率もそれほど変わってないはず。というのも単位面積あたりに降り注ぐ宇宙線が変わらないので、それを受けるチップの面積が変わらなければ発生確率も変わらない。
もうちょっと補足すると、DRAM自体は微細化でトランジスタが小さくなってるんだけど、保持する容量・電荷はプロセス改良であまり減ってないので、ソフトエラー耐量もそれほど変わってない。
メモリセル(1コンデンサ)に宇宙線が直撃しなくても最寄りのセルに直撃相当の影響が出るならそうだろうけど……直撃とそうでない場合にデータを化けさすのに必要な宇宙線のエネルギー量は同一なのだろうか?………いや、DRAM内におけるトランジスタとコンデンサの面積比も変化してないならほぼ同じになるのか?でもそうするとメモリセルは微細化して単位体積あたりの電荷量が上昇している事になるような?
過去記事どうぞDRAM のエラー発生率は従来考えられていたよりずっと高い? [hardware.srad.jp]
これも宇宙線によるコンピューターのトラブル、深刻に [hardware.srad.jp]
このGoogleのやつは「メモリが故障してもECCで訂正できるうちは交換しなくてヨシ!」っていう運用ポリシーのもとで壊れたメモリが同じ場所で吐くエラーを全部カウントして「エラー発生率は従来考えられていたよりずっと高い!」とかいってるアホ研究だぞ
ECCが有るからこそエラーに気づいただけで、ECCが無ければ論文並みに化けて、場合により意味不明なクラッシュする訳ですね。# そして、初めて壊れてることに気づく訳だ
元コメが言ってるのは、壊れたことがわかってるメモリが吐き続けるエラーをまとめて1件とせず、全部カウントしてるってことだぞ?
ECC無しだと壊れてることに気付かず運用するハメになるので全部カウントで合ってる。別手段でメモリエラーの発生を検知できるシステムになってれば対処もできるかもだが……
一般ユーザ向け製品でECC機能を無効化するなって話題である事を踏まえれば、そんな検知が可能なシステムを想定する事はできない。
稀によくある ってやつかhttps://dic.nicovideo.jp/a/%E7%A8%80%E3%81%AB%E3%82%88%E3%81%8F%E3%81%... [nicovideo.jp]
昔から言われてることですけどメモリのα線エラーとかは一定の確率で起こっているしかし、ほとんどの場合は暴走等の重大トラブルにまで至らないのでユーザーが気づくことは無い、気がついても再現性の無い一時的な挙動の異常としか認識されない...........組込の制御システムとかだと重大トラブルに繋がる危険性がありますが、その手のプロセッサではウォッチドッグ・タイマーを使って異常時には自動的にリセット・再起動かけてるので、やっぱりメモリ・エラーに気づくことはほとんど無い(そもそもローエンドの方の組込プロセッサは集積度が低いからメモリ・エラーの発生確率も低い)
Rawhammer攻撃という意図的にビット反転させてメモリを書き換えるセキュリティ攻撃があります。
ソフトエラーじゃないけど、25年ほどのPC人生で二回ほどメモリの1bit故障に遭遇したことがある。
どちらもそれまではなんの問題もなかったのに、ある時から特定のbitが0/1固定になったよう。windowsベースで問題箇所はユーザー領域だったようで、青画面とかにはならないが、ファイルコンペアで違いが出だして気付いた。
ファイルコピーしただけで、HDD->メモリ->HDD の経路でメモリを経由するので次々ファイルが壊れてた。(zipファイルを検証して検出)
バックアップしたらverifyする癖が役に立ったですよ。まめにdiffしましょう。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
計算機科学者とは、壊れていないものを修理する人々のことである
実際にどのくらいエラーが発生しているんだろう? (スコア:0)
ECC付きのメモリで、ちゃんとステータスが取れるサーバだったら分かるのだろうけど。
どなたか情報持ってませんかね。
Re:実際にどのくらいエラーが発生しているんだろう? (スコア:2, 参考になる)
ググれば古いも(2009年)のなら簡単に見つかるんだけど
「グーグルの研究が示すメモリエラーの真実--明らかになった高い発生率」
https://japan.cnet.com/article/20401367/ [cnet.com]
最近の状況が知りたいね。
Re:実際にどのくらいエラーが発生しているんだろう? (スコア:1)
エラーの理由が宇宙線由来のソフトエラーなら、搭載するモジュールの数が変わらなければ、エラー発生率もそれほど変わってないはず。
というのも単位面積あたりに降り注ぐ宇宙線が変わらないので、それを受けるチップの面積が変わらなければ発生確率も変わらない。
もうちょっと補足すると、DRAM自体は微細化でトランジスタが小さくなってるんだけど、保持する容量・電荷はプロセス改良であまり減ってないので、ソフトエラー耐量もそれほど変わってない。
Re: (スコア:0)
メモリセル(1コンデンサ)に宇宙線が直撃しなくても最寄りのセルに直撃相当の影響が出るならそうだろうけど……
直撃とそうでない場合にデータを化けさすのに必要な宇宙線のエネルギー量は同一なのだろうか?
………いや、DRAM内におけるトランジスタとコンデンサの面積比も変化してないならほぼ同じになるのか?
でもそうするとメモリセルは微細化して単位体積あたりの電荷量が上昇している事になるような?
Re:実際にどのくらいエラーが発生しているんだろう? (スコア:1)
過去記事どうぞ
DRAM のエラー発生率は従来考えられていたよりずっと高い? [hardware.srad.jp]
Re: (スコア:0)
これも
宇宙線によるコンピューターのトラブル、深刻に [hardware.srad.jp]
Re:実際にどのくらいエラーが発生しているんだろう? (スコア:1)
このGoogleのやつは
「メモリが故障してもECCで訂正できるうちは交換しなくてヨシ!」っていう運用ポリシーのもとで
壊れたメモリが同じ場所で吐くエラーを全部カウントして
「エラー発生率は従来考えられていたよりずっと高い!」とかいってるアホ研究だぞ
Re: (スコア:0)
ECCが有るからこそエラーに気づいただけで、ECCが無ければ論文並みに化けて、場合により意味不明なクラッシュする訳ですね。
# そして、初めて壊れてることに気づく訳だ
Re: (スコア:0)
元コメが言ってるのは、壊れたことがわかってるメモリが吐き続けるエラーをまとめて1件とせず、全部カウントしてるってことだぞ?
Re: (スコア:0)
ECC無しだと壊れてることに気付かず運用するハメになるので全部カウントで合ってる。
別手段でメモリエラーの発生を検知できるシステムになってれば対処もできるかもだが……
一般ユーザ向け製品でECC機能を無効化するなって話題である事を踏まえれば、
そんな検知が可能なシステムを想定する事はできない。
Re: (スコア:0)
稀によくある ってやつか
https://dic.nicovideo.jp/a/%E7%A8%80%E3%81%AB%E3%82%88%E3%81%8F%E3%81%... [nicovideo.jp]
Re: (スコア:0)
昔から言われてることですけどメモリのα線エラーとかは一定の確率で起こっている
しかし、ほとんどの場合は暴走等の重大トラブルにまで至らないのでユーザーが気づくことは無い、気がついても再現性の無い一時的な挙動の異常としか認識されない...........
組込の制御システムとかだと重大トラブルに繋がる危険性がありますが、その手のプロセッサではウォッチドッグ・タイマーを使って異常時には自動的にリセット・再起動かけてるので、やっぱりメモリ・エラーに気づくことはほとんど無い(そもそもローエンドの方の組込プロセッサは集積度が低いからメモリ・エラーの発生確率も低い)
Re: (スコア:0)
Rawhammer攻撃という意図的にビット反転させてメモリを書き換えるセキュリティ攻撃があります。
Re: (スコア:0)
ソフトエラーじゃないけど、25年ほどのPC人生で二回ほどメモリの1bit故障に遭遇したことがある。
どちらもそれまではなんの問題もなかったのに、ある時から特定のbitが0/1固定になったよう。
windowsベースで問題箇所はユーザー領域だったようで、青画面とかにはならないが、ファイルコンペアで違いが出だして気付いた。
ファイルコピーしただけで、HDD->メモリ->HDD の経路でメモリを経由するので次々ファイルが壊れてた。(zipファイルを検証して検出)
バックアップしたらverifyする癖が役に立ったですよ。まめにdiffしましょう。