アカウント名:
パスワード:
メモリーチェッカー使わないと故障がわからないのか
一般的なLinuxディストリビューションなら/var/messagesにエラーが出力されますよ。Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 16 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 6 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 32745 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)こんな感じ。
Windowsだとログに出ないから見られないよね。
>Windowsだとログに出ない
本当に?ちゃんと確認した?
NT4時代でもシステムログにBMCやIPMIとかのドライバが吐いてくれたぞ。今時の標準的な実装なら、ソースが Microsoft-Windows-WHEA-Logger [microsoft.com](GUIならWHEA-Logge)で記録されてる。※メモリエラー時の中身はこんなの [microsoft.com]
> 自動的に該当メモリブロックを使わないようになる Linuxにもこれに相当する悲しきパッチとかありませんでしたっけ。たしか手動でメモリブロックを指定した気が。
BadRAM [linuxjf.osdn.jp]かな?
# 20年近く前のDebianのインストールガイドとかに避け方とか書いて有ったような薄い記憶。
パッチを当てなくても使用するか使用しない物理アドレスを指定できて歯抜けもできたよ。昔特定アドレスが故障したDIMM使ってた。カーネルコマンドラインのこれかなあ?memmap=
memmap=nn[KMG]$ss[KMG] [kernel.org]だね。
あくまで予約なのでDMAとかで触れたときに貫通しそうだけど未確認。
Linus本人がメールに書いてる
普段はECC付きを使うんだけど、今使ってるデスクトップを組んだ時はコロナ禍でECCが高くて買う気になれず、そのままECC無しRAMを購入、そのまま使い続けていた。で、今回メモリエラー発生。ECC付きメモリを購入。 ってことみたい。
あれだけIntelは一般向けにECC使わせないのはけしからん!!って騒いだのに? それにLinusほどの人がメモリの代金ケチってECC無しを買うというのがちょっと意外。 それなりに稼いでると思ってたけど。 立場を考えればECC有無どころかマシンだって何重にも予備があってもよさそうなのに。
以前、Linusが新調したPCのスペックでCPUだけで80万ぐらいしてたのを見てわいのメインPC何台買えるんだよ!とか目をむいてたわwww
藤井聡太竜王のようにRyzen Threadripperですかね?Linusは以前にAVX512を嫌う発言をしてたので、Xeonではないと思いますし。
コンパイル速度では、今はAMDがかなり強いのですよね。https://www.phoronix.com/review/amd-ryzen-7900x-7950x-linux/4 [phoronix.com]
これはコンシューマ向けのCPUだけど、サーバ向けも同様。EPYC使わない理由が無いぐらいに差があるので、この分野でXeonを選ぶ理由が無い。
1ビットのパリティだと偶数個ビット死んだとき分からないんじゃなかったかな。あとは、負荷かけたときに不意にエラー出るとか癖が悪いとECCすり抜けるかも。月に一回はmemtest86回すといいかもね。windows update掛かったときとかにでも。
あと、#4342592が書いてるようにメモリセル以外の場所、たとえばエラー訂正ロジックやアドレス選択などの部分が不安定になったらECCではどうにもならない。部品点数やDRAMの原理的な不安定さから、一番エラーが発生しやすいのはメモリセルだけどね。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
Stableって古いって意味だっけ? -- Debian初級
ECC付きRAM使ってても (スコア:0)
メモリーチェッカー使わないと故障がわからないのか
Re:ECC付きRAM使ってても (スコア:2)
ECCは64bit中1bitまで補正(回復)できて、2bitまでは検出できる、とかなのでそれを超えたら無力。
# rm -rf ./.
Re:ECC付きRAM使ってても (スコア:1)
一般的なLinuxディストリビューションなら/var/messagesにエラーが出力されますよ。
Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 16 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 6 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 32745 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
こんな感じ。
Re: (スコア:0)
Windowsだとログに出ないから見られないよね。
Re: (スコア:0)
>Windowsだとログに出ない
本当に?ちゃんと確認した?
Re: (スコア:0)
NT4時代でもシステムログにBMCやIPMIとかのドライバが吐いてくれたぞ。
今時の標準的な実装なら、ソースが Microsoft-Windows-WHEA-Logger [microsoft.com](GUIならWHEA-Logge)で記録されてる。
※メモリエラー時の中身はこんなの [microsoft.com]
Re: (スコア:0)
> 自動的に該当メモリブロックを使わないようになる
Linuxにもこれに相当する悲しきパッチとかありませんでしたっけ。
たしか手動でメモリブロックを指定した気が。
Re: (スコア:0)
BadRAM [linuxjf.osdn.jp]かな?
# 20年近く前のDebianのインストールガイドとかに避け方とか書いて有ったような薄い記憶。
Re: (スコア:0)
パッチを当てなくても使用するか使用しない物理アドレスを指定できて歯抜けもできたよ。
昔特定アドレスが故障したDIMM使ってた。
カーネルコマンドラインのこれかなあ?
memmap=
Re: (スコア:0)
memmap=nn[KMG]$ss[KMG] [kernel.org]だね。
あくまで予約なのでDMAとかで触れたときに貫通しそうだけど未確認。
LinusはECC付きRAMを使っていなかった (スコア:1)
Linus本人がメールに書いてる
普段はECC付きを使うんだけど、今使ってるデスクトップを組んだ時はコロナ禍でECCが高くて買う気になれず、そのままECC無しRAMを購入、そのまま使い続けていた。で、今回メモリエラー発生。ECC付きメモリを購入。 ってことみたい。
Re: (スコア:0)
あれだけIntelは一般向けにECC使わせないのはけしからん!!って騒いだのに?
それにLinusほどの人がメモリの代金ケチってECC無しを買うというのがちょっと意外。
それなりに稼いでると思ってたけど。
立場を考えればECC有無どころかマシンだって何重にも予備があってもよさそうなのに。
Re: LinusはECC付きRAMを使っていなかった (スコア:1)
以前、Linusが新調したPCのスペックで
CPUだけで80万ぐらいしてたのを見て
わいのメインPC何台買えるんだよ!とか目をむいてたわwww
Re: (スコア:0)
藤井聡太竜王のようにRyzen Threadripperですかね?
Linusは以前にAVX512を嫌う発言をしてたので、Xeonではないと思いますし。
Re: (スコア:0)
コンパイル速度では、今はAMDがかなり強いのですよね。
https://www.phoronix.com/review/amd-ryzen-7900x-7950x-linux/4 [phoronix.com]
これはコンシューマ向けのCPUだけど、サーバ向けも同様。
EPYC使わない理由が無いぐらいに差があるので、この分野でXeonを選ぶ理由が無い。
Re: (スコア:0)
1ビットのパリティだと偶数個ビット死んだとき分からないんじゃなかったかな。
あとは、負荷かけたときに不意にエラー出るとか癖が悪いとECCすり抜けるかも。
月に一回はmemtest86回すといいかもね。
windows update掛かったときとかにでも。
Re: (スコア:0)
あと、#4342592が書いてるようにメモリセル以外の場所、たとえばエラー訂正ロジックやアドレス選択などの部分が不安定になったらECCではどうにもならない。
部品点数やDRAMの原理的な不安定さから、一番エラーが発生しやすいのはメモリセルだけどね。