リーナス・トーバルズ氏が使用するPCのメモリ不良のためLinuxカーネルの開発が滞る 55
ストーリー by nagazou
突然死 部門より
突然死 部門より
Linuxの生みの親であるLinus Torvalds氏はメーリングリストで、Linuxカーネルのバージョン6.1のコードのマージが遅れていると告知した。「新しいECCメモリDIMMが届く」のを待っているためだという。同氏によればここ2、3日ほどメインのデスクトップPCが不安定となっており、allmodconfigのビルドがコンパイラの内部エラーで失敗する事例が多発していたらしい(Linus Torvalds氏のメール、The Register)。
こうした場合は、たいていは新しいカーネルのバグだとして原因を探していたがものの、バグではなく原因はPC側の不調だったそうだ。Memtest86+を回して確認したところ、メモリエラーが起きていたことが判明したとしている。仕方ないのでメモリが届くまでラップトップを使って、ゆっくりとカーネルのマージをおこなっていたとのこと。
こうした場合は、たいていは新しいカーネルのバグだとして原因を探していたがものの、バグではなく原因はPC側の不調だったそうだ。Memtest86+を回して確認したところ、メモリエラーが起きていたことが判明したとしている。仕方ないのでメモリが届くまでラップトップを使って、ゆっくりとカーネルのマージをおこなっていたとのこと。
カーネル・サンダース (スコア:0)
カーネル開発のトップなんだから、予備含めてメモリ3ダース位送ってあげてよ。
Re: (スコア:0)
カーネル開発のトップなんだから、予備含めてメモリ3ダース位送ってあげてよ。
つか今どきローカルリソースしか使えないってのもなんだかなぁってとこじゃないかな
マージもテストビルドもクラウドでできんもんなのかね
「マージしといたよ けど俺のマシーンはメモリ交換必要だから さきにおまいらでテストしててちょ」
ってかんじで
Re: (スコア:0)
コメント主ではありませんが;
近頃こういう手合いが増えた気がして世間の世知辛さが身に染みる
# ほんとにカーネル・サンダースって聞いたことないの?
Re: (スコア:0)
ちゃうか?
Re: (スコア:0)
そういうやつには、トラック9台分のテープを送りつけてやれ
# だっけ?
Re: (スコア:0)
なにそれ
Re: (スコア:0)
気の早いクリスマスですか。
Re: (スコア:0)
クリスマスが今年もやってくる♪
// クリスマスにケンタッキーを食べるのは日本人だけ
Re: (スコア:0)
// ケンタというか、チキンを食うというと、本場の人(ターキーを食う人)は笑うそうですよw
Re: (スコア:0)
マルチバースからやってきた悪のカーネルサンダースを倒すために全マルチバースの正義のカーネルサンダースがジャスティスリーグにさんかするんですか?
Re: (スコア:0)
バースが何人もいたら、悪のカーネルサンダースはすぐに道頓堀に沈められてしまうのでは
#今年はまだ可能性がわずかに
カーネルのビルドでコンパイラがエラーと聞くと (スコア:0)
Ryzen SEGV Battleを思い出しますね
ECCメモリ (スコア:0)
ECCメモリって壊れると不安定になるの?
異常が発生したらエラーを出すとか、コンピュータを停止するなどして不定な結果を残すさないなどの仕組みがあると思っていた。
不安定になっておかしな挙動をするなら普通のメモリと変わらないんじゃない?
Re: (スコア:0)
ECCメモリって壊れると不安定になるの?
べつにECCでなくてもメモリエラーならコンパイルエラーでるもんでしょ
小さなものならたまたまエラー領域踏まずに通ることもあるけどね
Re: (スコア:0)
ECCメモリって壊れると不安定になるの
ECCのチェックは物理故障のためではなくデータ化けなどのソフトエラー訂正なので
今回のような物理故障は訂正の対象外なのですよ
Re: (スコア:0)
単純なSECDEDとすると、固定故障も1つなら救えるけど、救ってる段階でただのパリティーつきメモリみたいなものになる。
それはECCではない。でも救ってる。
ログ見て怪しかったら即交換しないとECCメモリの意味ないよね。パリティーメモリとほぼ同じ。
Re: (スコア:0)
今まで非ECCメモリ使ってたけど不安定になったからECCメモリに切り替えたと読んだけど違うのかな。
ECCメモリ使ったことないから故障時の挙動が分からんというか、使ったことあってもメモリが壊れる事態は稀か。
Re: (スコア:0)
物理故障ならECCの有無に差はないよ
データ化けのエラー訂正があるか否かの違いしか無い
物理故障で正しくぶっ壊れているなら訂正しようがない
Re: (スコア:0)
メモリの物理故障って大抵データが化けるんじゃないか?
書き込み時・読み込み時に狂ったデータを返すってんなら分からない理屈だろうけど、メモリの故障って正常に書き込んだデータを読み出す時に違う値になってるってもんじゃないの?
ただでさえメモリの故障は稀だけど、ECCで訂正できないだけじゃなくMemtest86+回すまで確信できない壊れ方なんてするもんかな。
実はCPU側とかが壊れてるなら分かるけど。
ECC付きRAM使ってても (スコア:0)
メモリーチェッカー使わないと故障がわからないのか
Re:ECC付きRAM使ってても (スコア:2)
ECCは64bit中1bitまで補正(回復)できて、2bitまでは検出できる、とかなのでそれを超えたら無力。
# rm -rf ./.
Re:ECC付きRAM使ってても (スコア:1)
一般的なLinuxディストリビューションなら/var/messagesにエラーが出力されますよ。
Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 16 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 6 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 32745 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
こんな感じ。
Re: (スコア:0)
Windowsだとログに出ないから見られないよね。
Re: (スコア:0)
>Windowsだとログに出ない
本当に?ちゃんと確認した?
Re: (スコア:0)
NT4時代でもシステムログにBMCやIPMIとかのドライバが吐いてくれたぞ。
今時の標準的な実装なら、ソースが Microsoft-Windows-WHEA-Logger [microsoft.com](GUIならWHEA-Logge)で記録されてる。
※メモリエラー時の中身はこんなの [microsoft.com]
Re: (スコア:0)
> 自動的に該当メモリブロックを使わないようになる
Linuxにもこれに相当する悲しきパッチとかありませんでしたっけ。
たしか手動でメモリブロックを指定した気が。
Re: (スコア:0)
BadRAM [linuxjf.osdn.jp]かな?
# 20年近く前のDebianのインストールガイドとかに避け方とか書いて有ったような薄い記憶。
Re: (スコア:0)
パッチを当てなくても使用するか使用しない物理アドレスを指定できて歯抜けもできたよ。
昔特定アドレスが故障したDIMM使ってた。
カーネルコマンドラインのこれかなあ?
memmap=
Re: (スコア:0)
memmap=nn[KMG]$ss[KMG] [kernel.org]だね。
あくまで予約なのでDMAとかで触れたときに貫通しそうだけど未確認。
LinusはECC付きRAMを使っていなかった (スコア:1)
Linus本人がメールに書いてる
普段はECC付きを使うんだけど、今使ってるデスクトップを組んだ時はコロナ禍でECCが高くて買う気になれず、そのままECC無しRAMを購入、そのまま使い続けていた。で、今回メモリエラー発生。ECC付きメモリを購入。 ってことみたい。
Re: (スコア:0)
あれだけIntelは一般向けにECC使わせないのはけしからん!!って騒いだのに?
それにLinusほどの人がメモリの代金ケチってECC無しを買うというのがちょっと意外。
それなりに稼いでると思ってたけど。
立場を考えればECC有無どころかマシンだって何重にも予備があってもよさそうなのに。
Re: LinusはECC付きRAMを使っていなかった (スコア:1)
以前、Linusが新調したPCのスペックで
CPUだけで80万ぐらいしてたのを見て
わいのメインPC何台買えるんだよ!とか目をむいてたわwww
Re: (スコア:0)
藤井聡太竜王のようにRyzen Threadripperですかね?
Linusは以前にAVX512を嫌う発言をしてたので、Xeonではないと思いますし。
Re: (スコア:0)
コンパイル速度では、今はAMDがかなり強いのですよね。
https://www.phoronix.com/review/amd-ryzen-7900x-7950x-linux/4 [phoronix.com]
これはコンシューマ向けのCPUだけど、サーバ向けも同様。
EPYC使わない理由が無いぐらいに差があるので、この分野でXeonを選ぶ理由が無い。
Re: (スコア:0)
1ビットのパリティだと偶数個ビット死んだとき分からないんじゃなかったかな。
あとは、負荷かけたときに不意にエラー出るとか癖が悪いとECCすり抜けるかも。
月に一回はmemtest86回すといいかもね。
windows update掛かったときとかにでも。
Re: (スコア:0)
あと、#4342592が書いてるようにメモリセル以外の場所、たとえばエラー訂正ロジックやアドレス選択などの部分が不安定になったらECCではどうにもならない。
部品点数やDRAMの原理的な不安定さから、一番エラーが発生しやすいのはメモリセルだけどね。
昔からこの人メモリでトラブってる気がする (スコア:0)
以前にも、ECCメモリを標準にすべし!とか吠えていなかったっけこの人。
他の人も言ってるけど、マシンまるごと予備機スタンバっておけばいいのにね
マシンまるごとミラーリングするのってなかったっけ?
Re: (スコア:0)
BCPがなってないというか何というか
何かあったときのバックアップ環境を用意する費用やら人員やら余裕で調達できそうなものだけど
Re: (スコア:0)
きっと安心して使えるこだわりのものがあるんですよ。
Linusの安心毛布って奴で。
Re: (スコア:0)
マシンを正副予備の三系統用意すると。
Re: (スコア:0)
普通のPCでもメモリミラーリングぐらいできてもよさそうなのにそんなに難しい技術なんか
Re: (スコア:0)
ミラーリングって、どっちかが稼働しないくらいに壊れたときにしか意味無いのでは?
マージ作業ぐらい (スコア:0)
言ってくれればこっちでやるのに。
Re: (スコア:0)
ま-じ?
Linusパソコン壊し過ぎじゃね?w (スコア:0)
なんか少し前にもPCが不調でコミット遅れてなかったっけ?それだけカーネル開発はPCを酷使するってこと?
Re: (スコア:0)
Linux世界の事実上のトップともあろう人物が障害対策出来てないって正直どうなん。
Linusが突然ポックリ逝った場合誰も何も出来ないというオチにならないよね?
Re: (スコア:0)
バックアップ機が移動用のノートしかないというのは驚きだが、
趣味のボランティアだと考えたらそんなものか。
Linusの本業が今はなんなのか知らないが、本業用の環境を濫用とかはしてないんだね。
結局、人なの? (スコア:0)
一人のPCが使えなくなるだけでリリースが遅れるもんなのか……
Linuxの文化はよくわからないけど中央集権的なものなのかね
Re: 結局、人なの? (スコア:2)
cf. <A HREF="https://ja.wikipedia.org/wiki/%E5%84%AA%E3%81%97%E3%81%84%E7%B5%82%E8%BA%AB%E3%81%AE%E7%8B%AC%E8%A3%81%E8%80%85">これ
// 単に最終的な決定者であるって話ではある
Re:結局、人なの? (スコア:1)
最終的なマージを中央集権にしなかったらコンフリクト(単にコードの字面上の意味でも、変更されたコード間の整合性の意味でも)が起こって動かないものができるだけやんけ