Nvidia driverの515.65, 515.76に問題があった

PCを買い直した

少し前だが6月にPCを新しくしたが、Ubuntu + Nvidiaで問題が発生したのでメモしておく

 

構成としてはこんな感じ

- Intel Core i7-12700

- ASUS TUF GAMING Z690-PLUS WIFI D4 [Intel Z690chipset]

- DDR4 32GBx2枚 + 余っていた16GBx2枚で合計96GB

- MSI GeForce RTX 3060 Ti

 

以前のはメモリがギリギリだったしグラフィックがかなり古くゲームするにもきつきつ状態だったがグラフィックは値段が高騰していて手が出せず我慢してやっと手が出せる値段になったタイミングだった

 

とは言え色々タイミングがつかず7月後半にPC設定を行う

まあ面倒なのでいつもどおりUbuntuで20.04を採用

というのが前置き

 

Kernelが定期的に落ちる

問題は作業中にKernelが突然死ぬ問題が頻発し始める

突然死ぬからlogを見ることすらできず原因が一切わからずだましだまし使っていた

 

対策1

色々頑張って探しているとsplit lockという機能がありこれが原因の可能性があるのではないかと疑い始める

CPUが対象だしkernelが突然死する可能性があるとのことで `split_lock_detect=off` をgrub2のパラメータに指定して様子見

lwn.net

が、結局これは意味がなかった。まあ設定しておいて問題は無いだろうけど

 

対策2

Steamでゲームをしているときに落ちやすかったように感じSteamを一時封印するが結局意味がない

落ちるタイミングはZoom使用中だったりコーディング中だったりでバラバラ

PCを買い直してSteamの動作を色々確認してた時期だったのでタイミングが一致しやすかっただけだったと結論づける

 

対策3

結局だましだまし使い続けて落ちたら起動し直しを繰り返しつつ頑張っているが、居つからか安定して動いていることに気づく

じゃあ実験とのことでSteamを起動しようとするとそもそも起動しない。まあこういう場合ドライバーの更新が入って再起動が必要というのが今までのパターン

と思い再起動をかけると画面が真っ暗となり何もできない現象に陥る

 

ssh自体は有効だったのでdmesgなどを確認しつつ検索するとこれがヒットする

Nvdiaのドライバーのバージョンや時期も一致している。まあ間違いが無いだろう

 

forums.developer.nvidia.com

 

ということでdriverのバージョンを見るので `apt list -a|grep nvidia-driver|grep 515` すると最新バージョンしか存在しない

が、nvidia-driver-515-serverというのがありこれだと1つ前のバージョンなのでまあいいかとこれに入れ替えを行うと見事に起動する。が、Kernelの突然死の現象も再現するように...

対策

まあここまでくれば原因は推測ができる

- nvidia-driver 515.65は動作するがKernelの突然死が発生する

 - 注意したいのは自分の環境では確認しているが他の環境では不明

- nvidia-driver 515.76はそもそも動作しない

  - Display Portだと動作するという報告はあるので、接続方式次第かもだけど今更DPもねぇ...

 

となれば対策は簡単だ。aptに存在しない以上、Nvidia公式からドライバーをインストールすれば良い

公式からだと 515.65の更に前は515.57だ。これをインストールした所1週間安定して動作してSteamのゲームも快適に動作している

ちょっと古いが当面はこれで運用していくこととしよう! と思っていたらUbuntu 22.10が出たようだけど新しいドライバがでるまではちょっと待ちになりそうです

まともに動作しなさそうだし...

 

11-03 追記

nvidia-driver-515に 515.76+reallyというバージョンが出ていて、これで起動後の真っ暗になる問題は解決らしい

さらにnvidia-driver-520(520.56.06)というのも出ている。これを現在使用しているが問題は発生していないので今現時点ならばこれを利用するのが良いだろう