New Relic ハンズオン: SLI/SLO䛾設計䛾基本 NRU 303 - SLI / SLO
メモ
- 信頼性 → イノベーション(開発) の順で行う。
- どうやって信頼性を計測するの?
- SLOを利用
- アラート対応は優先度付して行う
- 類似の言葉
- SLA
- サービスが止まった場合に返金するなどの対応
- SLI
- ユーザから計測したメトリクス(レスポンス速度)
- SLA
- エラーバジェット(エラー予算)
- SLO以下にならないようにする
- SLO、 SLI活用ステップ
- ユーザジャーニを定義
- システム構成
- SLIを定義
- SLI = Good Event(良いイベント) / Valid Event(総イベント)
- Core Web Vitals
- LCP
- 画像読み込み
- FID
- リンクの反応
- CLS
- 画像のずれ
- LCP
- Golden Signals
- SLOを定義
- 22ページの表がわかりやすい
- SLOのUptimeは99.999%は人力では無理
- SLIの計測
- ???
- NewRelicが利用できる
- エラーバジェットを活用
- ???
- SLI/SLOを見直す
- ???
- ユーザジャーニを定義
- SLOを利用
QA
Q:
ボタン押下などユーザがアクションをして次ページの表示までは、一般的には何秒以内が理想的などはありますでしょうか?0.5秒以内など。
A:
目標値はあくまでも機能やデザインなど様々な要素によって変化するため一律に決定することは出来ませんが、Google等による調査や実験では1秒以上かかる場合ユーザーはその操作について関心を失い
100−300ミリ秒で遅いと感じるとされています。
ボタンの反応時間と画面遷移による再描画などでは当然、ユーザーが感じる閾値となる時間は異なります。
完全な画面遷移であれば2.5秒以内が推奨されています。
Q:
Synthetic monitorsのグラフで”Performance timings”、”Duration by domain”でグラフが欠けているように見える箇所がございます。
”Total requests by domain”、”Average size by resource type”は掛けておらず0へ急降下しているようなグラフに見えます。
クエリの計算式上の都合でそのようになっているのでしょうか?
A:
過去30分の時間範囲でデータ描画を行っている場合
1分毎のデータデータポイントをプロットしています。
応答の遅れなどによってデータ同士の間隔が1分以上離れる事があるため、その場合はその1分が欠けているように見えてしまっています。
実際にはResultsをご覧頂きますとデータ間隔が開いた時および詰まった時を確認していただけます。
Q:
ユーザごとにID・パスワードを使ってログインし、ログイン後に表示されるようなページも、ログインボタン押下から次ページ表示までの時間を計測できるのでしょうか?
A:
ユーザーアクションの観測としては、BrowserおよびAPMエージェントにて分散トレーシングを利用いただくことで計測が可能です。
外型監視のSynthetic Monitorにおいては、StepMoniterという監視パターンにて計測が可能です
外形監視においてはID/PWを扱う監視についてはScript Browserをご活用いただいた方が良いかもしれません。