こんにちは。NewsPicks App Reader Experience Unit でエンジニアしている青木です。

NewsPicks では日々のサービス改善において AB テストを数多く実施しています。施策毎に AB テストを柔軟に実施できるのは過去紹介した AB テスト基盤があってこそです。

https://tech.uzabase.com/entry/2022/12/25/183334

App Reader Experience Unit（以下 ARX）でも上記の AB テスト基盤を使ってモバイルアプリの改善を行なっています。今回は ARX で AB テストを行う際に特に大事にしていることについてお話ししていきます。

ABテストの結果よりも大事なたった一つのこと
目的 ~ AB テストの結果が良かったから施策を適用するわけではない ~
仮説 ~ 事前調査に基づく観点での仮説検証 ~
分析 ~ 段階的に分析を行いブラッシュアップしていく ~
学び ~ 結果ではなくユーザーの何がわかったか ~
おわりに

ABテストの結果よりも大事なたった一つのこと

結論から話すと、AB テストは手段であり、その目的はユーザーの行動理解を深めることであるということを大事にしています。

施策を適用するための良し悪しを図るために AB テストを行うのではなく、ユーザーの行動変化をみる為に実験します。（目的 ~ AB テストの結果が良かったから施策を適用するわけではない ~ ）

ユーザーの行動理解を深めるという目的のもと施策を打ち出していくので、基本的にはユーザーはどのようにアプリを使いたいかの仮説を立てるところから考えます。（仮説 ~ 事前調査に基づく観点での仮説検証 ~）

仮説から AB テストを開始したら分析を行なっていきます。分析は AB テストが終わるのを待たず開始し、初速分析・追加分析・まとめ分析と段階的に分析を行います。（分析 ~ 段階的に分析を行いブラッシュアップしていく ~ ）

分析結果から次の施策に向けて学びをまとめていきます。ユーザーの行動理解についての学びを中心にまとめていくことで施策の精度を上げていく事ができます。（学び ~ 結果ではなくユーザーの何がわかったか ~ ）

目的 ~ AB テストの結果が良かったから施策を適用するわけではない ~

繰り返しになりますが AB テストの先にユーザーの行動理解を深めるという目的があります。

なので AB テストは必ずしも既存のパターンと新しい体験のパターンで実験するばかりではありません。ユーザーの行動を理解を深める為の実験的な AB テストを行うこともあります。

以下は NewsPicks のメインフィードの並びによってユーザーの行動がどのように変化するのかを実験した事例になります。

NewsPicks のメインフィードはセクションという単位で記事の集まりの並びで成り立っており、その並びは一定となっています。並びをユーザー毎に最適化した結果を予測するために、セクションの中でも潜在的にタップ率が高いセクションをフィード上位に出すことでユーザーの行動がどう変化するかを実験しました。

この実験は勝者を適用するためのものではないので結果が取れたところで終了しました。実験の結果タップ率の変化の傾向(上図の赤丸で示した部分)がわかり、本格的な実装をする際の費用対効果を検討する材料とすることが出来ました。

仮説 ~ 事前調査に基づく観点での仮説検証 ~

仮説を立てる際には根拠となる現状のデータからの事前調査や競合分析を行い、ユーザーはXXXXを望んでいる というフォーマットで考えます。仮説を立てたらそれを検証するための AB テストを実施し分析します。

例として事前調査や日々のユーザーとしての経験から、 NewsPicks のメインフィードから情報を得る際には ユーザーはコメントではなく最初に記事を読みたい という仮説をたてて実験を行いました。

事前調査では記事部分をタップした時の方が平均コメント閲読数が多いことがわかっていました。仮説が正しければテストパターンではよりコメント閲読数が高くなり記事閲読数も増えると考えられたので、分析時には実際にそうなっているかを見ていきます。多くの場合で最初に立てた仮説は荒く、予想通りにはならないです。

分析 ~ 段階的に分析を行いブラッシュアップしていく ~

仮説が荒いほど検証方法自体がズレている可能性があるので分析は AB テストが終わるまで待たず、AB テスト開始時点から以下のように段階的に行います。

初速分析：仮説検証に必要なデータが集まっているか、想定以上のネガティブな影響が出ていないかをチェックします
追加分析：仮説検証に必要なデータからどのような観点で分析を行うとより仮説が確からしいといえるかを議論・分析を行います
まとめ分析：追加分析の結果から仮説が確からしいといえる証拠を収集し、レポートにまとめます

NewsPicks のメインフィードへの新機能話題をまとめ読みの導入検証では初速分析段階では利用率が低く、効果を測るために十分なデータが集まっていませんでした。

そこで効果検証の前になぜ利用率が低いのかを分析することにし、本プロジェクトに関わりのない社員を最も近くにいるユーザーと捉え、ユーザーインタビューを行うことにしました。

新機能の強みと弱みを把握した上で新デザインを作成し、旧デザインと AB テストを実施することで効果の高い結果を得る事ができました。

一度の分析で終わってしまうと効果が得られなかった場合に再度検証内容を考え直すところから手戻りが発生してしまいます。 AB テストを開始した早い時点から段階的に分析し検証中にブラッシュアップしていくことでより効果の高い検証結果を得る事ができます。

学び ~ 結果ではなくユーザーの何がわかったか ~

AB テスト実施後は分析レポートを作成し、ユーザーの行動理解を中心に学んだ事をまとめて共有します。ユーザーの行動理解を学びとすると 以前のこういった学びがあるからこのデータからはこういう事が言えるだろう という仮説の確らしさが初期段階から高くなり、より適切な検証を実施する事ができるようになります。

AB テストの結果がどうであったかではなく、ユーザーの行動理解を中心に学びをストックしていくとプロダクト全体の新しい施策の精度向上に繋がっていきます。