ウェブサイトのA/Bテストの例。訪問者にボタン要素のデザインのみが異なる2つのバージョンのウェブサイトをランダムに提供することで、2つのデザインの相対的な効果を測定することができる。
A/Bテスト (英 : A/B testing )(バケットテスト 、スプリットランテスト 、スプリットテスト としても知られる)は、ユーザーエクスペリエンス の研究手法である[ 1] 。A/Bテストは、通常2つの変数(AとB)を含むランダム化実験(英語版 ) から構成されるが[ 2] [ 3] [ 4] 、この概念は同じ変数の複数のバリエーションにも拡張することができる。これには仮説検定 または統計学 の分野で使用される「二標本仮説検定(英語版 ) 」の適用が含まれる。A/Bテストは、単一の変数 (数学) の複数のバージョンを比較する方法であり、例えば被験者のバリアントAに対する反応をバリアントBと比較し、どちらのバリアントがより効果的かを判断する[ 5] 。
多変量テストまたは多項テストはA/Bテストに似ているが、同時に2つ以上のバージョンをテストしたり、より多くのコントロールを使用したりする場合がある。単純なA/Bテストは、観測 、準実験的(英語版 ) または他の非実験的(英語版 ) な状況(調査データ、オフラインデータ、その他のより複雑な現象で一般的)には有効ではない。
定義
「A/Bテスト」は、単一のベクトル変数(英語版 ) のいくつかのサンプル(例:AとB)を比較する、単純なランダム化された制御(英語版 ) 実験の略称である[ 1] 。A/Bテストは、特に2つの変数のみを含む場合、最も単純な形式の制御実験と広く考えられている。しかし、テストにより多くの変数を追加することで、その複雑さは増加する[ 6] 。
以下の例は、単一変数のA/Bテストを示している:
ある企業が2,000人の顧客データベース を持っており、ウェブサイトを通じて売上を生み出すために割引コードを含むメールキャンペーンを作成することを決定したとする。企業は、異なるコールトゥアクション(顧客に何かをするよう促すコピーの部分 - 販売キャンペーンの場合は購入を促す)と識別用のプロモーションコードを含む2つのバージョンのメールを作成する。
1,000人に対して、「オファーは今週土曜日で終了!コードA1を使用」というコールトゥアクションを含むメールを送信する。
残りの1,000人に対して、「オファーは間もなく終了!コードB1を使用」というコールトゥアクションを含むメールを送信する。
メールのコピーとレイアウトの他の要素はすべて同一である。
その後、企業はプロモーションコードの使用を分析することで、どちらのキャンペーンの成功率が高いかを監視する。コードA1を使用したメールは5%の回答率(英語版 ) (メールを受け取った1,000人のうち50人がコードを使用して製品を購入)、コードB1を使用したメールは3%の回答率(受信者のうち30人がコードを使用して製品を購入)となった。したがって、企業はこの場合、最初のコールトゥアクションがより効果的であると判断し、今後の販売で使用することにする。より洗練されたアプローチでは、A1とB1の間の回答率の違いが有意 であるかどうか(つまり、その違いが実際のもので、再現可能で、偶然によるものではない可能性が高いかどうか)を判断するために統計的検定を適用する[ 7] 。
上記の例では、テストの目的は顧客に購入を促す最も効果的な方法を決定することである。しかし、もしテストの目的がどちらのメールがより高いクリック率(英語版 ) —つまり、メールを受け取った後に実際にウェブサイトをクリックした人数—を生成するかを確認することであれば、結果は異なる可能性がある。
例えば、コードB1を受け取った顧客の方が多くウェブサイトにアクセスしたとしても、コールトゥアクションにプロモーションの終了日が記載されていなかったため、多くの顧客が即座に購入する緊急性を感じなかった可能性がある。したがって、テストの目的が単にどちらのメールがより多くのトラフィックをウェブサイトにもたらすかを確認することであれば、コードB1を含むメールの方が成功していた可能性が高い。A/Bテストは、売上の数、クリック率の変換、または登録/登録する人数など、測定可能な定義された結果を持つべきである[ 8] 。
一般的な検定統計量
二標本仮説検定(英語版 ) は、実験における2つの制御ケースによって分割されたサンプルを比較する際に適切である。Z検定 は、正規性と既知の標準偏差に関する厳密な条件下で平均を比較する際に適切である。T検定 は、より少ない仮定のもとで緩和された条件下で平均を比較する際に適切である。ウェルチのt検定 は最も少ない仮定で済むため、メトリックの平均 を最適化する二標本仮説検定 で最も一般的に使用される検定である。最適化する変数の平均が最も一般的な推定量 の選択であるが、他の方法も定期的に使用される。
クリック率(英語版 ) のような2つの二項分布 の比較には、フィッシャーの正確確率検定 を使用する。
セグメンテーションとターゲティング
A/Bテストは最も一般的に、全てのユーザーに対して同じバリアント(例:ユーザーインターフェース要素)を等しい確率で適用する。しかし、状況によっては、バリアントへの反応が異質である可能性がある。つまり、バリアントAが全体的に高い反応率を持っている一方で、顧客基盤の特定のセグメント内ではバリアントBがさらに高い反応率を持つ可能性がある[ 10] 。
例えば、上記の例では、性別による反応率の内訳は以下のようになっていた可能性がある:
性別
全体
男性
女性
総送信数
2,000
1,000
1,000
総反応数
80
35
45
バリアントA
50 / 1,000 (5%)
10 / 500 (2%)
40 / 500 (8%)
バリアントB
30 / 1,000 (3%)
25 / 500 (5%)
5 / 500 (1%)
この場合、バリアントAが全体的に高い反応率を示したが、男性に関してはバリアントBの方が実際には高い反応率を示したことがわかる。
その結果、企業はA/Bテストに基づいてセグメント化された戦略を選択し、将来的に男性にはバリアントB、女性にはバリアントAを送信することになるかもしれない。この例では、セグメント化された戦略により、期待される反応率は
5
%
=
40
+
10
500
+
500
{\textstyle 5\%={\frac {40+10}{500+500}}}
A/Bテストを使用したHTTPルーター
A/Bテストは、新しいバージョンのAPIをデプロイする際に非常に一般的である[ 29] 。リアルタイムのユーザー体験テストのために、HTTP のレイヤー7 リバースプロキシ は、HTTPネットワークトラフィック のN %が新しいバージョンのバックエンドインスタンスに向かい、残りの100-N %のHTTPトラフィックが(安定した)古いバージョンのバックエンドHTTPアプリケーションサービスに向かうように設定される[ 29] 。これは通常、新しいバージョンにバグがある場合、総ユーザーエージェント またはクライアントのN %のみが影響を受け、他は安定したバックエンドにルーティングされるように、顧客の新しいバックエンドインスタンスへの露出を制限する ために行われ、これは一般的なイングレス制御メカニズムである[ 29] 。
出典
^ a b Young, Scott W. H. (August 2014). “Improving Library User Experience with A/B Testing: Principles and Process”. Weave: Journal of Library User Experience 1 (1). doi :10.3998/weave.12535642.0001.101 . hdl :2027/spo.12535642.0001.101 .
^ Kohavi, Ron; Xu, Ya; Tang, Diane (2000). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing . Cambridge University Press. オリジナル の22 October 2021時点におけるアーカイブ。. https://web.archive.org/web/20211022221504/https://experimentguide.com/ 2021年10月22日閲覧。
^ Kohavi, Ron; Longbotham, Roger (2023). "Online Controlled Experiments and A/B Tests" . In Phung, Dinh; Webb, Geoff; Sammut, Claude (eds.). Encyclopedia of Machine Learning and Data Science . Springer. pp. 891–892. doi :10.1007/978-1-4899-7502-7_891-2 . ISBN 978-1-4899-7502-7 . 2023年4月21日時点のオリジナルよりアーカイブ 。2023年4月21日閲覧 。
^ a b c Kohavi, Ron; Thomke, Stefan (September–October 2017). "The Surprising Power of Online Experiments" . Harvard Business Review . pp. 74–82. 2021年8月14日時点のオリジナルよりアーカイブ 。2020年1月27日閲覧 。
^ a b c Hanington, Jenna (2012年7月12日). “The ABCs of A/B Testing ” (英語). Pardot . 2015年12月24日時点のオリジナル よりアーカイブ。2016年2月21日閲覧。
^ Kohavi, Ron; Longbotham, Roger (2017). “Online Controlled Experiments and A/B Testing”. Encyclopedia of Machine Learning and Data Mining . pp. 922–929. doi :10.1007/978-1-4899-7687-1_891 . ISBN 978-1-4899-7685-7
^ “The Math Behind A/B Testing ”. developer.amazon.com . 2015年9月21日時点のオリジナル よりアーカイブ。2015年4月12日閲覧。
^ Kohavi, Ron; Longbotham, Roger; Sommerfield, Dan; Henne, Randal M. (February 2009). “Controlled experiments on the web: survey and practical guide”. Data Mining and Knowledge Discovery 18 (1): 140–181. doi :10.1007/s10618-008-0114-1 .
^ Krishnamoorthy, K.; Thomson, Jessica (2004). “A more powerful test for comparing two Poisson means”. Journal of Statistical Planning and Inference 119 : 23–35. doi :10.1016/S0378-3758(02)00408-1 .
^ “Advanced A/B Testing Tactics That You Should Know | Testing & Usability ”. Online-behavior.com . 2014年3月19日時点のオリジナル よりアーカイブ。2014年3月18日閲覧。
^ “Eight Ways You've Misconfigured Your A/B Test ”. Dr. Jason Davis (2013年9月12日). 2014年3月18日時点のオリジナルよりアーカイブ 。2014年3月18日閲覧。 en:Template:self-published source
^ Statt, Nick (2016年5月9日). “Google is experimenting with turning search results from blue to black ” (英語). The Verge . 2024年9月25日閲覧。
^ Deng, Alex (February 2013). Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data . WSDM '13: Proceedings of the sixth ACM international conference on Web search and data mining. doi :10.1145/2433396.2433413 。
^ Sexauer, Craig (2023年5月18日). “CUPED Explained ”. 2024年9月4日時点のオリジナルよりアーカイブ 。2024年9月11日閲覧。
^ Gupta, Somit; Kohavi, Ronny; Tang, Diane; Xu, Ya; Andersen, Reid; Bakshy, Eytan; Cardin, Niall; Chandran, Sumitha et al. (June 2019). “Top Challenges from the first Practical Online Controlled Experiments Summit” . SIGKDD Explorations 21 (1): 20–35. doi :10.1145/3331651.3331655 . オリジナル の13 October 2021時点におけるアーカイブ。. https://web.archive.org/web/20211013165632/https://exp-platform.com/top-challenges-from-first-practical-online-controlled-experiments-summit/ 2021年10月24日閲覧。 .
^ Stolberg, M (December 2006). “Inventing the randomized double-blind trial: the Nuremberg salt test of 1835” . Journal of the Royal Society of Medicine 99 (12): 642–643. doi :10.1177/014107680609901216 . PMC 1676327 . PMID 17139070 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1676327/ .
^ “What is A/B Testing ”. Convertize . 2020年8月17日時点のオリジナルよりアーカイブ 。2020年1月28日閲覧。
^ “Claude Hopkins Turned Advertising Into A Science ”. インベスターズ・ビジネス・デイリー(英語版 ) (2018年12月20日). 2021年8月10日時点のオリジナルよりアーカイブ 。2019年11月1日閲覧。
^ Pereira, Ron (2007年6月20日). “How beer influenced statistics ”. Gemba Academy . 2015年1月5日時点のオリジナルよりアーカイブ 。2014年7月22日閲覧。
^ Box, Joan Fisher (1987). “Guinness, Gosset, Fisher, and Small Samples”. Statistical Science 2 (1): 45–52. doi :10.1214/ss/1177013437 .
^ Christian, Brian (2000年2月27日). “The A/B Test: Inside the Technology That's Changing the Rules of Business ”. Wired Business . 2014年3月17日時点のオリジナルよりアーカイブ 。2014年3月18日閲覧。
^ Christian, Brian. "Test Everything: Notes on the A/B Revolution | Wired Enterprise" . Wired . 2014年3月16日時点のオリジナルよりアーカイブ 。2014年3月18日閲覧 。
^ Cory Doctorow (2012年4月26日). “A/B testing: the secret engine of creation and refinement for the 21st century ”. Boing Boing. 2014年2月9日時点のオリジナルよりアーカイブ 。2014年3月18日閲覧。
^ “A/B Testing: The ABCs of Paid Social Media ” (英語). エニーワード(英語版 ) (2020年1月17日). 2022年3月31日時点のオリジナルよりアーカイブ 。2022年4月8日閲覧。
^ Xu, Ya; Chen, Nanyu; Fernandez, Addrian; Sinno, Omar; Bhasin, Anmol (10 August 2015). “From Infrastructure to Culture: A/B Testing Challenges in Large Scale Social Networks”. Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . pp. 2227–2236. doi :10.1145/2783258.2788602 . ISBN 9781450336642
^ “Split Testing Guide for Online Stores ”. webics.com.au (2012年8月27日). 2021年3月3日時点のオリジナルよりアーカイブ 。2012年8月28日閲覧。
^ Kaufman, Emilie; Cappé, Olivier; Garivier, Aurélien (2014). "On the Complexity of A/B Testing" (PDF) . Proceedings of The 27th Conference on Learning Theory . Vol. 35. pp. 461–481. arXiv :1405.3224 . Bibcode :2014arXiv1405.3224K . 2021年7月7日時点のオリジナルよりアーカイブ (PDF) 。2020年2月27日閲覧 。
^ a b Siroker, Dan; Koomen, Pete (2013-08-07). A / B Testing: The Most Powerful Way to Turn Clicks Into Customers . John Wiley & Sons. ISBN 978-1-118-65920-5 . オリジナル の17 August 2021時点におけるアーカイブ。. https://web.archive.org/web/20210817043106/https://books.google.com/books?id=VfVvAAAAQBAJ&q=A/B%20Testing&pg=PT13 2020年10月15日閲覧。
^ a b c Szucs, Sandor (2018). Modern HTTP Routing (PDF) . LISA 2018. Usenix.org . 2021年9月1日時点のオリジナルよりアーカイブ (PDF) 。2021年9月1日閲覧 。
関連項目
The "box" approach テストレベル Testing types, techniques, and tactics 関連項目
カテゴリ