🧪 STEP 20: A/Bテストの設計

科学的にWebサイト・アプリの改善効果を検証しよう

📋 このステップで学ぶこと

A/Bテストとは何か
A/Bテストの設計方法
サンプルサイズの決め方
結果の統計的検定
実務での注意点とベストプラクティス

学習時間の目安：4時間

🔍 1. A/Bテストとは

A/Bテストの基本

📌 A/Bテストの定義

2つのバージョン（AとB）を比較して、どちらが効果的かを科学的に検証する実験

別名：
・スプリットテスト
・バケットテスト
・ランダム化比較試験（RCT）のWeb版

基本的な流れ：
1. ユーザーをランダムにA群とB群に分ける
2. A群には現行版（コントロール）、B群には新版（トリートメント）
3. 両群の結果を比較して、統計的に差があるか検証

なぜA/Bテストが必要か

💡 A/Bテストなしの意思決定の問題点

「感覚」や「経験」だけでは…

問題点：
・偶然の変動を見逃す
・他の要因（季節、曜日など）の影響を区別できない
・個人の好みやバイアスが入る
・「前より良くなった気がする」では根拠にならない

A/Bテストのメリット：
・因果関係を証明できる（ランダム化のおかげ）
・統計的な確実性がわかる
・他の要因の影響を排除できる
・データに基づく客観的な意思決定ができる

A/Bテストの活用例

テスト対象	A（コントロール）	B（トリートメント）	目標指標
ボタンの色	青色ボタン	緑色ボタン	クリック率
価格表示	¥1,000	¥980	購入率
メール件名	「お知らせ」	「限定30%OFF」	開封率
レイアウト	1カラム	2カラム	滞在時間
CTA文言	「購入する」	「今すぐ手に入れる」	コンバージョン率

📐 2. A/Bテストの設計

設計の5ステップ

📌 A/Bテスト設計の流れ

ステップ1：仮説を立てる
「〇〇を変更すると、△△が改善する」

ステップ2：目標指標（KPI）を決める
クリック率、コンバージョン率、滞在時間など

ステップ3：サンプルサイズを計算する
何人のユーザーが必要か？

ステップ4：テストを実行する
ランダムに割り当て、データを収集

ステップ5：結果を分析する
統計的検定を行い、判断

仮説の立て方

💡 良い仮説の例

フォーマット：
「【変更内容】を行うと、【目標指標】が【方向】する。なぜなら【理由】だから。」

良い例：
「購入ボタンを青から緑に変更すると、クリック率が上がる。なぜなら、緑は『進む』を連想させ、アクションを促すから。」

悪い例：
・「サイトを改善したい」→ 具体性がない
・「全部変えてみよう」→ 何が効果的かわからない
・「なんとなく変えてみる」→ 仮説がない

ポイント：
・1つのテストで1つの変更（変数は1つに絞る）
・測定可能な指標を選ぶ
・理由を明確にする

統計的仮説の設定

📊 統計的仮説

帰無仮説（H₀）：
AとBに差はない（変更の効果なし）

対立仮説（H₁）：
AとBに差がある（変更の効果あり）

判定：
p値 < 0.05 → H₀を棄却 → 「統計的に有意な差あり」

📊 3. サンプルサイズの決め方

なぜサンプルサイズが重要か

⚠️ サンプルサイズが小さいと…

問題1：検出力が低い
・本当は効果があるのに、「差がない」と判定してしまう
・良い改善案を見逃す

問題2：偶然の変動に左右される
・たまたまの結果で判断してしまう
・再現性がない

問題3：信頼区間が広い
・「効果は-5%〜+15%」のように幅が広すぎる
・意思決定の役に立たない

サンプルサイズの計算

📌 サンプルサイズに影響する要素

1. ベースライン（現在の値）
例：現在のコンバージョン率 = 5%

2. 最小検出効果（MDE）
検出したい最小の変化
例：5% → 6%（相対的に20%の改善）

3. 有意水準（α）
通常は0.05（5%）
偽陽性（効果がないのに「ある」と判定）の許容率

4. 検出力（1-β）
通常は0.8（80%）
本当に効果があるとき、正しく検出できる確率

Pythonでサンプルサイズを計算

# ============================================
# A/Bテストのサンプルサイズ計算
# ============================================
# なぜサンプルサイズが重要か？
#   → 少なすぎる: 偶然の結果に左右される（信頼できない）
#   → 多すぎる: 時間とコストの無駄
#   → 適切なサイズ: 統計的に有意な差を検出できる最小限

from statsmodels.stats.power import TTestIndPower, NormalIndPower
from statsmodels.stats.proportion import proportion_effectsize
import numpy as np

# ============================================
# パラメータ設定
# ============================================
baseline_rate = 0.05      # 現在のコンバージョン率: 5%
target_rate = 0.06        # 目標のコンバージョン率: 6%（相対20%改善）
alpha = 0.05              # 有意水準（偽陽性の許容率）
power = 0.80              # 検出力（真の効果を検出できる確率）

# ============================================
# 効果量（Effect Size）の計算
# ============================================
# proportion_effectsize(): コンバージョン率の差を標準化
#   → Cohen’s h という指標に変換
#   → これにより、異なるテストを比較可能に
#
# 効果量の目安（Cohen’s h）：
#   0.2: 小さい効果
#   0.5: 中程度の効果
#   0.8: 大きい効果
effect_size = proportion_effectsize(baseline_rate, target_rate)

print(f”【設定値】”)
print(f”現在のCVR: {baseline_rate:.1%}”)
print(f”目標のCVR: {target_rate:.1%}”)
print(f”改善幅: {(target_rate – baseline_rate) / baseline_rate:.1%}”)
print(f”効果量（Cohen’s h）: {effect_size:.4f}”)

# ============================================
# サンプルサイズの計算
# ============================================
# NormalIndPower(): 2群の比率比較用の検出力分析
#
# solve_power(): 必要なサンプルサイズを計算
#   effect_size: 効果量（検出したい差の大きさ）
#   alpha: 有意水準（通常0.05）
#   power: 検出力（通常0.80）
#   ratio: 2群のサンプル比率（1.0 = 1:1）
#   alternative: 検定の方向
#     ‘two-sided’: 両側検定（改善か悪化か分からない場合）
#     ‘larger’: 片側検定（改善のみを検出したい場合）
analysis = NormalIndPower()
sample_size = analysis.solve_power(
    effect_size=effect_size,
    alpha=alpha,
    power=power,
    ratio=1.0,              # A群とB群の比率（1:1）
    alternative=’two-sided’
)

# np.ceil(): 小数を切り上げ（安全側に）
print(f”\n【必要なサンプルサイズ】”)
print(f”各群: {int(np.ceil(sample_size))}人”)
print(f”合計: {int(np.ceil(sample_size)) * 2}人”)

# ============================================
# テスト期間の計算
# ============================================
# サンプルサイズから、必要なテスト期間を逆算
daily_traffic = 1000  # 1日のユーザー数
test_duration = (sample_size * 2) / daily_traffic

print(f”\n【テスト期間の目安】”)
print(f”1日のトラフィック: {daily_traffic}人”)
print(f”必要な期間: 約{int(np.ceil(test_duration))}日”)

print(“\n【ポイント】”)
print(“・検出したい差が小さいほど、多くのサンプルが必要”)
print(“・ベースラインが低いほど、多くのサンプルが必要”)
print(“・検出力80%は「10回中8回は検出できる」という意味”)

# 出力例【設定値】現在のCVR: 5.0% 目標のCVR: 6.0% 改善幅: 20.0% 効果量（Cohen’s h）: 0.0464 【必要なサンプルサイズ】各群: 7267人合計: 14534人【テスト期間の目安】 1日のトラフィック: 1000人必要な期間: 約15日

サンプルサイズ早見表

ベースラインCVR	10%改善	20%改善	30%改善
1%	約157,000人/群	約39,000人/群	約17,500人/群
5%	約29,000人/群	約7,300人/群	約3,200人/群
10%	約13,500人/群	約3,400人/群	約1,500人/群
20%	約6,000人/群	約1,500人/群	約680人/群

📝 ポイント

・ベースラインが低いほど、大きなサンプルが必要
・検出したい改善幅が小さいほど、大きなサンプルが必要
・トラフィックが少ないサイトでは、大きな改善を狙うか、テスト期間を長くする

📈 4. 結果の統計的分析

コンバージョン率の比較（カイ二乗検定）

# A/Bテスト結果の分析（比率の比較）

import numpy as np
import pandas as pd
from scipy import stats

# テスト結果
results = {
    ‘グループ’: [‘A（コントロール）’, ‘B（トリートメント）’],
    ‘ユーザー数’: [5000, 5000],
    ‘コンバージョン数’: [250, 310]
}
df = pd.DataFrame(results)

# コンバージョン率の計算
df[‘CVR’] = df[‘コンバージョン数’] / df[‘ユーザー数’]

print(“【テスト結果】”)
print(df.to_string(index=False))

# 改善幅
cvr_a = df.loc[0, ‘CVR’]
cvr_b = df.loc[1, ‘CVR’]
lift = (cvr_b – cvr_a) / cvr_a

print(f”\n【改善幅】”)
print(f”A群のCVR: {cvr_a:.2%}”)
print(f”B群のCVR: {cvr_b:.2%}”)
print(f”改善幅: {lift:.1%}（相対）”)
print(f”改善幅: {(cvr_b – cvr_a):.2%}（絶対）”)

# カイ二乗検定
# クロス集計表を作成
contingency_table = [
    [df.loc[0, ‘コンバージョン数’], df.loc[0, ‘ユーザー数’] – df.loc[0, ‘コンバージョン数’]],
    [df.loc[1, ‘コンバージョン数’], df.loc[1, ‘ユーザー数’] – df.loc[1, ‘コンバージョン数’]]
]

chi2, p_value, dof, expected = stats.chi2_contingency(contingency_table)

print(f”\n【統計的検定】”)
print(f”カイ二乗統計量: {chi2:.4f}”)
print(f”p値: {p_value:.4f}”)

# 判定
alpha = 0.05
print(f”\n【判定】（α={alpha}）”)
if p_value < alpha:
    print(f"p値({p_value:.4f}) < α({alpha})")
    print("→ 統計的に有意な差あり！")
    print("→ B案の導入を推奨")
else:
    print(f"p値({p_value:.4f}) ≥ α({alpha})")
    print("→ 統計的に有意な差なし")
    print("→ 現行のA案を継続")

# 出力例【テスト結果】グループユーザー数コンバージョン数 CVR A（コントロール） 5000 250 0.050 B（トリートメント） 5000 310 0.062 【改善幅】 A群のCVR: 5.00% B群のCVR: 6.20% 改善幅: 24.0%（相対）改善幅: 1.20%（絶対）【統計的検定】カイ二乗統計量: 6.1333 p値: 0.0133 【判定】（α=0.05） p値(0.0133) < α(0.05) → 統計的に有意な差あり！ → B案の導入を推奨

信頼区間の計算

# 信頼区間の計算

import numpy as np
from scipy import stats

def conversion_rate_ci(conversions, total, confidence=0.95):
    “””コンバージョン率の信頼区間を計算”””
    rate = conversions / total
    z = stats.norm.ppf((1 + confidence) / 2)
    se = np.sqrt(rate * (1 – rate) / total)
    margin = z * se
    return rate, rate – margin, rate + margin

# A群の信頼区間
rate_a, ci_a_low, ci_a_high = conversion_rate_ci(250, 5000)
print(“【A群（コントロール）】”)
print(f”CVR: {rate_a:.2%}”)
print(f”95%信頼区間: [{ci_a_low:.2%}, {ci_a_high:.2%}]”)

# B群の信頼区間
rate_b, ci_b_low, ci_b_high = conversion_rate_ci(310, 5000)
print(“\n【B群（トリートメント）】”)
print(f”CVR: {rate_b:.2%}”)
print(f”95%信頼区間: [{ci_b_low:.2%}, {ci_b_high:.2%}]”)

# 差の信頼区間
diff = rate_b – rate_a
se_diff = np.sqrt(
    rate_a * (1 – rate_a) / 5000 + 
    rate_b * (1 – rate_b) / 5000
)
z = stats.norm.ppf(0.975)
diff_ci_low = diff – z * se_diff
diff_ci_high = diff + z * se_diff

print(“\n【差の信頼区間】”)
print(f”差: {diff:.2%}”)
print(f”95%信頼区間: [{diff_ci_low:.2%}, {diff_ci_high:.2%}]”)

if diff_ci_low > 0:
    print(“→ 信頼区間が0を含まない → B案は確実に効果あり”)
else:
    print(“→ 信頼区間が0を含む → 効果は不確実”)

# 出力例【A群（コントロール）】 CVR: 5.00% 95%信頼区間: [4.40%, 5.60%] 【B群（トリートメント）】 CVR: 6.20% 95%信頼区間: [5.53%, 6.87%] 【差の信頼区間】差: 1.20% 95%信頼区間: [0.26%, 2.14%] → 信頼区間が0を含まない → B案は確実に効果あり

⚠️ 5. A/Bテストの注意点

よくある間違い

⚠️ A/Bテストでよくある間違い

1. 途中で結果を見て判断する（Peeking問題）
・毎日p値をチェックして「有意になったら終了」
・偽陽性率が跳ね上がる
→ 事前にサンプルサイズを決めて、最後まで待つ

2. サンプルサイズが小さすぎる
・「1週間やったけど差が出ない」
→ 検出力が足りていない可能性

3. 複数のテストを同時に行う
・同じユーザーに複数のテストを実施
→ 相互作用で結果が歪む

4. 季節性やイベントを無視
・セール期間中にテスト開始
→ 通常時と異なる行動パターン

ベストプラクティス

📌 A/Bテストのベストプラクティス

1. 事前に計画を立てる
・仮説、指標、サンプルサイズ、期間を事前に決める
・テスト設計書を作成

2. ランダム化を徹底
・ユーザーIDやセッションIDでランダムに割り当て
・同じユーザーは常に同じグループに

3. 1つの変数だけ変える
・複数の変更を同時に行わない
・何が効果的だったかわからなくなる

4. 十分な期間を確保
・最低1週間（曜日の影響を排除）
・できれば2週間以上

5. 結果を正しく解釈
・p値だけでなく、効果の大きさも見る
・信頼区間を確認
・ビジネス的な意味を考える

テスト期間の決め方

【テスト期間の決め方】

最低期間：1週間
– 曜日による変動を平均化するため
– 週末と平日で行動パターンが異なる

推奨期間：2週間以上
– より安定した結果が得られる
– イベントや外部要因の影響を軽減

計算式：
テスト期間 = 必要サンプルサイズ ÷ 1日のトラフィック

例：
– 必要サンプルサイズ：14,000人（各群7,000人）
– 1日のトラフィック：1,000人
– テスト期間：14,000 ÷ 1,000 = 14日

注意：
– 特別なイベント（セール、祝日）は避ける
– 季節性を考慮する
– 途中で終了しない

💼 6. 実務での活用

完全なA/Bテスト関数

# 完全なA/Bテスト分析関数

import numpy as np
from scipy import stats
from statsmodels.stats.proportion import proportion_effectsize
from statsmodels.stats.power import NormalIndPower

def ab_test_analysis(
    conversions_a, total_a,
    conversions_b, total_b,
    alpha=0.05,
    test_name=”A/Bテスト”
):
    “””
    A/Bテストの完全な分析を行う
    
    Parameters:
    ———–
    conversions_a : int – A群のコンバージョン数
    total_a : int – A群のユーザー数
    conversions_b : int – B群のコンバージョン数
    total_b : int – B群のユーザー数
    alpha : float – 有意水準（デフォルト0.05）
    test_name : str – テスト名
    “””
    
    print(f”{‘=’*50}”)
    print(f” {test_name} 分析レポート”)
    print(f”{‘=’*50}”)
    
    # コンバージョン率
    rate_a = conversions_a / total_a
    rate_b = conversions_b / total_b
    
    print(f”\n【1. 基本統計】”)
    print(f”A群（コントロール）:”)
    print(f”  ユーザー数: {total_a:,}人”)
    print(f”  CV数: {conversions_a:,}人”)
    print(f”  CVR: {rate_a:.2%}”)
    print(f”\nB群（トリートメント）:”)
    print(f”  ユーザー数: {total_b:,}人”)
    print(f”  CV数: {conversions_b:,}人”)
    print(f”  CVR: {rate_b:.2%}”)
    
    # 改善幅
    absolute_lift = rate_b – rate_a
    relative_lift = absolute_lift / rate_a if rate_a > 0 else 0
    
    print(f”\n【2. 改善幅】”)
    print(f”絶対改善: {absolute_lift:+.2%}”)
    print(f”相対改善: {relative_lift:+.1%}”)
    
    # 信頼区間
    z = stats.norm.ppf(1 – alpha/2)
    se_diff = np.sqrt(
        rate_a * (1 – rate_a) / total_a + 
        rate_b * (1 – rate_b) / total_b
    )
    ci_low = absolute_lift – z * se_diff
    ci_high = absolute_lift + z * se_diff
    
    print(f”\n【3. 差の{int((1-alpha)*100)}%信頼区間】”)
    print(f”[{ci_low:+.2%}, {ci_high:+.2%}]”)
    
    # カイ二乗検定
    contingency_table = [
        [conversions_a, total_a – conversions_a],
        [conversions_b, total_b – conversions_b]
    ]
    chi2, p_value, dof, expected = stats.chi2_contingency(contingency_table)
    
    print(f”\n【4. 統計的検定】”)
    print(f”χ² = {chi2:.4f}”)
    print(f”p値 = {p_value:.4f}”)
    
    # 判定
    print(f”\n【5. 判定】（α={alpha}）”)
    if p_value < alpha:
        print(f"✅ 統計的に有意（p={p_value:.4f} < α={alpha}）")
        if rate_b > rate_a:
            print(“→ B案の方が優れている”)
            print(“→ B案の本番導入を推奨”)
        else:
            print(“→ A案の方が優れている”)
            print(“→ 現行のA案を継続”)
    else:
        print(f”❌ 統計的に有意でない（p={p_value:.4f} ≥ α={alpha}）”)
        print(“→ 明確な差は確認できない”)
        print(“→ テスト継続 or 現行A案を継続”)
    
    # ビジネスインパクト
    print(f”\n【6. ビジネスインパクト（参考）】”)
    monthly_traffic = total_a + total_b  # 仮に1ヶ月分とする
    additional_cv = int(monthly_traffic * absolute_lift)
    print(f”月間追加CV（予測）: {additional_cv:+,}件”)
    
    return {
        ‘rate_a’: rate_a,
        ‘rate_b’: rate_b,
        ‘absolute_lift’: absolute_lift,
        ‘relative_lift’: relative_lift,
        ‘ci’: (ci_low, ci_high),
        ‘p_value’: p_value,
        ‘significant’: p_value < alpha
    }

# 実行例
result = ab_test_analysis(
    conversions_a=250, total_a=5000,
    conversions_b=310, total_b=5000,
    test_name="購入ボタン色変更テスト"
)

# 出力例 ================================================== 購入ボタン色変更テスト分析レポート ================================================== 【1. 基本統計】 A群（コントロール）: ユーザー数: 5,000人 CV数: 250人 CVR: 5.00% B群（トリートメント）: ユーザー数: 5,000人 CV数: 310人 CVR: 6.20% 【2. 改善幅】絶対改善: +1.20% 相対改善: +24.0% 【3. 差の95%信頼区間】 [+0.26%, +2.14%] 【4. 統計的検定】 χ² = 6.1333 p値 = 0.0133 【5. 判定】（α=0.05） ✅ 統計的に有意（p=0.0133 < α=0.05） → B案の方が優れている → B案の本番導入を推奨【6. ビジネスインパクト（参考）】月間追加CV（予測）: +120件

📝 STEP 20 のまとめ

✅ このステップで学んだこと

1. A/Bテストの基本

2つのバージョンを比較して、効果を科学的に検証
ランダム化により因果関係を証明できる

2. 設計の5ステップ

仮説設定 → 指標決定 → サンプルサイズ計算 → 実行 → 分析

3. サンプルサイズの重要性

小さすぎると効果を見逃す
事前に必要数を計算しておく

4. 注意点

途中で判断しない（Peeking問題）
1つの変数だけ変える
十分な期間を確保

💡 最も大切なポイント

A/Bテストは、データドリブンな意思決定の基本です！

成功のカギ：
・事前に計画を立てる（仮説、指標、サンプルサイズ）
・途中で判断せず、最後まで待つ
・統計的有意性と実務的意義の両方を考える
・結果を次のテストに活かす

次のSTEP 21では、回帰分析の基礎を学びます！

🎯 次のステップの予告

STEP 21では、「回帰分析の基礎」を学びます。変数間の関係をモデル化し、予測や要因分析に活用する方法を習得しましょう！

📝 練習問題

問題 1 基礎

A/Bテストの基本について、以下の問いに答えてください。

(1) A/Bテストの目的は何ですか？
(2) 「コントロール群」と「トリートメント群」の違いは？

【解答】

(1) A/Bテストの目的

2つのバージョン（AとB）を比較して、どちらが効果的かを科学的に検証すること。
ランダム化により、他の要因の影響を排除し、因果関係を証明できる。

(2) コントロール群とトリートメント群

コントロール群（A群）：現行版。比較の基準となるグループ。
トリートメント群（B群）：新しい変更を適用したグループ。効果を検証したい対象。

問題 2 基礎

以下のA/Bテスト結果について、改善幅を計算してください。

A群：ユーザー10,000人、コンバージョン300人
B群：ユーザー10,000人、コンバージョン360人

(1) 各群のコンバージョン率は？
(2) 絶対的な改善幅は？
(3) 相対的な改善幅は？

【解答】

(1) コンバージョン率

A群：300 / 10,000 = 3.00%
B群：360 / 10,000 = 3.60%

(2) 絶対的な改善幅

3.60% – 3.00% = 0.60%（ポイント）

(3) 相対的な改善幅

（3.60% – 3.00%）/ 3.00% = 0.60 / 3.00 = 20%

B群はA群に比べて、CVRが20%向上している。

問題 3 応用

以下の状況で、A/Bテストの結果を判定してください。

A群：5,000人中200人がコンバージョン（CVR 4.0%）
B群：5,000人中250人がコンバージョン（CVR 5.0%）
カイ二乗検定の結果：p値 = 0.028

有意水準α=0.05で、B案を導入すべきですか？

【解答】

判定：

p値（0.028）< α（0.05）
→ 統計的に有意な差がある

結論：

B案の導入を推奨

・B群のCVR（5.0%）はA群（4.0%）より高い
・この差は統計的に有意（偶然ではない可能性が高い）
・相対的に25%の改善（(5.0-4.0)/4.0）

補足：
ただし、導入前に以下も確認すべき：
・信頼区間を確認（効果の範囲）
・ビジネス的なインパクト（コスト対効果）
・他のKPIへの影響（直帰率、滞在時間など）

問題 4 応用

「Peeking問題」について説明してください。

(1) Peeking問題とは何ですか？
(2) なぜ問題になるのですか？
(3) どう対処すべきですか？

【解答】

(1) Peeking問題とは

A/Bテストの途中で繰り返し結果を確認し、有意差が出た時点でテストを終了してしまうこと。

(2) なぜ問題か

・偽陽性率が跳ね上がる：何度もチェックすると、偶然「有意」になるチャンスが増える
・α=5%に設定しても、実際の偽陽性率は20%以上になることも
・結果の再現性がない：次にテストしたら違う結果になる可能性

(3) 対処法

・事前にサンプルサイズを決める：必要数に達するまでテストを続ける
・途中で判断しない：最後まで待ってから分析
・逐次検定法を使う：途中確認を前提とした統計手法
・ベイズ的アプローチ：事前分布を考慮した判断

問題 5 実践

あなたはECサイトのマーケティング担当です。
購入ボタンを「カートに追加」から「今すぐ購入」に変更するA/Bテストを計画しています。

現在のコンバージョン率：3%
目標改善幅：相対20%（3% → 3.6%）
1日のトラフィック：2,000人

(1) 適切な仮説を立ててください
(2) 必要なサンプルサイズを概算してください
(3) テスト期間の目安は？

【解答】

(1) 仮説

「購入ボタンの文言を『カートに追加』から『今すぐ購入』に変更すると、コンバージョン率が上がる。なぜなら、より直接的で緊急性を感じさせる表現が、購買行動を促進するから。」

(2) サンプルサイズの概算

早見表より：
ベースラインCVR 3%付近、20%改善の場合
→ 約10,000人/群（合計約20,000人）

# 正確な計算
from statsmodels.stats.proportion import proportion_effectsize
from statsmodels.stats.power import NormalIndPower

effect = proportion_effectsize(0.03, 0.036)
analysis = NormalIndPower()
n = analysis.solve_power(effect, alpha=0.05, power=0.80)
print(f”各群: {int(n)}人, 合計: {int(n*2)}人”)

(3) テスト期間

必要サンプル：約20,000人
1日のトラフィック：2,000人
テスト期間：20,000 ÷ 2,000 = 約10日

ただし、曜日の影響を考慮して最低2週間を推奨。

❓ よくある質問

Q1: A/Bテストはどのくらいの期間行うべきですか？

最低1週間、推奨2週間以上です。

理由：
・曜日の影響：平日と週末でユーザー行動が異なる
・サンプルサイズの確保：統計的に有意な結果を得るため
・外部要因の平均化：一時的なイベントの影響を軽減

計算方法：
テスト期間 = 必要サンプルサイズ ÷ 1日のトラフィック

注意：
・セールや祝日は避ける
・サンプルサイズに達しても、最低1週間は待つ
・途中で終了しない（Peeking問題）

Q2: 統計的に有意でも、効果が小さい場合はどうすべき？

ビジネス的な意義を考慮して判断します。

統計的有意性 vs 実務的意義：
・統計的有意 = 「偶然ではない」
・実務的意義 = 「ビジネスに価値がある」

例：
CVRが0.1%改善（3.0% → 3.1%）で有意
→ 統計的には有意だが、効果は小さい

判断基準：
・コスト対効果：変更のコストに見合う効果か？
・信頼区間：効果の範囲を確認
・他のKPIへの影響
・長期的な影響：積み重なると大きいか？

推奨：
効果が小さい場合は、他の改善案を検討するか、現状維持

Q3: A/B/Cテスト（3パターン以上）は可能ですか？

はい、可能ですが注意が必要です。

多腕バンディット / A/B/n テスト：
・3つ以上のバージョンを同時にテスト
・例：ボタン色を赤、青、緑で比較

注意点：
・多重比較問題：比較回数が増えると、偽陽性率が上がる
・サンプルサイズ：各グループに必要なサンプルが増える
・解釈の複雑さ：どのペアに差があるか？

対処法：
・Bonferroni補正でα値を調整
・ANOVAで全体の差を確認後、ペア比較
・まずA/Bで絞り込んでから、次のテストへ

推奨：
可能なら2パターンに絞る。3つ以上は慎重に

Q4: モバイルとPCで別々にA/Bテストすべきですか？

状況によりますが、セグメント別の分析は推奨です。

一緒にテストする場合：
・全体の効果を見たいとき
・サンプルサイズが限られているとき
・デバイス間で同じ変更を適用するとき

別々にテストする場合：
・モバイルとPCで異なるUI変更をテストするとき
・デバイス別に最適化したいとき
・十分なサンプルサイズがあるとき

ベストプラクティス：
・まず全体でテストを実施
・結果をセグメント別に分析（モバイル、PC、新規、既存など）
・セグメント間で効果が大きく異なる場合、追加テストを検討

Q5: テスト結果が有意にならなかった場合、どうすべき？

「効果がない」と結論づける前に、いくつかの可能性を検討します。

可能性1：本当に効果がない
・仮説が間違っていた
→ 別の仮説を検討、ユーザーインタビューで調査

可能性2：サンプルサイズが不足
・検出力が低く、効果を見逃している
→ テスト期間を延長、またはMDEを見直す

可能性3：変更が小さすぎる
・微妙な変更では効果が出にくい
→ より大胆な変更をテスト

可能性4：測定指標が不適切
・変更の効果が別の指標に現れている
→ 他のKPIも確認

推奨アクション：
・結果をドキュメント化（学びとして記録）
・次の仮説を立てて新しいテストを計画
・「効果がなかった」も重要な知見

Q6: A/Bテストの結果をレポートするには、何を含めるべき？

以下の要素を含めると、説得力のあるレポートになります。

1. テスト概要
・目的と仮説
・テスト期間
・対象ユーザー

2. 結果サマリー
・各群のKPI（CVR、クリック率など）
・改善幅（絶対・相対）
・統計的有意性（p値）

3. 信頼区間
・効果の範囲
・最悪〜最良のシナリオ

4. ビジネスインパクト
・月間追加CV（予測）
・売上への影響
・コスト対効果

5. 結論と推奨アクション
・B案を導入すべきか？
・追加テストが必要か？
・次のステップ

6. 学びと今後の仮説
・何がわかったか
・次にテストすべきこと

📝

学習メモ

ビジネスデータ分析・意思決定 - Step 20

📋 過去のメモ一覧 ▼

🧪 STEP 20: A/Bテストの設計

📋 このステップで学ぶこと

🔍 1. A/Bテストとは

A/Bテストの基本

なぜA/Bテストが必要か

A/Bテストの活用例

📐 2. A/Bテストの設計

設計の5ステップ

仮説の立て方

統計的仮説の設定

📊 3. サンプルサイズの決め方

なぜサンプルサイズが重要か

サンプルサイズの計算

Pythonでサンプルサイズを計算

サンプルサイズ早見表

📈 4. 結果の統計的分析

コンバージョン率の比較（カイ二乗検定）

信頼区間の計算

⚠️ 5. A/Bテストの注意点

よくある間違い

ベストプラクティス

テスト期間の決め方

💼 6. 実務での活用

完全なA/Bテスト関数

📝 STEP 20 のまとめ

📝 練習問題

A/Bテストの基本について、以下の問いに答えてください。 (1) A/Bテストの目的は何ですか？ (2) 「コントロール群」と「トリートメント群」の違いは？

「Peeking問題」について説明してください。 (1) Peeking問題とは何ですか？ (2) なぜ問題になるのですか？ (3) どう対処すべきですか？

❓ よくある質問

学習メモ

A/Bテストの基本について、以下の問いに答えてください。

(1) A/Bテストの目的は何ですか？
(2) 「コントロール群」と「トリートメント群」の違いは？

「Peeking問題」について説明してください。

(1) Peeking問題とは何ですか？
(2) なぜ問題になるのですか？
(3) どう対処すべきですか？