データサイエンス力 ランダム45問出題
データサイエンス力のスキルカテゴリ全231問から45問をランダムに出題します。
1 / 45
Category: データサイエンス力
1) 「子ども」と「成人」の2つのカテゴリーを持つ変数をダミー変数に変換する場合、どのように設定するか
ダミー変数は、カテゴリーに対して0か1の値を割り当てることで、質的変数を量的変数に変換します。この場合、「子ども」を0、「成人」を1と設定することで、モデリング時に変数として扱うことができます。
2 / 45
2) 実験計画法において、結果に影響を与える可能性のある因子とその水準を変化させて解析する際、基本的な分析方法として用いられるのは次のうちどれか
実験計画法では、結果に影響を与える可能性のある因子(属性)とその因子の条件(水準)を変化させて解析します。因子によるデータのばらつきと実験誤差によるばらつきを検定し、因子によるばらつきが大きければ母平均に差があると判断します。このとき、基本的な分析方法として分散分析が用いられます。
3 / 45
3) データ可視化における層化の目的は次のうちどれか
層化は、データを分類別に分け、比較軸を用いて適切に層化することで、比較対象の差を明確に見比べることができるようになるために行います。
4 / 45
4) ベクトルの要素(成分)とは次のうち何を指すか
ベクトルの要素(成分)とは、ベクトルを構成する個々の数値のことを指します。例えば、3次元ベクトルであれば、3つの成分があります。
5 / 45
5) データセットの分散が16である場合、標準偏差は次のうちのどれか
分散は各データと平均値との差の2乗の平均であり、標準偏差は分散の平方根です。したがって、分散が16の場合、標準偏差はとなります。
6 / 45
6) 画像データの前処理で、画像の特定の部分だけを残して他を削除する処理は次のうちどれか
トリミングは、画像の特定の部分だけを残して他を削除する処理です。
7 / 45
7) ある検査が陽性であった場合、その人が実際に病気である確率は次のうちどれか 以下の情報を考慮してください。
・病気の人が検査で陽性と判定される確率: 98%
・健康な人が検査で陰性と判定される確率: 90%
・実際の罹患率: 5%
ベイズの定理によると、テストが陽性である人が実際に病気である確率(事後確率)は次のように計算できます。ここで、
は全体の陽性率で、これは次のように計算できます。 健康な人が誤って陽性と判定される確率(偽陽性率)は、1から特異度を引いたものです。 そして、健康な人の確率(P(健康))は、1から罹患率を引いたものです。 これらの値を使って、全体の陽性率を計算します。 最後に、事後確率を計算します。 つまり、テストが陽性であった場合、その人が実際に病気である確率は約 34.03% となります。
8 / 45
8) 連続型確率分布について正しいものはどれか
連続型確率分布は、確率変数が実数値を取る場合の確率分布です。これは、身長や体重など、連続的な値を取る変数の確率分布を表します。
9 / 45
9) 時系列データ分析において、季節変動を考慮することの重要性は次のうちどれか
季節変動を考慮することで、自然条件や社会制度から由来する影響を除外し、データのトレンドをより正確に把握することができます。
10 / 45
10) 標準正規分布において、確率変数Zが0以上の値を取る確率は次のうちどれか
標準正規分布は平均を中心に左右対称であるため、Zが0以上の値を取る確率はちょうど50%です。
11 / 45
11) ダイエットプログラムの効果を検証するために、参加者の体重をプログラム開始前と終了後で比較します。この場合に使用する統計検定はどれか
プログラム開始前後の体重は同一人物のデータであり、時間のみが異なるため「対応のあるデータ」に該当します。この場合、対応のあるt検定を使用して、体重に差が出たかどうかを検証します。
12 / 45
12) 9人の選手からキャプテンと副キャプテンを選ぶ方法は何通りあるか
キャプテンと副キャプテンは別々の人を選ぶ必要があるため、順列の公式を使用します。9人から2人を選ぶ順列は
9P2=9×8=72
通りです。
13 / 45
13) データ濃度について正しい記述は次のうちどれか
データ濃度は、ディスプレイの面積に対するデータポイントの数を示す指標であり、画面の単位面積当たりの情報量を表します。データ濃度が高いことは、一般的にグラフの質が良いことを意味しますが、過剰に高いデータ濃度は逆にメッセージの伝わりにくさを招く可能性があるため、バランスが重要です。
14 / 45
14) 過学習を防ぐために用いられる学習方法は次のうちどれか
交差検証法は、モデルの汎化能力を評価し、過学習を防ぐために用いられる学習方法です。
15 / 45
15) 時系列データ分析において、データの周期性を無視してモデルを構築すると、どのような問題が生じる可能性があるか
時系列データには季節性や周期性が含まれていることが多く、これらを考慮しないと、モデルはデータの重要なパターンを見逃し、実際のデータの動きを正確に予測できなくなる可能性があります。
16 / 45
16) 回帰分析において、予測値と実測値の差の二乗の平均にルートを付けた評価指標はどれか
RMSE(Root Mean Square Error:平均平方二乗誤差)はMSEにルートを付けた評価指標であり、予測値と実測値の差の二乗の平均にルートを付けて求めます。
17 / 45
17) 次の記述のうち、行列の積に関して正しいものどれか
行列の積は、一方の行列の列の数と他方の行列の行の数が同じである場合にのみ定義できます。この場合、n×m行列Aとm×p行列Bの積はn×p行列となります。
18 / 45
18) ゼロベクトルとはどのようなベクトルか
ゼロベクトルとは、すべての要素が0であるベクトルのことを指します。これは、どの次元のベクトルにおいても同じです。
19 / 45
19) ある病気に対する新しい検査方法が開発されました。この検査方法によると、病気の人が陽性と判定される確率は97%、健康な人が陰性と判定される確率は99%です。この地域の病気の罹患率が2%の場合、陽性と判定された人が実際に病気である確率はどれくらいか
は全体の陽性率で、これは次のように計算できます。 健康な人が誤って陽性と判定される確率(偽陽性率)は、1から特異度を引いたものです。 そして、健康な人の確率(P(健康))は、1から罹患率を引いたものです。 これらの値を使って、全体の陽性率を計算します。 最後に、事後確率を計算します。 つまり、テストが陽性であった場合、その人が実際に病気である確率は約 66.44% となります。
20 / 45
20) モデルの複雑さに対する罰則をかけることは次のうちどれか
正則化は、モデルの複雑さが増すことに対する罰則をかけ、複雑さを抑えることを指します。これにより、過学習を防ぐことができます。
21 / 45
21) 母集団のデータを全て収集することが不可能な場合、通常どのようにして母集団の特性を推定するか
母集団のデータを全て収集することは通常不可能です。そのため、標本を分析することで母集団の特性を推定します。
22 / 45
22) 単回帰分析において、説明変数と目的変数の関係性を表現する式は次のうちどれか
単回帰分析では、一つの説明変数から目的変数を予測するために、y = ax + b の形式で表されます。ここで、aは傾き、bは切片を表します。
23 / 45
23) ヒストグラムについての説明として最も適切でないものはどれか
ヒストグラムでは、各区間の幅は通常均等であり、これによってデータのばらつきを一目で確認することができます。
24 / 45
24) 間隔尺度と比例尺度の違いを最もよく表しているのはどれか
比例尺度は絶対的なゼロ点を持ち、倍率の計算が可能ですが、間隔尺度は絶対的なゼロ点を持たず、倍率の計算はできません。
25 / 45
25) ボロノイ図についての説明として正しいものはどれか
ボロノイ図は、平面上に置かれた母点に最も近い点によって平面の座標空間を分割する図です。各母点から等距離にある点を結ぶことで境界線が形成され、これによってボロノイ領域が定義されます。
26 / 45
26) 係り受け解析についての説明として正しいものはどれか
係り受け解析は、文章中の形態素や文節の関係性を分析することで、文節どうしの関連性や役割を理解するために行われます。
27 / 45
27) 画像データのフォーマットによって、次のうちどの要素が大きく異なるか
画像データのフォーマットにはJPEG、PNG、BMP、TIFFなどがあり、それぞれ圧縮率や圧縮方法が異なります。
28 / 45
28) 欠損値の扱いについて正しいのはどれか
欠損値については、欠損の多い変数やサンプルを除くか、補完することを検討する必要があります。欠損が多く起きていることも有益な情報となり得ます。
29 / 45
29) ホールドアウト法において、ハイパーパラメータの調整を行うために使用されるデータセットは次のうちどれか
ホールドアウト法において、ハイパーパラメータの調整を行うために使用されるデータセットは「検証データ」です。検証データを用いて、モデルの性能を評価します。
30 / 45
30) 2つの母集団の分散が異なると仮定する場合に使用するt検定はどれか
2つの母集団の分散が異なると仮定する場合、ウェルチのt検定を使用します。スチューデントのt検定は分散が等しい場合に使用されます。
31 / 45
31) クロス集計表を作成する目的は次のうちどれか
クロス集計表は、2つの属性を持つデータの傾向を素早く把握するために使用されます。Excelのピボットテーブル機能を使うと、このような表を簡単に作成できます。
32 / 45
32) ピアソンの相関係数は次のどのようなデータに対して計算することが適切か
ピアソンの相関係数は量的データに対して計算することが適切であり、比例尺度や間隔尺度のデータに用いられます。順序尺度や名義尺度のデータでは計算できません。
33 / 45
33) 以下のデータセット {3, 3, 4, 5, 5, 5, 6, 7, 7, 7, 7} の最頻値はいくつか
このデータセットには複数の値が含まれていますが、最も頻度が高いのは 7 です。7 はデータセット内で 4 回出現しており、他のどの値よりも多いため、最頻値は 7 です。
34 / 45
34) LLMはどのようなビジネス活用が可能か
LLMは、大量のテキストデータから学習することで、文章の生成や翻訳などのタスクを効率的に実行することが可能です。
35 / 45
35) 教師なし学習において、データのグループ分けを行う手法は次のうちどれか
k-means法は教師なし学習におけるクラスタリングの手法で、データを類似性に基づいてグループ分けします。
36 / 45
36) ヒストグラムの利点に関する記述として正しいものはどれか
ヒストグラムはデータの最頻値、つまり最も多く出現するデータの値を視覚的に確認するのに役立ちます。
37 / 45
37) ダイエットプログラムによる体重の変化を検証する際、帰無仮説として適切なのはどれか
帰無仮説は、通常、効果がないことを示すものです。この場合、「プログラム前後の体重に差はない」という仮説が帰無仮説として適切です。
38 / 45
38) AIネットワークシステムの動作の説明可能性を確保するために総務省が謳っている原則は次のうちどれか
総務省はAIの研究開発において透明性の原則を重視しており、AIネットワークシステムの動作が説明可能で検証可能であることを求めています。
39 / 45
39) 信頼度90%、95%、99%の信頼区間についての説明として最も適切なものはどれか
信頼度が高いほど、信頼区間は広くなります。これは、より高い確率で母集団の真の値を含むため、より広い範囲をカバーする必要があるためです。
40 / 45
40) 次のデータセット {1, 2, 2, 3, 3, 3, 4, 4, 4, 4} の最頻値はいくつか
このデータセットでは、4 が最も多く出現しています。4 はデータセット内で 4 回出現しており、最頻値は 4 です。
41 / 45
41) データセットをランダムに分割して学習データを生成する方法の一つは次のうちどれか
ホールドアウト法は、データセットをランダムに分割して学習データを生成する方法の一つです。この方法では、データセットを2つまたは3つに分割し、学習データ、検証データ、テストデータを作成します。
42 / 45
42) 統計的仮説検定における棄却域とは何を指すか
棄却域は、帰無仮説を棄却するための有意水準を超えた領域を指します。これは、帰無仮説が誤っていると考えられる領域であり、統計的仮説検定において重要な役割を果たします。
43 / 45
43) 機械学習モデルが新しいデータに対してどれだけ適切に機能するかを示す指標は次のうちどれか
機械学習モデルが未知のデータに対して高い精度で出力できる性質・能力を「汎化性能」と言います。これはモデルが新しいデータに対してどれだけ適切に機能するかを示す重要な指標です。
44 / 45
44) ある学校で、生徒が数学のテストで80点以上を取る確率は0.6です。数学と英語の両方で80点以上取る確率は0.42でした。数学で80点以上を取った生徒が英語でも80点以上を取る条件付き確率はどれか
数学で80点以上を取る確率が0.6であり、数学で80点以上を取った生徒が英語でも80点以上を取る条件付き確率を求めるには、数学と英語の両方で80点以上を取る同時確率と数学で80点以上を取る確率が必要です。条件付き確率は となります。
45 / 45
45) 多重共線性を発見するためには、どのような手法を用いることができるか
多重共線性は、偏回帰係数の符号、散布図行列、相関行列を用いた手法や主成分分析などで発見することができます。
Restart quiz