データサイエンス力 ランダム45問出題
データサイエンス力のスキルカテゴリ全231問から45問をランダムに出題します。
1 / 45
Category: データサイエンス力
1) 定積分の値は次のうちどれか
定積分の値を求めるには、関数 を積分して、上限と下限の値を代入します。 関数 の不定積分は です。したがって、定積分は次のように計算できます。
よって、定積分の値は0.5です。
2 / 45
2) 画像識別AIモデルの学習効率を向上させるために行う処理は次のうちどれか
各ピクセルの濃淡度やRGB値を扱いやすくするために、正規化処理を行います。
3 / 45
3) 教師なし学習において、データのグループ分けを行う手法は次のうちどれか
k-means法は教師なし学習におけるクラスタリングの手法で、データを類似性に基づいてグループ分けします。
4 / 45
4) 散布図において、目的変数がある場合、縦軸には何を配置するのが適切か
散布図において目的変数がある場合、縦軸にはその目的変数を配置し、横軸には目的変数と関連が高いと考えられる要因を配置することで、両者の関連を可視化します。
5 / 45
5) データ分析においてダミー変数を使用する目的は次のうちどれか
ダミー変数は、名義尺度や順序尺度などの質的変数を、機械学習や統計モデリングで使用できる形式、つまり0と1の値を持つ量的変数に変換するために使用されます。これにより、予測モデルの説明変数として質的変数を扱うことが可能になります。
6 / 45
6) 名義尺度に関する記述として最も適切なものはどれか
名義尺度は、内容を区別するために数値が与えられているデータの尺度です。等級や満足度の比較が可能なのは順序尺度であり、平均値の計算に意味があるのは量的データです。等号での比較ができないのは名義尺度の特徴ではありません。
7 / 45
7) 相関係数が1または-1に近い値を取るとき、どのような関係性が考えられるか
相関係数が1または-1に近い値を取るとき、変数間には強い相関関係があると言えます。1に近い場合は強い正の相関、-1に近い場合は強い負の相関があります。
8 / 45
8) クラスター分析におけるウォード法の特徴として正しいものはどれか
ウォード法はクラスター分析における距離測定方法の一つで、クラスター内のデータ点の分散を最小化することを目的としています。これにより、より均一なクラスターを形成することができます。
9 / 45
9) モデルの複雑さに対する罰則をかけることは次のうちどれか
正則化は、モデルの複雑さが増すことに対する罰則をかけ、複雑さを抑えることを指します。これにより、過学習を防ぐことができます。
10 / 45
10) 推測統計学は何を目的としているか
推測統計学は無作為に集めたデータから母集団の特徴や情報を推測する統計学です。
11 / 45
11) 相関係数が-0.4の場合、以下のうちどのような関係性が考えられるか
相関係数が-0.4の場合、変数xが増加すると変数yが減少する傾向がありますが、この値は中程度の相関を示しているため、弱い負の相関があると言えます。
12 / 45
12) 7冊の異なる本から3冊を選ぶ組み合わせは何通りあるか
組み合わせの公式を使用して、7冊の本から3冊を選ぶ方法は通りです。
13 / 45
13) ある検査が陽性であった場合、その人が実際に病気である確率は次のうちどれか 以下の情報を考慮してください。
・病気の人が検査で陽性と判定される確率: 98%
・健康な人が検査で陰性と判定される確率: 90%
・実際の罹患率: 5%
ベイズの定理によると、テストが陽性である人が実際に病気である確率(事後確率)は次のように計算できます。ここで、
は全体の陽性率で、これは次のように計算できます。 健康な人が誤って陽性と判定される確率(偽陽性率)は、1から特異度を引いたものです。 そして、健康な人の確率(P(健康))は、1から罹患率を引いたものです。 これらの値を使って、全体の陽性率を計算します。 最後に、事後確率を計算します。 つまり、テストが陽性であった場合、その人が実際に病気である確率は約 34.03% となります。
14 / 45
14) 学習データに対する誤差を何と呼ぶか
学習データに対する誤差は訓練誤差と呼ばれ、モデルが学習データにどれだけ適合しているかを示します。
15 / 45
15) CDの量子化ビット数は何ビットか
CDの量子化ビット数は16ビットで、これは音波を2^16の幅で数値化することを意味します。量子化ビット数が大きいほど、より細かく音波の情報を変換できるため、元の音を損なわずにデータとして保存できます。
16 / 45
16) 機械学習における「ロジスティック回帰」とは次のうちどれか
ロジスティック回帰は、教師あり学習における分類手法の一つで、特に二値分類問題に適しています。
17 / 45
17) 標準正規分布の確率密度関数のグラフはどのような形をしているか
標準正規分布の確率密度関数のグラフは、ベル型の曲線をしています。これは、平均を中心に左右対称で、端に向かうにつれて確率が低くなる特性を持っています。
18 / 45
18) 非階層クラスター分析の特徴として正しいものはどれか
非階層クラスター分析の特徴は、クラスターの数を事前に指定することです。これにより、階層クラスター分析に比べて計算量が少なく、短時間で結果を出すことができます。樹形図は階層クラスター分析で使用されるもので、非階層クラスター分析では作成しません。
19 / 45
19) MP3形式のファイルはどのような特徴があるか
MP3形式は、人間の可聴領域に着目して開発されたファイル形式で、人間に聞こえない音の情報を取り除くことで、WAV形式よりも少ないデータ量で保存することが可能です。
20 / 45
20) 関数の x = 1 での接線の傾きはどうなりますか?
関数の導関数は です。x = 1 のときの傾きは となります。
21 / 45
21) 次のうち、Accuracy(正解率)を最も正確に説明しているのはどれか
Accuracy(正解率)は、正解のレコード数をすべてのレコード数で割ることで求められ、モデルの全体的な正確さを測る指標です。
22 / 45
22) データインク比に関する次の記述のうち、最も適切なものはどれか
データインク比は、グラフに含まれる情報量の多さを示す指標であり、データインク比が高いほど、グラフは情報を多く含んでいると言えます。これは、チャートのメッセージを明確に伝えるために重要な要素です。
23 / 45
23) インフォデミックの原因として、以下のうち正しいものはどれか
インフォデミックは、エビデンスベーストの欠如とデータを読み解く力の欠如によって引き起こされます。エビデンスベーストとは、事実やデータに基づいて判断することを意味します。
24 / 45
24) 散布図において、データポイントが散らばっている場合、どのような関係性が示されるか
散布図において、データポイントがランダムに散らばっている場合、それは2つの変数間に明確な相関関係がないことを示しています。
25 / 45
25) 量的変数を質的変数に変換するプロセスは次のうちどれか
量的変数を質的変数に変換するプロセスは離散化と呼ばれ、データのカテゴリ化に用いられます。
26 / 45
26) 機械学習において、教師なし学習が主に活用されるのはどのような場面か
教師なし学習は、正解ラベルがないデータを扱う際に、データのグループ分け(クラスタリング)や情報の要約(次元削減)に使用されます。
27 / 45
27) 検定力が低いとはどういう状況を指すか
検定力が低いとは、第2種の過誤を犯す確率が高い状況を指します。つまり、帰無仮説が誤りであるにもかかわらず、それを棄却できないリスクが高いことを意味します。
28 / 45
28) スカラーとベクトルの違いは次のうちどれか
スカラーは方向を持たない単一の数値であり、ベクトルは大きさと方向の両方を持つ数学的な対象です。
29 / 45
29) 欠損値の扱いについて正しいのはどれか
欠損値については、欠損の多い変数やサンプルを除くか、補完することを検討する必要があります。欠損が多く起きていることも有益な情報となり得ます。
30 / 45
30) 標本分散を母分散の推定にそのまま使用すると何が起こるか
標本分散をそのまま使用すると、母分散が過小評価される傾向があります。これは、標本分散が母平均ではなく標本平均を使用して計算されるためです。
31 / 45
31) 時系列データを用いた予測モデル構築において、データの可視化が推奨される理由は次のうちどれか
データの可視化により、データの基本的な構造や時系列の変化の特性を直感的に理解することができます。これにより、適切なモデルの選択やデータの前処理が行えるようになります。
32 / 45
32) デジタル画像のサンプリング間隔が大きい場合、どのような問題が発生する可能性があるか
サンプリング間隔が大きいとピクセル数が少なくなり、ジャギーと呼ばれる階段状のギザギザが現れます。
33 / 45
33) アクティブラーニングのプロセスには何が含まれるか
アクティブラーニングでは、教師データでモデルを構築し、残りの教師なしデータから学習に効果的なデータを抽出します。
34 / 45
34) 標準正規分布の確率密度関数において、曲線の最高点はどこにあるか
標準正規分布の確率密度関数は平均を中心に最高点を持ちます。標準正規分布では平均が0なので、曲線の最高点はZ = 0.00にあります。
35 / 45
35) 重回帰分析における回帰係数が示すものとして正しいものはどれか
重回帰分析における回帰係数は、各説明変数が目的変数に与える影響の大きさ、つまり重要性を示します。
36 / 45
36) アンサンブル平均の説明として正しいのはどれか
アンサンブル平均は、同一条件下におけるデータの集合平均であり、例えば同一時間、同一条件下で測定した気温データを平均して、その一帯の平均気温とします。これにより、時間によるデータの特性が顕著になることがあります。
37 / 45
37) データ可視化における層化の目的は次のうちどれか
層化は、データを分類別に分け、比較軸を用いて適切に層化することで、比較対象の差を明確に見比べることができるようになるために行います。
38 / 45
38) 検定の結果、帰無仮説を棄却しなかった場合に犯すことがある誤りは次のうちどれか
検定の結果、帰無仮説を棄却しなかった場合に犯すことがある誤りは第二種の過誤です。これは、実際には偽である帰無仮説を誤って採択することを指します。
39 / 45
39) 形態素解析についての説明として正しいものはどれか
形態素解析は、文章を意味のある最小の単位である形態素に分割し、それぞれの品詞を把握する作業です。
40 / 45
40) 実験計画法で用いられる直交表は、どのような目的で使用されるか
直交表は、全ての水準の組み合わせでの試行が難しい場合に、実験回数を削減するために活用されます。因子間の交互作用を考慮しながら、極力実験回数が少なくなるように選ばれます。
41 / 45
41) 過学習を防ぐために用いられる学習方法は次のうちどれか
交差検証法は、モデルの汎化能力を評価し、過学習を防ぐために用いられる学習方法です。
42 / 45
42) ピアソンの積率相関とスピアマンの順位相関の違いの説明として、次のうち最も適切でない記述はどれか
スピアマンの順位相関は、値の増加の幅を考慮せずに、順位データの単調関係のみを評価します。
43 / 45
43) 検定の結果、p値が0.05よりも小さい場合、通常どのように解釈されるか
p値が0.05よりも小さい場合、帰無仮説を棄却するには証拠が十分であると通常解釈されます。これは、帰無仮説が正しいと仮定した場合に得られた標本データが起こる確率が5%未満であることを意味し、帰無仮説に疑問を投げかけるものです。
44 / 45
44) アソシエーション分析において、共起頻度が高いとはどのような意味か
共起頻度は、二つの事象が同時に発生する回数を指し、これが高い場合は、それらの事象が頻繁に一緒に起こることを意味します。これは、事象間の強い関連性を示唆しています。
45 / 45
45) 2値分類問題において、予測値が正例で実測値も正例である場合、これは何と呼ぶか
予測値が正例で実測値も正例の場合、これは真陽性(True Positive, TP)と呼ばれ、予測が正しいことを意味します。
Restart quiz