データエンジニアリング力 全196問コンプリート
データエンジニアリング力のスキルカテゴリから全196問をランダムに出題します。
1 / 196
Category: データエンジニアリング力
1) マッピング処理の目的は次のうちどれか
マッピング処理は、異なる表記を統一することでデータの不整合を解消するために行われます。例えば、「東京」「東京都」「Tokyo」を「13」というコード値に統一することができます。
2 / 196
2) クラウドストレージサービスを利用する際のセキュリティ上の注意点は次のうちどれか
アクセス権限設定を見落とすと、インターネットに接続されたストレージに社外からアクセスできる状態になる可能性があります。
3 / 196
3) フルバックアップ後に更新されたデータ部分のバックアップを取る方法とは、次の中でどれか
差分バックアップは、フルバックアップ後に更新されたデータ部分のバックアップを取る方法です。データのリストアには、フルバックアップしたデータと、差分バックアップしたデータの2つが必要です。
4 / 196
4) データフォーマットに関する説明として、最も適切でないものはどれか
TSV(タブ区切り値)フォーマットは、カンマの代わりにタブを使用してデータを区切る方法であり、データの関係性を表現することができます。
5 / 196
5) データサイエンスにおいて、非構造化データを構造化データに変換するプロセスに関する説明として、最も適切なものはどれか
データサイエンスでは、非構造化データを構造化データに変換するために、タグ付けや抽出処理などの前処理が必要です。これにより、データの関係性を明確にし、分析や活用が可能になります。
6 / 196
6) データが膨大で特徴が捉えにくい場合の対策として適切なのはどれか
データが膨大で特徴が捉えにくい場合、データのサンプリングを行うことで、母集団の特性や分布を損なわないようにしつつ、データ量を減らして特徴を把握することができます。
7 / 196
7) データベースにデータを挿入する際、留意すべき事項は次のうちどれか
データベースにデータを挿入する際には、データの整合性を保つことが重要です。これには、データ型、制約、関連性などが含まれます。
8 / 196
8) SQLで次のクエリを実行した場合、total_price の値は次のうちどれか syohin テーブルの product ‘A001’ の price は1200円、discount は200円です。
total_price
syohin
product
price
discount
このSQLクエリでは、製品ID ‘A001’ の価格から値引き額を引いた値を求めます。したがって、
1200円−200円
の計算を行い、結果は1000円になります。
9 / 196
9) 次のうち、Excelでのデータ結合処理に最も頻繁に使用される関数はどれか
Excelでのデータ結合処理においては、VLOOKUP関数が最も頻繁に使用されます。この関数は、2つのデータを結合する際に多用されます。
10 / 196
10) カラム指向型DBの利点として最も適切なものはどれか
カラム指向型DBでは、列単位でデータを蓄積し、列方向に大量にあるデータに対して特定の列だけを集計・抽出するようなデータ分析や統計処理を効率的に行うことができます。
11 / 196
11) 動的コンテンツに関する説明として最も適切なものを一つ選べ
動的コンテンツは、アクセスした際の状況に応じて異なる内容が表示されるWebページのことで、サーバー上で動的にHTMLファイルが生成されます。
12 / 196
12) ハッシュ関数に関する次の記述のうち、正しいものはどれか
ハッシュ関数はデータの検索効率を高めるために使用されることがあります。ハッシュ値をキーとしてデータを効率的に検索することができます。
13 / 196
13) Pythonで次のコードを実行した場合、出力される値は次のうちどれか
このPythonコードでは、変数 c と d にそれぞれ10と5が格納されています。print 関数で計算される式は
c
d
print
(10+5)×2
で、結果は30になります。
14 / 196
14) オープンデータに関する説明として最も適切なものを選べ
オープンデータは、営利・非営利を問わず二次利用可能で、機械判読に適した形式で無償で利用できる公開データのことを指します。インターネット上にある全てのデータがオープンデータとは限りません。
15 / 196
15) 情報セキュリティのCIAのうち、可用性(Availability)を確保するために重要な対策はどれか
可用性はデータが必要なときに利用可能であることを保証する要素です。システムの二重化は、障害が発生してもサービスを継続できるようにする対策であり、可用性を高めます。
16 / 196
16) SQLで複数のテーブルを関連する列に基づいて結合する際に使用するものは次のうちどれか
JOINキーワードは、複数のテーブルを関連する列に基づいて結合するために使用されます。これにより、異なるテーブルのデータを一緒に分析することができます。
17 / 196
17) サーバーの構成においてクラスタリングが行われる2つの目的の記述として最も適切なものを1つ選べ
クラスタリングは、システム全体の性能を高める「拡張性」と、システム稼働を継続させる「高可用性」の2つの目的のために行われます。
18 / 196
18) エクスポートしたデータをExcelで開く際、CSVフォーマットが適している理由は次のうちどれか
CSVフォーマットはコンマで区切られたテキストファイルであり、Excelで開くとデータが自動的にセルに分割されます。これにより、データの操作が容易になります。
19 / 196
19) 次のうち、NoSQLデータストアの利点として当てはまらないものはどれか
NoSQLデータストアは、ACID特性(原子性、一貫性、隔離性、耐久性)を常に保証するわけではありません。これは、高いスケーラビリティや低レイテンシでの処理能力を実現するためのトレードオフの一部です。
20 / 196
20) 非正規化の状態にあるデータベースが抱える問題点として最も適切なものはどれか
非正規化されたデータベースでは、データの重複が多く発生し、それによってデータの冗長性が増加します。これはデータの不整合の原因となり得ます。
21 / 196
21) DWH用のクラウドサービスが選ばれる理由として、最も適切なものはどれか
DWH用のクラウドサービスは、ハードウェアのメンテナンスが不要で、初期投資を抑えつつ、必要に応じてリソースを追加・削減することができるため、スケーラビリティと柔軟性に優れています。
22 / 196
22) Hadoopのクラスタ管理システムは次のうちどれか
YARNはYet Another Resource Negotiatorの略で、Hadoopクラスタのリソース管理とジョブスケジューリングを行います。
23 / 196
23) 次のうち、ユーザーに特定のアクションを許可するプロセスを指す用語はどれか
認証はユーザーを特定するプロセスであり、認可はそのユーザーに特定のアクションを許可するプロセスを指します。
24 / 196
24) 分散技術において、ノード数を増やすことで得られるメリットとして最も適切なものはどれか
分散技術では、ノード数を増やすことで処理性能を上げることができます。
25 / 196
25) 一意性制約があるカラムに対して、どのようなデータを挿入することができるか
一意性制約があるカラムには、テーブル内でユニークな値、つまり重複しない値を挿入する必要があります。
26 / 196
26) 次のうち、構造化データの例として最も適切でないものはどれか
構造化データは「列」と「行」の概念で表せるデータのことを指し、Excelのスプレッドシートやリレーショナルデータベース、JSONフォーマットのデータが該当します。自然言語の文章は非構造化データの一例です。
27 / 196
27) 情報セキュリティにおいて、データ分析を行うシステムを開発する際に重要となるのはどの要素か
データ分析システムの開発では、情報セキュリティを維持するためにCIAの3つの要素すべてを念頭に置いて行動することが重要です。
28 / 196
28) 公開鍵暗号方式において、秘密鍵で暗号化されたデータを復号するためには何が必要か
公開鍵暗号方式では、秘密鍵で暗号化されたデータは公開鍵で復号することができます。これにより、秘密鍵は送信者のみが保持し、公開鍵は誰でもアクセス可能です。
29 / 196
29) クライアントがサーバーに対して、自分が理解できるデータ形式を伝えるために使用するHTTPヘッダーはどれか
Acceptヘッダーは、クライアントが理解できるコンテンツタイプをサーバーに伝えるために使用されます。これにより、サーバーは適切な形式のレスポンスを返すことができます。
30 / 196
30) 次のうち、SQLでのデータ結合処理に最も頻繁に使用される操作はどれか
SQLでのデータ結合処理においては、INNER JOINとLEFT OUTER JOINが最も頻繁に使用されます。これらの操作は、複数のテーブルを結合する際に使用されます
31 / 196
31) ハッシュ関数の利用用途として正しいものは次のうちどれか
ハッシュ関数は改ざんの検出に用いられます。ハッシュ値を比較することで、データが改ざんされていないかをチェックすることができます。暗号化やデータの復元はハッシュ関数の目的ではありません。
32 / 196
32) ER図におけるエンティティとは、何を指す用語か
ER図では、データのまとまりをエンティティと呼びます。これにより、データベース内で扱う情報の単位を表現します。
33 / 196
33) サーバーがクライアントに対して、レスポンスが最後に変更された日時を伝えるHTTPヘッダーはどれか
Last-Modifiedヘッダーは、リソースが最後に変更された日時をクライアントに伝えるために使用されます。クライアントはこの情報をキャッシュの制御に利用することができます。
34 / 196
34) SQLでテーブルから特定の列を選択するにはどの文を使用するか
テーブルから特定の列を選択するにはSELECT文を使用します。PICK, CHOOSE, EXTRACTはSQLの文ではありません。
35 / 196
35) 共通鍵暗号方式と公開鍵暗号方式を組み合わせて使用する利点は次のうちどれか
共通鍵暗号方式と公開鍵暗号方式を組み合わせることで、通信の安全性が向上します。公開鍵暗号方式で安全に共通鍵を交換し、その後は高速な共通鍵暗号方式で通信を行います。
36 / 196
36) ER図において、エンティティ間のつながりを何と呼ぶか
ER図では、エンティティ間のつながりをリレーションと呼び、これによりデータ間の関連性が表現されます。
37 / 196
37) Excelで基本統計量を計算する際に使用される関数はどれか
ExcelではSUM関数で合計、MAX関数で最大値、MIN関数で最小値を計算できます。これらはすべて基本統計量を計算するために使用される関数です。
38 / 196
38) データ分析において、ソート処理はどのような役割を果たすか
データ分析において、ソート処理はデータの並び替えを行う役割を果たします。これにより、データを特定の順序で表示し、分析を容易にします。
39 / 196
39) SSL通信において、最初に使用される暗号化方式は次のうちどれか
SSL通信では最初に公開鍵暗号方式が使用され、通信する両者間で一時的な共通鍵を共有します。その後、通信は共通鍵暗号方式で暗号化されます。
40 / 196
40) JSONフォーマットでデータをエクスポートする利点は次のうちどれか
JSONフォーマットはデータの構造が柔軟であり、階層的なデータも扱いやすいため、多くのプログラミング言語でのデータ交換に適しています。
41 / 196
41) セルフBIの利点は次のうちどれか
セルフBIは、わかりやすいUIでユーザー自身がレポート作成やデータ分析を行うことができ、直感的にデータを分析できます。
42 / 196
42) BIツールでグラフを作成する際、Y軸に最も適しているデータの種類は次のうちどれか
Y軸には数値データを設定することが一般的です。これにより、異なるカテゴリや時系列における数値の比較が可能になります。
43 / 196
43) IBM Cloud Object Storageの利用シーンの説明として最も適切なものはどれか
IBM Cloud Object Storageは大量の非構造化データを蓄積するのに適しています。
44 / 196
44) 高可用性を向上させるために行う行動として次の中で最も適切なものを選べ
高可用性とは、1台のサーバーが故障等で使用できなくなっても、他のサーバーが稼働し続けることで、システム稼働を継続させることです。
45 / 196
45) R言語がデータ分析に適している理由は次のうちどれか
R言語は統計解析とグラフィックスの生成に特化しており、データ分析に非常に適しています。コンパイル速度や3Dグラフィックス、ウェブアプリケーション開発はRの主な機能ではありません。
46 / 196
46) SQLでテーブルを作成する際に使用する文は次のうちどれか
テーブルを作成するにはCREATE文を使用します。INSERTはデータの挿入、SELECTはデータの選択、DELETEはデータの削除に使います。
47 / 196
47) 公開鍵認証基盤(PKI)において、ユーザーの公開鍵と身元情報を関連付けるために必要なものは次のうちどれか
認証局はデジタル証明書を使用して、ユーザーの公開鍵と身元情報を関連付けます。これにより、通信相手が信頼できるかを確認できます。
48 / 196
48) Hadoopのデータ処理の仕組みは次のうちどれか
MapReduceはHadoopのデータ処理モデルで、大規模データの分散処理を行うためのプログラミングモデルです。
49 / 196
49) Excelの「並び替えとフィルター」機能を使用して、昇順にデータを並べ替える場合、どのような順序になるか
Excelの「並び替えとフィルター」機能を使用して昇順にデータを並べ替えると、小さい数値から大きい数値の順になります。
50 / 196
50) 暗号化において、鍵の流出を防ぐために最も重要なことは次のうちどれか
鍵の流出を防ぐためには、鍵の管理を徹底することが最も重要です。鍵が第三者に知られてしまうと、暗号化されたデータが危険にさらされます。
51 / 196
51) Excelでデータを読み込む際、どのような制限があるか、次の中で最も適切なものを選べ
Excelのバージョンや使用しているパソコンのスペックにもよりますが、おおよそ100万行までしかExcelでは読み込むことができません。それ以上の行数のデータを読み込ませると、データが欠損することがあるので注意が必要です。
52 / 196
52) DWHアプライアンスの特徴として、一般的なRDBMSと比較して正しいものはどれか
DWHアプライアンスは、大量のデータを高速に処理するために設計されており、特にデータの結合・集計・抽出における処理能力に特化しています。一般的なRDBMSとは異なり、トランザクション処理には向いていません。
53 / 196
53) SQLで特定の範囲内のデータを抽出するために使用するものはどれか
SQLのBETWEENキーワードは、特定の範囲内の値を持つデータを選択するために使用されます。例えば、「日別売り上げが100万円から150万円の間」という条件でデータを絞り込むことができます。
54 / 196
54) 無作為サンプリングについての説明として最も適切でないものはどれか
無作為サンプリングでは、乱数を用いてデータを抽出します。これにより、特定のパターンやバイアスがないように標本が選ばれます。
55 / 196
55) データベースから抽出したデータをExcelで加工した後、元のデータベースにどのような影響があるか、次の中で最も適切なものを選べ
抽出されたデータをExcel上で加工したとしても、元のデータベースには反映されないので注意が必要です。
56 / 196
56) NoSQLデータストアのスケーラビリティに関する記述として正しいものはどれか
NoSQLデータストアは、ハードウェアの追加によって容易に拡張可能な高いスケーラビリティを持っています。これにより、大規模なデータを効率的に取り扱うことができます。
57 / 196
57) データベースにおける第一正規化の目的として最も適切なものはどれか
第一正規化は、繰り返される項目を別項目として切り出し、レコード単位の情報としてデータベースに格納できるようにすることを目的としています。
58 / 196
58) REST APIの呼び出しにおいて、クライアントがサーバーに対して行うリクエストの種類として、最も適切でないものはどれか
REST APIの呼び出しにおいて、GETはデータの取得、POSTはデータの作成、PUTはデータの更新に使用されます。PINGリクエストはREST APIの標準的なリクエストではなく、ネットワークの接続確認に使われるコマンドです。
59 / 196
59) 次のうち、完全性(Integrity)に関連しないものはどれか
完全性はデータが正確で完全であることを保証する要素です。アクセス権限制御は機密性に関連する対策であり、完全性とは直接関係ありません。
60 / 196
60) 暗号化の処理速度が最も速いのはどの暗号化方式か
共通鍵暗号方式は、公開鍵暗号方式よりも暗号化・復号の処理が高速です。これは、同じ鍵を使用するため計算が簡単になるからです。
61 / 196
61) トロイの木馬がユーザーのコンピュータに侵入する一般的な方法は次のうちどれか
トロイの木馬は、有益なソフトウェアに偽装してユーザーにインストールさせ、その後、不正な動作を背後で行います。信頼できないソースからのダウンロードは、このようなマルウェアに感染する一般的な方法です。
62 / 196
62) 次のうち、データ結合処理において最も重要なスキルはどれか
データ結合処理においては、「単に結合処理ができる」というだけではなく、対象データを理解し、それに応じて適切な結合条件を設定できることが最も重要です。
63 / 196
63) データクレンジングの最初のステップとして最も適切なものはどれか
データクレンジングを行う前に、クレンジングの対象となるデータを抽出する必要があります。これにはフィルタリング処理のスキルが求められます。
64 / 196
64) クライアントがサーバーに対して、特定の日時以降に変更されたリソースのみを要求するために使用するHTTPヘッダーはどれか
If-Modified-Sinceヘッダーは、指定された日時以降にリソースが変更されている場合にのみ、そのリソースを要求するために使用されます。これにより、不要なデータ転送を防ぐことができます。
65 / 196
65) BIツールにおけるデータ抽出の際、最も重視すべき点は次のうちどれか
データ抽出の際には、分析の目的に合わせて必要なデータを選択することが最も重要です。これにより、効率的かつ効果的なデータ分析を行うことができます。
66 / 196
66) 乱数に関する説明として最も適切なものはどれか
乱数は、ある範囲内で任意に選ばれる数値であり、予測不可能な値を提供します。これにより、サンプリング処理でのバイアスを防ぐことができます。
67 / 196
67) 次のうち、アクセス管理のレベルとして正しくないものはどれか
アクセス管理はOSレベル、ネットワークレベル、アプリケーションレベルで行われますが、ユーザーレベルという分類は一般的ではありません。
68 / 196
68) SQLでテーブルを完全に削除するにはどの文を使用をするか
テーブルを完全に削除するにはDROP文を使用します。ERASE, REMOVE, CLEARはSQLの文ではありません。
69 / 196
69) Hadoopの分散ファイルシステムの名称はどれか
Hadoop Distributed File Systemの略称であり、複数ノードにデータを分散して保存するシステムです。
70 / 196
70) エンタープライズ用途でDWHが採用される主な理由として、最も適切なものはどれか
エンタープライズ用途でDWHが採用される主な理由は、機能面での優れた性能と、必要なサポートを受けられることです。低コストやトランザクション処理の得意さは、主な理由ではありません。
71 / 196
71) FTPサーバーでのファイル転送を安全に行うためには、どのような対策が考えられるか
FTPによる通信は暗号化されていないため、通信を暗号化する方法を取ることで、より安全にファイル転送を行うことができます。
72 / 196
72) 電子署名のプロセスにおいて、送信者がハッシュ値を暗号化するために使用する鍵は次のうちどれか
送信者は自身の秘密鍵を使用してハッシュ値を暗号化します。これが電子署名となり、受信者は送信者の公開鍵でこれを復号できます。
73 / 196
73) 静的コンテンツに関する説明として最も適切なものを一つ選べ
静的コンテンツは、アクセスするたびに同じ内容が表示されるWebページのことで、サーバー上のHTMLファイルがそのまま表示されます。
74 / 196
74) サーバーがクライアントに対して、レスポンスが有効である期間を伝えるHTTPヘッダーはどれか
Expiresヘッダーは、レスポンスが有効である期間をクライアントに伝えるために使用されます。このヘッダーにより、クライアントはレスポンスをキャッシュして再利用することができます。
75 / 196
75) SQLのORDER BYを使用して、降順にデータを並べ替える場合、どのキーワードを使用するか
SQLのORDER BYを使用して降順にデータを並べ替える場合、DESCというキーワードを使用します。
76 / 196
76) 次のうち、オープンデータの特徴として最も適切でないものはどれか
オープンデータの定義には無償であることが含まれています。したがって、有料であるという特徴はオープンデータには適切ではありません。
77 / 196
77) Excelでデータの傾向を分析するために使用するグラフはどれか
折れ線グラフは、時間の経過に伴うデータの変化や傾向を視覚的に表現するのに適しています。売り上げの推移などを分析する際に有効です。
78 / 196
78) 公開鍵認証基盤(PKI)において、認証局が担う役割は次のうちどれか
公開鍵認証基盤(PKI)では、認証局は利用者の公開鍵と身元情報の関連付けを保証します。これにより、データ通信時に利用者が信頼できる人物や組織であることが証明されます。
79 / 196
79) Webクローラー・スクレイピングツールの使用時に注意すべき点は次のうちどれか
Webクローラー・スクレイピングツールを使用する際には、対象のWebサーバーに過度な負荷をかけないように注意する必要があります。
80 / 196
80) データに「カンマ」が含まれている場合、CSVフォーマットでのエクスポートにおいて注意すべき点は次のうちどれか
データに「カンマ」が含まれている場合、CSVフォーマットでエクスポートすると、意図しない形でデータが読み込まれる可能性があります。これは、CSVがコンマをフィールドの区切りとして使用するためです。
81 / 196
81) 第三正規化が行われると、どのような状態になるか
第三正規化は、第二正規化が行われた状態で、推移関数従属が存在しない状態にすることを目的としています。
82 / 196
82) 電子署名を検証する際、受信者が使用する鍵は次のうちどれか
受信者は送信者の公開鍵を使用して電子署名を復号し、ハッシュ値を取得します。これにより、送信者が誰であるかとデータの完全性を確認できます。
83 / 196
83) リレーショナルデータベースに新しいレコードを追加するために使用されるSQLコマンドは次のうちどれか
SQLのINSERT文は、リレーショナルデータベースに新しいレコードを追加するために使用されます。SELECTはデータを選択するため、UPDATEはデータを更新するため、DELETEはデータを削除するために使われます。
84 / 196
84) Webページの情報利用に関して確認すべきこととして、最も適切なものを選べ
Webページの情報を利用する前には、利用規約で情報の使用が許可されているかを確認する必要があります。
85 / 196
85) SQLでマッピング処理を行う際に使用するのはどの命令か
SQLでマッピング処理を行う場合、LEFT JOINを使って処理を行います。
86 / 196
86) SQLのDML文にはどのような種類があるか
DML文はデータの操作に関連するSQL文で、SELECT, INSERT, UPDATE, DELETEが含まれます。CREATE, DROP, ALTER, TRUNCATEはDDL文に分類されます。
87 / 196
87) 次のうち基本統計量に含まれないものはどれか
基本統計量には中央値、モード、平均などが含まれますが、合計値の平方根は通常含まれません。基本統計量はデータの特徴を表すために用いられる代表的な値です。
88 / 196
88) 次のうち、HTTPメソッドではないものはどれか
LINKはHTTPメソッドではありません。CONNECT, TRACE, PATCHはすべてHTTP/1.1で定義されているメソッドです。
89 / 196
89) APIを利用するメリットの1つとして正しくないものはどれか
APIを利用することで外部ソフトウェアとの連携が容易になり、開発時間やコストの削減につながりますが、セキュリティが強化されるわけではありません。
90 / 196
90) APIを利用したデータ交換において、最も適切な認証方式は次のうちどれか
OAuthは、第三者アプリケーションがユーザーの代わりにサーバー上のリソースにアクセスするための標準的な認証方式です。Basic認証やDigest認証もありますが、OAuthが最も適切で安全な認証方式とされています。
91 / 196
91) 情報セキュリティのCIAのうち、機密性(Confidentiality)を最もよく表す対策はどれか
機密性は認可されたユーザーだけがデータにアクセスできることを保証する要素です。パスワード認証は、この機密性を確保するための基本的なセキュリティ対策の一つです。
92 / 196
92) ファイアウォールはどのレベルのアクセス制御に使用されるか
ファイアウォールはネットワークレベルのアクセス制御に使用され、不正なアクセスや攻撃からネットワークを保護します。
93 / 196
93) データ分析でよく使用されるプログラミング言語は次のうちどれか
Pythonはデータ分析において非常に人気があり、強力なライブラリとフレームワークを備えています。HTMLやCSSはウェブ開発に使われ、SwiftはiOSアプリの開発に使われます。
94 / 196
94) 動的コンテンツの収集が難しい理由として最も適切なものをえらべ
動的コンテンツはユーザーのアクションやリクエストに応じて内容が変化するため、収集が難しいとされています。
95 / 196
95) SQLで次のクエリを実行した場合、new_price の値は次のうちどれか syohin テーブルの product ‘B002’ の price は2500円です。
new_price
このSQLクエリでは、製品ID ‘B002’ の価格に0.8を掛けた値を求めます。したがって、
2500円×0.8
の計算を行い、結果は2000円になります。
96 / 196
96) 推移関数従属を解消する正規化の手法はどれか
推移関数従属を解消する正規化の手法は第三正規化です。これにより、データの冗長性をさらに減らすことができます。
97 / 196
97) 電子署名において、受信者が行う最初のステップは次のうちどれか
受信者は、まず添付された電子署名を送信者の公開鍵を用いて復号し、ハッシュ値を取得します。これにより、送信者が誰であるかを確認できます。
98 / 196
98) ホットスタンバイに関する説明として最も適切なものを1つ選べ
ホットスタンバイは、本番機と同期する予備機を用意しておき、障害発生時に即座に切り替えられるようにする構成です。本番機と同期させるために常にサーバを稼動状態にする必要があり、サーバーの維持費用(電気代など)は高くなります。
99 / 196
99) サンプリング処理についての説明として最も適切なものはどれか
サンプリング処理は、大量のデータがある場合に、その一部を代表として抽出する手法です。このプロセスにより、母集団全体を分析することなく、標本データを用いて母集団に関する推測が可能になります。
100 / 196
100) セルフBIの特徴として正しくないものは次のうちどれか
セルフBIはIT部門ではなく、ユーザー自身が管理し、レポート作成やデータ分析を行います。
101 / 196
101) サンプリング処理で重要なのは、どのようにして標本データを選ぶかです。最も適切な方法はどれか
サンプリング処理では、母集団からランダムにデータを選ぶことが重要です。これにより、バイアスのない、母集団を代表する標本データを得ることができます。
102 / 196
102) Excelで特定の条件に基づいてセルの書式を変更する機能はどれか
条件付き書式は、特定の条件を満たすセルに自動的に書式を適用する機能です。例えば、売り上げが目標を超えた日をハイライトするなどの視覚的な分析が可能になります。
103 / 196
103) SOAPを利用したWebサービスの特徴として、最も適切でないものはどれか
SOAPは、HTTPやHTTPSなどのプロトコルに依存せずに利用でき、セキュリティが高く、XMLベースのプロトコルです。しかし、SOAPはリアルタイムでのデータ交換にも利用されており、この選択肢はSOAPの特徴として最も適切でないものです。
104 / 196
104) Webクローラー・スクレイピングツールに関する説明として、最も適切なものを選べ
Webクローラー・スクレイピングツールは、インターネット上に公開されているWebページの情報を収集するためのプログラムやツールのことです。
105 / 196
105) コールドスタンバイに関する説明として、次の中で最も適切なものを1つ選べ
コールドスタンバイは、予備機を用意しますが、停止させておくことでコストを下げる構成です。障害発生時は停止状態から稼動させる作業が必要なため、復旧には時間を要します。
106 / 196
106) BIツールでデータを複数の次元で分析するために使用する機能は次のうちどれか
ピボットテーブルは、データを複数の次元で集計し、分析するための強力なツールです。異なる視点からデータを見ることができ、深い洞察を得ることが可能です。
107 / 196
107) HBaseはどのようなタイプのデータベースか
HBaseは、列ファミリーベースの分散データベースであり、Hadoop関連技術のHDFS上に構築されています。大規模なデータに対してリアルタイムに読み書きする処理に特化しています。
108 / 196
108) データ分析において重要な「可視化」のツールは次のうちどれか
Tableauはデータの可視化に特化したツールで、複雑なデータセットを直感的なダッシュボードやレポートに変換します。Wordは文書作成、Photoshopは画像編集、AutoCADはCAD設計に使用されます。
109 / 196
109) データセットの中で最も多く出現する値、つまり最頻値を求めるためには、PythonのPandasライブラリではどの関数を使用するか
Pandasライブラリのmode()関数はデータセットの中で最も頻繁に出現する値、すなわち最頻値を求めるために使用されます。
110 / 196
110) 共通鍵暗号方式の主な欠点は次のうちどれか
共通鍵暗号方式の欠点は、鍵を当事者間で共有する必要があるため、鍵の漏洩リスクが高いことです。
111 / 196
111) ハッシュ値が同じになる現象を何と呼ぶか
異なる元データが同一のハッシュ値に変換される現象を「衝突」と呼びます。これはハッシュ関数の特性上、避けられない問題であり、ハッシュ値の長さやハッシュ関数の設計によって発生確率が変わります。
112 / 196
112) 拡張性を向上させるために行う行動として最も適切なものを1つ選べ
拡張性とは、使用するサーバーを増やすことで負荷分散を行い、システム全体の性能を高めることです。
113 / 196
113) スロー・チェンジ・ディメンションの目的は次のうちどれか
スロー・チェンジ・ディメンションは、マスターや属性情報などのソースデータの変更履歴を保存し、データ上で表現するために使用されます。
114 / 196
114) アドウェアがコンピュータに与える主な影響は次のうちどれか
アドウェアは、ユーザーの望まない迷惑な広告を表示するマルウェアの一種です。これにより、ユーザー体験が損なわれ、プライバシーの侵害やセキュリティリスクが生じることがあります。
115 / 196
115) 電子署名の検証において、受信者が行う最終ステップは次のうちどれか
受信者は、復号したハッシュ値と受信したデータから生成したハッシュ値を比較します。一致すれば、データが改ざんされていないことが確認できます。
116 / 196
116) ハッシュ値に関する以下の記述のうち、正しいものはどれか
ハッシュ関数は通常、固定長のハッシュ値を生成します。これにより、どんな長さのデータでも同じ長さのハッシュ値が得られるため、データの整合性のチェックに有効です。
117 / 196
117) データベースに大量のデータを挿入する最も効率的な方法は次のうちどれか
大量のデータを効率的に挿入するには、データベースが提供するIMPORTコマンドを使用することが最も効率的です。これにより、データを高速に一括して挿入することができます。
118 / 196
118) ER図のエンティティについて、その詳細を何と呼ぶか
ER図におけるエンティティの詳細情報はアトリビュートと呼ばれます。これにより、データの属性や特性が明確になります。
119 / 196
119) Jupyter Notebookはどのプログラミング言語でよく使われるか
Jupyter NotebookはPythonやRubyなどの言語での開発においてよく使われ、データ分析に便利です。
120 / 196
120) ISO/IEC 27001(JIS Q27001)において、情報セキュリティマネジメントシステム(ISMS)に求められる要素は次のうちどれか
ISO/IEC 27001はセキュリティの標準規格であり、ISMSにCIAの3要件の実現を求めています。
121 / 196
121) 以下のサイトのうち、オープンデータを提供していないものはどれか
DATA.GO.JP、e-Stat、国土数値情報ダウンロードはオープンデータを提供していますが、Yahoo! JAPANはオープンデータの提供サイトではありません。
122 / 196
122) 前回のバックアップ後に更新されたデータ部分のバックアップを取る方法とは、次の中でどれか
増分バックアップは、前回のバックアップ後に更新されたデータ部分のバックアップを取る方法です。データのリストアには、フルバックアップしたデータと、複数の増分バックアップしたデータが必要です。
123 / 196
123) SDKの正式名称は次の中でどれか
SDKはSoftware Development Kitの略で、ソフトウェア開発に必要なツールセットを指します。これには通常、説明書、プログラム、API、サンプルコードなどが含まれています。
124 / 196
124) 第二正規化において解消されるべきはどのような状態か
第二正規化は、第一正規化が行われた状態で、部分関数従属を解消することを目的としています。
125 / 196
125) Jupyter NotebookとRStudioの共通点は次のうちどれか
両方の開発環境は、分析に必要なライブラリが最初からパッケージされており、短時間で分析環境を準備できます。
126 / 196
126) 実務において正規化の程度を決める際に考慮すべきこととして最も適切なものはどれか
実務では、データの整合性や冗長性の軽減だけでなく、システムに要求されるパフォーマンスも考慮して、正規化の程度を決める必要があります。
127 / 196
127) データクレンジングにおいて、数式や関数を使って自動化する主なメリットは次のうちどれか
数式や関数を使ってクレンジングを自動化することで、ミスを減らし、クレンジングの精度が向上します。また、時間とコストの節約にもつながります。
128 / 196
128) SQLでテーブルの構造を変更するにはどの文を使用するか
テーブルの構造を変更するにはALTER文を使用します。UPDATEはレコードの更新、MODIFYとCHANGEはALTER文の中で使用されるキーワードです。
129 / 196
129) 次のうちJupyter Notebookのどの機能がデータ分析を容易にするか
Jupyter Notebookのインタラクティブな実行結果は、データ分析を段階的に進めるのに役立ちます。
130 / 196
130) データクレンジングにおける「フィルタリング処理」の目的は次のうちどれか
フィルタリング処理は、クレンジングの対象となるデータを抽出するために行われます。これにより、必要なデータのみを選別してクレンジング処理を効率的に行うことができます。
131 / 196
131) クラウド上のファイル共有サービスを利用するメリットは次のうちどれか
クラウド上のファイル共有サービスを利用すると、自社で端末を用意したりサーバーを管理する必要がなく、すぐに使うことができます。
132 / 196
132) データ分析において、次のうち第一四分位数を表すのはどれか
第一四分位数はデータセットを小さい順に並べたときの下から25%の位置にある値です。これはデータセットの下位の特徴を理解するのに役立ちます。
133 / 196
133) オープンデータの特徴として最も適切なものを選べ
オープンデータは、誰でも利用できることが特徴です。利用者が限定されていたり、データが暗号化されていたり、利用に料金が発生することは、オープンデータの特徴には当てはまりません。
134 / 196
134) SQLで複数のテーブルを結合する際に使用するキーワードとして適切なものはどれか
複数のテーブルを結合するにはJOINキーワードを使用します。UNIONは異なるテーブルの結果セットを結合するのに、GROUP BYは集約関数とともに使用し、ORDER BYは結果セットの並び替えに使います。
135 / 196
135) アプリケーションレベルのアクセス権限で、ユーザーがデータベース内の特定のデータのみを参照できる権限はどれか
制限付き参照権限を持つユーザーは、アプリケーションの制御下で特定のデータのみを参照することができます。
136 / 196
136) 大量のデータを効率的に処理するために必要な技術は次のうちどれか
データマイニングは、大量のデータから有用な情報を抽出する技術です。データエントリーは情報入力の作業、データベースインデックスは検索を高速化するためのもの、プログラムのデバッグはエラーを修正する過程です。
137 / 196
137) CSVファイルとJSON、XMLのデータ構造の違いに関する記述として、最も適切なものはどれか
CSVは表形式のデータ構造を持ち、階層的なデータ構造を持たないのが一般的です。一方で、JSONとXMLは配列や入れ子になる場合があり、階層的なデータ構造を持つことができます。
138 / 196
138) ハッシュ関数が生成するハッシュ値の用途として、不適切なものはどれか
ハッシュ関数はデータの完全復元には使用されません。ハッシュ値は非可逆的なため、元のデータを復元することはできないのです。
139 / 196
139) SOAP Webサービスのセキュリティを担保するために使用されるプロトコルは次のうちどれか
SOAP Webサービスでは、セキュリティを担保するためにHTTPSプロトコルが使用されます。HTTPは暗号化されていないため、セキュリティが低く、FTPやSMTPは異なる目的で使用されるプロトコルです。
140 / 196
140) 電子署名のプロセスにおいて、送信者が最初に行うべきステップは次のうちどれか
電子署名のプロセスでは、送信者は最初に送信するデータをハッシュ関数でハッシュ値に変換します。これにより、データの完全性が保証され、後のステップで改ざんがないかを検証できます。
141 / 196
141) マッピング処理において、最新のマスターを使用する理由は次のうちどれか
最新のマスターを使用することで、存在しない新しい商品名などに対しても適切な値を出すことができ、マッピングミスを防ぐことができます。
142 / 196
142) ハッシュ関数の特徴についての説明で、正しいものは次のうちどれか
ハッシュ関数は、元のデータからハッシュ値を生成する際に非可逆的な特性を持っています。これは、生成されたハッシュ値から元のデータを復元することができないことを意味します。
143 / 196
143) RStudioはどのような用途で用いることが一般的か
RStudioはRを用いた開発に特化しており、データ分析や統計計算に適しています。
144 / 196
144) グラフの色使いに関する正しい記述は次のうちどれか
グラフにおいて色は、データのカテゴリを区別し、視覚的に理解しやすくするための重要な要素です。色の使い方は慎重に行い、混乱を避けるために同じ色を異なるカテゴリに使用しないようにします。
145 / 196
145) SQLでレコードの集計を行うにはどの関数を使用するか
集計関数にはCOUNT, MAX, SUMなどがあり、それぞれレコード数のカウント、最大値の検索、合計値の計算に使用します。
146 / 196
146) RStudioで簡単に出力できるものは次のうちどれか
RStudioでは、分析結果となる図表を簡単に出力でき、視覚的にデータを確認することができます。
147 / 196
147) データベース全体のバックアップを取る方法とは、次の中でどれか
フルバックアップはデータベース全体のバックアップを取る方法で、これ1つでデータ復元(リストア)することができます。非常に簡便ですが、バックアップに時間がかかるというデメリットがあります。
148 / 196
148) 暗号化鍵と復号鍵が異なる暗号化方式は次のうちどれか
公開鍵暗号方式では、暗号化鍵(公開鍵)と復号鍵(秘密鍵)が異なります。公開鍵は公開され、秘密鍵は送信者が秘密に保持します。
149 / 196
149) マルウェアの一種で、他のプログラムに依存せずに自己複製を行うものは次のうちどれか
ワームは、他のプログラムに依存することなく、ネットワークを介して自己複製を行い、拡散するマルウェアの一種です。これに対して、トロイの木馬は有益なソフトウェアに偽装し、アドウェアは迷惑な広告を表示し、スパイウェアはデータを盗聴することがあります。
150 / 196
150) スパイウェアの主な目的は次のうちどれか
スパイウェアは、ユーザーの行動を秘密裏に監視し、個人情報や機密データを盗むことを目的としたマルウェアです。
151 / 196
151) オープンデータの利用が可能なデータの例として、最も不適切なものはどれか
オープンデータは、政府や自治体が提供する公開データのことを指します。特定企業の内部資料は、オープンデータとは異なります。
152 / 196
152) Jupyter Notebookで作成したファイルに含まれるものとして、適切なものはどれか
Jupyter Notebookでは、ソースコード、実行結果、図表、文書などを1つのファイルに保存できます。
153 / 196
153) 外部参照制約がある場合、どのようなデータを挿入することが許されるか
外部参照制約がある場合、参照先テーブルに存在する外部キー値のみを挿入することが許されます。存在しない値や任意の値を挿入するとエラーになります。
154 / 196
154) Google Cloud Storageの特徴は次のうちどれか
Google Cloud Storageは大量のデータ蓄積に適しており、非構造化データも扱えます。
155 / 196
155) サーバーがクライアントに対して、レスポンスのデータ形式を伝えるために使用するHTTPヘッダーはどれか
Content-Typeヘッダーは、サーバーがクライアントにレスポンスのMIMEタイプを伝えるために使用されます。これにより、クライアントは受け取ったデータを適切に処理することができます。
156 / 196
156) 次のうち、データ結合処理において最も推奨される手順はどれか
データ結合処理においては、まず少ないデータ量で結果を確認し、問題なければ全量で処理をするという手順が最も推奨されます。これは、結合処理の書き方に少し間違いがあるだけで、データを抽出するDBに大きな負荷をかけてしまうことを防ぐためです。
157 / 196
157) Pythonで次のコードを実行した場合、出力される値は次のうちどれか
このPythonコードでは、変数 x と y にそれぞれ5と3が格納されています。print 関数で計算される式は
x
y
5×3+7
で、結果は22になります。
158 / 196
158) BIツールの主な目的は次のうちどれか
BIツールは、さまざまなデータを集約し、一目でわかるように分析するためのツールです。データの「見える化」により、意思決定を支援します。
159 / 196
159) データベースから外部にデータを抽出した後、元のデータベースが更新された場合、抽出したデータにどのような影響があるか、次の中で最も適切なものを選べ
データベースからのデータ抽出はコピーを作成する行為なので、元のデータベースがアップデートされたとしてもExcelには反映されず、再度データ抽出からやり直す必要があります。
160 / 196
160) 情報セキュリティのCIAのうち、ハッシュ関数を用いることで保証される要素は次のうちどれか
ハッシュ関数はデータが改ざんされていないかを確認するために使用され、完全性を保証するための対策です。
161 / 196
161) PythonのPandasライブラリで使用されるdescribe関数が出力する値はどれか
Pandasのdescribe関数はデータ個数、平均、標準偏差、最小値、第一四分位数、第二四分位数、第三四分位数、最大値を出力します。これにより、データの基本的な特徴を把握することができます。
162 / 196
162) オープンデータの利用がもたらす効果として、最も適切でないものはどれか
オープンデータの利用は、情報の透明性の向上、社会的課題の解決、新たなサービスの創出に寄与しますが、データの独占利用はオープンデータの目的に反します。
163 / 196
163) 非構造化データに関する説明として、最も適切なものはどれか
非構造化データは、そのままでは関係性が明確でないため、データサイエンスでは前処理を通じてタグ付けや抽出処理を行い、構造化データに変換して利用します。
164 / 196
164) 次のうち、NoSQLデータストアの代表的なものとして最も適切でないものはどれか
Oracle Databaseは、一般的なリレーショナルデータベース管理システム(RDBMS)であり、NoSQLデータストアではありません。
165 / 196
165) データサイエンスにおける非構造化データの活用のハードルについての説明として、最も適切でないものはどれか
非構造化データは、関係性が明確でないため、分析や活用するためには前処理が必要であり、そのため活用のハードルが構造化データよりも高くなります。
166 / 196
166) Excelでマッピング処理を行う際に使用する関数は次のうちどれか
Excelでマッピング処理を行う場合、VLOOKUP関数を使用して、商品名を商品コードに変換することができます。
167 / 196
167) 1台のサーバーの故障する確率が1%とすると、2台のサーバーを用いることで、同時に故障する確率は何%になるか
1台のサーバーの故障する確率が1%とすると、2台のサーバーを用いることで、同時に故障する確率が0.01%(1%×1%)となります。
168 / 196
168) 次のうち、ER図で表現されるものはどれか
ER図は主に関係データベースの構造を可視化するために使用されます。データのまとまりや関連性を明確にすることができます。
169 / 196
169) 構造化データについての説明として、最も適切でないものはどれか
構造化データは、データの関係性が明確であり、「列」と「行」の概念で表せるデータのことを指します。音声、画像、動画などは「列」と「行」で表せないため、非構造化データの例です。
170 / 196
170) データベースの正規化の目的として、最も適切なものはどれか
データベースの正規化の主な目的は、データの重複をなくし、データの整合性を保つことです。これにより、データに不整合が起きにくくなります。
171 / 196
171) データベースにデータを挿入する際に、NOT NULL制約があるカラムに対してどのようなデータを挿入する必要があるか
NOT NULL制約があるカラムには、NULL値を挿入することはできません。そのため、非NULL値を挿入する必要があります。
172 / 196
172) SQLでデータをグループ化し、集計するために使用するものは次のうちどれか
GROUP BYキーワードは、特定の列の値に基づいてデータをグループ化し、集計するために使用されます。これにより、カテゴリ別の売り上げ合計などを計算することができます。
173 / 196
173) プログラムでエクスポートするファイルのフォーマットを指定する際、最も重要な考慮事項は次のうちどれか
エクスポートするファイルのフォーマットを指定する際には、エクスポートした後の用途に合わせて適切なフォーマットを選択することが最も重要です。用途に応じて、データの互換性や操作性を考慮する必要があります。
174 / 196
174) オープンデータの利用が推進される理由として、最も適切なものを選べ
オープンデータの利用が推進される主な理由は、データ利用による経済的価値の創出とイノベーションの促進です。秘密保持の強化や権利の強化、法律の複雑化は、オープンデータの目的とは異なります。
175 / 196
175) データベースからデータを抽出する際、CSV形式でエクスポートするとどのような問題が生じる可能性があるか、次の中で最も適切なものを選べ
データベース内のデータに「カンマ」が含まれている場合に、CSV形式でデータをエクスポートすると、データによっては意図しないところでカラムが分割されてしまうことがあります。
176 / 196
176) エクスポートするデータのフォーマットに関して、最も適切なものはどれか
データをエクスポートする際には、データの可読性と互換性を重視することが重要です。これにより、エクスポートしたデータが目的の用途に適していることを確認できます。
177 / 196
177) 以下のうち、Java言語で開発する際に使用されるSDKはどれか
Java言語でソフトウェア開発を行う際には、JDK(Java Development Kit)が使用されます。
178 / 196
178) 次のうち、データ結合処理において最も重要なプロセスはどれか
データ結合処理においては、「単に結合処理ができる」というだけではなく、対象データを理解し、それに応じて適切な結合条件を設定できることが最も重要な視点です。
179 / 196
179) Amazon S3はどのようなタイプのクラウドストレージサービスか
Amazon S3はオブジェクトストレージサービスであり、さまざまな形式のデータを蓄積できます。
180 / 196
180) HTTP通信で、サーバーから情報を取得するために使用されるメソッドはどれか
HTTPメソッドの中で、サーバーから情報を取得する際に用いられるのはGETメソッドです。GETメソッドは、URLに続けて「?」以降にパラメータを付与してリクエストを送信し、サーバーから必要な情報を取得します。
181 / 196
181) 正規表現でA000など数値が3桁以上の場合を拾う表現はどれか
A000など数値が3桁以上の場合を拾うには、A[0-9]{3,}と指定します。ここで、{3,}は3回以上の繰り返しを意味します。
182 / 196
182) SQLはデータ分析においてどのような役割を果たすか
SQLはデータベース管理システムで使用され、データの抽出、更新、削除などを行います。ウェブページのデザインにはHTML/CSS、グラフィックデザインにはイラストレーターなどのツール、ソフトウェアテストにはテストフレームワークが使用されます。
183 / 196
183) 正規表現でA00~A99の文字列を表すとき、どの表現が最も適切か
A00~A99の文字列は、正規表現でA[0-9]{2}と表現します。ここで、[0-9]{2}は0から9までの数字が2回続くことを意味します。
184 / 196
184) 情報セキュリティのCIAのうち、ファイアウォールの設置が関連する要素はどれか
ファイアウォールは不正アクセスを防ぐために使用され、機密性を高める対策です。
185 / 196
185) FTPサーバーとのファイル転送に関する注意点は次のうちどれか
FTPによる通信は暗号化されていないため、機密情報を扱う場合には特に注意が必要です。
186 / 196
186) マルウェアに感染したことを示す兆候は次のうちどれか
マルウェアに感染すると、ファイルが暗号化されてアクセスできなくなることがあります。これはランサムウェアの一般的な兆候であり、感染の警告信号となります。
187 / 196
187) データクレンジングにおける除外処理の目的は次のうちどれか