データエンジニアリング力 ランダム35問出題
データエンジニアリング力のスキルカテゴリ全196問から35問をランダムに出題します。
1 / 35
Category: データエンジニアリング力
1) 一般的なRDBMSとDWHアプライアンスの違いとして、最も適切でないものはどれか
一般的なRDBMSはトランザクション処理に優れていますが、DWHアプライアンスは大量データの結合・集計・抽出に特化しており、トランザクション処理の性能はRDBMSに劣ることがあります。
2 / 35
2) Hadoopのクラスタ管理システムは次のうちどれか
YARNはYet Another Resource Negotiatorの略で、Hadoopクラスタのリソース管理とジョブスケジューリングを行います。
3 / 35
3) SOAP Webサービスのセキュリティを担保するために使用されるプロトコルは次のうちどれか
SOAP Webサービスでは、セキュリティを担保するためにHTTPSプロトコルが使用されます。HTTPは暗号化されていないため、セキュリティが低く、FTPやSMTPは異なる目的で使用されるプロトコルです。
4 / 35
4) ISO/IEC 27001(JIS Q27001)において、情報セキュリティマネジメントシステム(ISMS)に求められる要素は次のうちどれか
ISO/IEC 27001はセキュリティの標準規格であり、ISMSにCIAの3要件の実現を求めています。
5 / 35
5) データベース全体のバックアップを取る方法とは、次の中でどれか
フルバックアップはデータベース全体のバックアップを取る方法で、これ1つでデータ復元(リストア)することができます。非常に簡便ですが、バックアップに時間がかかるというデメリットがあります。
6 / 35
6) Google Cloud Storageの特徴は次のうちどれか
Google Cloud Storageは大量のデータ蓄積に適しており、非構造化データも扱えます。
7 / 35
7) 共通鍵暗号方式と公開鍵暗号方式を組み合わせて使用する利点は次のうちどれか
共通鍵暗号方式と公開鍵暗号方式を組み合わせることで、通信の安全性が向上します。公開鍵暗号方式で安全に共通鍵を交換し、その後は高速な共通鍵暗号方式で通信を行います。
8 / 35
8) データクレンジングにおいて、数式や関数を使って自動化する主なメリットは次のうちどれか
数式や関数を使ってクレンジングを自動化することで、ミスを減らし、クレンジングの精度が向上します。また、時間とコストの節約にもつながります。
9 / 35
9) プログラムでエクスポートするファイルのフォーマットを指定する際、最も重要な考慮事項は次のうちどれか
エクスポートするファイルのフォーマットを指定する際には、エクスポートした後の用途に合わせて適切なフォーマットを選択することが最も重要です。用途に応じて、データの互換性や操作性を考慮する必要があります。
10 / 35
10) データサイエンスにおける非構造化データの活用のハードルについての説明として、最も適切でないものはどれか
非構造化データは、関係性が明確でないため、分析や活用するためには前処理が必要であり、そのため活用のハードルが構造化データよりも高くなります。
11 / 35
11) データに「カンマ」が含まれている場合、CSVフォーマットでのエクスポートにおいて注意すべき点は次のうちどれか
データに「カンマ」が含まれている場合、CSVフォーマットでエクスポートすると、意図しない形でデータが読み込まれる可能性があります。これは、CSVがコンマをフィールドの区切りとして使用するためです。
12 / 35
12) オープンデータに関する説明として最も適切なものを選べ
オープンデータは、営利・非営利を問わず二次利用可能で、機械判読に適した形式で無償で利用できる公開データのことを指します。インターネット上にある全てのデータがオープンデータとは限りません。
13 / 35
13) データクレンジングの最初のステップとして最も適切なものはどれか
データクレンジングを行う前に、クレンジングの対象となるデータを抽出する必要があります。これにはフィルタリング処理のスキルが求められます。
14 / 35
14) 動的コンテンツの収集が難しい理由として最も適切なものをえらべ
動的コンテンツはユーザーのアクションやリクエストに応じて内容が変化するため、収集が難しいとされています。
15 / 35
15) ハッシュ値が同じになる現象を何と呼ぶか
異なる元データが同一のハッシュ値に変換される現象を「衝突」と呼びます。これはハッシュ関数の特性上、避けられない問題であり、ハッシュ値の長さやハッシュ関数の設計によって発生確率が変わります。
16 / 35
16) Webクローラー・スクレイピングツールの使用時に注意すべき点は次のうちどれか
Webクローラー・スクレイピングツールを使用する際には、対象のWebサーバーに過度な負荷をかけないように注意する必要があります。
17 / 35
17) Hadoopのデータ処理の仕組みは次のうちどれか
MapReduceはHadoopのデータ処理モデルで、大規模データの分散処理を行うためのプログラミングモデルです。
18 / 35
18) 次のうち、Excelでのデータ結合処理に最も頻繁に使用される関数はどれか
Excelでのデータ結合処理においては、VLOOKUP関数が最も頻繁に使用されます。この関数は、2つのデータを結合する際に多用されます。
19 / 35
19) Webページの情報利用に関して確認すべきこととして、最も適切なものを選べ
Webページの情報を利用する前には、利用規約で情報の使用が許可されているかを確認する必要があります。
20 / 35
20) 次のうち、データ結合処理において最も推奨される手順はどれか
データ結合処理においては、まず少ないデータ量で結果を確認し、問題なければ全量で処理をするという手順が最も推奨されます。これは、結合処理の書き方に少し間違いがあるだけで、データを抽出するDBに大きな負荷をかけてしまうことを防ぐためです。
21 / 35
21) データサイエンスにおいて、非構造化データを構造化データに変換するプロセスに関する説明として、最も適切なものはどれか
データサイエンスでは、非構造化データを構造化データに変換するために、タグ付けや抽出処理などの前処理が必要です。これにより、データの関係性を明確にし、分析や活用が可能になります。
22 / 35
22) 次のうち、完全性(Integrity)に関連しないものはどれか
完全性はデータが正確で完全であることを保証する要素です。アクセス権限制御は機密性に関連する対策であり、完全性とは直接関係ありません。
23 / 35
23) ハッシュ関数が生成するハッシュ値の用途として、不適切なものはどれか
ハッシュ関数はデータの完全復元には使用されません。ハッシュ値は非可逆的なため、元のデータを復元することはできないのです。
24 / 35
24) ハッシュ関数の利用用途として正しいものは次のうちどれか
ハッシュ関数は改ざんの検出に用いられます。ハッシュ値を比較することで、データが改ざんされていないかをチェックすることができます。暗号化やデータの復元はハッシュ関数の目的ではありません。
25 / 35
25) フルバックアップ後に更新されたデータ部分のバックアップを取る方法とは、次の中でどれか
差分バックアップは、フルバックアップ後に更新されたデータ部分のバックアップを取る方法です。データのリストアには、フルバックアップしたデータと、差分バックアップしたデータの2つが必要です。
26 / 35
26) 乱数に関する説明として最も適切なものはどれか
乱数は、ある範囲内で任意に選ばれる数値であり、予測不可能な値を提供します。これにより、サンプリング処理でのバイアスを防ぐことができます。
27 / 35
27) HBaseはどのようなタイプのデータベースか
HBaseは、列ファミリーベースの分散データベースであり、Hadoop関連技術のHDFS上に構築されています。大規模なデータに対してリアルタイムに読み書きする処理に特化しています。
28 / 35
28) データベースに大量のデータを挿入する最も効率的な方法は次のうちどれか
大量のデータを効率的に挿入するには、データベースが提供するIMPORTコマンドを使用することが最も効率的です。これにより、データを高速に一括して挿入することができます。
29 / 35
29) エクスポートしたデータをExcelで開く際、CSVフォーマットが適している理由は次のうちどれか
CSVフォーマットはコンマで区切られたテキストファイルであり、Excelで開くとデータが自動的にセルに分割されます。これにより、データの操作が容易になります。
30 / 35
30) データベースにデータを挿入する際、留意すべき事項は次のうちどれか
データベースにデータを挿入する際には、データの整合性を保つことが重要です。これには、データ型、制約、関連性などが含まれます。
31 / 35
31) Webクローラー・スクレイピングツールに関する説明として、最も適切なものを選べ
Webクローラー・スクレイピングツールは、インターネット上に公開されているWebページの情報を収集するためのプログラムやツールのことです。
32 / 35
32) 静的コンテンツに関する説明として最も適切なものを一つ選べ
静的コンテンツは、アクセスするたびに同じ内容が表示されるWebページのことで、サーバー上のHTMLファイルがそのまま表示されます。
33 / 35
33) SQLでレコードの集計を行うにはどの関数を使用するか
集計関数にはCOUNT, MAX, SUMなどがあり、それぞれレコード数のカウント、最大値の検索、合計値の計算に使用します。
34 / 35
34) Jupyter NotebookとRStudioの共通点は次のうちどれか
両方の開発環境は、分析に必要なライブラリが最初からパッケージされており、短時間で分析環境を準備できます。
35 / 35
35) マルウェアによるデータ流出が社会問題となる理由は次のうちどれか
マルウェアによるデータ流出は、個人のプライバシー侵害や企業の機密情報漏洩など、重大な社会問題を引き起こす可能性があります。
Restart quiz