반응형
공부하면서 정리했던 거라 모든 내용이 있진 않습니다.
데이터 해석 및 활용 출제기준 및 범위별 예상 문제 수
2과목 데이터 해석 및 활용 | 문제 수 | ||
---|---|---|---|
1. 데이터 이해 및 해석 | 데이터 개념 | • 데이터의 개념 • 데이터의 종류 • 데이터의 종류별 유의사항, 특성 • 데이터 파일 형식 |
3 |
데이터 해석 | • 데이터 해석 관점 • 데이터 기초통계량 • 확률과 확률분포 |
3 | |
2. 데이터파일시스템 | 데이터파일시스템의 개념 및 종류 | • 자료의 계층구조 • 데이터파일시스템의 개념 • 데이터파일시스템의 종류 및 특징 |
2~3 |
데이터베이스 이해 | • 데이터베이스 구성요소 • 데이터베이스 구조 • 키(Key)의 개념 • 변수의 개념 |
5~6 | |
3. 데이터 활용 | 데이터 가공 방법 | • 데이터 오류와 결측치 • 데이터 정제 • 데이터 변환 • 데이터 분리 • 데이터 결합 |
1~2 |
데이터 관리 | • 데이터 수집 및 전환 • 데이터 적재 및 저장 • 데이터 보안 및 개인정보보호 |
2~3 | |
비즈니스 인텔리전스 | • 비즈니스 인텔리전스의 개념 • 비즈니스 인텔리전스와 데이터 기반 의사결정 • 비즈니스 인텔리전스의 활용 |
2 |
데이터의 종류
정형 데이터 | 구조화됨. 엑셀 스프레드시트, 관계 데이터베이스의 테이블 등 |
반정형 데이터 | 설명 포함. 파싱 과정 필요. HTML, XML, JSON 등 |
비정형 데이터 | 구조 없음. SNS 텍스트, 이미지, 영상, PDF 문서 |
종류를 나타냄: 범주형 데이터 | 서열 없음->명목형 데이터 서열 있음->순서형 데이터 |
크기 비교와 연산 가능: 수치형 데이터 | 셀 수 있음: 이산형 데이터 -판매량 셀 수 없음, 측정 가능: 연속형 데이터 -키, 몸무게 |
통계 용어
모집단 | 관심 대상 전체 |
표본 | 모집단의 일부 추출 |
기술통계 | 데이터의 특성과 속성 파악 |
추론통계 | 모집단의 특성과 속성 파악 |
확률 | 같은 원인에서 특정 결과가 나타나는 비율 |
조건부 확률 | Pr(A|B) |
도수분포표 | 데이터가 속하는 항목 또는 범위의 빈도를 나타낸 표 |
히스토그램 | 데이터가 속하는 항목 또는 범위의 빈도를 나타낸 그래프 |
평균(Mean) | 전체 데이터 총합 / 전체 데이터 수 |
중앙값(Median) | 전체 데이터를 나열했을 때 가운데에 있는 값 짝수개면 가운데 두 값의 평균 |
최빈값(Mode) | 가장 많은 값 |
분산(Variance) | 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지 |
*NULL은 데이터로 취급하지 않음.
확률분포
이산확률분포 | 연속확률분포 |
셀 수 있음 | 셀 수 없음 |
베르누이 분포 이항분포 기하분포 음이항분포 초기하분포 푸아송분포 |
정규분포 감마분포 지수분포 카이제곱분포 베타분포 균등분포(균일분포) |
데이터마이닝
- 관측자료는 시간의 흐름에 따라 비계획적으로 축적.
- 자료분석을 염두에 두고 수집되지 않음
- 컴퓨터 중심적 기법
- 경험적 방법에 근거
- 일반화
연관분석 | 유용한 연관성과 상관관계, 규칙, 패턴, 조합 발견 |
군집 분석 | 전체를 몇 개의 유사 집단으로 그룹화하여 성격 파악 |
분류분석 | 의사결정나무 기법: 의사결정 규칙을 나무구조로 도표화 - 마지막 노드는 결과값 |
회귀분석 | 변수 간의 함수관계를 추구하는 통계적인 방법 독립변수: 입력값, 원인 = 설명변수 종속변수: 결과물, 효과 = 반응변수 |
데이터베이스 구성요소
릴레이션 Relation = 테이블
애트리뷰트 Attribute = 열 = 필드 = 속성 = 변수
튜플 Tuple = 행 = 레코드 Record
메타데이터 Metadata = 데이터를 설명하는 정보. 검색 및 조회에 사용. 일관성과 제약조건 유지에 기여
데이터 딕셔너리 = 데이터 구조와 메타데이터에 대한 정보 저장
트랜잭션 관리자 = 트랜잭션 관리 및 제어. 일관성과 동시성 제어
저장 데이터 관리자 = 물리적인 저장, 접근, 관리
질의 처리기 = SQL 처리, 정보 추출
스키마 Schema = 데이터 구조와 제약조건 명세
스키마
외부 스키마 | 사용자, 응용 프로그램 관점 |
개념 스키마 | 전체 데이터베이스의 논리적 구조 |
내부 스키마 | 데이터의 물리적 구조 |
데이터베이스 언어
DDL - 데이터 정의어 (Data Define Language) |
CREATE, ALTER, DROP |
DML - 데이터 조작어 (Data Manipulation Language) |
SELECT, INSERT, DELETE, UPDATE |
DCL - 데이터 제어어 (Data Control Language) |
COMMIT, ROLLBACK, GRANT, REVOKE |
분산 데이터베이스
구성요소: 분산 처리기, 분산 데이터베이스, 통신 네트워크
장점 | 단점 |
|
|
분산 데이터베이스의 투명성
- 분할 투명성
- 위치 투명성
- 지역사상 투명성: 지역 DBMS와 물리적 DB 사이에 연계를 보장함.
- 중복 투명성
- 장애 투명성
- 병행 투명성
데이터 저장
- 관계형 DB: 구조화된 데이터 저장 - MySQL, PostgreSQL, Oracle
- NoSQL DB: 비정형 또는 반정형 데이터 저장 - MongoDB, Cassandra, Redis
- 데이터웨어하우스: 다양한 소스에서 수집된 대량의 데이터 저장 - Amazon Redshift, BigQuery
- 분산 파일시스템: 대량의 비정형데이터 - HDFS, Amazon S
데이터 정제
결측값 처리 | 행 또는 열 삭제, 적절한 추정치로 채움, 다중 대입 |
중복값 제거 | 첫 번째 항목 유지, 마지막 항목 유지 등 |
불일치 데이터 처리 | 형식 표준화 |
이상값 처리 | 통계적 방법 사용 |
데이터 유효성 검사 | 사전에 정의된 규칙 또는 제약조건에 따라 검사 |
반응형
'자격증 ⁺₊' 카테고리의 다른 글
정보처리기사 필기 1과목 정리 - 소프트웨어 설계 (0) | 2024.05.21 |
---|---|
경영정보시각화능력 필기 3과목 경영정보시각화 디자인 요약 정리 (0) | 2024.05.18 |
경영정보시각화능력 필기 1과목 경영정보 일반 요약 정리 (0) | 2024.05.18 |
경영정보시각화능력 제 1회 필기 시험 후기 - 신설 자격증 정기 시험 (0) | 2024.05.18 |
정보처리기사 24년 2회 필기 합격 후기(나왔던 문제 일부 복원) (0) | 2024.05.12 |
댓글