자격증 ⁺₊

경영정보시각화능력 필기 2과목 데이터 해석 및 활용 요약 정리

by ₊⁺우산이끼⁺₊ 2024. 5. 18.
반응형

공부하면서 정리했던 거라 모든 내용이 있진 않습니다.

데이터 해석 및 활용 출제기준 및 범위별 예상 문제 수

2과목 데이터 해석 및 활용 문제 수
1. 데이터 이해 및 해석 데이터 개념 • 데이터의 개념
• 데이터의 종류
• 데이터의 종류별 유의사항, 특성
• 데이터 파일 형식
3
데이터 해석 • 데이터 해석 관점
• 데이터 기초통계량
• 확률과 확률분포
3
2. 데이터파일시스템 데이터파일시스템의 개념 및 종류 • 자료의 계층구조
• 데이터파일시스템의 개념
• 데이터파일시스템의 종류 및 특징
2~3
데이터베이스 이해 • 데이터베이스 구성요소
• 데이터베이스 구조
• 키(Key)의 개념
• 변수의 개념
5~6
3. 데이터 활용 데이터 가공 방법 • 데이터 오류와 결측치
• 데이터 정제
• 데이터 변환
• 데이터 분리
• 데이터 결합
1~2
데이터 관리 • 데이터 수집 및 전환
• 데이터 적재 및 저장
• 데이터 보안 및 개인정보보호
2~3
비즈니스 인텔리전스 • 비즈니스 인텔리전스의 개념
• 비즈니스 인텔리전스와 데이터 기반 의사결정
• 비즈니스 인텔리전스의 활용
2

데이터의 종류

정형 데이터 구조화됨. 엑셀 스프레드시트, 관계 데이터베이스의 테이블
반정형 데이터 설명 포함. 파싱 과정 필요. HTML, XML, JSON
비정형 데이터 구조 없음. SNS 텍스트, 이미지, 영상, PDF 문서
종류를 나타냄: 범주형 데이터 서열 없음->명목형 데이터
서열 있음->순서형 데이터
크기 비교와 연산 가능: 수치형 데이터 있음: 이산형 데이터 -판매량
없음, 측정 가능: 연속형 데이터 -, 몸무게

통계 용어

모집단 관심 대상 전체
표본 모집단의 일부 추출
기술통계 데이터의 특성과 속성 파악
추론통계 모집단의 특성과 속성 파악
확률 같은 원인에서 특정 결과가 나타나는 비율
조건부 확률 Pr(A|B)
도수분포표 데이터가 속하는 항목 또는 범위의 빈도를 나타낸
히스토그램 데이터가 속하는 항목 또는 범위의 빈도를 나타낸 그래프
평균(Mean) 전체 데이터 총합 / 전체 데이터
중앙값(Median) 전체 데이터를 나열했을 가운데에 있는
짝수개면
가운데 값의 평균
최빈값(Mode) 가장 많은
분산(Variance) 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지

*NULL은 데이터로 취급하지 않음.

확률분포

이산확률분포 연속확률분포
있음 없음
베르누이 분포
이항분포
기하분포
음이항분포
초기하분포
푸아송분포
정규분포
감마분포
지수분포
카이제곱분포
베타분포
균등분포
(균일분포)

데이터마이닝

  • 관측자료는 시간의 흐름에 따라 비계획적으로 축적.
  • 자료분석을 염두에 두고 수집되지 않음
  • 컴퓨터 중심적 기법
  • 경험적 방법에 근거
  • 일반화
연관분석 유용한 연관성과 상관관계, 규칙, 패턴, 조합 발견
군집 분석 전체를 개의 유사 집단으로 그룹화하여 성격 파악
분류분석 의사결정나무 기법: 의사결정 규칙을 나무구조로 도표화 - 마지막 노드는 결과값
회귀분석 변수 간의 함수관계를 추구하는 통계적인 방법
독립변수
: 입력값, 원인 = 설명변수
종속변수
: 결과물, 효과 = 반응변수

데이터베이스 구성요소

릴레이션 Relation = 테이블

애트리뷰트 Attribute = = 필드 = 속성 = 변수

튜플 Tuple = = 레코드 Record

메타데이터 Metadata = 데이터를 설명하는 정보. 검색 및 조회에 사용. 일관성과 제약조건 유지에 기여

데이터 딕셔너리 = 데이터 구조와 메타데이터에 대한 정보 저장

트랜잭션 관리자 = 트랜잭션 관리 및 제어. 일관성과 동시성 제어

저장 데이터 관리자 = 물리적인 저장, 접근, 관리

질의 처리기 = SQL 처리, 정보 추출

스키마 Schema = 데이터 구조와 제약조건 명세

스키마

외부 스키마 사용자, 응용 프로그램 관점
개념 스키마 전체 데이터베이스의 논리적 구조
내부 스키마 데이터의 물리적 구조

데이터베이스 언어

DDL - 데이터 정의어
(Data Define Language)
CREATE, ALTER, DROP
DML - 데이터 조작어
(Data Manipulation Language)
SELECT, INSERT, DELETE, UPDATE
DCL - 데이터 제어어
(Data Control Language)
COMMIT, ROLLBACK, GRANT, REVOKE

분산 데이터베이스

구성요소: 분산 처리기, 분산 데이터베이스, 통신 네트워크

장점 단점
  • 신뢰성과 가용성 증대
  • 지역 자치성과 효율성 증대
  • 확장성 증대
  • 비용
  • 복잡함
  • 오류 잠재성 증대
  • 데이터 무결성 위협 증대
  • 불규칙한 응답속도

분산 데이터베이스의 투명성

  • 분할 투명성
  • 위치 투명성
  • 지역사상 투명성: 지역 DBMS 물리적 DB 사이에 연계를 보장함.
  • 중복 투명성
  • 장애 투명성
  • 병행 투명성

데이터 저장

  • 관계형 DB: 구조화된 데이터 저장 - MySQL, PostgreSQL, Oracle
  • NoSQL DB: 비정형 또는 반정형 데이터 저장 - MongoDB, Cassandra, Redis
  • 데이터웨어하우스: 다양한 소스에서 수집된 대량의 데이터 저장 - Amazon Redshift, BigQuery
  • 분산 파일시스템: 대량의 비정형데이터 - HDFS, Amazon S

데이터 정제

결측값 처리 또는 삭제, 적절한 추정치로 채움, 다중 대입
중복값 제거 번째 항목 유지, 마지막 항목 유지
불일치 데이터 처리 형식 표준화
이상값 처리 통계적 방법 사용
데이터 유효성 검사 사전에 정의된 규칙 또는 제약조건에 따라 검사

 

반응형

댓글