이 글은 데이터베이스 개론 (저자 김연희)의 내용을 개인적으로 정리하는 글임을 알립니다.


데이터베이스의 필요성

데이터와 정보

  • 데이터 : 현실 세계에서 단순히 관찰하거나 측정하여 수집한 시실이나 값으로, 자료라고도 한다.
  • 정보 : 데이터를 의사 결정에 유용하게 활용할 수 있도록 처리하여 체계적으로 조직한 결과물이다.

데이터에서 정보를 추출하는 과정 또는 방법을 정보 처리라 한다.

즉, 정보 처리는 데이터를 상황에 맞게 분석하거나 해석하여 데이터 간의 의미 관계를 파악하는 것이다.

 

현재성과 정확성을 보장하는 가치 있는 정보를 얻으려면 현재 상황을 정확히 관찰하고 측정하여 의미 있는 데이터를 많이 수집해야 한다.

 

하지만 데이터를 많이 수집하는 데 그쳐서는 안된다.

수집한 데이터를 효율적으로 저장했다가 필요할 때 언제든 사용할 수 있어야 한다.

유용하게 활용할 수 있는 정보를 정확히 추출할 수 있도록 데이터를 대신 관리해주는 역할은 데이터베이스가 담당한다.

 

정보 시스템과 데이터 베이스

조직 운영에 필요한 데이터를 수집하여 저장해두었다가 의사 결정이 필요할 때 처리하여 유용한 정보를 만들어주는 수단을 정보 시스템이라 한다.

정보 시스템 안에서 데이터를 저장하고 있다가 필요할 때 제공하는 핵심 역할은 데이터베이스가 담당한다.

복합적이고 광범위한 의사 결정을 위해 사용되는 정보 시스템은 의사 결정 지원 시스템이라 한다.

이외에도 다양한 정보 시스템이 사회 전반에서 활용되고 있다. 그에 따라 정보 시스템의 핵심 요소인 데이터베이스가 매우 중요해졌다.

데이터베이스
흔히 데이터베이스, 데이터베이스 관리 시스템, 데이터베이스 시스템이라는 용어를 구분하지 않고 섞어쓰는데 모두 다른 용어다.

 

 

데이터베이스의 정의와 특징

데이터베이스의 정의

일반적으로 데이터베이스는 특정 조직의 여러 사용자가 '공유'하여 사용할 수 있도록 '통합'해서 '저장'한 '운영' 데이터의 집합이라고 정의한다.

  • 공유 데이터
    데이터베이스는 특정 조직의 여러 사용자가 함께 사요하고 이용할 수 있어야 하는 공용 데이터다. 그러므로 사용 목적이 다른 사용자들을 두루 고려하여 데이터베이스를 구성해야 한다.
  • 통합 데이터
    데이터베이스는 데이터 중복성 즉, 똑같은 데이터가 여러 개 존재하는 것을 허용하지 않는다. 하지만 효율성 때문에 중복을 의도적으로 혀용하는 경우가 있으므로, 통합 데이터는 데이터의 중복을 최소화하고 통제가 가능한 중복만 허용하는 데이터라는 의미로 이해해야 한다.
  • 저장 데이터
    데이터베이스의 데이터는 주로 컴퓨터가 처리하므로, 컴퓨터가 접근할 수 있는 매체에 데이터베이스를 저장해야 한다.
  • 운영 데이터
    데이터베이스는 조직을 운영하고 조직의 주요 기능을 수행하기 위해 꼭 필요하다. 일시적으로 사용하고 마는 것이 아닌, 지속적으로 유지해야 하는 데이터다.

 

데이터베이스의 특징

  • 실시간 접근성
    데이터베이스는 사용자의 데이터 요구에 실시간으로 응답할 수 있어야 한다.
  • 계속 변화
    데이터베이스는 현실 세계의 상태를 정확히 반영해야 의미가 있다. 그런데 현실 세계는 끊임없이 변하므로 데이터베이스에 저장된 데이터도 계속 변해야 한다. 즉, 데이터를 계속 삽입, 삭제, 수정하여 현재의 정확한 데이터를 유지해야 한다.
  • 동시 공유
    데이터베이스는 여러 사용자가 동시에 이용할 수 있는 동시 공유의 특징을 제공해야 한다.
    동시 공유는 여러 사용자가 서로 다른 데이터를 동시에 사용하는 것뿐 아니라, 같은 데이터를 동시에 사용하는 것도 모두 지원한다는 의미다.
  • 내용 기반 참조
    데이터베이스는 저장된 주소나 위치가 아닌 데이터의 내용, 즉 값으로 참조할 수 있다.
    찾고자 하는 데이터의 내용 조건만 제시하면 조건에 맞는 데이터가 서로 다른 위치에 저장되어 있어도 모두 검색할 수 있다.

 

 

데이터 과학 시대의 데이터

형태에 따른 데이터 분류

데이터는 구조화된 형태에 따라 정형 데이터, 반정형 데이터, 비정형 데이터로 분류할 수 있다.

  • 정형 데이터
    정형 데이터는 구조화된 데이터, 즉 미리 정해진 구조에 따라 저장된 데이터다.
    표 안에서 행과 열에 의해 지정된 각 칸에 데이터를 저장하는 엑셀의 스프레드시트, 관계 데이터베이스의 테이블이 정형 데이터를 담고 있는 대표적인 예다.
    데이터 구조에 대한 설명과 데이터 내용은 별도로 유지된다.
  • 반정형 데이터
    반정형 데이터는 구조에 따라 저장된 데이터지만 정형 데이터와 달리 데이터 내용 안에 구조에 대한 설명이 함께 존재한다.
    따라서 데이터 내용에 대한 설명, 즉 구조를 파악하는 파싱 과정이 필요하고, 보통 파일 형태로 저장된다.
  • 비정형 데이터
    비정형 데이터는 정해진 구조가 없이 저장된 데이터다.
    소셜 데이터의 텍스트, 영상, 이미지, 음성, 워드나 PDF 문서와 같은 멀티미디어 데이터가 대표적인 예다.
내용과 함께 설명된 데이터 구조를 스키마라고도 하지만 메타 데이터라고도 한다.

 

특성에 따른 데이터 분류

일반적으로 데이터를 특성에 따라 범주형 데이터와 수치형 데이터로 분류한다.

이러한 분류는 통계적 관점에서 데이터 특성에 따라 보다 적합한 분석방법을 선택하기 위해 데이터 분석 분야에서 주로 활용한다.

범주형 데이터

범주형 데이터는 명목형 데이터와 순서형 데이터로 나뉜다.

범주형 데이터는 범주로 구분할 수 있는 값, 즉 종류를 나타내는 값을 가진 데이터를 의미한다.

남자와 여자로 구분되는 성별이나 1학년 2학년 등으로 구분되는 학년이 범주형 데이터에 해당한다.

  • 명목형 데이터
    남자와 여자로 구분되는 성별이나, 혈액형 등 순서, 즉 서열이 없는 값을 가지는 데이터를 의미한다.
  • 순서형 데이터
    순서, 즉 서열이 있는 값을 가지는 데이터로 1학년 2학년 등으로 구분되는 학년이나 학점, 회원 등급 등이 순서형 데이터에 속한다.

범주형 데이터는 대부분 문자 타입의 값으로, 양적 측면에서 크기 비교와 산술적인 연산이 가능하지 않기 때문에 질적 데이터라고도 한다.

 

수치형 데이터

수치형 데이터는 이산형 데이터와 연속형 데이터로 나뉜다.

수치형 데이터는 양적 측면에서 크기 비교와 산술적인 연산이 가능한 숫자 값을 가진 데이터를 의미한다. 그래서 양적 데이터라고도 한다.

키, 몸무게, 고객수, 판매량 등이 수치형 데이터에 해당한다.

  • 이산형 데이터
    개수를 셀 수있는 고객 수, 판매량, 합격자 수와 같이 이어지지 않고 띄엄띄엄 단절된 숫자 값을 가지는 데이터를 의미
    보통 소수점이 없는 정수 타입의 값으로 표현된다.
  • 연속형 데이터
    측정을 통해 얻어지는 키, 몸무게, 온도, 점수와 같이 연속적으로 이어진 숫자 값을 가지는 데이터를 의미
    모통 소수점이 있는 실수 타입의 값으로 표현된다.

 

정성적 데이터와 정량적 데이터
데이터 유형을 정성적 데이터와 정량적 데이터로 분류하기도 한다.
좁은 의미로는 범주형 데이터를 정성적 데이터로, 수치형 데이터를 정량적 데이터로 볼 수 있다.
넓은 의미로 제품이나 서비스에 대한 후기와 같이 사람의 주관적인 생각과 평가를 기술한 비정형 데이터를 정성적 데이터로, 객관적인 측정을 통해 수치나 도형, 기호 등으로 표현한 정형 데이터를 정량적 데이터로 정의하기도 한다.
정량적 데이터에 비해 정성적 데이터가 저장 및 처리 측면에서 더 큰 비용이 드는 경우가 많다.