빅 데이터 V – 빅 데이터의 특성 또는 과제를 나타냅니다.

빅 데이터 V – 빅 데이터의 특성 또는 과제를 나타냅니다.

누구나 빅데이터를 3, 4, 10V 세트로 정의합니다. 이 V는 실제로 우리에게 빅 데이터 개념의 정의를 제공하고 있습니까? 아니면 그들이 우리에게 말하려는 다른 것입니까? 이 V 기반 특성화를 사용하는 주된 이유는 이 빅 데이터와 관련된 과제를 강조하기 위한 것입니다. 캡처, 정리, 큐레이션, 통합, 저장, 처리 등과 같은 과제.

이 V는 예상되는 과제에 대비하기 위한 방향을 제시합니다. 빅 데이터 관리를 시작할 때 직면할 수 있는 문제는 다음과 같습니다.

  • 대량 증가
  • 빠른 속도로 증가
  • 큰 다양성을 생성
  • 큰 가변성을 갖는 변화
  • 큰 진실성을 유지하기 위한 프로세스 필요
  • 변환 시 큰 시각화 제공
  • 큰 숨겨진 가치
  • 이 V는 조직이 무시할 수 없는 빅 데이터와 빅 데이터 전략의 중요한 측면을 설명합니다. 빅 데이터의 다양한 속성에 기여하는 모든 V를 살펴보겠습니다.

    1. 볼륨:

    100테라바이트의 데이터가 매일 Facebook에 업로드됩니다. Akamai는 온라인 광고를 타겟팅하기 위해 하루 7,500만 건의 이벤트를 분석합니다. Walmart는 매시간 1백만 건의 고객 거래를 처리합니다. 지금까지 생성된 모든 데이터의 90%는 지난 2년 동안 생성되었습니다.

    위의 수치는 대용량 데이터라는 말이 무엇을 의미하는지 잘 보여줍니다. 데이터를 빅데이터로 만드는 것은 데이터의 첫 번째 특성입니다. 이러한 엄청난 양의 데이터는 결국 이 데이터를 저장하는 데 어려움을 초래합니다.

    참조: 최고의 무료 데이터 마이닝 도구 19가지

    2. 속도:

    1n 1999, 매일 매분마다 YouTube에 100시간 분량의 동영상을 업로드하고 2억 개가 넘는 이메일을 보내고 300,000개의 트윗을 보냅니다.

    볼륨 수치의 기본은 더욱 큰 추세는 기존 데이터의 90%가 지난 2년 동안 생성되었다는 것입니다. 이는 데이터가 생성, 저장, 분석 및 시각화되는 속도를 나타냅니다.

    조직이 직면한 과제는 데이터가 실시간으로 생성되고 사용되는 엄청난 속도에 대처하는 것입니다.

    3. 다양성

    과거에는 생성된 모든 데이터가 정형화된 데이터로 열과 행에 깔끔하게 들어맞았지만 그런 시대는 지났습니다. 오늘날 생성되는 데이터의 90%는 비구조적이며 지리 공간 데이터부터 콘텐츠와 감정을 분석할 수 있는 트윗, 사진 및 비디오와 같은 시각적 데이터.

    Variety는 빅데이터의 가장 큰 과제 중 하나를 설명합니다. 이는 구조화되지 않을 수 있으며 XML에서 비디오, SMS에 이르기까지 다양한 유형의 데이터를 포함할 수 있습니다. 데이터를 의미 있는 방식으로 정리하는 것은 간단한 작업이 아니며, 특히 데이터 자체가 빠르게 변하는 경우에는 더욱 그렇습니다.

    4. 가변성

    변동성은 종종 다양성과 혼동됩니다. 이를 구별하는 간단한 예는 다음과 같습니다. 스타벅스를 생각해 보십시오. 콜드 커피에는 매우 다양한 맛이 있습니다. 이것은 다양성입니다. 예를 들어, 매일 카페 모카를 사는데 그 맛과 냄새가 전날과 조금씩 다르다고 가정해 보세요. 이것이 바로 가변성입니다.

    빅데이터 맥락에서 가변성은 몇 가지 다른 것을 의미합니다. 하나는 데이터의 불일치 수입니다. 의미 있는 분석이 이루어지려면 이상 징후 및 이상값 탐지 방법을 통해 이를 찾아야 합니다. 또한 빅 데이터는 다양한 데이터 유형과 소스로 인해 발생하는 데이터 차원이 다양하기 때문에 가변적입니다. 가변성은 빅 데이터가 데이터베이스에 로드되는 일관되지 않은 속도를 의미할 수도 있습니다.

    참조: 최고의 오프라인 데이터 정리 도구

    5. 진실성

    빅 데이터를 이해하는 데 중요한 것은 데이터의 복잡하고 시끄러운 특성과 분석을 시작하기도 전에 정확한 데이터 세트를 생성하는 데 드는 작업의 양입니다. 분석 중인 데이터가 부정확하거나 불완전하면 아무 소용이 없습니다.

    이러한 상황은 데이터 스트림이 신호 대 잡음 비율이 다양한 다양한 형식을 나타내는 다양한 소스에서 발생할 때 발생합니다. 빅 데이터 분석에 도달할 때쯤에는 이렇게 누적된 오류가 만연할 수 있습니다.

    정확성은 데이터가 정확한지 확인하는 것입니다. 이를 위해서는 잘못된 데이터가 시스템에 축적되지 않도록 하는 프로세스가 필요합니다. 가장 간단한 예는 잘못된 이름과 부정확한 연락처 정보로 마케팅 자동화 시스템에 들어오는 연락처입니다. 데이터베이스에서 미키 마우스를 몇 번이나 보셨나요? 전형적인 '쓰레기 넣기, 쓰레기 버리기' 챌린지입니다.

    6. 시각화

    이것이 빅 데이터의 어려운 부분인데, 실패하면 이 엄청난 양의 데이터를 쓸모 없게 만듭니다. 모든 빅 데이터 처리 시스템의 핵심 작업은 엄청난 규모의 데이터를 쉽게 이해하고 실행 가능한 것으로 변환하는 것입니다. 인간이 소비할 수 있는 가장 좋은 방법 중 하나는 이를 그래픽 형식으로 변환하는 것입니다.

    현재 빅데이터 시각화 도구는 다음과 같은 기술적인 문제에 직면해 있습니다. 인메모리 기술의 한계와 열악한 확장성, 기능 및 응답 시간. 기존 그래프는 10억 개의 데이터 포인트를 표시하는 요구 사항을 충족할 수 없으므로 데이터 클러스터링이나 트리 맵, 선버스트, 평행 좌표, 원형 네트워크 다이어그램 또는 원뿔 트리 사용과 같은 데이터를 표현하는 다양한 방법이 필요합니다.

    7 . 가치

    가치가 최종 게임입니다. 빅데이터의 잠재적 가치는 엄청납니다. 많은 시간과 노력이 소요되는 양, 속도, 다양성, 변동성, 진실성 및 시각화를 처리한 후에는 조직이 데이터에서 가치를 얻고 있는지 확인하는 것이 중요합니다.

    물론 , 데이터 자체는 전혀 가치가 없습니다. 가치는 해당 데이터에 대한 분석과 데이터가 정보로 바뀌고 결국 지식으로 바뀌는 방식에 있습니다.

    위의 7V는 빅 데이터의 3가지 중요한 측면, 즉 정의, 특성 및 정보를 알려줍니다. 도전. 그러나 사람들이 앞에서 언급한 7V의 과제에 직면할 방법을 고안하기 위해 빅 데이터에 대한 연구를 시작했을 때 그들은 다른 V를 발견했습니다. 빅데이터에서 그렇게 중요한 역할을 하지는 않지만 특징과 과제 목록을 완성합니다.

    8. 타당성

    진실성과 유사하게 타당성은 데이터가 의도된 용도에 얼마나 정확하고 정확한지를 나타냅니다. 빅데이터의 진실성은 타당성의 문제입니다. 즉, 데이터가 의도된 용도에 맞게 정확하고 정확하다는 것을 의미합니다. 명확하게 유효한 데이터는 올바른 결정을 내리는 데 핵심입니다. 데이터 검증은 데이터의 손상되지 않은 전송을 인증하는 것입니다.

    9. 생존 가능성

    아래 설명을 생각해 보십시오.

  • 시간이나 요일이 구매 행동에 어떤 영향을 미치나요?
  • 증가합니까? Twitter나 Facebook에서는 구매 증가 또는 감소를 예고한다고 언급합니까?
  • 지리적 위치, 제품 가용성, 시간대, 구매 내역, 연령, 가족 수, 신용 한도 및 차량 유형이 모두 수렴하여 예측하는 방법은 무엇입니까? 소비자의 구매 성향은 무엇입니까?
  • 효과적인 예측 모델을 구축하는 데 고려해야 할 데이터와 변수가 너무 많기 때문에 첫 번째 작업은 해당 데이터의 실행 가능성을 평가하는 것입니다. 완전한 기능을 갖춘 모델 생성에 투자하기 전에 특정 변수의 관련성을 효과적으로 테스트하고 확인합니다. 즉, 우리는 추가 조치를 취하기 전에 그리고 실행 가능성을 결정하는 과정에서 해당 가설을 검증하고 싶습니다. 변수를 사용하면 초기 가설의 일부가 아닌 다른 변수가 우리가 원하거나 관찰한 결과에 의미 있는 영향을 미치는지 확인하기 위해 시야를 확장할 수 있습니다.

    10. 변동성

    데이터가 관련성이 없거나, 역사적이거나, 더 이상 유용하지 않은 것으로 간주되려면 얼마나 오래되어야 합니까? 데이터는 얼마나 오랫동안 보관해야 하나요?

    빅데이터의 변동성에 대해 이야기할 때 우리는 비즈니스에서 매일 구현하는 정형 데이터의 보존 정책을 쉽게 떠올릴 수 있습니다. 보관 기간이 만료되면 쉽게 파기할 수 있습니다.

    그러나 빅데이터의 속도와 양으로 인해 변동성을 신중하게 고려해야 합니다. 이제 데이터 통용성 및 가용성에 대한 규칙을 설정하고 필요한 경우 정보를 신속하게 검색해야 합니다.

    11. 취약점

    2015년 Ashley Madison Hack을 기억하시나요? 또는 2016년 5월 CRN에서 "Peace라는 해커가 판매하기 위해 다크 웹에 데이터를 게시했는데, 여기에는 LinkedIn 계정 1억 6,700만 개와 MySPace 사용자의 이메일 및 비밀번호 3억 6,000만 개에 대한 정보가 포함된 것으로 알려졌습니다.

    Big 데이터는 새로운 보안 문제를 가져옵니다. 특히 이러한 특성으로 인해 빅데이터에 대한 보안 프로그램을 개발하는 것이 어려운 일이 되고 있습니다. 결국 데이터 침해는 큰 침해입니다.

    그렇다면 이 모든 것이 빅 데이터의 본질에 대해 무엇을 말해 주는가? 규모가 크고 빠르게 확장되고 있지만 수백 가지 형식으로 인해 시끄럽고 지저분하며 끊임없이 변화하며 분석과 시각화 없이는 사실상 쓸모가 없습니다.

    볼륨, 속도, 다양성은 단지 핵심 매개변수가 아닙니다. 빅데이터의 개념을 탄생시키는 이유이기도 하고, 일반 데이터와 빅데이터를 구분하는 핵심적인 특징이기도 하다. 이는 빅 데이터 자체에 내재되어 있지만 다른 V의 가변성, 진실성, 시각화 및 가치는 빅 데이터를 처리하고 분석하며 그로부터 이익을 얻는 사람들에게 제시되는 엄청난 복잡성을 반영하는 중요한 속성입니다.

    의심의 여지 없이 빅 데이터는 기업 IT가 적절한 컴퓨팅 인프라를 통해 수용해야 하는 주요 추세입니다. 그러나 모든 것을 이해하는 고성능 분석 및 데이터 과학자가 없으면 비즈니스 이점으로 이어지는 가치를 창출하지 못한 채 단순히 큰 비용만 창출할 위험이 있습니다.

    읽기: 0

    yodax