大数据的来源种类多种多样。我们写的每一个字浏览的每一封电子邮件,看了每一部电影都可以成为大数据的来源。在这里,我们主要从学术角度对大数据进行分类,大数据可以分为结构化数据非结构化数据半结构化数据。所谓结构化数据指的是数据结构规则,可以由二维表结构来表达和实现。主要通过关系型数据库进行存储和管理。我们举例帮助大家理解,比如姓名、电话、出生日期、性别、地址、职务等。这些数据的表达都具有一定的规则性,并且容易表达和查询。
所以我们把其归为结构化数据非结构化数据指的是数据结构不规则不完整的数据模型,它不符合任何预定义的模型。因此它存储在非关系型数据库当中。我们举例帮助大家理解,比如文本、文档、电子邮件、音视频文件等。这些数据的表达不规则,并且不容易整理和查询。所谓半结构化数据,它是结构化数据的一种特殊形式,但是其结构变化比较大。这个不太好理解。
我们举一个例子,比如员工的简历数据,每个员工的简历都不相同,有的员工的简历很简单,比如只包括教育情况,有的员工的简历却很复杂。比如包括工作情况、婚姻状况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料到的信息,基于信息的不确定性。针对这些数据,我们要实现用整齐划一的格式完整的保存并不容易。因此,我们把其归为半结构化数据对结构化和非结构化数据总结如下,其一,结构化数据存储在关系型数据库非结构化、数据存储在非关系型数据库。其二,结构化数据便于分析非结构化数据,不便于分析。
其三,结构化数据分析工具比较成熟,非结构化数据的分析工具正处于萌芽和发展阶段。其次,非结构化数据体量更大,占企业数据的百分之八十以上,并且以每年百分之五十五十到百分之六十五的速度在增长。