非结构化数据:将数据转化为可操作的情报

传统上,数据专业人员和信息管理人员区分三种类型的数据:结构化数据,非结构化数据(主要是提到当人们谈论大数据)还有,你真聪明d半结构化数据。

有些还讨论“准结构化”、“多结构化”和“混合数据”,但在本文中,我们将保持简单。尽管围绕非结构化数据的结构还有很多争论,但重要的是要了解这三种类型的数据的本质含义,它们来自哪里,如何使用,最重要的是,它们如何产生价值。如标题所示,非结构化数据是我们这里的主要关注点。


结构化的非结构化数据

结构化数据和非结构化数据

有非结构化数据的还真不少定义,结构化数据和所有其他形式的,我们刚才提到的数据。

传统上,结构化数据定义为(关系)数据库中的数据或者在具有明确定义格式和结构的电子表格中。数据易于输入、存储、检索、搜索和分析。例如,考虑一个关系数据库,甚至一个包含所有客户记录的Excel文件。

非结构化数据是不数据库中的数据坐下。或者更好的:它不遵循相同的数据结构定义和规则。传统上,这种类型的数据与各种类型的文件相关。想想Word文档、图像或数字音频文件(有文本和非文本的非结构化数据)。然后是半结构化数据,介于两者之间。

现在,为什么这样做的所有事情,它是如何影响你的生意?我们将有更详细地说明了一下就三种类型的数据,并把它们以某种历史的角度来看,但首先我们来看看在非结构化数据的挑战和机遇,我们为什么写这开始与原因。

我们将继续在一个非常基本的方式,前跳水深入到“现代的现实”。

非结构化数据和通信的挑战:一点点的历史

让我们回到过去,我们仍然使用电子表格和非常简单的数据库和数据工具来进行业务合作。

还记得客户数据库(结构化)的示例吗?还有其他数据库或“表”也包含有关客户各个方面的结构化数据。这些传统上是有联系的。您可以有一个销售交易的列表/表/数据库,它与一个列出您的产品和客户数据库相链接,因此您知道谁购买了什么。这是基本的传统数据库方法,假设在1990年。

数据的各种形式 - 非结构化数据需要人工智能成为可操作的情报
数据的各种形式 - 非结构化数据需要人工智能成为可操作的情报

现在,各种系统和过程,以便利用这样的数据源来执行特定的功能存在。假设我们在1999年,互联网变得非常流行,你的网站上有一个表单可以为客户提供支持。

他们必须填写一些字段,输入数据,如发票号码,这也是存储在您的交易数据库。除此之外,他们还可以输入更多数据,显然包括问题的性质。所有这些数据都以结构化的方式输入到任何给定的系统中,这样您就可以向客户提供购买的完整历史记录。我们在实践中以及在此类上下文中使用的各种类型的解决方案中有更多的数据,而且还可以以另一种方式输入数据,例如,当您的客户呼叫呼叫中心代理时,该代理可以输入呼叫的详细信息。第一个CRM系统实际上只不过是非常静态的客户数据库系统(再次强调,我们是在90年代)。

非结构化数据和呼叫中心

快进到2016年。客户是全渠道的或不确定渠道的。他使用移动有许多新的方式来与你的朋友取得联系呼叫中心

他可能还会打电话或填写网页表格,但他也会发送电子邮件(甚至是老式的蜗牛邮件),可能还会发送短信、Twitter支持请求等。他可能通过网络聊天或视频聊天进行实时互动。

电子邮件、Twitter消息等的问题在于,它们本质上是一种非结构化的交流形式。换句话说:它们包含的信息不能以结构化的格式或数据库的形式存储。

最重要的是,现在一般的客户都希望很快得到帮助,他们有很高的期望,不喜欢等待,他们希望你知道所有你需要的东西,以便在此时此地帮助他们。

目前的挑战是,大多数企业都没有能够做到这一点,除非他们有一个非常统一的信息的方法,并已连接所有类型的信息。

这里有一个例子。假设一个新客户申请了一笔贷款。在扫描文件时,他填写了一些文件,可能通过邮寄、电子邮件、传真或数字方式发送了一些文件。

组织对非结构化数据(Gartner)的数量、组成、风险和业务价值知之甚少

这些信息进入组织。但它不通过帮助台或呼叫中心进入您的组织。客户的请求被看着遵循批准的传统路径。这确实需要一些时间和客户变得有点不耐烦。谁不他打电话?不捉鬼敢死队。而不是谁使用贷款请求处理的人。不,他所说的联络中心。或者,他发送了一封邮件,也许说他送你一个邮件带有附件,例如他的申请表复印件。

这只是一个可能的场景,但它显示了挑战。如果您的呼叫中心不了解后端发生的流程,在这种情况下是审批的状态,他/她无法立即提供帮助。如果没有统一的方法来捕获隐藏在非结构化通信形式(电子邮件、Twitter消息)中的重要数据,他/她也会被屏蔽。结果是:一个非常沮丧的顾客。

这就是为什么处理非结构化通信和数据的能力非常重要的一个原因,特别是当这些类型的非结构化通信正在增长的时候(我们甚至还没有触及数字化的文书工作)。

非结构化数据:尚未开发的大部分数据,其比任何其他类型的数据的更快的生长

还有就是非结构化数据的问题很多第二个理由:迄今为止最大的大多数你的组织召开是非结构化信息。

组织处理大量的非结构化数据。据估计,一般组织中80%到90%的数据是非结构化的。再加上堆积如山的纸,你还有没有数字化然而,即使它是有用的,你也会看到更多的挑战和机会。我们将进一步放大。

显然,非结构化数据不只是在联络中心上下文中找到。事实上,非结构化数据可以在任何地方坐在您的公司的任何类型的文件、任何格式的文件系统和存储层次结构。

非结构化数据 - 从挑战到机会
非结构化数据——从挑战到机遇

非结构化数据在财富管理、保险索赔处理、医疗文件、帐户管理等领域无处不在。正如我们之前提到的,处理它们的方法是使用人工智能。

非结构化数据和大数据

非结构化数据是在大数据和分析方面很重要

对于初学者来说,大数据重新点燃了如何处理所有这些非结构化数据的问题,从传统的研究领域转移到商业关注的中心,最初主要关注文本分析和/或内容分析。

最终的数据量,源和格式,主要由非结构化数据驱动的加速增长,这就是为什么IBM选择的路径vwin德赢 苹果下载 与沃森和有应用的强劲增长,利用其以前在特定领域使用,但现在的电源是用来工作的非结构化数据的许多技术人工智能技术,无论是涉及自然语言,图像或文本。

哪里大数据来自 -  IBM
非结构化数据源和格式主宰大数据 - 信用:IBM

的大的数据源的很大一部分是非结构化的。当IBM看着大数据与萨伊德商学院的帮助下在牛津2012年底大学的来源时发现,公司主要看内部数据源和不到一半分析外部数据源。

However, if you look at the graphic with the various types of internal and external data sources you’ll notice that all external data sources are unstructured (with social media taking the lead) and it isn’t any different when it boils down to internal data sources (log data, emails, etc.).

非结构化数据和通信:对人工智能的需要

随着越来越多的非结构化沟通渠道和来源(电子邮件、社交网络……),客户沟通发生了巨大变化。需要处理所有这些非结构化通信以及由此产生的非结构化数据和信息。

企业需要知道如何收集这些信息,并从其中包含的知识进行构建。

此外,在这些丰富的非结构化数据中还隐藏着大量其他重要信息。只有人工智能可以处理所有这些,因为非结构化数据不能通过规则基础方法处理。人工智能消除了规则的必要性。

它利用自己的智能,超越基本信息,自动生成内容,学习人类行为,还可以做出预测和预测。

最上面的图片:存在Shutterstock - Ç版权所:Jirsak- 所有其他图像均是其各自所有者上述的财产。