V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  SteadyHua  ›  全部回复第 1 页 / 共 1 页
回复总数  1
@czfy
转自百科
结构化数据(Structured data)-可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。

结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。

非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容( operationalcontent ):如合约、发票、书信与采购记录;部门内容( workgroupcontent ):如文书处理、电子表格、简报档案与电子邮件; Web 内容:如 HTML 与 XML 等格式的信息;多媒体内容( RichMediaContent ):如声音、影片、图形等。

通俗的解释就是将非结构化数据结构化后入库,例如将 Word 解析成 HTML 展示,保存其中所需要结构为后续同类型 Word 批量解析,解析成结构化数据入库。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3128 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 9ms · UTC 14:02 · PVG 22:02 · LAX 06:02 · JFK 09:02
Developed with CodeLauncher
♥ Do have faith in what you're doing.