首页资讯科技 基于标签分类的数据协同技术研究

基于标签分类的数据协同技术研究

邱瑞 汪宁 朱振华摘   要:通过对标签体系分类方法和标签数据共享技术路线的研究,利用基础属性、统计分析、模型算法及大数据分析等技术,将描述研究对象的标签数据进行提取和分类,实现了对标签资源的分类,建立统一标签资源目录体系。在数据协同过程中…

邱朱振华

摘要:通过研究标签系统的分类方法和标签数据共享的技术路线,利用基本属性、统计分析、模型算法和大数据分析,提取描述研究对象的标签数据并进行分类,实现了标签资源的分类,建立了统一的标签资源目录体系。在数据协同过程中,系统中心节点获取所有子节点的查询请求,统一分配计算资源,最终将汇总结果返回给请求节点,实现了节点间的标签数据共享,有效促进了业务数据的跨地域、跨部门共享,推动了业务模式的智能化发展。

关键词:标签;标签目录;数据协调

1导言

反映人或事物的社会属性、行为属性等属性。近年来,在公共安全领域,专家利用标签分析人像和特征,建立相关应用系统,帮助用户改善工作模式和效率。

在标签数据分类过程中,不同分类方法产生的标签定义也不一致,可能导致数据共享困难、标签容易被误解等问题。在使用过程中,造成研究对象的虚假预警。

在标签资源服务系统中,子节点之间获得统一的标签资源目录系统,查询请求通过分布式调度架构由中心节点发送到子节点。中心节点统一协调子节点的资源分配,标签查询结果汇总后返回给请求节点,从而实现不同子节点之间的标签数据共享。

本文将利用属性标注、模型算法、文本挖掘等技术研究标签数据的分类技术,研究基于标签资源目录的协同共享技术,实现标签数据的协同共享。

2标签管理和分类

2.1数据治理

数据标签管理是对采集的原始数据进行标准化的过程,主要包括数据采集、数据管理、数据建库等。通过一系列的数据管理,形成结构化、标准化的资源库,为标签分类和制作提供数据基础。

首先,数据采集系统收集多源异构数据,如金融数据和其他相关数据。之后针对不同的数据,采用重复数据删除、数据融合、现场标准等标准化操作。最后构建基于标签字段的资源库,实现各级业务数据的统一规范管理,对每一项数据进行主题分类、标准化和规范化存储。

2.2数据分类

标签体系的构建过程就是不断的数据提炼和价值迭代的过程。通过构建标签分类体系,可以明确和规范数据的价值,通过标签表达数据的潜在意义,满足当前的业务分析。从属性提取、特征提取和规则描述等几个方面对标签进行分类。标签根据数据生成的维度可以分为属性标签、统计标签和算法标签。

(1)属性标签包括研究对象的所有原始属性和派生属性,主要是人的年龄、性别、学历、身份信息等基本属性信息。基本属性的标签往往与个人信息有关。

(2)统计标签是基于过去特定时间段的行为和日志数据来描述个体或群体的规则标签。这些标签随统计周期变化,更新频率越高,周期越短,标签变化越大。

(3)算法标签是根据过去某一特定时间段的行为状态,预测尚未发生或未来将要发生的事情的行为。这个标签是基于普通标签和统计标签数据,通过使用特定的算法和挖掘技术计算出来的,并给出预测对象行为的标签。

3标签施工路线

标签开发过程分为四个部分:特征提取、标签处理、标签管理和标签应用。首先,特征提取主要从基本特征、人员特征、行为特征、社会属性等维度提取特征,形成基本标签;在标签处理过程中,对提取的基础标签数据进行清洗、处理和建模,然后进行ETL开发,得到系统化、标准化的标签,这些标签将进入标签市场,为下一步的标签应用做准备。

我们可以将标签构建过程分为三个阶段。第一阶段是基础标签的构建。在这一阶段,将数据资源按照一定的规则进行处理,得到基本标签,用来刻画实体的基本特征,主要是在数据管理者的参与和完成下进行的。随着基础标签体系的建立,标签建设将进入第二阶段,业务人员根据行业分析经验对基础标签进行组合,从而获得符合行业的业务标签。第三阶段,数据分析师对业务标签进行分析,对事件进行分析、判断、建模后,构建匹配算法标签,满足预测预警需求。经过三个阶段的标签建设,将建成符合行业规范的数据资源目录体系,从而实现标签数据的分类。

4数据协作技术的研究

标签资源服务系统对各级子节点开放,构建了标准化的标签资源服务目录,使标签能够被各级子节点统一发布和共享,能够有效支撑各级子节点的业务需求,为用户提供便捷的操作方式,减少标签生成的复杂流程。

本文中的数据协作技术采用了“一主多从”的体系结构。中心是主节点,对资源目录进行统一的管理,如建设、线上、线下。各级子节点都是对等子节点,共享中心节点发布的资源目录。通过“申请批准”等过程,当子节点A启动节点间标签组合查询时,开始占用其请求的子节点的标签资源。中心节点统一分配资源,在中心节点进行计算,标签组合查询结果汇总返回给查询子节点A,减少了资源浪费,实现了节点间标签数据的协同共享。

5结束语

本文实现了标签管理和分类的目的,解决了如何从海量数据中发现各种数据关系和关联规则,挖掘数据价值的问题,并形成了语义描述。建立统一的标签资源目录系统,通过分布式调度系统将查询请求发送到各个子节点,最后中心节点将汇总结果返回给请求者节点,从而实现不同节点间的标签数据共享。下一步,我们将继续优化算法模型,并重点关注预测标签生成的准确性。

参考

[1]张大伟。公安数据标注建设的应用研究[J].警务技术,2017,(6): 37-41。

[2]彦希,张乃光,王乐妍,等.基于大数据的用户画像方法研究综述[J].广播电视信息,2017 (10): 39-43。

[3]王庆,赵。基于“用户画像”的图书馆资源推荐模式的设计与分析[J].现代信息,2018(3):105-109137

[4]丁伟、王媞、刘新海等。基于大数据技术的手机用户画像和信用信息研究[J].邮电设计技术,2016 (3): 64-69。

编辑/李曼

本文来自网络,不代表管理窝立场。转载请注明出处: https://www.guanliwo.com/a/zx/27694.html
上一篇基于TRIZ改进煤质分析仪预处理系统
下一篇 孙冬梅:企叮咚正赋能多万商家的营销活动
管理窝

作者: 管理窝

这里可以再内容模板定义一些文字和说明,也可以调用对应作者的简介!或者做一些网站的描述之类的文字或者HTML!

为您推荐

评论列表()

    联系我们

    联系我们

    0898-88888888

    在线咨询: QQ交谈

    邮箱: email@wangzhan.com

    工作时间:周一至周五,9:00-17:30,节假日休息

    关注微信
    微信扫一扫关注我们

    微信扫一扫关注我们

    关注微博
    返回顶部