Advertisement

《大数据+AI在大健康领域中最佳实践前瞻》---- 检验检测中的单一实体识别前瞻与探索

阅读量:

文章大纲

  • 简介

  • 系统输入

    • 输出
    • 硬聚类
    • 软聚类
  • 结果展示

  • 接口方案

    • API Examples
  • 参考文献


简介

大多数医学数据库中的初始记录缺乏患者的唯一标识信息。为了识别和评估这些患者的异常情况,必须对特定患者的病史记录进行匹配。缺少这些信息,则识别特定患者的任务将面临极大的困难。本系统的目标是通过提供的特征属性为每个患者分配唯一的ID号码。
基于所分配ID的特征属性,在两个主要阶段中完成任务

1、精确识别过程(基于精准特征提取)
2、模糊信息处理(在预设范围内的聚类分析)

本设计基于面向对象的设计模式进行开发。从顶层到底层逐步细化业务功能。该系统整合了先进的AI算法进行操作。利用特征进行匹配和聚类处理。精准地提取患者原始记录,并为每条记录生成对应的ID.

系统流程图

在这里插入图片描述

系统输入

该模块的所有输入项主要包括两个部分:一是硬聚类及相应的特征规范;二是软聚类的相关参数设置。此外,在配置中还需要设置具体处理对象类型的具体分类策略。

输出

系统输出模块所生成的数据集整合了全部相关信息,并且每个检测者记录均具有唯一且全局性的PI_ID标识

硬聚类

基于严格遵循约束条件的 hard 聚类算法能够实现精确配对确保所有记录都能找到对应的匹配对象并完成数据分组以形成有意义的类别。
例如在这种情况下"基于 hard 约束的 hard 聚类"指的是当属性如 PI_NAME PI_FROM 和 PI_SEX 相同时默认认为它们属于同一个检测者

以下是经过同义改写的文本

该算法实现了对输入数据的硬划分类别分析

软聚类

采用软聚类技术将通过硬聚类获得的类别进行更细致地划分。换句话说,在每个原始硬聚类内部都会执行一次DBSCAN算法。该算法主要基于柔软约束和可调节参数来进行分类。需要注意的是,实现这一目标通常有多种方案可选。

迭代软聚类是一种用于处理复杂数据结构的技术。对于每一个设定好的约束条件或特征指标,在每一次迭代过程中都会对现有的分类结果进行优化和调整。具体来说,在处理多个约束条件时(这些约束条件在度量标准上差异较大),当单独考虑各个约束条件无法有效划分数据的情况下(即整体向量难以形成有意义的类别),这种技术就能够发挥作用。例如,在图像分割问题中使用该方法能够显著提高效果。

组合特征软聚类:
将所有指定的软约束进行向量化处理,并对这些向量及其对应的向量间距离进行DBSCAN聚类分析。 当所有约束条件均采用一致的距离度量时,这一做法是可行的。

这两种方法的流程图都可以在上面流程图部分中看到。

软聚类 : DBSCAN

REC_ID PI_NAME PI_FROM PI_SEX PI_AGE
1 abc xyz M 25 1.1
2 abc xyz M 24 1.1
3 abc xyz M 12 1.2
4 lmn xyz M 32 2.1

客户希望数据匹配系统能够有效地将数据库中的同一病人的所有记录进行聚合。

作为硬约束的特征为:
1.PI_FROM (Hashed hospital name)
2.PI_NAME (Hashed Patient name)
3.PI_SEX
作为软约束的特征为:
1.PI_AGE with a Range of +/- 1 year
具体实施
年龄标准化 : 初始数据库中给出的PI_AGE字段不使用单个单位。使用的单位包括:a.年 b.月 c.日。 年龄标准化会把所有的年龄转化为一个单位,也就是年。
实体统一在给定记录上运行,而这些记录是在指定的时间范围内提取的。这个模块的输出为记录ID和对应的实体ID。


结果展示

这图显示了不同实体统一scheme中相对独特的患者计数。

在这里插入图片描述

该图表展示了在PI_AGE字段上应用软聚类时会实现数据的分离。相比之下,在采用硬聚类方法时,这些患者的症状会与两位相近患者的症状混在一起。

在这里插入图片描述

该图更加诠释了如果使用其他就本来会被分开的记录聚类。


接口方案

Entity resolution represents the process of determining patient manifestations within Di'An's system across various lab-test records by leveraging NLP techniques and machine learning algorithms to achieve accurate data management.

在这里插入图片描述

To utilize the API, one must acquire an API key sourced from 。, which can then be integrated into your application. As previously mentioned, these keys have been generated and are detailed below.

AccessKey: NIUTWIDLEYmwHv dfdcU

API Examples

This is a sample request to the /v1/er endpoint.

复制代码
    curl -k -H "Content-Type: application/json" -H "AccessKey: NIUmwHvcU" -H "SecretKey: YST1MHQDWAJNYIQVQO" -X POST https://54.222.206.184:18443/v1/er -d '{"PI_FROM":"1972870825","PI_NAME":"4238562197","PI_AGE":"87","PI_SEX":"男","PI_RECORD_ID":""}'
    
    
      
    
    AI助手

The response to this particular request is :

复制代码
    {"result":{"PI_ID":1254130455672},"status":"success"}
    
    
      
    
    AI助手

The PI_ID specifically assigned here serves as the unique patient identifier. You can rely on this identifier to remove duplicates from your organization's patient records.


参考文献

  • 临床检验标本采集识别系统的构建及其在医疗实践中的运用
  • 医学检验知识图谱的组织与其实证研究

全部评论 (0)

还没有任何评论哟~