Datawhale AI 夏令营 siRNA药物药效预测 task02

阅读量：

1.完整代码

复制代码

    import pandas as pd
    import numpy as np
    from sklearn.model_selection import train_test_split, GridSearchCV
    from sklearn.preprocessing import StandardScaler
    import lightgbm as lgb
    
    # 数据加载和合并
    df_original = pd.read_csv("train_data.csv")
    n_original = df_original.shape[0]
    df_submit = pd.read_csv("sample_submission.csv")
    df = pd.concat([df_original, df_submit], axis=0).reset_index(drop=True)
    
    # 特征构建函数
    def siRNA_feat_builder(s: pd.Series, anti: bool = False):
    name = "anti" if anti else "sense"
    df = s.to_frame()
    df[f"feat_siRNA_{name}_seq_len"] = s.str.len()
    
    nucleotides = "AUGC"
    for pos in [0, -1]:
        for c in nucleotides:
            df[f"feat_siRNA_{name}_seq_{c}_{'front' if pos == 0 else 'back'}"] = (s.str[pos] == c)
    
    patterns = [
        ("AA", "UU"), ("GA", "UU"), ("CA", "UU"), ("UA", "UU"),
        ("UU", "AA"), ("UU", "GA"), ("UU", "CA"), ("UU", "UA")
    ]
    
    for i, (start, end) in enumerate(patterns, 1):
        df[f"feat_siRNA_{name}_seq_pattern_{i}"] = s.str.startswith(start) & s.str.endswith(end)
        
    df[f"feat_siRNA_{name}_seq_pattern_9"] = s.str[1] == "A"
    df[f"feat_siRNA_{name}_seq_pattern_10"] = s.str[-2] == "A"
    df[f"feat_siRNA_{name}_seq_pattern_GC_frac"] = (s.str.count("G") + s.str.count("C")) / s.str.len()
    
    return df.iloc[:, 1:]
    
    # One-Hot 编码函数
    def get_dummies_with_prefix(df, column, prefix):
    dummies = pd.get_dummies(df[column], prefix=f"feat_{prefix}")
    return dummies
    
    # 特征处理
    df_publication_id = get_dummies_with_prefix(df, 'publication_id', 'publication_id')
    df_gene_target_symbol_name = get_dummies_with_prefix(df, 'gene_target_symbol_name', 'gene_target_symbol_name')
    df_gene_target_ncbi_id = get_dummies_with_prefix(df, 'gene_target_ncbi_id', 'gene_target_ncbi_id')
    df_gene_target_species = get_dummies_with_prefix(df, 'gene_target_species', 'gene_target_species')
    df_cell_line_donor = get_dummies_with_prefix(df, 'cell_line_donor', 'cell_line_donor')
    df_Transfection_method = get_dummies_with_prefix(df, 'Transfection_method', 'Transfection_method')
    df_Duration_after_transfection_h = get_dummies_with_prefix(df, 'Duration_after_transfection_h', 'Duration_after_transfection_h')
    
    siRNA_duplex_id_values = df.siRNA_duplex_id.str[3:-2].str.strip(".").astype("int")
    siRNA_duplex_id_values = (siRNA_duplex_id_values - siRNA_duplex_id_values.min()) / (
    siRNA_duplex_id_values.max() - siRNA_duplex_id_values.min()
    )
    df_siRNA_duplex_id = pd.DataFrame(siRNA_duplex_id_values, columns=['feat_siRNA_duplex_id_normalized'])
    
    df_siRNA_concentration = df.siRNA_concentration.to_frame(name='feat_siRNA_concentration')
    
    # 合并所有特征
    feats = pd.concat(
    [
        df_publication_id,
        df_gene_target_symbol_name,
        df_gene_target_ncbi_id,
        df_gene_target_species,
        df_siRNA_duplex_id,
        df_cell_line_donor,
        df_siRNA_concentration,
        df_Transfection_method,
        df_Duration_after_transfection_h,
        siRNA_feat_builder(df.siRNA_sense_seq, False),
        siRNA_feat_builder(df.siRNA_antisense_seq, True),
        df['mRNA_remaining_pct'].to_frame(name='mRNA_remaining_pct'),
    ],
    axis=1,
    )
    
    # 数据集划分和标准化
    X = feats.iloc[:n_original, :-1]
    y = feats.iloc[:n_original, -1]
    
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)
    
    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
    
    # 网格搜索调优
    gbm = lgb.LGBMRegressor(boosting_type='gbdt', objective='regression', metric='rmse', random_state=42)
    param_grid = {
    'max_depth': [5, 7, 9],
    'learning_rate': [0.01, 0.05, 0.1],
    'num_leaves': [31, 50, 70],
    'n_estimators': [1000, 5000, 10000]
    }
    
    grid = GridSearchCV(estimator=gbm, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error', verbose=1)
    grid.fit(X_train, y_train)
    
    best_params = grid.best_params_
    print(f"Best parameters found: {best_params}")
    
    # 使用最优参数重新训练模型
    best_gbm = lgb.train(
    {**best_params, "metric": "rmse"},
    lgb.Dataset(X_train, label=y_train),
    num_boost_round=best_params['n_estimators'],
    valid_sets=[lgb.Dataset(X_test, label=y_test)],
    callbacks=[
        lgb.early_stopping(stopping_rounds=100),
        lgb.log_evaluation(period=100),
    ],
    )
    
    # 预测和结果保存
    X_submit = scaler.transform(feats.iloc[n_original:, :-1])
    y_pred = best_gbm.predict(X_submit)
    
    df_submit["mRNA_remaining_pct"] = y_pred
    df_submit.to_csv("submission.csv", index=False)

2.代码分析

2.1 分类特征的 One-Hot 编码

复制代码

    def get_dummies_with_prefix(df, column, prefix):
    dummies = pd.get_dummies(df[column], prefix=f"feat_{prefix}")
    return dummies

对选定的一组列依次执行One-Hot编码操作，并在生成的新列中分别附加特定前缀标识。其目的是将分类属性转化为模型能够有效处理的数值型表示形式

2.2 网格搜索调优

复制代码

    gbm = lgb.LGBMRegressor(boosting_type='gbdt', objective='regression', metric='rmse', random_state=42)
    param_grid = {
    'max_depth': [5, 7, 9],
    'learning_rate': [0.01, 0.05, 0.1],
    'num_leaves': [31, 50, 70],
    'n_estimators': [1000, 5000, 10000]
    }
    
    grid = GridSearchCV(estimator=gbm, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error', verbose=1)
    grid.fit(X_train, y_train)
    
    best_params = grid.best_params_
    print(f"Best parameters found: {best_params}")

通过GridSearchCV执行网格搜索以确定最佳的超参数配置参数空间包含max_depth、learning_rate、num_leaves以及n_estimators等参数采用五折交叉验证方法并记录每次的评估分数

全部评论 (0)

还没有任何评论哟~

Datawhale AI 夏令营 siRNA药物药效预测 task02

目录 1.完整代码 2.代码分析 2.1分类特征的OneHot编码 2.2网格搜索调优 1.完整代码 importpandasaspd importnumpyasnp fromsklearn.mode...

Datawhale AI 夏令营 siRNA药物药效预测 task03

1.lgm优化 1.1低Remaining范围样本高权重 weightls=np.arrayfeats['mRNAremainingpct'].applylambdax:2ifx<=30andx=0e...

Datawhale AI 夏令营 siRNA药物药效预测 task01

目录 1.赛题背景 2.作品提交 1.赛题背景 RNA干扰（RNAi）是生物细胞内天然存在的一种基因表达调控机制，可抵御外来核酸的入侵和控制基因表达。其中小干扰RNA（siRNA）是RNAi机制的主要...

siRNA药效预测——生命科学赛道 task1笔记#AI夏令营 #Datawhale #夏令营

目录比赛链接：上海科学智能研究院赛题背景：赛题任务：实践步骤： 1.跑通Baseline文件 2.理解Baseline代码 3.观看开营直播后续学习期望：比赛链接：上海科学智能研究院赛题...

Datawhale 夏令营 AI+药物 Task2

使用RNN模型预测化学反应的速率 classRNNModelnn.Module: definitself,numembed,inputsize,hiddensize,outputsize,numlay...

Datawhale Al夏令营-AI for Science（AI+药物）

这次参加的是药物siRNA对相应的信使RNA（mRNA）沉默效率指标（简单理解为功效）大赛地址：第二届世界科学智能大赛生命科学赛道：siRNA药物药效预测赛题数据解释说明（来自官方）：在zip压...

从零入门 AI for Science（AI+药物）#AI夏令营 #Datawhale #夏令营

小白零基础30分钟速通指南 Datawhale官方速通文档：Datawhale 2.官方文件提供的代码是ipynb文件，要利用JupyterNotebook执行，如果想改成python执行可以做以下修...

AI+siRNA基因疗法药物预测baseline代码解读与题目背景展望 | Datawhale AI夏令营

baseline代码对于siRNA数据集进行深度学习的模型训练框架代码学习本段baseline代码分为十个部分 1.依赖库的导入导入代码实现需要的库，用于文件操作、深度学习、数据处理、模型评估 ...

【Datawhale AI 夏令营】电力需求预测 Task02

【DatawhaleAI夏令营】电力需求预测Task02 一.目标二.基础概念 1.LightGBM 三.代码 1.数据集选择 2.模块导入 3.读取训练数据和测试数据 4.可视化分析 5.特征工程...

DataWhale AI夏令营从零入门 AI for Science（AI+药物）

siRNA药物药效预测赛题任务聚焦经过化学修饰的siRNA序列数据预测其对相应的信使RNA（mRNA）沉默效率指标赛题数据简介 traindata.csv的每行为一条训练记录，包含数据记录的id...

是否确定退出登录?

Datawhale AI 夏令营 siRNA药物药效预测 task02

目录

1.完整代码

2.代码分析

2.1 分类特征的 One-Hot 编码

2.2 网格搜索调优

全部评论 (0)

相关文章推荐

Datawhale AI 夏令营 siRNA药物药效预测 task02

Datawhale AI 夏令营 siRNA药物药效预测 task03

Datawhale AI 夏令营 siRNA药物药效预测 task01

siRNA药效预测——生命科学赛道 task1笔记#AI夏令营 #Datawhale #夏令营

Datawhale 夏令营 AI+药物 Task2

Datawhale Al夏令营-AI for Science（AI+药物）

从零入门 AI for Science（AI+药物）#AI夏令营 #Datawhale #夏令营

AI+siRNA基因疗法药物 预测baseline代码解读与题目背景展望 | Datawhale AI夏令营

【Datawhale AI 夏令营】电力需求预测 Task02

DataWhale AI夏令营 从零入门 AI for Science（AI+药物）

AI+siRNA基因疗法药物预测baseline代码解读与题目背景展望 | Datawhale AI夏令营

DataWhale AI夏令营从零入门 AI for Science（AI+药物）