当前位置:网站首页>Combing the latest Data Mining Event Scheme!
Combing the latest Data Mining Event Scheme!
2022-06-25 18:45:00 【Datawhale】
DatawhaleL'événement
Auteur:L'élevage des oursons,Huazhong Agricultural University,DatawhaleMembres

Introduction au jeu
IFLYTEK:Défi de dépistage du risque génétique du diabète.Contexte:Jusqu'à2022Année,Patients diabétiques en Chine1.3100 millions.Mode de vie lié au diabète en Chine、Vieillissement、Urbanisation、Influence de nombreux facteurs tels que l'hérédité familiale.En même temps,Les diabétiques ont tendance à être plus jeunes.
Le diabète peut causer des maladies cardiovasculaires、Les reins、Complications cérébrovasculaires.Donc,,Il est très important de diagnostiquer avec précision les personnes diabétiques..La prédiction précoce du risque génétique de diabète aidera à prévenir l'apparition du diabète..
Adresse de l'événement:http://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-gzh01
Code source:https://github.com/datawhalechina/competition-baseline
Tâche de course
Dans ce concours,Vous devez construire un modèle de prévision du risque génétique de diabète à partir d'un ensemble de données de formation, Et prédire si une personne dans l'ensemble de données d'essai est diabétique , Aidez les diabétiques à résoudre ce problème. “Doux soucis”.
Données du jeu
Les données du jeu se composent d'un ensemble de formation et d'un ensemble d'essais. ,Les détails sont les suivants:
Jeux d'entraînement:Total5070Données, Utilisé pour construire votre modèle de prévision
Test Set:Total1000Données, Utilisé pour valider le rendement du modèle de prévision .
Où le paquet de formation contient 9Champs:Sexe、Année de naissance、Indice de masse corporelle、 Antécédents familiaux de diabète 、Pression diastolique、 Test de tolérance orale au glucose 、 Test de libération d’insuline 、Épaisseur du pli cutané du triceps brachial、 Signes de diabète (Étiquette des données).
Critères de notation
En utilisant deux tâches de classification F1-score Indicateurs pour l'évaluation ,F1-score Plus le modèle de prévision est grand, plus le rendement est élevé. ,F1-scoreEst défini comme suit::

Parmi eux:


Question de matchBaseline
Importer des données
import pandas as pd
import lightgbmPrétraitement des données
data1=pd.read_csv(' Jeux d'entraînement .csv',encoding='gbk')
data2=pd.read_csv(' Jeu de tests de compétition .csv',encoding='gbk')
#labelMarqué comme-1
data2[' Signes de diabète ']=-1
# Combinaison de l'ensemble de formation et de la machine d'essai
data=pd.concat([data1,data2],axis=0,ignore_index=True)
#Ingénierie des caractéristiques
"""
Les valeurs normales de l'indice de masse corporelle des adultes chez l'homme sont les suivantes: 18.5-24Entre
Inférieur à18.5 C'est une insuffisance pondérale.
In24-27 Il y a un surpoids.
27 C'est l'obésité.
Supérieur à32 C'est très gros. .
"""
def BMI(a):
if a<18.5:
return 0
elif 18.5<=a<=24:
return 1
elif 24<a<=27:
return 2
elif 27<a<=32:
return 3
else:
return 4
data['BMI']=data['Indice de masse corporelle'].apply(BMI)
data['Année de naissance']=2022-data['Année de naissance'] # Changer d'âge
# Antécédents familiaux de diabète
"""
Aucun enregistrement
Un oncle ou une tante est diabétique. / Un oncle ou une tante est diabétique.
Un parent est diabétique.
"""
def FHOD(a):
if a=='Aucun enregistrement':
return 0
elif a==' Un oncle ou une tante est diabétique. ' or a==' Un oncle ou une tante est diabétique. ':
return 1
else:
return 2
data[' Antécédents familiaux de diabète ']=data[' Antécédents familiaux de diabète '].apply(FHOD)
data['Pression diastolique']=data['Pression diastolique'].fillna(-1)
"""
La plage de pression diastolique est 60-90
"""
def DBP(a):
if a<60:
return 0
elif 60<=a<=90:
return 1
elif a>90:
return 2
else:
return a
data['DBP']=data['Pression diastolique'].apply(DBP)
dataDonnées sur la formation/Préparation des données d'essai
train=data[data[' Signes de diabète '] !=-1]
test=data[data[' Signes de diabète '] ==-1]
train_label=train[' Signes de diabète ']
train=train.drop(['No.',' Signes de diabète '],axis=1)
test=test.drop(['No.',' Signes de diabète '],axis=1)Construire un modèle
def select_by_lgb(train_data,train_label,test_data,random_state=2022,metric='auc',num_round=300):
clf=lightgbm
train_matrix=clf.Dataset(train_data,label=train_label)
params={
'boosting_type': 'gbdt',
'objective': 'binary',
'learning_rate': 0.1,
'metric': metric,
'seed': 2020,
'nthread':-1 }
model=clf.train(params,train_matrix,num_round)
pre_y=model.predict(test_data)
return pre_yValidation du modèle
test_data=select_by_lgb(train,train_label,test)
pre_y=pd.DataFrame(test_data)
pre_y['label']=pre_y[0].apply(lambda x:1 if x>0.5 else 0)
result=pd.read_csv('Exemple de soumission.csv')
result['label']=pre_y['label']
result.to_csv('baseline.csv',index=False)Recommandation précédente
La partie modèle de ce sujet utilise une approche assez simple ,lightgbm Aucune Validation croisée des données n'est effectuée dans l'algorithme , Seuls les paramètres par défaut sont utilisés , Pour que les joueurs puissent Baseline Sur la base de Optimisation des paramètres Fusion de modèles , En même temps, il est noté qu'une partie de la construction de l'ingénierie des caractéristiques dans l'algorithme divulgué est démontrée. , Les candidats peuvent effectuer des tests en fonction des caractéristiques médicales du diabète. Poursuite de l'exploitation des caractéristiques , Pour améliorer les performances ~
AttentionDatawhaleNuméro public,Réponse“Extraction de données” Peut être invité au Groupe d'échange d'événements d'exploration de données , Ne vous joignez plus. .

Difficile à organiser,PointOui.Trois compagnies↓
边栏推荐
- Analysis on China's aluminum foil output, trade and enterprise leading operation in 2021: dongyangguang aluminum foil output is stable [figure]
- [in depth understanding of tcapulusdb technology] new models of tcapulusdb
- Kwai 616 war report was launched, and the essence was thrown away for the second time to lead the new wave. Fast brand jumped to the top 3 of the hot list
- [in depth understanding of tcapulusdb technology] how to realize single machine installation of tmonitor
- From the perspective of the core competitiveness of ABT, the Internet giant, who fell first
- JS some small problems about adding and accessing values to arrays
- Redis6
- Boiled peanuts
- R语言使用DALEX包的model_profile函数基于条件依赖CDP方法解释多个分类模型中某个连续特征和目标值y的关系(Conditional Dependence Plots)
- Analysis on market scale and supply of China's needle coke industry in 2020 [figure]
猜你喜欢

广州华锐互动VR全景为各行各业带来发展

Use pagoda to set up mqtt server

Addition, deletion, modification and query of mysql~ tables (detailed and easy to understand)

Analysis on the market scale and pattern of contrast agents in China in 2021: Jiangsu Hengrui pharmaceutical, general electric, Yangzijiang Pharmaceutical Group, Bayer and bleco account for more than

JVM problem replication

158_模型_Power BI 使用 DAX + SVG 打通制作商業圖錶幾乎所有可能

07 local method stack
![In 2021, China's private equity market is growing, and the scale of private equity fund management reaches 19.78 trillion yuan [figure]](/img/e9/ffc5303cb6f0f8e05e93b3342a49b2.jpg)
In 2021, China's private equity market is growing, and the scale of private equity fund management reaches 19.78 trillion yuan [figure]
![Overview and trend analysis of China's foreign direct investment industry in 2020 [figure]](/img/b3/73e01601885eddcd05b68a20f83ca8.jpg)
Overview and trend analysis of China's foreign direct investment industry in 2020 [figure]

Kwai 616 war report was launched, and the essence was thrown away for the second time to lead the new wave. Fast brand jumped to the top 3 of the hot list
随机推荐
C#泛型类案例
[in depth understanding of tcapulusdb technology] tcapulusdb operation and maintenance
05 virtual machine stack
English name of each stage of software version
JVM|运行时数据区(堆空间)
初探Oracle全栈虚拟机---GraalVM
Dell R530内置热备盘状态变化说明
03 runtime data area overview and threads
Analysis on China's aluminum foil output, trade and enterprise leading operation in 2021: dongyangguang aluminum foil output is stable [figure]
LeetCode-78-子集
04 program counter (PC register)
Analysis on market scale and supply of China's needle coke industry in 2020 [figure]
solidity获取季度时间
R语言使用DALEX包的model_profile函数基于条件依赖CDP方法解释多个分类模型中某个连续特征和目标值y的关系(Conditional Dependence Plots)
JVM understanding
QQ机器人闪照转发/撤回消息转发【最新beta2版本】
[in depth understanding of tcapulusdb technology] tcapulusdb regular documents
Tiger DAO VC产品正式上线,Seektiger生态的有力补充
LeetCode 198. Looting & dynamic planning
揭秘GES超大规模图计算引擎HyG:图切分