python绘制雨云图(Raincloud) 2022年1月11日 | 技术 在做探索性分析时,条形图、箱线图是很好的方法,他可以很好地展示大概的数据结构与分布,由于最近看到有人使用使用雨云图展示数据,图形看起来很美观,有趣,因此这里也就进行了梳理并使用python实现雨云图的绘制。 介绍 雨云图其实是一种混合图,由四部分组成,它们分别是 violin plot(云)、bo…… 阅读全文
典型相关分析介绍及python实现 2021年12月29日 | 技术 在处理单个高维数据时,通过可以通过LDA,PCA,等等方法进行降维处理,但是如果某两个数据来自同一个样本,但是数据类型不同,差距巨大时,怎么办呢?这个时候就是典型相关性分析(Canonical Correlation Analysis,CCA)的应用场景.CCA允许我们同时从两套数据分析.典型的应用场景…… 阅读全文
matplotlib画图时进行颜色填充 2021年12月29日 | 技术 在python中matplotlib进行绘图时,有时为了图形的美观,需要在其上方或者下方进行颜色填充,这时需要采用的函数是fill_between,其中参数y2决定第二条线,如果是向上还是向下填充,下面具体展示: 数据生成 我们这里以正弦函数为例 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns n = 1024…… 阅读全文
使用bootstrapping计算置信区间 2021年12月28日 | 技术 概念 置信区间(confidence interval,ci)是总体数值在特定可信度下的区间。 它是根据原始观测样本估计的,通常定义为 95%.即通常所说的95%置信区间. 为何使用置信区间 一般情况下,获得的样本都是抽样得到的,总体是未知的,这样从样本中获得的数据没法直接反映总体情况,为了…… 阅读全文
c-index及其在生存分析中的应用 2021年12月23日 | 技术 一致性指数(concordance index)或者说c-index是用于评估算法预测效果的参数.定义上是指素有时间点上一致性对的比例.该参数在生物学上比如癌症预测上具有重要意义,可以用来评估癌症生存期预测的好坏.在python中可以使用lifelines包下的工具的concord…… 阅读全文
python原生list数组与numpy的array 2021年12月22日 | 技术 在python中存储集合数据可以选择多种原生数据类型,包括list,array,tuple,dictionary四种类型.其中list可变性强,可存储任意内容并且可变,应用范围广泛.而在进行科学运算,存储纯数字时,numpy被广泛应用,可以说基本完全替代了list.那么它们之间有…… 阅读全文
K-Means聚类及sklearn实现 2021年12月20日 | 技术 本文章将从数学及代码角度阐述K-Means聚类方法的原理及应用。 聚类分析允许我们找到相似样本或者feature的组,这些对象之间的相关性更强。 常见的用途有包括按照不同的基因表达情况对样本进行分组,或者根据不同样本的分类对基因进行分组等。 本文将会介绍聚类算法中的k-means: k-…… 阅读全文
python绘图中的四个绘图技巧 2021年12月13日 | 技术 在可视化数据时,通常需要在单个图形中绘制多个图形。 例如,如果您想从不同的角度可视化相同的变量(例如,数字变量的并排直方图和箱线图),则多个图形很有用。 在这篇文章中,我分享了绘制多个图形的 4 个简单但实用的技巧。 数据集📦 让我们导入包并更新图表的默认设置,为图表添加一点个人风格。 我们将…… 阅读全文
手把手用python在实现随机森林算法 2020年12月28日 | 技术 是时候写写各机器学习的内容了。在google等搜索引擎越来越强大和越来越廉价的阿里云等云服务之后,越来越多的人能够有机会实现机器学习和人工智能相关的应用了。任何能够使用笔记本电脑并且乐于学习新知识的人都可以在几分钟内尝试最新的算法。再稍微多花一点时间,您就可以开发实用的模型来帮助…… 阅读全文
python3解决LeeCode中等题编号468. 验证IP地址 2020年7月29日 | 技术 这是一篇解析编程练习网站LeeCode上面的一道题的文章。 题目地址:力扣 分为几步: 题目内容 官方示例 思路解析和 解题方法 题目内容 验证IP地址 编写一个函数来验证输入的字符串是否是有效的 IPv4 或 IPv6 地址。 IPv4 地址由十进制数和点来表示,每个地址包含4个十进制数,其范围为 0 - 255, 用("…… 阅读全文