跳转至

咨询案例

大数据量化投资平台

展开查看详细信息

大数据量化投资平台

2016年与深圳市心讯科技有限公司成立“大数据金融实验室”。

现有数据包括:个股的基本面数据(净资产收益率,负债率,销售毛利率,销售费用率),个股估值数据(公司市值,动(静)态市盈率,市净率,股息率),20年以分收集的个股交易数据(价、量、换手率),国家宏观数据(国债历史收益率曲线、银行历年存款利率等),行业宏观数据等。

综合统计学中回归模型、时间序列模型、计量模型、变量筛选、特征提取、多重检验、在线监控、变点探查等方法,和数据科学中各种高性能计算、并行算法、大数据的有效储存和提取、机器学习及聚类算法,从历史数据中找到规律,形成策略进而实现统计套利。主要目标集中在:实现日内高频交易、实现高频率/高换手率的统计套利、实现中小盘与大盘之间的套利。

下图为大数据金融实验室图片。

天津市南开区“小升初”随机派位系统

展开查看详细信息

天津市南开区“小升初”随机派位系统

我国政府近年来非常重视教育资源的均衡配置,教育部每年在城市义务教育招生入学工作安排中都明确提出在教育资源配置不均衡、择校冲动强烈的地方,根据实际情况积极稳妥采取多校划片。

实行多校划片入学,必须有配套措施。首当其冲的是要求必须在学区内公开、透明配置学位。天津市教委为实现义务教育资源的公平、合理配置,逐步缩小校际差距,发布了《关于进一步完善义务教育免试就近入学工作的意见》。根据该文件的相关要求,需要建立小升初电脑派位的摇号系统,保证学生可以公平公正地分配到各学校。针对学区内学校的不均衡问题,各地纷纷采取电脑摇号方式,并在摇号时请相关部门和家长监督,但依然没有消除公众关于摇号公平的质疑。

为了确保摇号过程的公正透明及每个学生可以公平地分配到各学校,受天津市南开区教育局委托,我们结合志愿优先随机分配的原则,通过在理论上对各随机方法的比较及验算证明,确定了使用系统抽样法用于实施电脑随机派位的方案,并且为了消除普通民众对电脑生成随机数的随机性和公平性”的质疑,我们采取现场摇号随机生成起点、步长的方式。同时,为了进一步避免实际操作中的突发情况出现,我们建立了相应的实时监控过程,使得分配结果不受学生成绩、毕业学校等人为因素的影响。此外,为了最大限度的保障在电脑摇号过程中的公平性,我们进一步基于相关统计方法证明了每个学生入选某所学校的概率相同。此外,我们将该方法软件化便于非专业人士实际操作。

基于上述方法建立的系统已成功应用于天津市南开区2015年小升初的招生工作。南开区教育局于2015年6月27日在天津市第九中学举行小升初随机派位,人大代表、政协委员、学校代表、教师代表、家长代表、学区居民代表等二百余人参加,派位系统得到了社会各界人士和家长的一致认可。今年也将继续采用此系统进行学生随机派位。

婴儿营养不良宏基因组项目

展开查看详细信息

益生菌研究专家Mary Ellen Sanders说如果将人体100多万亿的微生物细胞首尾相连,它们将环绕地球的两圈半。是的!100万亿!足足超过人体细胞10倍……还要多!这些小小的寄生者不仅活在你的皮肤表面,还在你的口腔、鼻腔、肺部、肠道、阴道等形成自己的微生态小王国,各司其职,保护你的健康,其中肠道菌群最多也最重要。

近年来,很多研究发现肠道菌群与人体多种疾病息息相关,不仅包括消化道类疾病如结肠炎、结肠癌(这些消化道疾病,菌群和消化道是直接接触的),还包括代谢类疾病如肥胖和II型糖尿病,免疫性疾病如类风湿关节炎,精神疾病如抑郁症、焦虑症等,都是和肠道菌群关系密切;随着年龄的增长肠道菌群的变化也导致人体出现各类疾病健康预警。统计方法在这类研究中起到了非常重要的作用。

目前,我们为深圳微健康基因科技有限公司进行统计咨询,目的是发现与婴儿营养不良有关的肠道菌群,为婴儿营养不良的疾病治疗提供参考。

我们知道婴儿出生时的第一批菌群取决于她的出生方式,如果是自然生产的婴儿,他们身上的菌群更接近于母体阴道菌群;如果是剖腹产的婴儿,他们菌群更接近母体皮肤上的菌群,之后肠道菌群的多样性会随着饮食环境等不断增加,这些肠道菌群的变化会是影响婴儿营养不良的疾病的原因吗?

对此深圳微健康基因科技有限公司对131个婴儿粪便进行了采样并测序,得到了宏基因组在Genus、KO、CAG各个水平的丰度数据,并记录了各个样本的临床数据。

获得数据后首先是数据的预处理,我们根据样本的临床信息身高、年龄、体重来识别异常的数据,这些数据很可能是因为记录错误或其他原因导致,若不去除,可能会对我们的结果产生很大偏差;然后我们对微生物高维数据进行了降维,包括菌群丰度存在大量0的情况的处理以及菌群之间存在相关性的分析;最后对降维后的数据进行分类并识别重要的微生物。

最终我们用Genus水平上识别的微生物标志物得到的分类准确率达到75%,在KO水平上的准确率也达到了77%,比Genus水平上有所提高;在CAG水平上识别的微生物标志物在交叉验证时平均准确率达到了90%,AUC值为0.97,结果表明我们发现的微生物与婴儿营养不良之间存在显著的相关关系。在统计方法的指导下能够更加有效的探讨疾病与微生物之间的关系。