决策树算法在股票分析与预测中的应用

2021-02-02 来源：好走旅游网

维普资讯 http://www.cqvip.com

・开发研究与设计技术　ｅ　本栏目责任编辑：谢媛媛　决策树算法在股票分析与预测中的应用　魏雄　（武汉科技学院，湖北武汉４３００７３）　摘要：牛市的开始吸引了股民蜂拥而至，为了保护投资者权益，帮助投资者进行理性投资。文章提出了从技术的角度分析股票交易数　据　采用二叉决策树的方法对庞大的交易数据进行挖掘，根据决策树获取的分类规则，基本上能预测单支股票在一段时间内走势，能有效　的帮助投资者进行理性投资。　关键词：走势：信息熵：二叉决策树　．　中图分类号：ＴＰ３９９　文献标识码：Ａ　文章编号：１００９—３０４４（２００７）０９－２０７６４－０２　ＷＥＩ　Ｘｉｏｎｇ　Ｔｈｅ　Ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　Ｄｅｃｉｓｉｏｎ　Ｔｒｅｅ　Ａｌｇｏｒｉｔｈｍ　ｉｎ　Ｓｔｏｃｋ　Ａｎａｌｙｓｉｎｇ　ａｎｄ　Ｐｒｅｄｉｃｔｉｎｇ　（Ｗｕｈａｎ　Ｉｎｓｉｔｔｕｔｅ　ｏｆ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｗｕｈａｎ　４３００７３，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｃｏｍｍｅｎｃｅ　ｏｆ　ｂｕｌｌ　ｍａｒｋｅｔ　ａｐｐｅａｌｓ　ｔＯ　ｆｌｏｏｄ　ｏｆ　ｓｔｏｃｋｅｒｓ．Ｔｏ　ｐｒｏｔｅｃｔ　ｔｈｅ　ｐｒｏｆｉｔｓ　ｏｆ　ｓｔｏｃｋｂｒｏｋｅｒｓ　ａｎｄ　ｈｅｌｐ　ｔｈｅｍ　ｉｎｖｅｓｔ　ｒａｔｉｏｎａｌｌｙ，　ｔｈｉｓ　ｔｈｅｓｉｓ　ｍａｉｎｌｙ　ｆｏｃｕｓ　ｏｎ　ａｎａｌｙｓｉｎｇ　ｔｈｅ　ｄａｔａ　ｆｒｏｍ　ｔｈｅ　ｐｅｒｓｐｅｃｔｉｖｅ　ｏｆ　ｔｅｃｈｎｏｌｏｇｙ．Ｉｔ　ｉｎｔｅｎｄｓ　ｔＯ　ｕｎｄｅｒｍｉｎｅ　ｔｈｅ　ｈｕｇｅ　ｄｅａｌｉｎｇ　ｄａｔａ　ｂｙ　ｕｓｉｎｇ　ｂｉｆｕｒ－　ｃａｔｅ　ｏｆ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅｓ．Ｉｔ　ｍａｙ　ａｌｓｏ　ｐｒｅｄｉｃｔ　ｔｈｅ　ｄｉｒｅｃｔｉｏｎ　ｏｆ　ａ　ｓｉｎｇｌｅ　ｓｔｏｃｋ　ｗｉｔｈｉｎ　ａ　ｌｉｍｉｔｅｄ　ｔｉｍｅ，ｗｈｉｃｈ　ｃａｎ　ｈｅｌｐ　ｓｔｏｃｋｂｒｏｃｋｅｒｓ　ｔＯ　ｉｎｖｅｓｔ　ｒａｔｉｏｎａｌｌｙ　ａｎｄ　ｅｆｆｅｃｔｉｖｅｌｙ．　Ｋｅｙ　ＷＯｒｄｓ：ｄｉｒｅｃｔｉｏｎ；ｅｎｔｒｏｐｙ　ｏｆ　ｉｎｆｏｒｍａｔｉｏｎ；ｂｉｆｕｒｃａｔｅ　ｏｆ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅｓ　１引言　证券市场是一个资源重新配置的市场，企业发展需要大量的　资金，而在社会上有充足的闲置资金，在这种情况下，证券市场就　应运而生了。证券市场在我们国家经济建设中起着非常重要的作　用。而且和我们广大人们群众的生活息息相关。根据中国证券登　记结算有限责任公司提供的数据在２００７年４月２８日中国证券　市场账户总数首次突破１亿。上海证券交易和深圳证券交易所有　ＢＩＮ方法、聚类方法、人机结合检查方法、和回归方法、排除方法。　针对证券数据的采用排除方法。　本文采用根据Ｂｉｎ边界进行平滑处理，Ｂｉｎ方法通过利用相　应被平滑数据点周围点，对一组已经排序数据进行平滑。首先把　排序好的数据划分若干等高度的到若干桶（ｂｉｎｓ）中。然后利用ｂｉｎ　的边界值（最大值或者最小值），替换ｂｉｎ中所有值。　这里以成交数量做这个属性为例。排序后的成交数量（以手　为单位）有：６，ｌ１，１４，１６，６８，９８，１０１，１０２，１２１　首先根据把数据划分成等高度的ｂｉｎｓ，由于数据不是很多，可　以把他划分成三个ｂｉｎｓ：　Ｂｉｎｌ：６．１１．１４　Ｂｉｎ２：１６，６８，９８　Ｂｉｎ３：ｌＯ１，１０２，１２１　１３６７家上市公司，对于如此庞大的股票交易数据，我们可以通过　决策树的方式挖掘出有价值的知识。　２数据预处理　中国的证券市场经过了二十多年的发展，交易数据快速膨　胀。由于计算机技术、交易环境和交易品种不断进步，在庞大的交　易数据里面常常包含了许多噪音、不完整、甚至是不一致的数据。　当我们需要对这样的数据仓库进行挖掘的时候，势必影响挖掘的　结果，为了提高数据挖掘的对象质量，就必须对挖掘的对象进行　预处理。　在对他们划分好后，由于目前大盘处于涨势，我们采用最小　值来代替，替换后的结果如下：　Ｂｉｎｌ：６，６，１４　２．１数据清洗　针对数据挖掘对象存在有噪音、不完全和不一致性，数据清　Ｂｉｎ２：１６，１６，９８　Ｂｉｎ３：ｌＯ１，１０１，１２１　洗（ｄａｔａ　ｃｌｅａｎｉｎｇ）常常采用填补遗漏数据、消除异常数据、平滑噪　音数据的方法纠正不一致的数据　２．１．１遗漏数据处理　假设在分析客户历史委托数据时，发现很多数据的值为空，　２．１．３不一致数据处理　在实际数据挖掘对象中出现的数据记录内容不一致情况，其　中一些数据不一致可以通过他们与外部的关联手工加以解决。比　比如：客户委托库里面的营业部号、成交价格、后资金额、成交数　量、资金帐号为空等等，这些属性对挖掘的结果会产生直接影响，　我们可以采用忽略该记录、手工填补遗漏的值、过缺省值来填补　空缺值、利用均值填补遗漏值、利用同类别均值填补遗漏值、利用　最可能的值填补遗漏值等几种方法来处理。　针对行情库，成交价格在某个时间段出现空缺情况，由于成　交价格虽然变化空间不是很大，但是发生变化频率比较高，所以　一般主要采用利用最可能的值填补遗漏值的办法。利用回归分析　能取值。比如：在某支股票在某个时间段内购人价格，可以通过上　面两种方法计算出填补值。　２．１．２噪音数据处理　噪音数据在证券交易数据里面出现的频率相对比较多，比如　法、贝叶斯计算公司或者决策树推断出该记录特定属性的最大可　如：客户出现交易后资金余额与实际不对、购买股票成交后与实　际数量不对等情况　可以通过交易所、对帐单校对来处理，如果出　现比较大的数据不一致，采用排除的方法。　２．２数据集成　个严谨的客户交易系统包涵存储过程库ｓｑｌ２ｋ、当前运行　库ｒｕｎ２ｋ、历史信息库ｈｉｓ２ｋ、客户关系管理ｃｒｍ２ｋ、临时数据库　ｔｍｐ２ｋ、机构操盘数据库ｏｒｇａｎ２ｋ、规档库ｆｉｌ２ｋ等八个数据库，内涵　客户基本库ｃｌｉｅｎｔ、客户其他信息ｃｌｉｅｎｔｉｎｆｏ、证券帐户ｓｔｏｃｋｈｏｌｄｅｒ、　银行帐户ｂａｎｋａｃｃｏｕｎｔ、资金ｆｕｎｄ、股份ｓｔｏｃｋ等各种表二十几个。　但是由于数据库、表太多，必须对挖掘数据进行集成处理，把数据　库、数据立方、普通文本文件等，结合起来一起形成一个统一的数　据集合，为数据挖掘工作的顺利进行提供完整、统一的数据基础。　一２．３数据转换处理　由于历年交易数据的分散性，需要对数据转换或归并，构成　一成交数量这个属性就经常容易出现噪音数据。常见的处理办法有　收稿日期：２００７—０４－３０　个适合数据挖掘的描述形式。　作者简介：魏雄，助教，硕士研究生，研究方向：软件工程，软件可靠性。　７６４　电脑知识与技术　维普资讯 http://www.cqvip.com

本栏目责任编辑：谢媛媛　２－３．１平滑处理　ｅ开发研究与设计技术・　此，我们对整个属性分层如下：　成交数量（ｂｕｓｉｎｅｓｓ＿ａｍｏｕｎｔ）：　首先采用ｂｉｎ方法、聚类或者回归对挖掘数据中的噪音清除　工作。比如资金股份余额变动里面交易量小等部分数据进行处　理。　０≤成交数量＜１５００　成交数量≥１５ｏｏ　２＿３．２合计处理　对于股份库里某支股票股东比较多，可以把持股达到一定数　量的投资者进行持股数量汇总。这一操作常用于构造数据立方或　对数据进行多细度分析。　２＿３＿３数据泛化处理（ｇｅｎｅｒａｌｉｚａｔｉｏｎ）　由于客户交易数据最小单位为手，每手１００股，而卖出不受　限制，所以数量比较零散，这个时候就必须对低层次的数据或者　数据层采取更抽象的概念来替代。经过对交易数量进一步泛化　后．我们把单笔交易数量分为大于１５手和小于１５手两种情况。　２．３．４规格化　对于某些属性值，必须要按比例投射到比较小的范围，比较　行情库，每次变化的范围应该在一１０％和１０％范围波动，这样可以　提高数据结构简单．消除数值性值大小不～造成挖掘结果偏差。　而且能提高挖掘的速度。　２－３．５属性构造　走势（ｄｉｒｅｃｔｉｏｎ）＝｛升，跌１　委差（Ｄｅｖｏｌｖｅ—ａｃｃｏｕｎｔ）：　委差≥０、　委差＜０　３．２构造一个决策树对行情数据库进行分类预测　构造决策树原始数据样本集合属性为：该股票下一分钟的走　势“ｄｉｒｅｅｔｉｏｎ”有两个不同的取值｛ｕｐ，ｄｏｗｎ｝，所以就有两个不同类别　（ｍ＝２），假设Ｃｌ对应ｕｐ，反之Ｃ２对应ｄｏｗｎ，Ｃ１类别包含１７０个　样本。Ｃ２类别包含７０个样本，为了计算每属性的增益，我们可以　计算出所有的信息熵。　Ｉ（ｓ（ｓ　墨）一￣　　墨）一　ｐｉｌｏｇ　２（　ｐ　）：Ｉ　（１７０ｏ，７００）一　１ｏｇｔ　一　１。。ｓｇ：　＝０．・　８６９５　下面我们依此求出每个属性的信息熵。先从成交数量（ｂｕｓｉ．　ｈｅＳＳａｍｏｕｎｔ）开始，根据ｂｕｓｉｎｅｓｓ＿ａｍｏｕｎｔ属性在每个取ＵＰ类别　和ＤＯＷＮ类别中的分布，可以计算出每个分布多对应的信息熵：　—在进行数据处理的过程中，需要增加新的属性。　２．４数据消减　针对交易数据庞大的特点，为了有针对性的进行数据挖掘，　当ｂｕｓｉｎｅｓｓ＿ａｍｏｕｎｔ　“１５００”时　ＳＩｌ＝１２２　Ｓ１２＝２１　Ｉ（ｓｌ１　ｊｓｌｚ）＝　０．６０２０　当ｂｕｓｉｎｅｓｓ＿ａｍｏｕｎｔ＜“１５００”时　Ｓ２１＝４８　Ｓ２２＝４９　Ｉ（ｓ２ｌ，Ｓ２１）　０．９９９９　提高挖掘知识的质量，我们先对数据进行选择。本论文的研究通　过对某支股票在２００６年３月２８日交易数据为例。　在计算出以上数据后，我们可以根据属性成交数量Ｄｅ—　ｖｏｌｖｅａｃｃｏｕｎｔ对数据集进行划分，可以得到一个数据对象进行类　—３构造决策树　３．１概念分层　首先我们对交易行情数据仓库进行分析。但是遇到如何对属　而需要的信息熵为：　性选择及最佳分割阀值。　通过数据选择．我们只选择了成交数量、指数、委差作为分析　指标［１］。我们以某支股票在２００６年３月２８日交易数据作为本次　交易数据挖掘对象。委比、委差已经分好了我们以零作为分界点，　由于成交数量比较零星，必须选择一个最佳的值，故还需要对成　交数量进行分层。　在数据挖掘中，最佳的分割阀值能使组内的目标变量差异最　小『２１，组间目标变量的取值差异越大越好。在这里采用了基尼系　数的方法，它的数学公式为：　１一（Ｐ１２＋Ｐ２２）　Ｅ（ｂｕｓｉｎｅｓｓ＿－锄。皿ｔ）＝砉　±　｝羔　（　，．　类的数据增益为：　ｚ（ｓ　ｓ　：）＋　ｚ（　７６　ｅ　现在可以求出利用属性ｂｕｓｉｎｅｓｓ　ａｍｏｕｎｔ对挖掘对象进行分　Ｇａｉｎｔ（ｂｕｓｉｎｅｓｓ＿ａｍｏｕｎｔ）＝Ｉ（Ｓ１，Ｓ２）一Ｅ（ｂｕｓｉｎｅｓｓ—ａｍｏｕｎｔ）＝０．８６９５－　０．７６２８＝０．１０７６　依此类推，可以计算出Ｇａｉｎ（Ｄｉｒｅｃｔｉｏｎ）＝０．０９５５，Ｇａｉｎ（Ｄｅ—　ｖｏｌｖｅａｃｃｏｕｎ０＝０．０５０１。通过比较，属性成交数量ｂｕｓｉｎｅｓｓ＿ａｍｏｕｎｔ　＿所获得的增益最大，因此可以把ｂｕｓｉｎｅｓｓ—ａｍｏｕｎｔ属性做为产生当　前分支解散点．这个新产生的结点被标记为ｂｕｓｉｎｅｓｓ＿ａｍｏｕｎｔ，根　据ｂｕｓｉｎｅｓｓ—ａｍｏｕｎｔ属性的两个不同取值，可以产生两个分支。　　ｂＩｕｓｉ　ｓｓ　ａ【【ｌ。ｕｎｔ　Ｉ　１　＿Ｐ　从数据样本中随机抽取的一个数据，其目标变量取某一类　型（行情升）的值的概率，Ｐ，是取另外一中类型（行情跌）值的概　率。由于只有升和跌的可能，所以Ｐ，＋Ｐ１：１。确定成交数量最佳分　割点的步骤如下：　ｔｉｍｅ　ｌ　ｂｕｓｍｅｓｓ＿ａｍｏｔａ￣　ｂｕｓＩ　；｝　ｎｃｃ　Ｄ　０９３０　Ｉ　１５３００　／７．１８　０９３１　０９３３　０９３７　Ｄ＊ｖｏｌｗ　∞圳　ｊ螂　４３舛　２３　ｊ　Ｄｌ眦ｔｉｏｎ　Ｕｐ　Ｕｐ　Ｕｐ　Ｄｄｎ　Ｉ　ｌ　ｌ７２２２　１２３２　，∞０　７ｌ９　７　７０Ａ　７　７８　ｊ　％　１＝　１　Ｋ　第一步，计算根结点的基尼系数。３月２８日交易时间有２４０　分钟，涨有１８Ｏ次，跌有６Ｏ分钟。则：　１＿［（　）　＋（　）　００４６９　１　上　ｌ＿ｔｉｍｅ　ｌ　ｂｕｓｈａｅｓｓ＿ａｍｏｔｍｔ　ｂｕｓｉｎｅｓｓ　ｐｒｉｃｅ　Ｄｍｌ＂ｃ　ｅ　Ｃ　ｖｏｌ　ｃｏ１ｍｔ　０９３２　　ｌ９ｏ　７ｌ８　３３　３４％　Ｄ扯ｅｃ位ｎ　ＤＯＷｌｔ　ｌ　０９３４　Ｉ　ｌ３０ｏ　７ｌｊ　Ｉ２　２３　Ｕｐ　第二步，指定分组变量的某个取值为分割阀值。在依次完成　对原始数据的分组后，分别计算各分组的基尼系数，同时计算各　基尼系数的加权平均值。假设我们指定成交数量的分割阀值为１５　手（１５ｏｏ股）．将行情分为两大组：成交数量大于等于ｌ５手和小于　１５手两组，计算两组的基尼系数分别为０．０４０１和０．０３９１，其加权　平均值为：　—Ｊ　０９３５　Ｊ　１　３５　，¨　１１　　１３６　Ｄｏｔ￣ｗ　根据数据对象，最终可以构造如下决策树：　＜ｌ５００　ｘ０．０　１　＋３　９ｘ０．０３９１：０．２０１０４００１６７　————’　垂　差　ＤｅｖＯ　ａｃｃｏ　第三步，计算这层的加权平均值与根结点基尼数之间的差　值：Ｏ．Ｏ４６９—０．０００１６７＝０．０４６７３３。　第四步，为了确定最好的分割阀值，分别取阀值２０手、８手、５　手、３手．计算他们与６０手基尼系数的差值，分别是０．０３４６４、　０．０２５９４、０．０２５７４、０．０２９００。　图１　股市分析与预测决策树　第五步，根据统计出来的差值１５手是最佳的分割阀值。因　（下转第７８９页）　７６５　维普资讯 http://www.cqvip.com

本栏目责任编辑：谢媛媛　…　开发研究与设计技术　ｉｎｔｊｌｓ　７结束语　ｓｅｌｅｃｔ　ｃｏｕｎｔ（　）ｉｎｔｏ：ｊｌｓ　ｆｒｏｍ　ｍｏｂｉｌｅｔａｂｌｅ，　商品流通进销存管理是一项繁杂的工作，涉及到一系列问　ｓｌｅ．１．ｔｅｘｔ＝ｓｔｒｉｎｇ（ｊｌｓ１　．　题，将它的数据处理都用计算机来完成，节省了大量的人力和物　ｄｗ＿１．ｓｃｒｏｌｈｏｒｏｗ（１ｏｎｇ（ｔｒｉｍ（ｓｌｅ＿１．ｔｅｘｔ）））　力，提高了准确率，便于查询和预测。与其它方库存软件相比，本　“返回”按钮的ｃｌｉｃｋｅｄ事件代码如下：　系统界面清晰，针对性强，非常适合对手机这种商品流通中的售　ｄｏｓｅ（ｐａｒｅｎｔ）　前管理和售后服务管理，同时提供对商品流通趋势的监测和预测　“浏览”按钮的ｃｌｉｃｋｅｄ事件代码如下：　分析，是其他软件所不具备的，有独到之处。通过本系统的模拟测　ｏｐｅｎ（ｗ＿ｍｏｂｉｌｅ＿ｌｉｓｔ）　试表明．该系统在技术上、经济上都是可行的。　本软件主要针对以下类型的客户群：从事手机销售的各种手　机店及超市手机销售专柜等。可以说系统的客户群比较广，针对　性也较强，有很好的开发价值和商业前景。　参考文献：　Ｔ１】费雅洁，王健．ＰｏｗｅｒＢｕｉｌｄｅｒ程序设计．北京：高等教育出版　社．２００４．　『２】周钢，方小伟．ＰｏｗｅｒＢｕｉｌｄｅｒ项目开发实践．北京：中国铁道　出版社，２ｏｏ３，６３—８　ｏ．　『３１崔杜武等．ＰｏｗｅｒＢｕｉｌｄｅｒ　９．０基础应用与系统开发．北京：　电子工业出版社，２ｏ０４．　图５顾客基本信息录入界面　［４］Ｊｏｈｎ　Ｗｉｌｅｙ＆ｓｏｎｓ、Ｒｅｌａｔｉｏｎａｌ　Ｄａｔａｂａｓｅ　Ｉｎｄｅｘ　Ｄｅｓｉｇｎ　ａｎｄ　ｔｈｅ　其它的还有手机信息查询界面、顾客信息查询界面、手机销　Ｏｐｔｉｍｉｚｅｒｓ．Ｐｕｂｌｉｓｈｅｄ　ｉｎ　Ｃａｎａｄａ．　售信息查询界面、添加新用户界面等．不再～一赘述了。　ｆ上接第７６５页）　情况和它识别样本“跌”（负）样本的情况，用灵敏性（ｓｅｎｓｉｔｉｖｉｔｙ￣　通过已经建立的决策树．可以看出，在某支股票具备一定成交数　特效（ｓｐｅｃｉｉｆｃｉｔｙ）性来衡量，公式如下：　量的情况下，如果委差大于或者等于零，特别是长时间处于大数　Ｓｅｎｓｉｔｉｖｉｔｙ＝！＝卫　字状态，这个时候的价格无疑是最合理的，在达到一定的时间后，　ｐｏｓ　股票价格肯定会上涨。同样道理，对于委比总是负数，但是股票价　Ｓｐｅｃｉｆｉｃｉｔｙ＝！　！ｇ　格却在上涨．这种情况．肯定是异常情况．所以股票价格应该在短　ｎｅｇ　时间内大幅下跌［４】。　其中，ｔ＿ｐｏｓ是真正的样本（能正确按此分类的“ｕｐ”）的样本　３．３决策树中获取分类规则　数。Ｐｏｓ是正（“ｕｐ”）样本数，ｔｎｅｇ是真负样本（被正确地按此分类　决策树表示的分类知识可以抽取出来，用ＩＦ－ＴＨＥＮ分类规则　的“ｄｏｗｎ”的样本）数，ｎｅｇ是负（“ｄｏｗｎ”）样本数。其正确率Ａｃｃｕ．　形式表示『３］，从决策树的根结点到任一个叶结点所形成的一条路径　ｒａｃｙ计算公式为：　构成了一条分类规则。沿着决策树的一条路径所形成的属性～值偶对　Ａｃｃｕ　ｒａｃｙ＝Ｓｅｎｓｉｔｉｔｙ　巳　！　＋ｓｐｅｃｉｆｉｃｉｔＹ　就构成了分类规则的结论内容（ＩＦ）部分中的一个合取项．叶结点所　’　’ｐｏｓ＋ｎｅｇ’　’ｐｏｓ＋ｎｅｇ　标记的类别就构成了规则的结论内容（ＴＨＥＮ部分）。在图２．２股市分　训练集合样本总数是２４Ｏ，测试集样本总数是１２００，样本总　析与预测决策树中ｂｕｓｉｎｅｓｓ　ａｍｏｕｎｔ和Ｄｅｖｌｏｌｖｅ　ａｃｃｏｕｎｔ就是构成ＩＦ　量为１４４０，把以上数据代入公式：　的部分。而Ｄｉｒｅｃｔｉｏｎ是构成ＴＨＥＮ的部分。如果决策树比较大是ＩＦ－　Ａｃｃｕｍｃｙ＝　×丽６丽０１＋　×　＝９８．９７％　ＴＨＥＮ规则表现形式的优势就更加突出。　根据着股票３月最后一周的行情数据测试结果，其准确率达　沿着由根结点到树叶结点的路径．可以转换为ＩＦ—ＴＨＥＮ分　到了９８．９７％。由于个别投资者非理性投资，会导致准确率不能达　类规则如下：　到１００％。所以说所建立的决策树基本上是合理的。对于投资者来　ＩＦ　ｂｕｓｉｎｅｓｓ—ａｍｏｕｎｔ＜１５００　ａｎｄ　Ｄｅｖｏｌｖｅ—ａｃｃｏｕｎ＜０　ＴＨＥＮ　Ｄｉ－　说。如果要判断下个时间段的行情涨跌，可以使用这个分类规则　ｒｅｃｔｉｏｎ＝ｄｏｗｎ　进行分类预测。　ＩＦ　ｂｕｓｉｎｅｓｓ＿ａｍｏｕｎｔ＜１５００　ａｎｄ　Ｄｅｖｏｌｖｅ＿ａｃｃｏｕｎ＼０　ＴＨＥＮ　Ｄｉ－　该项研究，能准确预测股票的走势，某支股票庄家的持股比　ｒｅｃｔｉｏｎ＝ｕｐ　・　例和意图，从而及时提醒中小投资者【　ｏ］，协助监管部门规范证券　ＩＦ　ｂｕｓｉｎｅｓｓ—ａｍｏｕｎｔ　１５００　ａｎｄ　ｅｘｐｏｎｅｎｔ＝ｕｐ　ＴＨＥＮ　Ｄｉｒｅｃｔｉｏｎ＝　，市场．保护中小投资者利益，恢复广大投资者对中国证券市场的　ｕｐ　信心，提高投资者的赢利能力。　ＩＦ　ｂｕｓｉｎｅｓｓ—ａｍｏｕｎｔ　１　５００　ａｎｄ　ｅｘｐｏｎｅｎｔ＝ｄｏｗｎ　ＴＨＥＮ　Ｄｉｒｅｃ－　参考文献：　ｔｉｏｎ＝ｄｏｗｎ　４决策树模型测试　【１１金沈杰，吴绍春．基于预聚类技术的并行序贯模式挖掘算法　［Ｊ］．计算机工程与科学２００４，１０．　为了检测决策树模型性能，通过决策树归纳法的准确性进行　【２】徐远纯擞据挖掘在企业危机中的应用［Ｊ】．科学与科学技术　测试。　管理．２００２（６）：７８—８０．　由于决策树分类方法对数据的过分概化．使用部分数据导出　【３】曾敏，张洪伟．ＳＣＭ数据挖掘的混合遗传算法模型［Ｊ】．计算　分类法，然后评估分类法，会导致过分乐观的估计。在这里，采用　机应用，２００４，２４（１１）８４—８７．　保持法对决策树进行测试。保持法是一种基于给定数据随机选样　［４］Ｙａｎｇ　Ｈｕ，Ｗａｎｇ　Ｈｕｉ－ｑｉ，Ｃｈｅｎｇ　Ｄａｉ－ｊｉｅ．Ｓｅｒｉｉ￣ｓ　Ｏｕｔｌｉｅｒ　Ｄａｔａ　划分的，保持法把数据随机的划分为训练集、测试集两个部分。　Ｍｉｎｉｎｇ　ｂａｓｅｄ　ｏｎ　Ｆｏｒｅｃａｓｔｍｅｎｔ，Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，３　１（２００４）４：ｌ１７—　在构建决策树，我们选取３月２８日的行情数据构造决策树。　１　１９，１４６．　我们选取另外一支股票在３月最后一周交易日的行情数据作为　【５１ｆ－－１冀楠，张维．上海股市ＥＭＨ实证检验［Ｊ］．系统工程学报，　测试集。对于构成的决策树，可以用能识别样本“涨”（正样本）的　１９９７，１２（３）４９—５６．　７的　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

决策树算法在股票分析与预测中的应用