科 技 信 息 检 索 课 程
考 查 论 文
学 号 xxxxxx 姓 名 xxxxx
系 别 计算机与信息工程学院 年 级 2010级 专 业 软件工程.NET
基于云计算的信息检索技术
摘 要:以Web2.0技术为代表的现代技术快速发展及应用,加速了网络信息容量的膨胀。如何从 如此庞大的信息源筛选出用户所需的信息,尤其是图像信息,则必须对这些信息进行高效地检索。图像检索传统算法上的改进难以解决海量数据存储、计算及传递等一系列问题,云计算作为一种新兴的计算模型,对解决图像检索发展遇到的瓶颈有着极其重要的推动作用。
关键词:图像检索;海量数据;云计算;模式 一.概念介绍 1.云计算
(1).云计算的定义
目前,云计算没有统一的定义,当前云计算的定义主要包括如下几种。 1)维基百科:云计算将IT相关的能力以服务的方式提供给用户,允许用户在不了解提供服务的技术、没有相关知识以及设备操作能力的情况下,通过Internet获取需要的服务。
2)中国云计算网:云计算是分布式计算(Distributed Computing)、并行计算(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些科学概念的商业实现。
3)云是一个包含大量可用虚拟资源(例如硬件、开发平台以及I/O服务)的资源池。这些虚拟资源可以根据不同的负载动态地重新配置,以达到更优化的资源利用率。这种资源池通常由基础设施提供商按照服务等级协议(ServiceLevel Agreement,SLA)采用用时付费(Pay-Per-Use,PPU)的模式开发管理。对比上述定义,可以发现,文献[6]和文献[8]中给出的定义的相似之处在于它们都提到了云计算提供服务。
从云计算用户的角度给出定义:即用户在不了解具体实现的情况下通过Internet获取服务。
(2)云计算技术具有以下特点。
1)云计算系统提供的是服务。服务的实现机制对用户透明,用户无需了解云计算的具体机制,就可以获得需要的服务。
2)用冗余方式提供可靠性。云计算系统由大量商用计算机组成集群向用户提供数据处理服务。随着计算机数量的增加,系统出现错误的概率大大增加。在没有专用的硬件可靠性部件的支持下,采用软件的方式,即数据冗余和分布式存储来保证数据的可靠性。
3)高可用性。通过集成海量存储和高性能的计算能力,云能提供较高的服务质量。云计算系统可以自动检测失效节点,并将失效节点排除,不影响系统的正常运行。
4)高层次的编程模型。云计算系统提供高层次的编程模型。用户通过简单学习,就可以编写自己的云计算程序,在“云”系统上执行,满足自己的需求。现在云计算系统主要采用Map—Reduce模型.
5)经济性。组建一个采用大量的商业机组成的集群相对于同样性能的超级计算机花费的资金要少很多。
6)服务多样性。用户可以支付不同的费用,以获得不同级别的服务等。 (3)结论:
为了更好地定义云计算,必须从云计算的服务使用者,服务提供者,组织方式,内部实现机制等方面同时定义。根据现有定义的不足,本文定义云计算为:“云计算是由网格计算发展而来的,前台采用用时付费的方式通过Internet向用户提供服务。云系统后台由大量的集群使用虚拟机的方式,通过高速互联网络互连,组成大型的虚拟资源池。这些虚拟资源可自主管理和配置。用数据冗余的方式保证虚拟资源的高可用性。并具有分布式存储和计算、高扩展性、高可用性、用户友好性等特征。”
(4)云计算基本模型
在图1中的基本模型中,用户通过用户接口从云计算服务目录中选择一项自己需要的服务,请求被送给系统管理单元,并查找提高服务所需要的资源,然后调用Provisioning Tool 从“云”中提取出所需的资源,雕刻出一朵特定的“云朵”来提供服务。其中Monitoring and metering为可选单元,监视“云”的使用情况,保存资源与特定用户的归属关系,Servers “云”里面是由服务器互连构成的一张大网,由系统管理工具进行管理,可进行并行计算,通过虚拟技术实现最大化资源的利用并提供服务给用户。
2 .基于云计算的检索 1.介绍与原理
云计算作为商业服务模式不仅影响了整个IT行业。同时给信息检索带来了巨大的影响,通过云计算平台,将本来的一个单个的服务器连成了一个云,每个服务器变成了云中一个个节点。从而组成了一个检索成本低、信息资源利用率高、速度快的信息检索系统。云计算技术给信息检索带来的影响主要表现在以下几个方面。
(1) 存储方式
云计算采用的是一种叫做云存储的存储模式,云存储将网络中各类存储设备通过应用软件集合起来协同工作,对外提供数据存储和业务访问功能的一个系统。云存储主要是由4层组成:存储层、基础管理层、应用接口层、访问层。云存储改变了过去的存储模式,由过去独自存储模式转变为由数据中心集中管理。过去的数据大多存放在各个数据信息提供者自己的服务器上,而云存储提供商采用集中的数据中心向用户提供数据存储服务。由一朵朵的存储云连成了成片的存储云群,用户可以通过终端软件对数据进行访问使用,而不用知道这些数据是如何进行存储,存储到哪,这也构成了数据源异构的现象,将使得信息检索系统在对数据检索的时候出现迷路的现象。
(2)检索模式
传统的信息检索多采用的是集中串行式检索,使得检索系统的覆盖面限.只能完成某一个领域或某一方面的信息检索.采用的串行检索也使得检索效率低下,一旦检索过程中某一环节出错,将影响整个检索过程。云将全球的数据集中放人了存在于云中的各个服务器中.如云数据中心、云存储。信息检索不再是单
个的服务器或在单机上进行检索,而是需要面对多个存储服务器。是一朵朵的云。这就不能再采用传统的集中串行检索,而需要对以前的检索模式进行相应的改进。云计算采用的是分布式并行计算方式,这种分布式系统是由地域上分散、相对独立但相互联系和制约的种部分(子系统),通过网络互联构成的完成特定功能的整体,是一种松耦合的MIMD系统在分布环境下的一种形式。系统中每一个分布节点都可以是一台并行的计算机.这些计算机没有主次之分,处于同一平等地位。是一种异构结构。并行计算是同一时间调用多个处理器来并发执行计算,解决了目前中央处理器(CPU)运行速度接近上限的问题,大大提高了运算的速度。能对大规模的海量数据进行运算处理。基于云计算的信息检索系统中,当用户提出查询要求,并将提问式提交给检索代理,检索代理将检索提问式发送给了存在于云中的各个服务器,并对各个节点上的存储服务器中的数据信息进行分析排序.得出相关度排在前列的服务器.并对这些存储服务器进行并行分布式检索,将检索结果重新整合按相关度进行排序后传到用户检索界面呈现在用户面前.大大提高了检索能力和检索速度。
2. 基于云计算的信息检索的特点
(1)成本低廉。基于云计算的信息检索系统将数据管理的任务都交给了专门的数据管理中心集中管理,减少了硬件软件的投入,降低了相应的投入成本。
(2)可利用资源多。由于各个检索提供者可能将数据都放到了统一的数据中心。通过相互问的合作可以进行资源共享,使检索的数据源成倍地增加,可以利用的资源也相应增多。
(3)检索速度快。由于云计算采用的是分布式和并行技术,新技术解决了由于计算机中央处理器(CPU)速度提高的瓶颈,大大提高了信息检索的速度。
二.技术 1.现有技术的研究 1.云存储的加密问题
大规模高性能存储系统安全需求,特别是云存储应用中,可扩展和高性能的存储安全技术,是推动网络环境下的存储应用(如云存储应用)最根本的保证,已经成为当前网络存储领域的研究热点。云存储应用中的存储安全包括认证服务、数据加密存储、安全管理、安全日志和审计。
(1)访问控制服务实现用户身份认证、授权,防止非法访问和越权访问。主要功能包括:用户只能对经管理员或文件所有者授权的许可文件进行被许可的操作;管理员只能进行必要的管理操作,如用户管理、数据备份、热点对象迁移,而不能访问用户加密了的私有数据。
(2) 加密存储是对指定的目录和文件进行加密后保存,实现敏感数据存储和传送过程中的机密性保护。
(3) 安全管理主要功能是用户信息和权限的维护。如用户帐户注册和注销等,授权用户、紧急情况下对用户权限回收等。
(4) 安全日志和审计是记录用户和系统与安全相关的主要活动事件,为系统管理员监控系统和活动用户提供必要的审计信息。
对用户来说,在上述4类存储安全服务中,存储加密服务尤为重要。加密存储是保证用户私有数据在共享存储平台的机密性核心技术。随着存储系统和存储设备越来越网络化,存储系统在保证敏感数据机密性的同时,必须提供相应的加密数据共享技术。保护用户隐私性要求存储安全建立在对存储系统的信任基础之上。必须研究适用于网络存储系统的加密存储技术,提供端到端加密存储技术及密钥长期存储和共享机制,以确保用户数据的机密性和隐私性,提高密钥存储的安全性、分发的高效性及加密策略的灵活性。在海量的加密信息存储中,加密检索是实现信息共享的主要手段,是加密存储中必须解决的问题之一。
2加密信息检索技术
对加密信息检索的研究始于2000年,Song等人提出加密数据搜索的实用算法,
Song等人提出基于关键词的公钥加密算法,Park等人提出安全索引搜索算法。
(1) 线性搜索算法
在线性搜索算法中,首先用对称加密算法对明文信息加密。对于每个关键词对应的密文信息,生成一串长度小于密文信息长度的伪随机序列,并生成一由伪随机序列及密文信息确定的校验序列。伪随机序列的长度与检验序列长度之和等于密文信息的长度。伪随机序列及检验序列对密文信息再次加密。在搜索过程中,用户提交明文信息对应的密文信息序列。在服务器端,密文信息序列被线性地同每一段序列模2加。如果得到的结果满足校验关系,那么说明密文信息序列出现,否则,说明密文信息不存在。线性搜索方法是一种一次一密的加密信息检索算法,因此有极强抵抗统计分析的能力。但其有一个致命的缺点,即逐次匹配密文信息,这使得这种检索方法在大数据集的情况下难以应用。
(2)基于关键词的公钥搜索
基于关键词的公钥加密搜索算法由Boneh等人提出,其目的是可以在用户端存储、计算资源不足的情况下,通过访问远端数据库获取数据信息。存储、计算资源分布具有不对称性,即用户的计算存储能力不能实时满足其需求。另一方面用户在移动情况下存储、索引数据的需求也有增加,比如Email服务等。在这种特定情况下,需要保护用户的数据隐私。加密数据有多个不同来源,针对这一问题的解决方法是加密算法使用公钥加密。
算法的过程如下,首先生成公钥、私钥,然后对待存储的明文关键词用公钥进行加密,生成可搜索的密文信息。
(3)安全索引
安全索引由Park等人提出,解决了简单索引方式易受统计攻击的问题。其机制是每次加密所用的密钥是事先生成的一组逆Hash序列,加密后的索引被放入布隆过滤器中。当检索的时候,首先用逆Hash序列密钥生成多个陷门,然后进行布隆检测。对返回的密文文档解密即可得到所需检索的文档。针对有新用户加入、旧用户退出的多用户加密信息检索,这是一种解决方法。但其存在的缺陷
是需要生成大量的密钥序列,随着检索次数的增加,每多进行一次检索,其计算复杂度均线性增加。这在实际应用中很难被接受。
在以上提到的多种加密信息检索算法中,所用的检索模型都是布尔模型,因而无法根据查询与待检索文档的相关度进行排序操作。在实际情况中,尤其是在数据规模较大的云存储应用中,包含某一查询关键词的文档可能有很多个,如何在多个可能相关的文档中找出最相关的一个或若干个文档是需要解决的问题。对加密的文档,是否可以应用成熟的向量空间模型,进而进行相关排序,是一个开放的问题。
(4)引入相关排序的加密搜索算法
Swaminathan等人提出了保护隐私的排序搜索算法。在这一算法中,每一文档中关键词的词频都被保序加密算法加密。加密文档被提交查询给服务器端后,首先计算检索出含有关键词密文的加密文档;然后对用保序算法加密的词频对应的密文信息进行排序处理;最后把评价值高的加密文档返回给用户,由用户对其进行解密。这一种方法可以在给定多个可能相关文档的情况下对加密文档进行排序,进而把最可能相关的文档返回给用户。但这一种算法首先不适用于一个查询包含多个查询词的情况,其次算法只利用了文档中的词频信息,无法利用词的逆文档频率,进_而向量空间模型无法直接应用。解决前一种问题的一种方法是用加法同态加密算法一I对词频信息进行加密处理。
2.基于云计算的信息检索存在的问题 (1)云安全问题
云计算服务提供商既是数据计算服务的提供者,同时对用户隐私又具有很大的潜在威胁。云计算带来了一系列重要的问题,如用户信息隐私权、数据安全、电信能力、政府的监视、可靠性和数据管理方的责任等等。
(2)知识产权问题
由于云计算平台各种数据都集巾存放在云计算提供商提供的数据中心里,云计算提供商成了第三方保管方,当一些检索系统对数据进行检索时.也可能由于
云计算提供商权限设置或安全性能的缺陷.导致一些本不应该被检索到的具有知识产权的数据信息被检索过来。
(3)用户权限
由于云平台下的数据资源大多委托第三方数据中心进行管理,所以作为第三方的数据巾心对数据就有了超级用户权限,而这一权限也给数据带来了一些隐性的安全问题.如用户隐私、企业数据保密问题等等。
(4)可靠性
由于用户通过检索系统检索是由第三方管理的数据资源,所以检索通道的稳定性、可靠性就相当的重要。顺畅的数据流通道、稳定的系统是一个优秀的信息检索系统必备的前提条件之一。所以信息检索服务提供商在选择云计算服务商时就要尽量选择可靠稳定的服务提供商。
5结语 本文借助云计算理念和模型,就解决当今网络环境下图像检索系统的海量数据信息存储、计算及管理等问题作了详细阐述,通过分析证明云计算模式下的图像检索系统能够比较好的解决图像检索发展中所遇到的问题。随着图像检索领域对云计算技术的关注,图像检索的发展将进入一个崭新的阶段。
参考文献
1高 文,刘 峰,黄铁军,等.数字图书馆—原理与技术实现 [M].北京:清华大学出版社,2000:86-86.
2石军,常义林.图像检索技术综述[J].西安电子科技大学 学报(自然科学版),2003,(4):486-491.
3、ChangSK,YanCW,DimitroffDC,etal.AnIntelligentIm⁃ageDatabaseSystem[J].IEEETransonSoftwareEng,1988,14(5):412-42
5章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003:234-236. 吴吉义,傅建庆,张明西,等.云数据管理研究综述[J].电信科学,2010,(5):34-41.
因篇幅问题不能全部显示,请点此查看更多更全内容