数据优化

计算机技术领域术语

数据库是支持知识发现的基础工程。要获得高信息含量的、有用的知识,理想情况是原始数据是不含噪声的正确数据。数据是组成数据库的基本单元,构建高质量的数据库,必须对原始数据进行数据预处理,也就是所说的数据优化(EVDO)。

基本介绍
网络数据处理是网络信息计量学的重要组成部分,也是当前网络界、新闻传播界、信息管理界都十分关注的热点研究领域之一。有科学价值的数据库,应能实现基于数据库的数据挖掘和科学研究。数据库是支持知识发现的基础工程。要获得高信息含量的、有用的知识,理想情况是原始数据是不含噪声的正确数据。
数据是组成数据库的基本单元,构建高质量的数据库,必须对原始数据进行数据预处理,也就是所说的数据优化。
优化模型
数据分析优化模型
对数据进行分析重组可以很大程度上减少数据转化过程中的为了转化而进行的查询次数,也能最大程度上的提高缓存命中率。首先我们判定哪些字段需要进行转化。如果仅有一个字段需要转化,那么只需将数据根据相关字段进行分组重排。这组数据的字段转化关系可以完全加入到缓存中。而且可以保证的是这个组的数据处理完毕后,其他的组不会用到这个缓存中的数据。也就是说这个字段被移除缓存后,就不会再加入缓存了。如果有多个字段,就要通过抽样试验分析字段问的相关性,按相关性的顺序进行数据重组。
程序员在进行数据抽取时只要声明要转化字段和相关性字段就可以了。并把它保存在配置文件中。转化字段非常容易的识别出,但是相关性字段除了一些常识性的可以立刻判断出,如一个部门的人重叠性很高,一个品牌的汽车重叠性很高。但有很多,用户也无法识别。框架提供了相关性抽样试验数据学习方法,抽取三个不相关数据子集,分别进行相关性命中率测试,取命中率平均值。最高的就为最相关的字段。
用户编写的SQL语句,要先进行语法语义分析。先分析这个SQL有哪些字段。去优化配置文件中找出待转化字段和相关字段,判断该SQL是要加入分组条件还是分组加排序条件。第二就是看看该SQL是不是会进行全盘扫描。如果会导致全盘扫描转化为按照索引进行扫描。最后根据以上两个方面进行SQL重写,生成符合要求的SQI,让取出的数据变得有规律,使得下一步进行数据转化,缓存命中率大大提高。
1.对文件的分析过程
这部分主要是如果数据源是文本文件,如EXCEL表格时,根据文本类型,调用文本文件的一些操作函数,根据配置文件的规则,对EXCEL按照某些列进行排序,形成有规律的数据。再被引入到系统之中。方法和SQL类似。
2.数据重组
从数据分析模型中已经得知需要按照哪些属性进行重组,重组属性的优先级。如果数据源是文件,我们需要对文件进行排序。如果数据源是数据库,那么我们需要对查询SQL按照属性优先级进行重写。
SQL优化模型
主要是对数据转化时,有些属性需要根据从目标数据库查询出的数据才能转化的情况。为了使缓存置换的时间变短,需要对查询SQL进行优化。经过SQL语句的预处理,将SQL语句分离成片段,找到片段中的各个部分,将片段主体部分拆分出来,根据规则优化SQL语句,还原整个SQL语句6个部分。
1.SQL语句的预处理
在对SQL语句进行分析之前,有必要对它进行一些预处理,这样能减轻不少后面编程的负担。预处理的主要工作是对SQL进行标准化,方便后续的处理。标准化是要去空格,统一成小写格式,多行变为一行
2.将SQL语句分离成片段
预处理后,SQL语句变为我们想要的格式。接下来将这个字符串按照某种限定符分为几个部分。
3.找到片段中的各个部分
有了表示片段的正则表达式,找到片段后从中分离出片段起始标志start片段主体body和片段结束标志end就很容易了。
4.对主体部分进行更深入的分析
5.将片段还原成主体
我们经过前四部分,已经将SQL分析完毕,但我们最终的目的还是将SQL还原,我们的目的是将前四部分分析的记过整合起来
6.优化SQL语句
缓存优化模型
和以往系统在初始化时初始缓存不同,这个缓存是业务缓存,且是不断变换的。需要在数据抽取阶段时进行初始化,随着数据类别的变化,缓存内容也要不断的进行替换。
如果有多个属性需要进行转变。优先级高的属性使用的缓存不需要置换。而优先级较低的缓存内容需要进行置换。因为置换的内容联系性较强。也就是说用到的几率都是相近的,因此,最近没被用到的,往往最容易被用到。所以使用LRU置换算法。
优化流程
主要流程分三个方面,分别是数据采集、数据分析和数据处理。下面将分别介缁这三个步骤所要完成的主要功能。
1.数据采集
软件测试方案生成子系统根据不同的测试部门和不同的测试项目的具体要求确定相应的数据采集范围,以实时数据和历史数据作为基础采集系统运行当中需要的数据。
2.数据分析
对于实时数据,系统将根据输入的文件或者命令,将其按照给定的设计要求保存到对应的数据变量和数组中,供测试管理人员生成新方案使用。
对于历史数据,系统需根据不同的数据表内容,分析其中的有用信息,并对其进行深入的分析。
3.数据处理
每次系统运行开始时,对系统中的各种数据进行总结与整理,将其按照系统要去放入对应的变量或者数据表当中,以供下一步工作使用。
批量处理框架
研究背景
在计算机领域里,很多系统的开发和使用都离不开准确的数据。而这些数据很多时候都是由别的系统或资源产生和提供的。数据在不同的系统之间虽然内含一致,但表现形势不同。因此我们往往需要将数据从一个系统导入另一个系统中,而大部分数据需要经过处理后再导入。而这个过程会出现三个问题。
第一个问题是处理速度。如果数据量比较大,或者涉及数据库表非常多,或者转化过程逻辑很复杂,或者数据大部分都需要映射。那么处理数据和导入数据的过程就会占用大量的时间,在这段时间内很多因素都会导致批量处理过程的失败,这就造成了系统的不稳定性。而有些批量处理数据过程也需要在短时间完成,以给用户以良好的体验过程。这个是论文解决的重点。
第二个问题就是导入过程往往是把抽取数据,转化数据,导入数据过程和它们关联的业务仅仅联系在一起。让代码变得耦合性高和杂乱无章。使得批量处理过程没法扩展和重用。如果出现了一个新的业务的批量数据导入,就要做很多重复工作,甚至重新导数据。人们曾经利用MVC模式的struts框架成功分离了页面元素和业务逻辑元素。那么导数据过程也可以利用框架分离准备数据过程和处理数据过程,让程序员把业务逻辑都写入一个业务逻辑类中。而取数据,插入数据过程由框架完成。
第三个问题是,在处理数据的过程中,对于过程中处理的异常状况没有恰当的处理。最坏的情况下是导完数据后,不知道哪些成功了,哪些失败了。这样导数据工作将变得毫无意义。稍微好一点的情况是知道导入失败的记录,然后利用记录去手工调整。这样虽然最后也能完成批量处理数据过程,但浪费了很多时间。框架会把异常记录成为异常信息和异常关键字两部分,根据异常信息进行微调,在根据异常关键字进行补发。
过程介绍
大批量数据的处理是将数据从一个数据源经过处理和转化后,同步到另一个数据源的过程。这个过程关注以下问题:从数据源读取数据,数据的处理,数据的写入。大批量数据处理过程有以下特点:数据源的多样性造成取数据方式的多样性。转化过程比较复杂,有的设计运算,有时需要查询,耗费大量时间。同步过程频繁,如果数据量大,对目标数据库写入次数过多,消耗大量时间。
获取数据是大批量数据处理过程的一个重要组成部分,它负责将分布的、异构数据源中的数据,如关系数据、数据文件等的数据抽取出来,加载到内存中,以方便对数据发生重要的重构。
数据处理是将源数据转换为目标数据的关键环节。它指的是对于数据源获取到的数据,经过一系列的转换来变为目标数据库需要的数据的过程,通过比较源数据和目标数据的关系,实现了各种复杂的转换,包括数据格式转换,数据类型转换,数据汇总计算,数据拼接等。
数据同步主要是将经过转换和清洗的数据加载到目标数据库中,供目标系统使用处理。
系统架构
开发人员利用该框架对大批量数据进行处理进行编程时,通过取数据组件获取到数据,程序员设置一次性处理的数据量,并确定用什么样的规则对数据进行处理和转化,将数据送入仓库。另外,程序员需要设置消费者逻辑,如将数据写入哪个表,并将这个逻辑传入数据同步组件。剩下的问题程序员都不需要关注,框架会完成整个数据同步过程。如果同步过程是不稳定的,程序员需要调用异常处理函数。保证同步过程的顺利进行。
全国各地天气预报查询

上海市

  • 市辖区
  • 云南省

  • 临沧市
  • 云南省

  • 丽江市
  • 云南省

  • 保山市
  • 云南省

  • 大理白族自治州
  • 云南省

  • 德宏傣族景颇族自治州
  • 云南省

  • 怒江傈僳族自治州
  • 云南省

  • 文山壮族苗族自治州
  • 云南省

  • 昆明市
  • 云南省

  • 昭通市
  • 云南省

  • 普洱市
  • 云南省

  • 曲靖市
  • 云南省

  • 楚雄彝族自治州
  • 云南省

  • 玉溪市
  • 云南省

  • 红河哈尼族彝族自治州
  • 云南省

  • 西双版纳傣族自治州
  • 云南省

  • 迪庆藏族自治州
  • 内蒙古自治区

  • 乌兰察布市
  • 内蒙古自治区

  • 乌海市
  • 内蒙古自治区

  • 兴安盟
  • 内蒙古自治区

  • 包头市
  • 内蒙古自治区

  • 呼伦贝尔市
  • 内蒙古自治区

  • 呼和浩特市
  • 内蒙古自治区

  • 巴彦淖尔市
  • 内蒙古自治区

  • 赤峰市
  • 内蒙古自治区

  • 通辽市
  • 内蒙古自治区

  • 鄂尔多斯市
  • 内蒙古自治区

  • 锡林郭勒盟
  • 内蒙古自治区

  • 阿拉善盟
  • 北京市

  • 市辖区
  • 吉林省

  • 吉林市
  • 吉林省

  • 四平市
  • 吉林省

  • 延边朝鲜族自治州
  • 吉林省

  • 松原市
  • 吉林省

  • 白城市
  • 吉林省

  • 白山市
  • 吉林省

  • 辽源市
  • 吉林省

  • 通化市
  • 吉林省

  • 长春市
  • 四川省

  • 乐山市
  • 四川省

  • 内江市
  • 四川省

  • 凉山彝族自治州
  • 四川省

  • 南充市
  • 四川省

  • 宜宾市
  • 四川省

  • 巴中市
  • 四川省

  • 广元市
  • 四川省

  • 广安市
  • 四川省

  • 德阳市
  • 四川省

  • 成都市
  • 四川省

  • 攀枝花市
  • 四川省

  • 泸州市
  • 四川省

  • 甘孜藏族自治州
  • 四川省

  • 眉山市
  • 四川省

  • 绵阳市
  • 四川省

  • 自贡市
  • 四川省

  • 资阳市
  • 四川省

  • 达州市
  • 四川省

  • 遂宁市
  • 四川省

  • 阿坝藏族羌族自治州
  • 四川省

  • 雅安市
  • 天津市

  • 市辖区
  • 宁夏回族自治区

  • 中卫市
  • 宁夏回族自治区

  • 吴忠市
  • 宁夏回族自治区

  • 固原市
  • 宁夏回族自治区

  • 石嘴山市
  • 宁夏回族自治区

  • 银川市
  • 安徽省

  • 亳州市
  • 安徽省

  • 六安市
  • 安徽省

  • 合肥市
  • 安徽省

  • 安庆市
  • 安徽省

  • 宣城市
  • 安徽省

  • 宿州市
  • 安徽省

  • 池州市
  • 安徽省

  • 淮北市
  • 安徽省

  • 淮南市
  • 安徽省

  • 滁州市
  • 安徽省

  • 芜湖市
  • 安徽省

  • 蚌埠市
  • 安徽省

  • 铜陵市
  • 安徽省

  • 阜阳市
  • 安徽省

  • 马鞍山市
  • 安徽省

  • 黄山市
  • 山东省

  • 东营市
  • 山东省

  • 临沂市
  • 山东省

  • 威海市
  • 山东省

  • 德州市
  • 山东省

  • 日照市
  • 山东省

  • 枣庄市
  • 山东省

  • 泰安市
  • 山东省

  • 济南市
  • 山东省

  • 济宁市
  • 山东省

  • 淄博市
  • 山东省

  • 滨州市
  • 山东省

  • 潍坊市
  • 山东省

  • 烟台市
  • 山东省

  • 聊城市
  • 山东省

  • 菏泽市
  • 山东省

  • 青岛市
  • 山西省

  • 临汾市
  • 山西省

  • 吕梁市
  • 山西省

  • 大同市
  • 山西省

  • 太原市
  • 山西省

  • 忻州市
  • 山西省

  • 晋中市
  • 山西省

  • 晋城市
  • 山西省

  • 朔州市
  • 山西省

  • 运城市
  • 山西省

  • 长治市
  • 山西省

  • 阳泉市
  • 广东省

  • 东莞市
  • 广东省

  • 中山市
  • 广东省

  • 云浮市
  • 广东省

  • 佛山市
  • 广东省

  • 广州市
  • 广东省

  • 惠州市
  • 广东省

  • 揭阳市
  • 广东省

  • 梅州市
  • 广东省

  • 汕头市
  • 广东省

  • 汕尾市
  • 广东省

  • 江门市
  • 广东省

  • 河源市
  • 广东省

  • 深圳市
  • 广东省

  • 清远市
  • 广东省

  • 湛江市
  • 广东省

  • 潮州市
  • 广东省

  • 珠海市
  • 广东省

  • 肇庆市
  • 广东省

  • 茂名市
  • 广东省

  • 阳江市
  • 广东省

  • 韶关市
  • 广西壮族自治区

  • 北海市
  • 广西壮族自治区

  • 南宁市
  • 广西壮族自治区

  • 崇左市
  • 广西壮族自治区

  • 来宾市
  • 广西壮族自治区

  • 柳州市
  • 广西壮族自治区

  • 桂林市
  • 广西壮族自治区

  • 梧州市
  • 广西壮族自治区

  • 河池市
  • 广西壮族自治区

  • 玉林市
  • 广西壮族自治区

  • 百色市
  • 广西壮族自治区

  • 贵港市
  • 广西壮族自治区

  • 贺州市
  • 广西壮族自治区

  • 钦州市
  • 广西壮族自治区

  • 防城港市
  • 新疆维吾尔自治区

  • 乌鲁木齐市
  • 新疆维吾尔自治区

  • 伊犁哈萨克自治州
  • 新疆维吾尔自治区

  • 克孜勒苏柯尔克孜自治州
  • 新疆维吾尔自治区

  • 克拉玛依市
  • 新疆维吾尔自治区

  • 博尔塔拉蒙古自治州
  • 新疆维吾尔自治区

  • 吐鲁番市
  • 新疆维吾尔自治区

  • 和田地区
  • 新疆维吾尔自治区

  • 哈密市
  • 新疆维吾尔自治区

  • 喀什地区
  • 新疆维吾尔自治区

  • 塔城地区
  • 新疆维吾尔自治区

  • 巴音郭楞蒙古自治州
  • 新疆维吾尔自治区

  • 昌吉回族自治州
  • 新疆维吾尔自治区

  • 自治区直辖县级行政区划
  • 新疆维吾尔自治区

  • 阿克苏地区
  • 新疆维吾尔自治区

  • 阿勒泰地区
  • 江苏省

  • 南京市
  • 江苏省

  • 南通市
  • 江苏省

  • 宿迁市
  • 江苏省

  • 常州市
  • 江苏省

  • 徐州市
  • 江苏省

  • 扬州市
  • 江苏省

  • 无锡市
  • 江苏省

  • 泰州市
  • 江苏省

  • 淮安市
  • 江苏省

  • 盐城市
  • 江苏省

  • 苏州市
  • 江苏省

  • 连云港市
  • 江苏省

  • 镇江市
  • 江西省

  • 上饶市
  • 江西省

  • 九江市
  • 江西省

  • 南昌市
  • 江西省

  • 吉安市
  • 江西省

  • 宜春市
  • 江西省

  • 抚州市
  • 江西省

  • 新余市
  • 江西省

  • 景德镇市
  • 江西省

  • 萍乡市
  • 江西省

  • 赣州市
  • 江西省

  • 鹰潭市
  • 河北省

  • 保定市
  • 河北省

  • 唐山市
  • 河北省

  • 廊坊市
  • 河北省

  • 张家口市
  • 河北省

  • 承德市
  • 河北省

  • 沧州市
  • 河北省

  • 石家庄市
  • 河北省

  • 秦皇岛市
  • 河北省

  • 衡水市
  • 河北省

  • 邢台市
  • 河北省

  • 邯郸市
  • 河南省

  • 三门峡市
  • 河南省

  • 信阳市
  • 河南省

  • 南阳市
  • 河南省

  • 周口市
  • 河南省

  • 商丘市
  • 河南省

  • 安阳市
  • 河南省

  • 平顶山市
  • 河南省

  • 开封市
  • 河南省

  • 新乡市
  • 河南省

  • 洛阳市
  • 河南省

  • 漯河市
  • 河南省

  • 濮阳市
  • 河南省

  • 焦作市
  • 河南省

  • 省直辖县级行政区划
  • 河南省

  • 许昌市
  • 河南省

  • 郑州市
  • 河南省

  • 驻马店市
  • 河南省

  • 鹤壁市
  • 浙江省

  • 丽水市
  • 浙江省

  • 台州市
  • 浙江省

  • 嘉兴市
  • 浙江省

  • 宁波市
  • 浙江省

  • 杭州市
  • 浙江省

  • 温州市
  • 浙江省

  • 湖州市
  • 浙江省

  • 绍兴市
  • 浙江省

  • 舟山市
  • 浙江省

  • 衢州市
  • 浙江省

  • 金华市
  • 海南省

  • 三亚市
  • 海南省

  • 三沙市
  • 海南省

  • 儋州市
  • 海南省

  • 海口市
  • 海南省

  • 省直辖县级行政区划
  • 湖北省

  • 十堰市
  • 湖北省

  • 咸宁市
  • 湖北省

  • 孝感市
  • 湖北省

  • 宜昌市
  • 湖北省

  • 恩施土家族苗族自治州
  • 湖北省

  • 武汉市
  • 湖北省

  • 省直辖县级行政区划
  • 湖北省

  • 荆州市
  • 湖北省

  • 荆门市
  • 湖北省

  • 襄阳市
  • 湖北省

  • 鄂州市
  • 湖北省

  • 随州市
  • 湖北省

  • 黄冈市
  • 湖北省

  • 黄石市
  • 湖南省

  • 娄底市
  • 湖南省

  • 岳阳市
  • 湖南省

  • 常德市
  • 湖南省

  • 张家界市
  • 湖南省

  • 怀化市
  • 湖南省

  • 株洲市
  • 湖南省

  • 永州市
  • 湖南省

  • 湘潭市
  • 湖南省

  • 湘西土家族苗族自治州
  • 湖南省

  • 益阳市
  • 湖南省

  • 衡阳市
  • 湖南省

  • 邵阳市
  • 湖南省

  • 郴州市
  • 湖南省

  • 长沙市
  • 甘肃省

  • 临夏回族自治州
  • 甘肃省

  • 兰州市
  • 甘肃省

  • 嘉峪关市
  • 甘肃省

  • 天水市
  • 甘肃省

  • 定西市
  • 甘肃省

  • 平凉市
  • 甘肃省

  • 庆阳市
  • 甘肃省

  • 张掖市
  • 甘肃省

  • 武威市
  • 甘肃省

  • 甘南藏族自治州
  • 甘肃省

  • 白银市
  • 甘肃省

  • 酒泉市
  • 甘肃省

  • 金昌市
  • 甘肃省

  • 陇南市
  • 福建省

  • 三明市
  • 福建省

  • 南平市
  • 福建省

  • 厦门市
  • 福建省

  • 宁德市
  • 福建省

  • 泉州市
  • 福建省

  • 漳州市
  • 福建省

  • 福州市
  • 福建省

  • 莆田市
  • 福建省

  • 龙岩市
  • 西藏自治区

  • 山南市
  • 西藏自治区

  • 拉萨市
  • 西藏自治区

  • 日喀则市
  • 西藏自治区

  • 昌都市
  • 西藏自治区

  • 林芝市
  • 西藏自治区

  • 那曲市
  • 西藏自治区

  • 阿里地区
  • 贵州省

  • 六盘水市
  • 贵州省

  • 安顺市
  • 贵州省

  • 毕节市
  • 贵州省

  • 贵阳市
  • 贵州省

  • 遵义市
  • 贵州省

  • 铜仁市
  • 贵州省

  • 黔东南苗族侗族自治州
  • 贵州省

  • 黔南布依族苗族自治州
  • 贵州省

  • 黔西南布依族苗族自治州
  • 辽宁省

  • 丹东市
  • 辽宁省

  • 大连市
  • 辽宁省

  • 抚顺市
  • 辽宁省

  • 朝阳市
  • 辽宁省

  • 本溪市
  • 辽宁省

  • 沈阳市
  • 辽宁省

  • 盘锦市
  • 辽宁省

  • 营口市
  • 辽宁省

  • 葫芦岛市
  • 辽宁省

  • 辽阳市
  • 辽宁省

  • 铁岭市
  • 辽宁省

  • 锦州市
  • 辽宁省

  • 阜新市
  • 辽宁省

  • 鞍山市
  • 重庆市

  • 重庆市

  • 市辖区
  • 陕西省

  • 咸阳市
  • 陕西省

  • 商洛市
  • 陕西省

  • 安康市
  • 陕西省

  • 宝鸡市
  • 陕西省

  • 延安市
  • 陕西省

  • 榆林市
  • 陕西省

  • 汉中市
  • 陕西省

  • 渭南市
  • 陕西省

  • 西安市
  • 陕西省

  • 铜川市
  • 青海省

  • 果洛藏族自治州
  • 青海省

  • 海东市
  • 青海省

  • 海北藏族自治州
  • 青海省

  • 海南藏族自治州
  • 青海省

  • 海西蒙古族藏族自治州
  • 青海省

  • 玉树藏族自治州
  • 青海省

  • 西宁市
  • 青海省

  • 黄南藏族自治州
  • 黑龙江省

  • 七台河市
  • 黑龙江省

  • 伊春市
  • 黑龙江省

  • 佳木斯市
  • 黑龙江省

  • 双鸭山市
  • 黑龙江省

  • 哈尔滨市
  • 黑龙江省

  • 大兴安岭地区
  • 黑龙江省

  • 大庆市
  • 黑龙江省

  • 牡丹江市
  • 黑龙江省

  • 绥化市
  • 黑龙江省

  • 鸡西市
  • 黑龙江省

  • 鹤岗市
  • 黑龙江省

  • 黑河市
  • 黑龙江省

  • 齐齐哈尔市