1 - PDF 免费下载

孙猛 http://www.math.pku.edu.cn/teachers/sunm 2017 年 9 月 14 日

课程内容 : 基本一致 ( 教学大纲 ) 但本课程这学期会根据进度选择介绍一些教材之外的内容 ( 插值查找表排序高维结构等 ) Project: 难度和数目都会更更高!!! 需要花更更多的时间去读文献和做 Presentation 2

教材张乃孝陈光孙猛算法与数据结构 C语言描述第3版高等教育出版社 2011 张乃孝编著算法与数据结构 (第2 版)学习指导与习题解析高等教育出版社 2009 更更多参考文献见课程主页 to be provided soon 3

上课时间地点 : 周一5-6 节 ( 双周 ), 周四 3-4 节 ( 每周 ), 二教 422 上机信息 : 每周二11-12 节 ( 第三周开始 ), 计算中心4 号机房账号 :shy2-1112, 密码 data2017 期末考试 : 2018.1.4 上午, 闭卷考试 4

Office Hour: 周四下午 2:00-3:00 pm, 需提前 email 预约答疑之前, 先 Google 你的问题看是否有人在网上问过作业有关的问题请联系助教, 不不要让我给你调代码助教 : 李李屹 (liyi_math@pku.edu.cn) 张喜悦 (xiyuezhang4869@163.com) 5

成绩由以下部分组成 : 1. Project,3 次, 共计 40%(10+10+20) 第 1 2 次独立完成, 作业成绩程序与论文各占 50% 第 3 次 3-4 人一组协作完成, 并在课上报告,Project 成绩程序论文与报告分别占 40% 40% 20% 每次项目程序和论文均需按时提交 2. 平时小作业,n 次, 共计 10%, 独立完成, 按时提交 3. 期末考试,50%, 闭卷考试考试 : 概念等一般性问题 ( 判断 / 选择 / 填空 / 简答 / 作图 / 比较 / 分析 / 设计 / 讨论等 ) 算法设计与分析程序实现 6

作业通过教学网提交, 不不要直接发 email 给任课教师或助教作业可以延期提交, 最多延期 1 周, 延期提交者该次成绩按 50% 计算, 超过 1 周之后该次作业提交系统将关闭, 之后系统不不再接受任何该次作业提交 7

北北京大学本科考试工作与学术规范条例例第四章第十九条 : 学生对考试成绩有异议, 可以申请核查试卷学生申请查卷, 须在下一学期开学 2 周内, 持学生证向开课院 ( 系所中心 ) 教务办公室提出书面申请, 经主管教学领导批准, 由任课教师和教务员在教务办公室核查试卷 ; 超过规定期限或非本校课程的考试, 不不受理理查卷 8

Best 15 Graduate Degrees with Median Salary from FORTUNE.com in 2016 Master of Biostatistics ($105,900) Master of Statistics ($113,700) Ph.D. of Computer Science ($147,400) Ph.D. of Economics ($125,800) Master of Applied Math ($124,900) Master of Computer Science ($125,700) Ph.D. of Pharmacy ($126,000) Ph.D. of Math ($106,600) Ph.D. of Physics ($137,800) Master of Software Engineering ($118,900) Ph.D. of Physical Chemistry ($134,800) Master of Information Systems ($116,100) Master of Physician Assistant Studies ($103,600) MBA of Management Information Systems ($117,800) Ph.D of Political Science ($116,700) 9

我觉得应该学的知识学到的知识能够帮助赚钱的知识数据结构和算法 11

用计算机解决实际问题, 就是要在计算机中建立一个解决这个问题的模型程序是使用程序设计语言精确描述的实际问题求解的模型程序中描述的数据用来表示问题中涉及的对象, 程序中描述的函数 ( 过程 ) 表示了了对于数据的处理理算法 ; 通过接受实际问题的输入, 经过程序的运行行, 便便可以得到实际问题的一个解 13

现实世界计算机世界需求模型数学模型程序分析设计编程数据结构 + 算法调试和维护 14

为一个多叉路路口设计信号灯管理理系统对可能行行驶路路线实行行分组 : 组内各方向行行驶无冲突 ( 可行行 ) 组数尽可能少 ( 有效最优解 ) 15

可以确定 13 个可能通行行方向 : A B,A C,A D, B A,B C,B D, D A,D B,D C, E A, E B, E C, E D 16

把上图中的一个结点理理解为一个国家, 结点之间的连线看作两国有共同边界, 上述问题就变成著名的着色问题 : 即求出 ( 最少 ) 要几种颜色可将一个地图中所有国家着色, 使得任意两个相邻的国家颜色都不不相同 18

具体做法 : 从分为 1 2 3 组开始考察, 逐个列列举出所有可能的着色方案, 检查这样的分组方案是否满足要求首先满足要求的分组, 自然是问题的最优解这类穷举法对结点少的问题 ( 称为规模小的问题 ) 还可以用 ; 对规模大的问题, 由于求解时间会随着实际问题规模的增长而指数性上升, 使计算机无法承受 19

先用一种颜色给尽可能多的结点上色 ; 然后用另一种颜色在未着色结点中给尽可能多的结点上色 ; 如此反复直到所有结点都着色为止绿色 :AB AC AD BA DC ED 蓝色 :BC BD EA 红色 :DA DB 白色 :EB EC AB AC AD BA BC BD DA D B DC EA EB EC ED 20

使用国名表示国家 ; 国名的集合表示国家的分组使用一个图表示地图图中的结点名表示对应的国家 ; 图中的边表示联系的两个国家有公共边界需要着色的图是 G,G 中所有结点的集合记为 G.V 集合 V1 存放图中所有未被着色的结点集合 NEW 存放可以用某颜色着色的所有结点 21

判断元素 v 是否属于集合 V1: v V1; 从集合 V1 中去掉一个元素 v: remove(v1, v); 向集合 NEW 里里增加一个元素 v: add(new, v); 判断集合 V1 是否空集合 :isempty(v1); 检查结点 v 与结点集合 NEW 中各结点之间在图 G 中是否有边连接 : notadjacentwith (NEW, v, G) 22

从 V1 中找出可用新颜色着色的结点集的工作可以用下面的伪码描述 : 置 NEW 为空集合 ; for 每个 v V1 do if v 与 NEW 中所有结点间都没有边从 V1 中去掉 v ; 将 v 加入 NEW ; 这个伪码如果能执行行, 集合 NEW 中就得到一组可以用新颜色着色的结点着色程序可以反复调用这段伪码, 直到 V1 为空, 每次调用选择一种新颜色, 这段伪码执行行的次数就是需要的不不同颜色个数 23

int colorup(graph G) { int color = 0; // 记录使用的颜色数 set V1 = G.V; //V1 初始化为图 G 的结点集 V set NEW; while(!isempty(v1)) { NEW = { }; while (v V1. notadjacentwith(new, v, G)) { add(new,v); remove(v1,v); } ++color; } return color; // 返回使用的颜色数 } 24

如果集合和图是程序设计语言中预定义的类型, 则 colorup 中用到的 remove(v1, v) 和 add(new, v) 等就应该是语言中预定义的内部函数, 该程序就几乎可以直接上机运行行否则程序员需要自己用语言所提供的 ( 类型 ) 机制实现这些抽象数据类型 ( 集合图等 ) 很多语言没有这类高级结构, 只有一些基本数据类型这时就需要自己实现集合图及其相应操作如何有效实现这类高级结构就是数据结构研究的问题 25

在数据结构确定以后, 算法的描述可以进一步根据设计的数据结构进行行精化如果在这个过程中又出现比较复杂的问题需要解决 ( 例例如 : 如何检查结点 v 与结点集合 NEW 中各结点之间在图 G 中是否有边连接问题 ), 就可能还需要重复前面的思路路构思求解方法, 选择必要的抽象数据类型并用适当的数据结构和算法实现它们经过这种反复的精化过程, 最后将算法中所有部分都细化为能用程序设计语言描述的成分, 得到的就是我们希望的程序 26

类型一组值 ( 或者对象 ) 的集合数据类型在计算机 ( 语言 ) 中可以使用的一个类型, 它不不但包括这个类型的值的集合, 还包括定义在这个类型上的一组操作 27

有一定行行为 ( 操作 ) 的抽象 ( 数学 ) 类型抽象出数据类型的使用要求, 而把它的具体表示方式和运算的实现细节都隐藏起来支持数据类型的实现与使用分离的原则, 是一种十分有效的对问题进行行抽象与分解的思维工具允许独立地考虑数据类型的外部接口和内部的实现对于系统的分解设计维护和修改十分有利利, 是面向对象技术与方法的主要理理论基础 28

ADT Circle is data real r; real x, y; operations real area ( ) real circumference( ) real getradius ( )...... end ADT Circle; 29

C 没有为 ADT 提供专门支持 (C 语言设计时还没认识到 ADT 的重要性 ), 但可通过程序技术模拟在 C 里里实现一个 ADT 通常用两个文件,.h 文件定义数据表示 ( 定义类型 ) 和操作原型,.c 文件实现操作以 Circle 为例例,circle.h 文件 : typedef struct { double x, y, r; } Circle; Circle createcircle (double x, double y, double r); double area (Circle c); double circumference (Circle c);...... /* 其他操作的声明 ( 原型 )*/ 30

circle.c 文件 : #include "circle.h" const double pi = 3.14159265; circle createcircle (double x, double y, double r) { Circle c; c.x = x; c.y = y; c.r = r; return c; } double area (Circle c) { return c.r *c.r *pi; } double circumference (Circle c) { return 2 * c.r * pi; }...... /* 其他操作的实现 */ 使用 Circle 类型的文件应 #include "circle.h", 做可执行行程序时应把文件 circle.c 作为其中一部分 31

传统的概念 : 数据结构是计算机中表示 ( 存储 ) 的具有一定逻辑关系和行行为特征的一组数据根据面向对象的观点 : 数据结构是抽象数据类型的物理理实现主要解决两个问题 : 如何具体表示抽象数据类型中的数学模型 ; 如何给出抽象数据类型中需要操作的实现 32

逻辑结构 ( 数学模型 ) 指数学模型 ( 集合, 表, 树和图等 ) 中的基本元素 ( 结点 ) 之间的相互关系 ( 在抽象数据类型中这些关系隐含在数学名称中 ) 描述方式 :B=<K, R>, K 是结点的有穷集合,R 是 K 上的一个关系存储结构 ( 物理理结构 ) 指数学模型的具体表示方式, 包括结点的表示和关系的表示数据的逻辑结构在计算机存储器器中的映射 ( 或表示 ) 操作 ( 行行为 ) 指抽象数据类型关心的各种行行为在不不同的存储结构上的具体实现 ( 算法或程序 ) 33

按逻辑结构分类给定 B = <K,R>, 若 <k1, k2> R, 则称 k1 为 k2 的前驱,k2 为 k1 的后继没有前驱的结点为开始结点, 没有后继的结点为终端结点根据 R 的特点可以将数据结构分为以下三类 : 线性结构 : K 中每个结点最多只有一个前驱和一个后继树形结构 : K 中每个结点最多只有一个前驱, 但可有多个后继复杂结构 :K 中结点的前驱后继结点的个数都不不作限制特别地集合结构 : 当 R 为空集时,K 中结点间没有约束关系 34

按存储结构分类计算机的内存提供了了一个可以连续存储随即存取和连续编址的存储空间存储结构的设计目标, 就是使用比较少的空间记录逻辑结构的必要信息, 并且有效实现抽象数据类型中要求的操作四种最基本的存储方法顺序表示链接表示散列列表示索引表示 35

顺序表示用一个连续的空间, 顺序存放数据结构中的各个结点适合表示线性结构 : 结点之间的逻辑关系可以用存储空间的物理理次序来反映顺序存储法为使用整数编码来访问数据结点提供了了便便利利 36

链接表示结点的存放位置是任意的, 结点之间的关系通过与结点关联的链接 ( 指针引用等 ) 方式显式地表达出来比较灵活, 适合表示经常进行行插入删除等动态变化的数据结构 37

散列列表示 : 关键码 - 地址转换法选择适当的散列列 ( 杂凑 ) 函数, 根据关键码的值将结点映射到给定的存储空间 ( 散列列表 ) 中检索的效率近似随机存取, 适合于要高速检索的结构索引表示给出一种从关键码到存储地址的映射方法, 即建立辅助的索引结构每个索引项包含一个结点的关键码和该结点的存储位置 38

按操作 ( 行行为 ) 分类行行为的规范由抽象数据类型决定队列列先进先出栈后进先出行行为的实现由算法决定但与存储表示关系密切集合元素的排序算法顺序表示链接表示 39

算法是由有穷规则构成 ( 为解决某一类问题 ) 的运算序列列算法可以有若干输入 ( 初始值或条件 ); 算法通常又有若干个输出 ( 计算结果 ) 算法应该具有有穷性一个算法必须在执行行了了有穷步之后结束算法应该具有确定性算法的每一步, 必须有确切的定义算法应该具有可行行性算法中的每个动作, 原则上都是能够由机器器或人准确完成的 40

如果一个算法以一组满足初始条件的输入开始, 那么该算法的执行行一定终止, 并且在终止时得到满足要求的 ( 输出 ) 结果 41

程序就是在数据的某些特定的结构和表示的基础上对于算法的描述算法与数据结构是程序设计中相辅相成不不可分割的两个方面 42

贪心法分治法回溯法动态规划法分支限界法 43

当追求的目标是一个问题的最优解时, 设法把对整个问题的求解工作分成若干步骤来完成在其中的每一个阶段都选择从局部看是最优的方案, 以期望通过各阶段的局部最优选择达到整体的最优贪心法实际上不不能保证都成功地产生一个全局性最优解, 但是通常可以得到一个可行行的较优解 44

把一个规模较大的问题分成两个或多个较小的与原问题相似的子问题首先对子问题进行行求解, 然后设法把子问题的解合并起来, 得出整个问题的解, 即对问题分而治之如果一个子问题的规模仍然比较大, 不不能很容易易地求得解, 就可以对这个子问题重复地应用分治策略略 45

有一些问题, 需要通过彻底搜索所有可能情况寻找一个满足某些预定条件的最优解由于彻底搜索的运算量量通常非常大, 所以采取一步一步向前试探, 当有多种选择时可以任意选择一种, 只要目前可行行就继续向前, 一旦发现问题或失败就后退, 回到上一步重新选择, 借助于回溯技巧和中间增加判断, 这样常常可以大大地减少搜索时间常见的迷宫问题以及八皇后问题都可以用回溯方法来解决 46

与分治法相似都是把一个大问题分解为若干较小的子问题, 通过求解子问题而得到原问题的解不不同点是 : 分治法每次分解的子问题数目比较少, 子问题之间界限清楚, 处理理的过程通常是自顶向下进行行 ; 动态规划法分解的子问题可能比较多, 而且子问题相互包含, 为了了重用已经计算的结果, 要把计算的中间结果全部保存起来, 通常是自底向上进行行在带权图中, 求所有结点之间最短路路径的 Floyd 算法就属于动态规划法 47

与回溯法相似, 也是一种在表示问题解空间的树上进行行系统搜索的方法所不不同的是, 回溯法使用了了深度优先策略略, 而分枝限界法一般采用广度优先策略略或者采用最大收益 ( 或最小损耗 ) 策略略, 并且利利用最优解属性的的上下界来控制搜索的分枝教材最后一章, 在讨论背包问题时, 介绍了了一个用分枝限界法设计的算法 48

算法不不仅要正确, 而且要有效算法分析就是度量量算法性质的过程 : 分析一个算法主要是看这个算法的执行行需要花费多少机器器资源最常用的算法度量量特性 : 空间代价 ( 空间复杂性 ): 被解决问题的规模 ( 以某种单位计 ) 为 n 时, 某求解算法所需存储空间按某种单位为 S(n), 则称该算法的空间代价为 S(n) 时间代价 ( 时间复杂性 ): 当问题规模 ( 以某种单位计 ) 为 n 时, 算法所耗时间按某种单位为 T(n), 则称该算法的时间代价为 T(n) 49

问题规模空间单位时间单位需要根据实际问题的情况确定 50

求解某问题的一个具体算法, 对不不同的问题实例例, 也可能耗费不不同的时间和空间, 全面分析一个算法需要考虑最坏情况下时间 ( 空间 ) 复杂性平均时间 ( 空间 ) 复杂性最好情况下时间 ( 空间 ) 复杂性 51

大 O 表示法更更关注算法复杂性的量量级 ; 若存在正常数 c 和 n 0, 当问题的规模 n n 0 后, 某算法的时间 ( 或空间 ) 代价 T(n) c f(n), 则说该算法的时间 ( 或空间 ) 代价为 O(f(n)) 52

加法规则 ( 顺序复合 ) 算法分为两部分时, 复杂性是两部分复杂性之和 T(n) = T 1 (n)+t 2 (n) = O(f 1 (n))+o(f 2 (n)) = O(max(f 1 (n), f 2 (n))) 乘法规则 ( 循环 ) 循环 T 1 (n) 次, 每次 T 2 (n) 时间, 则 T(n) = T 1 (n) T 2 (n) = O(f 1 (n)) O(f 2 (n)) = O(f 1 (n) f 2 (n)) 54

理理解从问题到程序的主要过程 ; 体会抽象数据类型数据结构和算法在问题求解过程中的作用 ; 了了解数据结构的主要概念和分类 ; 了了解算法的概念和主要设计分析方法 56

一个抽象数据类型决定了了一组需要的操作不不同抽象数据类型的实现, 可以选择相同的逻辑结构对于一种逻辑结构, 往往可以采用不不同的存储结构一个算法的思想可以独立于具体的数据表示, 但是操作的实现, 总是依赖于具体的存储结构具体选择何种存储结构, 主要应该考虑操作的要求使得主要运算的开销, 在时间和空间的权衡中达到最佳效果算法的时间代价是选择与评价不不同存储结构的关键 57

理理解抽象数据类型数据结构和算法的概念 ; 掌握设计数据结构与算法的主要原理理和方法 ; 比较不不同数据结构和算法的特点 ; 提高使用计算机解决问题的能力力 58