All Posts in 2014

31

DEC

浅谈分支预测、流水线与条件转移

一一个问题在StackOverflow上有这么一个问题 Why is processing a sorted array faster than an unsorted array? 。例子中，对一个数组进行条件求和，在排序前和排序后，性能有很大的差别。原始的例子是C++和Java的，这里将其换成了C# ： static void Main(string[] args) { // Generate data int arraySize; int[] data; Random rnd; arraySize = 32768; data = new int[arraySize]; rnd = new Random(0); for (int c = 0; c < arraySize; + …

23

NOV

.NET中使用Redis (二)

很久以前写了一篇文章 .NET中使用Redis 介绍了如何安装Redis服务端，以及如何在.NET中调用Redis读取数据。本文简单介绍如何设计NoSQL数据库，以及如何使用Redis来存储对象。和传统的关系型数据库不同，NoSQL大部分都是以键值对存储在内存中的，我们不能直接把RDBMS里面的一些做法直接移植到NoSQL中来，一个最主要的原因是，在NoSQL中缺少RDBMS中的一些诸如join ,union以及一些在关系型数据库中效率很高的执行语句，这些在NoSQL不能很好的支持，或者说效率低。下文首先通过例子介绍在SQLServer中设计一个DB系统以及与NoSQL环境中设计一个DB的区别，最后演示如何在Redis中对数据进行读写操作。一个简单的博客系统假设我们要设计一个简单的博客系统，用户可以注册一个博客(Blog)，然后可以在上面写文章(Post)，文章可以分类( …

16

NOV

浅谈依赖注入

最近几天在看一本名为Dependency Injection in .NET 的书，主要讲了什么是依赖注入，使用依赖注入的优点，以及.NET平台上依赖注入的各种框架和用法。在这本书的开头，讲述了软件工程中的一个重要的理念就是关注分离(Separation of concern, SoC)。依赖注入不是目的，它是一系列工具和手段，最终的目的是帮助我们开发出松散耦合(loose coupled)、可维护、可测试的代码和程序。这条原则的做法是大家熟知的面向接口，或者说是面向抽象编程。关于什么是依赖注入，在Stack Overflow上面有一个问题，如何向一个5岁的小孩解释依赖注入，其中得分最高的一个答案是： “When you go and get things out of the refrigerator for yourself, you can cause …

Dependency Injection .NET

03

NOV

浅谈WebService的版本兼容性设计

在现在大型的项目或者软件开发中，一般都会有很多种终端， PC端比如Winform、WebForm，移动端，比如各种Native客户端(iOS, Android, WP)，Html5等，我们要满足以上所有这些客户端的需求，实现前后端的分离，一种最常见的做法是，编写WebService API来为以上客户端提供数据。近年来越来越多的企业或者网站支持Restfull方式的WebService，比如当当网开源Dubbox，扩展Dubbo服务框架支持REST风格远程调用，这个是Java版本的，在.NET中ServiceStack天生支持Restfull风格的WebService。本文主要以ServiceStack为基础探讨，浅谈API的兼容性设计。 1．软件的兼容性在软件持续更新升级的过程中，API 也是需要不断更新，这时就需要考虑客户端升级以及兼容性的问题。当前有很多用户可能由于多种原因，尤 …

WebService Backward Compatibility Message base design .NET

31

OCT

浅谈算法和数据结构: 十一哈希表

在前面的系列文章中，依次介绍了基于无序列表的顺序查找，基于有序数组的二分查找，平衡查找树，以及红黑树，下图是他们在平均以及最差情况下的时间复杂度：可以看到在时间复杂度上，红黑树在平均情况下插入，查找以及删除上都达到了lgN的时间复杂度。那么有没有查找效率更高的数据结构呢，答案就是本文接下来要介绍了散列表，也叫哈希表(Hash Table) 什么是哈希表哈希表就是一种以键-值(key-indexed) 存储数据的结构，我们只要输入待查找的值即key，即可查找到其对应的值。哈希的思路很简单，如果所有的键都是整数，那么就可以使用一个简单的无序数组来实现：将键作为索引，值即为其对应的值，这样就可以快速访问任意键的值。这是对于简单的键的情况，我们将其扩展到可以处理更加复杂的类型的键。使用哈希查找有两个步骤: 使用哈希函数将被查找的键转换为数组的索引。在理想的情况 …

Hashtable Dictionary .NET

09

SEP

使用ServiceStack构建Web服务

提到构建WebService服务，大家肯定第一个想到的是使用WCF，因为简单快捷嘛。首先要说明的是，本人对WCF不太了解，但是想快速建立一个WebService，于是看到了MSDN上的这一篇文章 Building Cross-Platform Web Services with ServiceStack，所以这里简要介绍一下如何使用ServiceStack快速建立一个WebService服务。当然，在开始之前，首先要说明一下ServiceStack是个什么东西。在国内用ServiceStack的似乎很少，大部分都是WCF或者ASP.NET WebAPI，唯一接触ServiceStack的可能是在C# 中调用Redis的时候，有个ServiceStack.Redis，之前还写过一篇 .NET中使用Redis 的拙文。这个ServiceStack.Redis其实就是 …

WebService ServiceStack DTO POCO .NET

26

AUG

浅谈命令查询职责分离(CQRS)模式

在常用的三层架构中，通常都是通过数据访问层来修改或者查询数据，一般修改和查询使用的是相同的实体。在一些业务逻辑简单的系统中可能没有什么问题，但是随着系统逻辑变得复杂，用户增多，这种设计就会出现一些性能问题。虽然在DB上可以做一些读写分离的设计，但在业务上如果在读写方面混合在一起的话，仍然会出现一些问题。本文介绍了命令查询职责分离模式(Command Query Responsibility Segregation，CQRS)，该模式从业务上分离修改 (Command，增，删，改，会对系统状态进行修改)和查询（Query，查，不会对系统状态进行修改)的行为。从而使得逻辑更加清晰，便于对不同部分进行针对性的优化。文章首先简要介绍了传统的CRUD方式存在的问题，接着介绍了CQRS模式，最后以一个简单的在线日记系统演示了如何实现CQRS模式。要谈到读写操作，首先我们来看传统的CRUD的问题。 …

CQRS .NET DDD

12

AUG

熔断器设计模式

如果大家有印象的话，尤其是夏天，如果家里用电负载过大，比如开了很多家用电器，就会”自动跳闸”，此时电路就会断开。在以前更古老的一种方式是”保险丝”，当负载过大，或者电路发生故障或异常时，电流会不断升高，为防止升高的电流有可能损坏电路中的某些重要器件或贵重器件，烧毁电路甚至造成火灾。保险丝会在电流异常升高到一定的高度和热度的时候，自身熔断切断电流，从而起到保护电路安全运行的作用。同样，在大型的软件系统中，如果调用的远程服务或者资源由于某种原因无法使用时，如果没有这种过载保护，就会导致请求的资源阻塞在服务器上等待从而耗尽系统或者服务器资源。很多时候刚开始可能只是系统出现了局部的、小规模的故障，然而由于种种原因，故障影响的范围越来越大，最终导致了全局性的后果。软件系统中的这种过载保护就是本文将要谈到的熔断器模式(Circuit Breaker) 一问题的产生在大型的分布式系统中，通常需要调 …

Circuit Breaker .NET Design Pattern

01

AUG

LINQ Group By操作

在上篇文章 .NET应用程序与数据库交互的若干问题这篇文章中，讨论了一个计算热门商圈的问题，现在在这里扩展一下，假设我们需要从两张表中统计出热门商圈，这两张表内容如下：上表是所有政区，商圈中的餐饮个数，名为FoodDistrict 下表是所有政区，商圈中的SPA个数，名为SPADistrict 现在要把这两张表，根据政区和商圈合并，然后相加Counts，根据Counts的总大小排序，统计热门商圈和热门政区。在这里仅讨论合并的问题，以演示在SQLServer和C#中LINQ的实现方法：通常，我们可以直接通过在SQLServer里面首先通过Union All，然后再通过GroupBy语句来执行查询操作即可满足要求，过程如下： SELECT d.CityLocationId , d.CityLocationName , d. …

.NET LINQ SQLServer Performance Optimizing

22

JUL

BCL中String.Join的实现

在开发中，有时候会遇到需要把一个List对象中的某个字段用一个分隔符拼成一个字符串的情况。比如在SQL语句的in条件中，我们通常需要把List<int>这样的对象转换为“1,2,3”这样的字符串，然后作为in的语句传进去。所以自然而然，可以通过循环的方式来拼着个字符串，于是可以写一个下面这样的通用方法： private static string GetStringFromList<T>(char seperator, IEnumerable<T> values) { if (seperator == null) return string.Empty; if (values == null || values.Count() == 0) throw new …

.NET Performance Optimizing

03

JUL

.NET应用程序与数据库交互的若干问题

我们知道，在应用程序中与数据库进行交互是一个比较耗时的过程，首先应用程序需要与应用程序建立连接，然后将请求发送到数据库，数据库执行操作，然后将结果集返回。所以在程序中，要尽量晚的与数据库建立连接，并且较早的释放连接。然而在很多时候，我们需要频繁的查询和更新数据库中的记录，比如我们的一张表中有1000条记录，假设有一个场景，需要一条一条的判断这1000条记录，如果不存在，插入；如果存在，更新某一个字段。这种场景很常见，比如银行的用户转账或者汇款，在完成之后需要更新账户余额等操作。最近项目中也遇到了类似的情况，通过实践也简单总结了一些如何提高应用程序执行效率的方法，当然这些都是通过减少和数据库进行交互以及当数据达到一定程度，通过批量实现的。下面就简要介绍一下。一场景最近在项目中要实现一个类似大众点评团购这种筛选的功能，用户可以根据系统提供的城市，商区，美食类别列表来进行筛选， …

.NET SQLServer Performance Optimizing

08

JUN

.NET程序的性能要领和优化建议

前几天在老赵的博客上看到，Bill Chiles (Roslyn 编译器的Program Manager)写了一篇文章叫做《Essential Performance Facts and .NET Framework Tips》。这篇文章是一个14页的pdf，当时我是在地铁上在Lumia手机上看的，觉得很是不错，这里也建议大家直接下载阅读原文，我这里试着翻译一下，以加深自己印象，后面也有一些思考，以下是原文内容： --------------------------------------------------------------------------- 本文提供了一些性能优化的建议，这些经验来自于使用托管代码重写C# 和 VB编译器，并以编写C# 编译器中的一些真实场景作为例子来展示这些优化经验。.NET 平台开发应用程序具有极高的生产力。.NET 平台上强大安全的编程语言以 …

PerfView .NET Performance Optimizing

30

MAY

C# 中参数验证方式的演变

一般在写方法的时候，第一步就是进行参数验证，这也体现了编码者的细心和缜密，但是在很多时候这个过程很枯燥和乏味，比如在拿到一个API设计文档的时候，通常会规定类型参数是否允许为空，如果是字符可能有长度限制，如果是整数可能需要判断范围，如果是一些特殊的类型比如电话号码，邮件地址等，可能需要使用正则表达式进行判断。通常，我们一般都是在方法开始的地方进行条件判断，然后抛出合适的异常，这是最普通和通用的做法，但是在.NET中，利用一些语言特性和类库，可以使用一些其他的方式将我们从复杂繁琐的工作中解放出来。本文逐一介绍能够用来进行参数验证的方式，他们包括直接判断语句，帮助类，扩展方法，Customer Attribute，Enterprise Liberary，Debug.Assert，Code Contract等。可以看到在.NET中随着版本的演化，逐步添加了很多声明式编程( …

Code Contract AOP

23

MAY

不要对外公开泛型List成员

最近在阅读Framework Design Guidelines，本着现学现用的原则，于是就用FxCop工具对代码进行规范性检查时，发现了很多问题，其中包括命名以及一些设计上的规范。其中，Do not expose generic lists 这条设计规范引起了我的注意。该规范指出“不要在对象模型中对外暴露List<T>，应该考虑使用Collection<T>,ReadOnlyCollection<T>或者KeyedCollection<K,V>，List<T>是原先ArrayList的泛型实现，是最基础的、性能最好和功能最强大的“动态数组”，对性能进行了优化，但是相对较“封闭”，入口较多。比如，如果奖List<T>对象返回给客户端，那么就不能实现诸如 …

List Collection

21

MAY

1ms引发的问题

最近在跟SQLServer数据库进行交互的时候发现一个奇怪的问题，在往数据库里边插入日期型数据的时候，在C#里面赋值的为 2014/05/19 23:59:59，但是存到数据库里边就变成了2014/05/20 00:00:00。问题场景当时需求是这样的，产品的销售策略要求管理员输入一个产品销售的开始日期SalesStart和结束日期SalesEnd，然后业务会根据当前的时间判断是否在这个产品销售范围内，如果不在则显示未开始或者已过期，所以存储的时候，对SalesEnd进行了处理，在存到数据库的时候，保存的是当天的23:59:59，当时我的处理是这样的：在截止日期加1天然后减去以1毫秒，代码如下： ProductSalesPolicyModel productSaleModel; productSaleModel = new ProductSalesPolicyModel(); …

.NET SQLServer

17

MAY

.NET中使用Redis

Redis是一个用的比较广泛的Key/Value的内存数据库，新浪微博、Github、StackOverflow 等大型应用中都用其作为缓存，Redis的官网为http://redis.io/。最近项目中需要使用Redis，这里简单记录一下Redis的安装，以及如何在.NET中使用Redis。 Redis安装与启动 1. 下载Redis Redis本身没有提供Windows版本的，并且在Windows上也不太稳定，一般都将其部署到Linux环境下，Redis可以在其官网上下载， MSOpenTech中提供了Windows版本，这里为了学习安装这一版本。点击跳转到Github后，直接点击Zip下载。下载后根据自己计算机的版本选择32位或者64位进行安装。我将64位的解压后放到D:\Redis文件夹下，同时将文件夹内的redis.conf也拷贝到该目录下，这个是redis的配 …

Redis NoSQL .NET

13

MAY

从Undo,Redo谈命令模式

一般的应用软件中，通常会提供Redo和Undo的操作，比如Paint.NET中的动作面板，Word中的撤销重做，一般我们按Ctrl-Z即可回退到上次操作。要实现上面的这一功能，最直观的想法就是，我们需要把执行的命令以及相应的参数记录下来，一个命令或者动作，我们可以想象成一个对象，将这些的命令以对象的方式放到一个Stack里面，然后Undo的时候，Pop出来，然后执行该命令即可返回之前的状态。将命令或者操作抽象为一个对象，使得可以用不同的请求参数对对象进行初始化，使得可以对命令进行排队处理，记录请求，以及执行Undo和Redo操作，这就是命令模式(Command Pattern)，命令模式最大的优点就是，他将对象方法的调用和实现分离开。为了说明如何实现Undo和Redo，我们尝试做一个简单的文本格式化的小工具，就是能够进行加粗，倾斜，加下划线，然后支持重做和撤销操作。首 …

Command Pattern .NET

08

MAY

浅谈算法和数据结构: 十二无向图相关算法基础

从这篇文章开始介绍图相关的算法，这也是Algorithms在线课程第二部分的第一次课程笔记。图的应用很广泛，也有很多非常有用的算法，当然也有很多待解决的问题，根据性质，图可以分为无向图和有向图。本文先介绍无向图，后文再介绍有向图。之所以要研究图，是因为图在生活中应用比较广泛：无向图图是若干个顶点(Vertices)和边(Edges)相互连接组成的。边仅由两个顶点连接，并且没有方向的图称为无向图。在研究图之前，有一些定义需要明确，下图中表示了图的一些基本属性的含义，这里就不多说明。图的API 表示在研究图之前，我们需要选用适当的数据结构来表示图，有时候，我们常被我们的直觉欺骗,如下图，这两个其实是一样的，这其实也是一个研究问题，就是如何判断图的形态。要用计算机处理图，我们可以抽象出以下的表示图的API： Graph的API的实现可以由多 …

.NET

01

MAY

浅谈SQL Server数据库分页

数据库分页是老生常谈的问题了。如果使用ORM框架，再使用LINQ的话，一个Skip和Take就可以搞定。但是有时由于限制，需要使用存储过程来实现。在SQLServer中使用存储过程实现分页的已经有很多方法了。之前在面试中遇到过这一问题，问如何高效实现数据库分页。刚好上周在业务中也遇到了这个需求，所以在这里简单记录和分享一下。一需求这里以SQLServer的示例数据库NorthWind为例，里面有一张Product表，现在假设我们的需求是要以UnitPrice降序排列，并且分页，每一页10条记录。要求服务端分页。参数为每页记录数和页码。二实现 Top分页当时采用的最直接做法就是使用两个Top来实现，最后返回的结果是升序的，在C#代码里再处理一下就可以了。这里作为演示，语句中使用 * 为了方便，实际开发中要替换为具体的列名。下面的方法简单吧。 SELECT …

CTE SQLServer Paging

26

APR

从循环引用谈依赖倒置原则

在业务开发中，通常会按照业务或者逻辑将项目分成好几个工程文件以方便重用和模块化，有时候我们分开的两个项目可能存在相互引用的情况，举个例子，比如有两个系统，订单系统和产品系统，订单系统需要从产品系统中了解当前产品是否有剩余。产品系统需要从订单系统中了解产品的销售情况，这时候就存在相互引用的情况。循环引用在Visual Studio中是编译不通过的。出现循环引用很可能是设计上抽象不够导致的，根据设计模式的依赖倒置-高层模块不应该依赖于低层模块。二者都应该依赖于抽象，抽象不应该依赖于细节，细节应该依赖于抽象这一原则，可以来解决循环引用。在一些项目中，使用一些依赖注入的框架如SPRING.net，CASTLE可以在一定程度上避免循环引用。 Class A中用到了Class B的对象b，一般情况下，需要在A的代码中显式的new一个B的对象。采用依赖注入技术之后，A的代码只需 …

24

APR

浅谈模板方法模式

在很多时候，我们在写代码的时候总是会遇到一些相同或者类似的处理流程和步骤，就拿一般的函数编写来说，在处理之前一般会进行参数有效性验证，然后可能会对参数进行预处理，最后在执行业务操作。这种情况通常会出现在一类业务，比如订单处理系统中，就有订单创建，订单修改等操作，就会出现的这些类似的情况。如果每个都这样写的话，会发现整个流程比较重复和冗余。比如： class SomeProcessService { ResponseBody SomeProcess (RequestBody request) { ValidateParameter(); PreprocessingParameter(); DoSomething(); } } class …

template method Design Pattern

29

MAR

浅谈算法和数据结构: 十平衡查找树之B树

前面讲解了平衡查找树中的2-3树以及其实现红黑树。2-3树种，一个节点最多有2个key，而红黑树则使用染色的方式来标识这两个key。维基百科对B树的定义为“在计算机科学中，B树（B-tree）是一种树状数据结构，它能够存储数据、对其进行排序并允许以O(log n)的时间复杂度运行进行查找、顺序读取、插入和删除的数据结构。B树，概括来说是一个节点可以拥有多于2个子节点的二叉查找树。与自平衡二叉查找树不同，B-树为系统最优化大块数据的读和写操作。B-tree算法减少定位记录时所经历的中间过程，从而加快存取速度。普遍运用在数据库和文件系统。” 定义 B 树可以看作是对2-3查找树的一种扩展，即他允许每个节点有M-1个子节点。根节点至少有两个子节点每个节点有M-1个key，并且以升序排列位于M-1和M key的子节点的值位于M-1 和M key对 …

.NET Algorithm

27

MAR

浅谈算法和数据结构: 九平衡查找树之红黑树

前面一篇文章介绍了2-3查找树，可以看到，2-3查找树能保证在插入元素之后能保持树的平衡状态，最坏情况下即所有的子节点都是2-node，树的高度为lgN，从而保证了最坏情况下的时间复杂度。但是2-3树实现起来比较复杂，本文介绍一种简单实现2-3树的数据结构，即红黑树（Red-Black Tree）。正如在博客推荐里所说，本文以及这一系列文章大部分参考或者引用《Algorithms》第四版，国内已经有中文版《算法》第四版，推荐购买原版学习。这里只是我个人的读书笔记。定义红黑树的主要是想对2-3查找树进行编码，尤其是对2-3查找树中的3-nodes节点添加额外的信息。红黑树中将节点之间的链接分为两种不同类型，红色链接，他用来链接两个2-nodes节点来表示一个3-nodes节点。黑色链接用来链接普通的2-3节点。特别的，使用红色链接的两个2-nodes来表示一个3-nodes节 …

Red-Black Tree .NET

25

MAR

浅谈算法和数据结构: 八平衡查找树之2-3树

前面介绍了二叉查找树(Binary Search Tree)，他对于大多数情况下的查找和插入在效率上来说是没有问题的，但是他在最差的情况下效率比较低。本文及后面文章介绍的平衡查找树的数据结构能够保证在最差的情况下也能达到lgN的效率，要实现这一目标我们需要保证树在插入完成之后始终保持平衡状态，这就是平衡查找树(Balanced Search Tree)。在一棵具有N 个节点的树中，我们希望该树的高度能够维持在lgN左右，这样我们就能保证只需要lgN次比较操作就可以查找到想要的值。不幸的是，每次插入元素之后维持树的平衡状态太昂贵。所以这里会介绍一些新的数据结构来保证在最坏的情况下插入和查找效率都能保证在对数的时间复杂度内完成。本文首先介绍2-3查找树(2-3 Search Tree)，后面会在此基础上介绍红黑树和B树。定义和二叉树不一样，2-3树运行每个节点保存1个或者两个的值。 …

.NET Algorithm

24

MAR

浅谈算法和数据结构: 七二叉查找树

前文介绍了符号表的两种实现，无序链表和有序数组，无序链表在插入的时候具有较高的灵活性，而有序数组在查找时具有较高的效率，本文介绍的二叉查找树(Binary Search Tree，BST)这一数据结构综合了以上两种数据结构的优点。二叉查找树具有很高的灵活性，对其优化可以生成平衡二叉树，红黑树等高效的查找和插入数据结构，后文会一一介绍。一定义二叉查找树（Binary Search Tree），也称有序二叉树（ordered binary tree）,排序二叉树（sorted binary tree），是指一棵空树或者具有下列性质的二叉树： 1. 若任意节点的左子树不空，则左子树上所有结点的值均小于它的根结点的值； 2. 若任意节点的右子树不空，则右子树上所有结点的值均大于它的根结点的值； 3. 任意节点的左、右子树也分别为二叉查找树。 4. 没有键值相等的节点（no …

Binary Search Tree Data Structure

12

MAR

浅谈算法和数据结构: 六符号表及其基本实现

前面几篇文章介绍了基本的排序算法，排序通常是查找的前奏操作。从本文开始介绍基本的查找算法。在介绍查找算法，首先需要了解符号表这一抽象数据结构，本文首先介绍了什么是符号表，以及这一抽象数据结构的的API，然后介绍了两种简单的符号表的实现方式。一符号表在开始介绍查找算法之前，我们需要定义一个名为符号表（Symbol Table）的抽象数据结构，该数据结构类似我们再C#中使用的Dictionary，他是对具有键值对元素的一种抽象，每一个元素都有一个key和value，我们可以往里面添加key，value键值对，也可以根据key来查找value。在现实的生活中，我们经常会遇到各种需要根据key来查找value的情况，比如DNS根据域名查找IP地址，图书馆根据索引号查找图书等等：为了实现这一功能，我们定义一个抽象数据结构，然后选用合适的数据结构来实现： …

Symbol Table Binary Search

02

MAR

浅谈算法和数据结构: 五优先级队列与堆排序

在很多应用中，我们通常需要按照优先级情况对待处理对象进行处理，比如首先处理优先级最高的对象，然后处理次高的对象。最简单的一个例子就是，在手机上玩游戏的时候，如果有来电，那么系统应该优先处理打进来的电话。在这种情况下，我们的数据结构应该提供两个最基本的操作，一个是返回最高优先级对象，一个是添加新的对象。这种数据结构就是优先级队列(Priority Queue) 。本文首先介绍优先级队列的定义，有序和无序数组以及堆数据结构实现优先级队列，最后介绍了基于优先级队列的堆排序(Heap Sort) 一定义优先级队列和通常的栈和队列一样，只不过里面的每一个元素都有一个”优先级”，在处理的时候，首先处理优先级最高的。如果两个元素具有相同的优先级，则按照他们插入到队列中的先后顺序处理。优先级队列可以通过链表，数组，堆或者其他数据结构实现。二实现 …

Priority Queue Heap-Sort

07

FEB

浅谈算法和数据结构: 四快速排序

上篇文章介绍了时间复杂度为O(nlgn)的合并排序，本篇文章介绍时间复杂度同样为O(nlgn)但是排序速度比合并排序更快的快速排序(Quick Sort)。快速排序是20世纪科技领域的十大算法之一，他由C. A. R. Hoare于1960年提出的一种划分交换排序。快速排序也是一种采用分治法解决问题的一个典型应用。在很多编程语言中，对数组，列表进行的非稳定排序在内部实现中都使用的是快速排序。而且快速排序在面试中经常会遇到。本文首先介绍快速排序的思路，算法的实现、分析、优化及改进，最后分析了.NET 中列表排序的内部实现。一原理快速排序的基本思想如下：对数组进行随机化。从数列中取出一个数作为中轴数(pivot)。将比这个数大的数放到它的右边，小于或等于它的数放到它的左边。再对左右区间重复第三步，直到各区间只有一个数。如上图所 …

Quick Sort Median of three partitioning 3-way partitioning

28

JAN

浅谈Excel开发：十一针对64位Excel的插件的开发和部署

自Office 2010版本开始有了32位和64位之分，对Excel来说，32位的Excel和64位的Excel在性能上的主要区别是64位的Excel能够处理2G及2G以上的大数据集。随着64位操作系统的安装，Office 2010及以上版本的普及以及计算机的内存容量越来越高，使用64位Excel的用户越来越多，所以让插件支持64位Excel能够赢得一部分用户。前面十篇文章中所讲解的技术适用于不同版本和不同位数的Excel，但是由于32位的COM组件不支持64位的Excel，所以在针对不同位数的Excel的编译和部署的时候，有些地方可能需要注意和有所不同。 64位版本的Office只能安装在64位的操作系统之上，32位的Office采用Windows-32-on-Windows-64 (WOW64) 技术可以安装在64位操作系统上，这也是32位Office在64位操作系统上的默认安装 …

Excel Development VSTO Shared Add-in

27

JAN

浅谈算法和数据结构: 三合并排序

合并排序，顾名思义，就是通过将两个有序的序列合并为一个大的有序的序列的方式来实现排序。合并排序是一种典型的分治算法：首先将序列分为两部分，然后对每一部分进行循环递归的排序，然后逐个将结果进行合并。合并排序最大的优点是它的时间复杂度为O(nlgn)，这个是我们之前的选择排序和插入排序所达不到的。他还是一种稳定性排序，也就是相等的元素在序列中的相对位置在排序前后不会发生变化。他的唯一缺点是，需要利用额外的N的空间来进行排序。一原理合并排序依赖于合并操作，即将两个已经排序的序列合并成一个序列，具体的过程如下：申请空间，使其大小为两个已经排序序列之和，然后将待排序数组复制到该数组中。设定两个指针，最初位置分别为两个已经排序序列的起始位置比较复制数组中两个指针所指向的元素，选择相对小的元素放入到原始待排序数组中，并移动指针到下一位置重复步骤3直到某一指 …

Merge Sort Algorithm

20

JAN

浅谈算法和数据结构: 二基本排序算法

本篇开始学习排序算法。排序与我们日常生活中息息相关，比如，我们要从电话簿中找到某个联系人首先会按照姓氏排序、买火车票会按照出发时间或者时长排序、买东西会按照销量或者好评度排序、查找文件会按照修改时间排序等等。在计算机程序设计中，排序和查找也是最基本的算法，很多其他的算法都是以排序算法为基础，在一般的数据处理或分析中，通常第一步就是进行排序，比如说二分查找，首先要对数据进行排序。在Donald Knuth 的计算机程序设计的艺术这四卷书中，有一卷是专门介绍排序和查找的。排序的算法有很多，在维基百科上有这么一个分类，另外大家有兴趣也可以直接上维基百科上看相关算法，本文也参考了上面的内容。首先来看比较简单的选择排序(Selection sort)，插入排序(Insertion sort)，然后在分析插入排序的特征和缺点的基础上，介绍在插入排序基础上改进的希尔排序(Shell …

Selection Sort Shell Sort Insertion Sort

15

JAN

浅谈算法和数据结构: 一栈和队列

最近晚上在家里看Algorithems，4th Edition，我买的英文版，觉得这本书写的比较浅显易懂，而且“图码并茂”，趁着这次机会打算好好学习做做笔记，这样也会印象深刻，这也是写这一系列文章的原因。另外普林斯顿大学在Coursera 上也有这本书同步的公开课，还有另外一门算法分析课，这门课程的作者也是这本书的作者，两门课都挺不错的。计算机程序离不开算法和数据结构，本文简单介绍栈(Stack)和队列(Queue)的实现，.NET中与之相关的数据结构，典型应用等，希望能加深自己对这两个简单数据结构的理解。 1. 基本概念概念很简单，栈 (Stack)是一种后进先出(last in first off，LIFO)的数据结构，而队列(Queue)则是一种先进先出 (fisrt in first out，FIFO)的结构，如下图： 2. 实现现在来看如何实现以上 …

05

JAN

浅谈Excel开发：十 Excel 开发中与线程相关的若干问题

采用VSTO或者Shared Add-in等技术开发Excel插件，其实是在与Excel提供的API在打交道，Excel本身的组件大多数都是COM组件，也就是说通过Excel PIA来与COM进行交互。这其中会存在一些问题，这些问题如果处理不好，通常会导致在运行的时候会抛出难以调试的COM异常，从而导致我们开发出的Excel插件的不稳定。和普通的WinForm程序一样，Excel也是一种STA(Single Thread Apartment)线程的应用程序，Excel插件是寄宿在Excel中运行的，这也就意味着插件也是一种STA线程的应用程序。插件在操作Excel的时候，如果是在Excel的主线程中，可以直接获取Excel对象进行操作，比如写入单元格值，对单元格进行格式化等操作。但是通常，我们会在多线程或者后台工作线程中去处理一系列复杂的数据或者逻辑，待处理完成获得结果 …

Excel STA COM Exception SynchronizationContext Excel Development

02

JAN

Word文档合并的一种实现

今天遇到一个问题，就是需要把多个Word文档的内容追加到一个目标Word文档的后面，如果我有目标文档a.doc以及其他很多个文档b.doc,c.doc…等等数量很多。这个问题，如果是在服务端的话，直接使用OpenXML技术，读写文档就可以实现，这样性能较稳定，但是需要对OpenXML有一定的了解。如果在客户端机器上，可以使用Word PIA实现。由于本人对于Word PIA较熟悉，所以采用了该方法。但是在实现的过程中，也是有很多种思路的。将b.doc打开，将其中的内容选中，复制到剪贴板，然后打开目标文件a.doc，通过代码将光标移到文档末尾，粘贴。粘贴一次保存一下文件，然后在打开c.doc重复以上过程，知道所有文件均添加完成。将b.doc打开，将其中的内容选中，获取Range对象，然后打开目标文件a.doc，在里面通过代码插入b的内容。以上两种方法都涉及 …

码农兼一个普普通通小青年