二分查找

二分查找
在以下数据集中找到大小为19的元素,查找过程:
二分查找
二分查找针对的是一个有序的数据集合,查找思想有点类似分治思想。每次都通过跟区间的中间元素对比,将待查找的区间缩小为之前的一半,直到找到要查找的元素,或者区间被缩小为0。

二分查找是一种非常高效的查找算法,它的时间复杂度时O(logn)。像O(logn)这种对数时间复杂度,有时甚至比时间复杂度时常量级O(1)的算法还要高效。因为用大O标记法表示时间复杂度的时候,会省略掉常数、系数和低阶,对于常量级时间复杂度来说,O(1)有可能表示的是一个非常大的常量值,比如O(100)、O(1000)、O(10000),所以,常量级时间复杂度的算法有时候可能还没有O(logn)的算法执行效率高。

二分查找非递归实现时应注意:

  1. 循环退出条件是low<=high,而不是low<high。
  2. mid的取值,mid=(low+high)/2这种写法是有问题的,因为如果low和high比较大的话,两者之和就有可能会溢出。改进的方法是将mid的计算方式写成:low+(high-low)/2。
  3. low和high的更新。low=mid+1,high=mid-1。如果直接写成low=mid或者high=mid,就可能会发生死循环。

二分查找应用场景的局限性

  1. 二分查找依赖的是顺序表结构,简单点说就是数组。
  2. 二分查找针对的是有序数据。如果数据没有序,我们需要先排序。对于一组静态的数据,没有频繁的插入、删除,我们可以进行一次排序、多次二分查找。这样排序的成本可以被均摊,二分查找的边际成本就会比较低。针对动态变化的数据集合,二分查找将不再适用。
  3. 数据量太小不适合二分查找。比如在一个大小为10的数组中查找一个元素,完全没有必要用二分查找,顺序遍历就足够了。
    数据量太大也不适合二分查找。二分查找是作用在数组这种数据结构之上的,因为太大的数据用数组存储比较吃力,所以也就不能用二分查找了。

二分查找的变形问题

  1. 查找第一个值等于给定值的元素。
  2. 查找最后一个值等于给定值的元素。
  3. 查找第一个大于等于给定值的元素。
  4. 查找最后一个小于等于给定值的元素。

在这类问题上,二分查找的优势更加明显,算法实现时需要注意:终止条件、区间上下界更新方法、返回值选择。