ou – 第 8 页 – O 的笔记

项目总结 (1)

ou 2012 年 3 月 3 日2016 年 8 月 6 日 2 Comments

年前开始做这个项目，虽然主要的功能放假前已经完成，但是老板为了体现实验室的主题——并行计算，要求把一个简单的 hash 查找功能弄成复杂的“多线程并行计算”，尽管最后的多线程实现比串行的还慢（通过使用 gprof 分析发现花在同步上的开销超过了多线程带来的并行效益，因为实际的 hash 查找不怎么耗时间）。当然这些我是无力改变的，不过有个好处就是老板虽然不懂具体技术，但是却不会瞎指挥，所以在实现上倒是挺自由的，因此可以随便尝试自己想学的东西，只要最后项目完成就行。

好了，发完牢骚之后总结一下从中学到的东西吧。

生产者-消费者问题

我觉得所有的问题基本都可以归结为生产者-消费者问题：输入是生产者，程序处理是消费者。刚开始写的是串行的代码，使用惯用的套路：

int main(void)
{
    ......

    while ((rec = producer()))
        consumer(rec);

    ......
}

串行程序需要由 main() 函数驱动，主要逻辑由 main() 函数搭建，这样的话如果非要把多线程嵌到这个模型中，看起来会有点奇怪：

void* producer(void)
{
    /* blcok until data arrives */
    return get_resource_from(resource_pool);
}

void consumer(void*

…

阅读全文…

vim 配置整理

ou 2012 年 2 月 9 日2024 年 8 月 7 日 4 Comments

为了补偿前几周对 vim 的不忠，这两天整理了一下 vim 的配置，贴上来备份一下，也算是一篇凑数的文章。

目前正在使用的插件有 neocomplcache（自动补全），bufexplorer（多个 buffer 间切换），code_complete（代码模板），nerdtree（文件浏览的侧边栏），nerdcommenter（注释的好帮手）。另外还有一些好用的插件如 taglist（代码结构浏览，只需装上 ctags 即可，不需生成 tags 文件），echofunc（输入函数左括号时显示函数原型）等。

最后贴一下配置文件，是在 deb 包配置文件的基础上修改的（2013.12.09 更新）：

" Uncomment the next line to make Vim more Vi-compatible
" NOTE: debian.vim sets 'nocompatible'.  Setting 'compatible' changes numerous
" options, so

…

阅读全文…

交换 ctrl 和 caps lock

ou 2012 年 2 月 3 日2024 年 8 月 7 日 3 Comments

因为 ctrl 键在笔记本键盘的左下角，对于经常使用 ctrl 键的人来说是个痛苦的事情。在网上搜了下有几种交换键位的方法，在这里记录一下。

第一种方法是使用 xmodmap（参考资料 [1]）。建立一个新文件 ~/.Xmodmap，添加以下内容：

remove Lock = Caps_Lock
remove Control = Control_L
keysym Control_L = Caps_Lock
keysym Caps_Lock = Control_L
add Lock = Caps_Lock
add Control = Control_L

然后执行

xmodmap ~/.Xmodmap 2>/dev/null

就行了。如果不想每次启动都手动输入命令，可以把命令写到 ~/.xinitrc 中。注意如果把命令写到 …

阅读全文…

B+ 树 (2): snapshot, copy-on-write

ou 2012 年 1 月 5 日2023 年 5 月 10 日 1 Comment

很多时候我们修改一个重要的文件时都会先把文件复制一份作为备份，然后才对原文件进行修改，这样既可以防止修改错误无法恢复到原来正确的状态，也防止计算机突然断电造成数据不一致。当我们确定修改没有问题时会把原来的备份删掉（当然也可以保留下来），然后把修改后的文件再复制一份作为备份，再在当前的基础上进行修改，修改完成后再删掉原来的备份……如果文件较小，一般的版本控制工具都可胜任，但是如果数据很大（几百 G 到上 T，例如虚拟机镜像，数据库文件等），每次修改都要复制一遍或者比较和上一版本的差异以便增量保存，这样的做法无论是时间还是空间上都是难以忍受的。

快照（snapshot）

快照（snapshot）就像上面提到的备份功能，即把某一时刻的状态保存起来，像照相机照相一样把当时的情景记录下来，虽然照相之后环境有变化，但是照片的内容不会随着环境变化而改变，这样的快照就是只读快照。另外还有支持修改的可写快照。经常使用的虚拟机软件如 vmware，virtualbox 等都提供快照的功能。有时我们需要尝试新软件或观察病毒的行为，但是又不想让它们修改真实的计算机，就可以先对虚拟机做一个快照，然后再做测试，测试完后恢复到快照的状态就可以了，既安全又快捷。

一般来说快照功能都是虚拟机软件或数据库自己实现的，对文件系统的使用只限于基本的读写新增删除操作，不只是因为 POSIX 标准只提供最基本的文件系统功能的接口，也因为没有几个文件系统具有文件快照的功能，文件系统的快照功能一般都由卷管理器实现。新出现的一些“现代文件系统”（参考资料 [1]）如 zfs，btrfs，除了文件系统的基本功能外还有快照和卷管理功能，抢了逻辑卷管理器如 lvm 等的饭碗。

快照在读多写少的情况下可以避免读写锁的竞争。对于实时性要求不高的应用来说，可以先对某一时刻的状态做一个快照，然后让读进程对快照进行访问（只读进程不需要加锁），而其它写进程则在另一个版本上进行更新，一段时间后再修改指针让其指向新的版本，等所有的读进程都完成旧快照的读取后就可以把旧快照删除。

写时复制（copy-on-write）

写时复制（copy-on-write）的意思是多个用户共享一块相同的数据时，如果其中某个用户要对数据进行修改，系统会把这块数据复制一份然后进行修改，修改完成后让该用户的记录指向新修改的数据，这样其它用户看到的还是原来的数据而该用户看到的是已经修改过的数据。如果数据没有被修改则不会被复制，这样可以节省存储空间，像共享链接库，一个程序的多个进程实例等都用到了这个技术。

对于快照来说写时复制几乎是一个必需的功能。像上面所说的虚拟机文件来说，保存了快照之后要基于快照之上进行修改，但是由于虚拟机文件很大，而且修改的只是文件的一部分，不同状态的多个虚拟机文件可以共享大部分相同的数据块。

实现方法

比较容易想到的简单方法是使用线性表来实现，即为每个历史记录创建一个索引，这个索引指向该快照所有的数据块。elephant 文件系统（参考资料 [2]）就使用了这种方法。

参考资料 [3] 中使用了一种类似于内存地址转换的方法，即为每个数据块分配一个逻辑地址，另外还有一个逻辑地址到实际地址的映射表，访问数据块内容的时候要从映射表中找到实际的地址。这样建立快照的时候只需修改映射表就行了，坏处是映射表难以维护，地址转换也降低了性能。

还有一种方法就是下面要说的 B+ 树实现。

B+ 树的自顶向下操作

在看具体实现之前，先说说 B+ 树的自顶向下操作方法。上一篇笔记说的是自底向上的方法，即分裂是从叶节点到根节点进行的。而自顶向下的方法是指，在查找叶节点的过程中对有可能会造成分裂/合并的节点预先进行分裂/合并，这样当最后对叶节点操作时不需要重新检查从该叶节点到根节点路径上的节点。这些预先分裂/合并操作并不会改变 B+ 树的性质。…

阅读全文…

pthread 学习笔记 (3)

ou 2011 年 12 月 25 日2016 年 8 月 6 日 Leave a comment

读者-写者问题

一个缓冲区，有些进程只读取里面的内容，另外有的进程会修改里面的内容。为了保持数据的一致性，如果没有进程修改内容时，任意个读进程可以同时访问缓冲区，但是同一时间只能有一个写进程可以访问缓冲区，其它写进程和读进程都不能对缓冲区进行操作。

读者-写者问题和生产者-消费者问题不同的是，后者的每个线程都要修改缓冲区的内容，所以不得不使用互斥锁来保证数据一致性，而前者有些线程是只读的，多个只读线程同时访问并不会出现数据不一致的情况，所以在实现上不必为每个线程都加一个互斥锁，而是让多个读线程可以同时访问，只有写进程的访问是互斥的。

使用互斥锁实现

下面是利用 pthread_mutex 系列函数的实现。

#include <stdio.h>
#include <pthread.h>

struct pool {
   int nr_reader;
   unsigned long long value;
   pthread_mutex_t may_write, rd_count_mutex;
};

static void* writer(void* arg)
{
   struct pool* p = arg;

   while (1) {
      pthread_mutex_lock(&p->may_write);
      ++p->value;
      printf("writer:

…

阅读全文…

linux 内核编译脚本

ou 2011 年 12 月 13 日2016 年 8 月 6 日 Leave a comment

上一次编译内核已经是三年前倒腾 LFS 的事了。这两天心血来潮编译了最新的内核，写个脚本备份一下。这个脚本在 debian 6.0 下成功编译 3.2.0-rc5 并配置好 grub，在别的系统上可能不好使，所以这里更多的是一个过程记录。注释掉的部分是 grub 相关的，因为经实验发现这个工作 update-grub 已经做了。

#!/bin/bash

function display_usage()
{
   echo "Usage: $0 [install src | uninstall version]" >&2
}

if [ $# -ne 2 ]; then
   display_usage
   exit 1
fi

if [

…

阅读全文…

debian 安装和配置 oracle 数据库

ou 2011 年 12 月 2 日2016 年 8 月 6 日 Leave a comment

这里记录一下在 debian 6.0 上安装和配置 oracle 数据库 11gR2 的一些注意事项。

准备工作

先设置一下环境变量（加入 ~/.bashrc）：

export ORACLE_BASE=<oracle base>
export ORACLE_HOME=<install home>
export ORACLE_SID=<orcl> # default is orcl
export PATH=$PATH:$ORACLE_HOME/bin

注意环境变量的目录末尾不能带有“/”，否则会有奇奇怪怪的问题。然后读入设置：

. ~/.bashrc

安装一些包：

aptitude install gawk libaio1 libaio-dev libstdc++5
ln -s /usr/bin/gawk /bin/awk
ln

…

阅读全文…

使用 rdesktop 连接 windows

ou 2011 年 11 月 23 日2024 年 8 月 7 日 Leave a comment

kvm 的性能比较好，但是显示的时候不能根据窗口的大小自动调整分辨率，而且 win7 就那么几个固定的分辨率，每当我想调整一下 kvm 窗口大小时 windows 界面立刻填充整个窗口分辨率变得模糊不清，最后找到一个很好的工具 rdesktop 总算是解决了问题。

rdesktop 是 linux 下一个远程桌面连接的工具，tsclient 和 grdesktop 是它的两个图形前端。rdesktop 拥有众多选项，与 kvm 配合使用相当不错，下面总结一下好用的选项。

本文中 rdesktop 的版本是 1.9。在旧版本可能有些选项不支持。按惯例先放出完整命令：

rdesktop localhost -x l -g workarea -P -z -r clipboard:CLIPBOARD -r disk:tmp=/tmp

关于 kvm 的设置可以参考这里…

阅读全文…

pthread 学习笔记 (2)

ou 2011 年 11 月 7 日2023 年 9 月 7 日 Leave a comment

互斥和同步

互斥（mutual exclusion，缩写mutex）是指一段区域在同一时间内只能有一个线程对其进行操作，否则会造成不一致的情况，这段区域叫做临界区。互斥只要求同一时间内只能有一个线程进行访问，但是线程之间的访问顺序可以是任意的；同步要求线程之间的访问有一定的顺序，并且一般都要求线程之间互斥访问(如果不修改临界区的值的话可以允许多个只读线程同时访问)。

生产者-消费者问题

同步和互斥的一个经典例子是生产者-消费者问题。假设一个缓冲区的大小为 N，如果缓冲区还没满，生产者每次可以往缓冲区里放入一个物品；如果缓冲区非空，消费者每次可以从缓冲区里取出一个物品。缓冲区是生产者和消费者共用的，同一时间内只能有一个线程可以对缓冲区进行修改，否则可能会出现错误。为了保证对缓冲区修改的原子性（即访问过程中不能被别的线程打断），可以对缓冲区加一个互斥锁（mutex lock）。当线程要访问缓冲区时需要先检查锁是否被其它线程占用，如果是的话就必须等待正在访问的线程释放；然后它占用互斥锁，防止别的线程在自己修改的过程中访问缓冲区；访问完毕后释放锁，让其它线程可以进行访问。

只有一个生产者和一个消费者

#include <stdio.h>
#include <pthread.h>

struct pool {
   pthread_mutex_t mutex;
#define MAX_NUM 5
   int num;
};

/* mutex should be held by the caller when one of the following four inline functions is

…

阅读全文…

B+ 树 (1) – 定义与基本操作

ou 2011 年 10 月 25 日2024 年 8 月 7 日 6 Comments

1972 年 R. Bayer 和 E. McCreight 提出了 B 树。1979 年 Douglas Comer 在 The Ubiquitous B-Tree 提出了 B 树的一个变形——B+ 树。由于多路平衡树减少了磁盘读写次数，并且仍然保持 O(logN) 的插入/删除/查找的效率，被广泛应用于数据库和文件系统中。

定义（参考资料 [1, 3]）

模仿 B 树的定义（参考资料 [3]），一棵 m 阶的 B+ 树可以这样定义：

每个节点最多可以有 m 个元素；
除了根节点外，每个节点最少有 (m/2)

…

阅读全文…

日	一	二	三	四	五	六
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31