drivers/block/drbd/drbd_worker.c at v2.6.37-rc5

tjh.dev / kernel
fork
Linux kernel mirror (for testing) git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git
kernel os linux
fork
kernel / drivers / block / drbd / drbd_worker.c
at v2.6.37-rc5 1669 lines 45 kB view raw
wrap content
   1/*
   2   drbd_worker.c
   3
   4   This file is part of DRBD by Philipp Reisner and Lars Ellenberg.
   5
   6   Copyright (C) 2001-2008, LINBIT Information Technologies GmbH.
   7   Copyright (C) 1999-2008, Philipp Reisner <philipp.reisner@linbit.com>.
   8   Copyright (C) 2002-2008, Lars Ellenberg <lars.ellenberg@linbit.com>.
   9
  10   drbd is free software; you can redistribute it and/or modify
  11   it under the terms of the GNU General Public License as published by
  12   the Free Software Foundation; either version 2, or (at your option)
  13   any later version.
  14
  15   drbd is distributed in the hope that it will be useful,
  16   but WITHOUT ANY WARRANTY; without even the implied warranty of
  17   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  18   GNU General Public License for more details.
  19
  20   You should have received a copy of the GNU General Public License
  21   along with drbd; see the file COPYING.  If not, write to
  22   the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
  23
  24 */
  25
  26#include <linux/module.h>
  27#include <linux/drbd.h>
  28#include <linux/sched.h>
  29#include <linux/wait.h>
  30#include <linux/mm.h>
  31#include <linux/memcontrol.h>
  32#include <linux/mm_inline.h>
  33#include <linux/slab.h>
  34#include <linux/random.h>
  35#include <linux/string.h>
  36#include <linux/scatterlist.h>
  37
  38#include "drbd_int.h"
  39#include "drbd_req.h"
  40
  41static int w_make_ov_request(struct drbd_conf *mdev, struct drbd_work *w, int cancel);
  42
  43
  44
  45/* defined here:
  46   drbd_md_io_complete
  47   drbd_endio_sec
  48   drbd_endio_pri
  49
  50 * more endio handlers:
  51   atodb_endio in drbd_actlog.c
  52   drbd_bm_async_io_complete in drbd_bitmap.c
  53
  54 * For all these callbacks, note the following:
  55 * The callbacks will be called in irq context by the IDE drivers,
  56 * and in Softirqs/Tasklets/BH context by the SCSI drivers.
  57 * Try to get the locking right :)
  58 *
  59 */
  60
  61
  62/* About the global_state_lock
  63   Each state transition on an device holds a read lock. In case we have
  64   to evaluate the sync after dependencies, we grab a write lock, because
  65   we need stable states on all devices for that.  */
  66rwlock_t global_state_lock;
  67
  68/* used for synchronous meta data and bitmap IO
  69 * submitted by drbd_md_sync_page_io()
  70 */
  71void drbd_md_io_complete(struct bio *bio, int error)
  72{
  73	struct drbd_md_io *md_io;
  74
  75	md_io = (struct drbd_md_io *)bio->bi_private;
  76	md_io->error = error;
  77
  78	complete(&md_io->event);
  79}
  80
  81/* reads on behalf of the partner,
  82 * "submitted" by the receiver
  83 */
  84void drbd_endio_read_sec_final(struct drbd_epoch_entry *e) __releases(local)
  85{
  86	unsigned long flags = 0;
  87	struct drbd_conf *mdev = e->mdev;
  88
  89	D_ASSERT(e->block_id != ID_VACANT);
  90
  91	spin_lock_irqsave(&mdev->req_lock, flags);
  92	mdev->read_cnt += e->size >> 9;
  93	list_del(&e->w.list);
  94	if (list_empty(&mdev->read_ee))
  95		wake_up(&mdev->ee_wait);
  96	if (test_bit(__EE_WAS_ERROR, &e->flags))
  97		__drbd_chk_io_error(mdev, FALSE);
  98	spin_unlock_irqrestore(&mdev->req_lock, flags);
  99
 100	drbd_queue_work(&mdev->data.work, &e->w);
 101	put_ldev(mdev);
 102}
 103
 104/* writes on behalf of the partner, or resync writes,
 105 * "submitted" by the receiver, final stage.  */
 106static void drbd_endio_write_sec_final(struct drbd_epoch_entry *e) __releases(local)
 107{
 108	unsigned long flags = 0;
 109	struct drbd_conf *mdev = e->mdev;
 110	sector_t e_sector;
 111	int do_wake;
 112	int is_syncer_req;
 113	int do_al_complete_io;
 114
 115	D_ASSERT(e->block_id != ID_VACANT);
 116
 117	/* after we moved e to done_ee,
 118	 * we may no longer access it,
 119	 * it may be freed/reused already!
 120	 * (as soon as we release the req_lock) */
 121	e_sector = e->sector;
 122	do_al_complete_io = e->flags & EE_CALL_AL_COMPLETE_IO;
 123	is_syncer_req = is_syncer_block_id(e->block_id);
 124
 125	spin_lock_irqsave(&mdev->req_lock, flags);
 126	mdev->writ_cnt += e->size >> 9;
 127	list_del(&e->w.list); /* has been on active_ee or sync_ee */
 128	list_add_tail(&e->w.list, &mdev->done_ee);
 129
 130	/* No hlist_del_init(&e->colision) here, we did not send the Ack yet,
 131	 * neither did we wake possibly waiting conflicting requests.
 132	 * done from "drbd_process_done_ee" within the appropriate w.cb
 133	 * (e_end_block/e_end_resync_block) or from _drbd_clear_done_ee */
 134
 135	do_wake = is_syncer_req
 136		? list_empty(&mdev->sync_ee)
 137		: list_empty(&mdev->active_ee);
 138
 139	if (test_bit(__EE_WAS_ERROR, &e->flags))
 140		__drbd_chk_io_error(mdev, FALSE);
 141	spin_unlock_irqrestore(&mdev->req_lock, flags);
 142
 143	if (is_syncer_req)
 144		drbd_rs_complete_io(mdev, e_sector);
 145
 146	if (do_wake)
 147		wake_up(&mdev->ee_wait);
 148
 149	if (do_al_complete_io)
 150		drbd_al_complete_io(mdev, e_sector);
 151
 152	wake_asender(mdev);
 153	put_ldev(mdev);
 154}
 155
 156/* writes on behalf of the partner, or resync writes,
 157 * "submitted" by the receiver.
 158 */
 159void drbd_endio_sec(struct bio *bio, int error)
 160{
 161	struct drbd_epoch_entry *e = bio->bi_private;
 162	struct drbd_conf *mdev = e->mdev;
 163	int uptodate = bio_flagged(bio, BIO_UPTODATE);
 164	int is_write = bio_data_dir(bio) == WRITE;
 165
 166	if (error)
 167		dev_warn(DEV, "%s: error=%d s=%llus\n",
 168				is_write ? "write" : "read", error,
 169				(unsigned long long)e->sector);
 170	if (!error && !uptodate) {
 171		dev_warn(DEV, "%s: setting error to -EIO s=%llus\n",
 172				is_write ? "write" : "read",
 173				(unsigned long long)e->sector);
 174		/* strange behavior of some lower level drivers...
 175		 * fail the request by clearing the uptodate flag,
 176		 * but do not return any error?! */
 177		error = -EIO;
 178	}
 179
 180	if (error)
 181		set_bit(__EE_WAS_ERROR, &e->flags);
 182
 183	bio_put(bio); /* no need for the bio anymore */
 184	if (atomic_dec_and_test(&e->pending_bios)) {
 185		if (is_write)
 186			drbd_endio_write_sec_final(e);
 187		else
 188			drbd_endio_read_sec_final(e);
 189	}
 190}
 191
 192/* read, readA or write requests on R_PRIMARY coming from drbd_make_request
 193 */
 194void drbd_endio_pri(struct bio *bio, int error)
 195{
 196	struct drbd_request *req = bio->bi_private;
 197	struct drbd_conf *mdev = req->mdev;
 198	enum drbd_req_event what;
 199	int uptodate = bio_flagged(bio, BIO_UPTODATE);
 200
 201	if (!error && !uptodate) {
 202		dev_warn(DEV, "p %s: setting error to -EIO\n",
 203			 bio_data_dir(bio) == WRITE ? "write" : "read");
 204		/* strange behavior of some lower level drivers...
 205		 * fail the request by clearing the uptodate flag,
 206		 * but do not return any error?! */
 207		error = -EIO;
 208	}
 209
 210	/* to avoid recursion in __req_mod */
 211	if (unlikely(error)) {
 212		what = (bio_data_dir(bio) == WRITE)
 213			? write_completed_with_error
 214			: (bio_rw(bio) == READ)
 215			  ? read_completed_with_error
 216			  : read_ahead_completed_with_error;
 217	} else
 218		what = completed_ok;
 219
 220	bio_put(req->private_bio);
 221	req->private_bio = ERR_PTR(error);
 222
 223	req_mod(req, what);
 224}
 225
 226int w_read_retry_remote(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
 227{
 228	struct drbd_request *req = container_of(w, struct drbd_request, w);
 229
 230	/* We should not detach for read io-error,
 231	 * but try to WRITE the P_DATA_REPLY to the failed location,
 232	 * to give the disk the chance to relocate that block */
 233
 234	spin_lock_irq(&mdev->req_lock);
 235	if (cancel || mdev->state.pdsk != D_UP_TO_DATE) {
 236		_req_mod(req, read_retry_remote_canceled);
 237		spin_unlock_irq(&mdev->req_lock);
 238		return 1;
 239	}
 240	spin_unlock_irq(&mdev->req_lock);
 241
 242	return w_send_read_req(mdev, w, 0);
 243}
 244
 245int w_resync_inactive(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
 246{
 247	ERR_IF(cancel) return 1;
 248	dev_err(DEV, "resync inactive, but callback triggered??\n");
 249	return 1; /* Simply ignore this! */
 250}
 251
 252void drbd_csum_ee(struct drbd_conf *mdev, struct crypto_hash *tfm, struct drbd_epoch_entry *e, void *digest)
 253{
 254	struct hash_desc desc;
 255	struct scatterlist sg;
 256	struct page *page = e->pages;
 257	struct page *tmp;
 258	unsigned len;
 259
 260	desc.tfm = tfm;
 261	desc.flags = 0;
 262
 263	sg_init_table(&sg, 1);
 264	crypto_hash_init(&desc);
 265
 266	while ((tmp = page_chain_next(page))) {
 267		/* all but the last page will be fully used */
 268		sg_set_page(&sg, page, PAGE_SIZE, 0);
 269		crypto_hash_update(&desc, &sg, sg.length);
 270		page = tmp;
 271	}
 272	/* and now the last, possibly only partially used page */
 273	len = e->size & (PAGE_SIZE - 1);
 274	sg_set_page(&sg, page, len ?: PAGE_SIZE, 0);
 275	crypto_hash_update(&desc, &sg, sg.length);
 276	crypto_hash_final(&desc, digest);
 277}
 278
 279void drbd_csum_bio(struct drbd_conf *mdev, struct crypto_hash *tfm, struct bio *bio, void *digest)
 280{
 281	struct hash_desc desc;
 282	struct scatterlist sg;
 283	struct bio_vec *bvec;
 284	int i;
 285
 286	desc.tfm = tfm;
 287	desc.flags = 0;
 288
 289	sg_init_table(&sg, 1);
 290	crypto_hash_init(&desc);
 291
 292	__bio_for_each_segment(bvec, bio, i, 0) {
 293		sg_set_page(&sg, bvec->bv_page, bvec->bv_len, bvec->bv_offset);
 294		crypto_hash_update(&desc, &sg, sg.length);
 295	}
 296	crypto_hash_final(&desc, digest);
 297}
 298
 299static int w_e_send_csum(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
 300{
 301	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
 302	int digest_size;
 303	void *digest;
 304	int ok;
 305
 306	D_ASSERT(e->block_id == DRBD_MAGIC + 0xbeef);
 307
 308	if (unlikely(cancel)) {
 309		drbd_free_ee(mdev, e);
 310		return 1;
 311	}
 312
 313	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
 314		digest_size = crypto_hash_digestsize(mdev->csums_tfm);
 315		digest = kmalloc(digest_size, GFP_NOIO);
 316		if (digest) {
 317			drbd_csum_ee(mdev, mdev->csums_tfm, e, digest);
 318
 319			inc_rs_pending(mdev);
 320			ok = drbd_send_drequest_csum(mdev,
 321						     e->sector,
 322						     e->size,
 323						     digest,
 324						     digest_size,
 325						     P_CSUM_RS_REQUEST);
 326			kfree(digest);
 327		} else {
 328			dev_err(DEV, "kmalloc() of digest failed.\n");
 329			ok = 0;
 330		}
 331	} else
 332		ok = 1;
 333
 334	drbd_free_ee(mdev, e);
 335
 336	if (unlikely(!ok))
 337		dev_err(DEV, "drbd_send_drequest(..., csum) failed\n");
 338	return ok;
 339}
 340
 341#define GFP_TRY	(__GFP_HIGHMEM | __GFP_NOWARN)
 342
 343static int read_for_csum(struct drbd_conf *mdev, sector_t sector, int size)
 344{
 345	struct drbd_epoch_entry *e;
 346
 347	if (!get_ldev(mdev))
 348		return -EIO;
 349
 350	if (drbd_rs_should_slow_down(mdev))
 351		goto defer;
 352
 353	/* GFP_TRY, because if there is no memory available right now, this may
 354	 * be rescheduled for later. It is "only" background resync, after all. */
 355	e = drbd_alloc_ee(mdev, DRBD_MAGIC+0xbeef, sector, size, GFP_TRY);
 356	if (!e)
 357		goto defer;
 358
 359	e->w.cb = w_e_send_csum;
 360	spin_lock_irq(&mdev->req_lock);
 361	list_add(&e->w.list, &mdev->read_ee);
 362	spin_unlock_irq(&mdev->req_lock);
 363
 364	atomic_add(size >> 9, &mdev->rs_sect_ev);
 365	if (drbd_submit_ee(mdev, e, READ, DRBD_FAULT_RS_RD) == 0)
 366		return 0;
 367
 368	/* drbd_submit_ee currently fails for one reason only:
 369	 * not being able to allocate enough bios.
 370	 * Is dropping the connection going to help? */
 371	spin_lock_irq(&mdev->req_lock);
 372	list_del(&e->w.list);
 373	spin_unlock_irq(&mdev->req_lock);
 374
 375	drbd_free_ee(mdev, e);
 376defer:
 377	put_ldev(mdev);
 378	return -EAGAIN;
 379}
 380
 381void resync_timer_fn(unsigned long data)
 382{
 383	struct drbd_conf *mdev = (struct drbd_conf *) data;
 384	int queue;
 385
 386	queue = 1;
 387	switch (mdev->state.conn) {
 388	case C_VERIFY_S:
 389		mdev->resync_work.cb = w_make_ov_request;
 390		break;
 391	case C_SYNC_TARGET:
 392		mdev->resync_work.cb = w_make_resync_request;
 393		break;
 394	default:
 395		queue = 0;
 396		mdev->resync_work.cb = w_resync_inactive;
 397	}
 398
 399	/* harmless race: list_empty outside data.work.q_lock */
 400	if (list_empty(&mdev->resync_work.list) && queue)
 401		drbd_queue_work(&mdev->data.work, &mdev->resync_work);
 402}
 403
 404static void fifo_set(struct fifo_buffer *fb, int value)
 405{
 406	int i;
 407
 408	for (i = 0; i < fb->size; i++)
 409		fb->values[i] = value;
 410}
 411
 412static int fifo_push(struct fifo_buffer *fb, int value)
 413{
 414	int ov;
 415
 416	ov = fb->values[fb->head_index];
 417	fb->values[fb->head_index++] = value;
 418
 419	if (fb->head_index >= fb->size)
 420		fb->head_index = 0;
 421
 422	return ov;
 423}
 424
 425static void fifo_add_val(struct fifo_buffer *fb, int value)
 426{
 427	int i;
 428
 429	for (i = 0; i < fb->size; i++)
 430		fb->values[i] += value;
 431}
 432
 433int drbd_rs_controller(struct drbd_conf *mdev)
 434{
 435	unsigned int sect_in;  /* Number of sectors that came in since the last turn */
 436	unsigned int want;     /* The number of sectors we want in the proxy */
 437	int req_sect; /* Number of sectors to request in this turn */
 438	int correction; /* Number of sectors more we need in the proxy*/
 439	int cps; /* correction per invocation of drbd_rs_controller() */
 440	int steps; /* Number of time steps to plan ahead */
 441	int curr_corr;
 442	int max_sect;
 443
 444	sect_in = atomic_xchg(&mdev->rs_sect_in, 0); /* Number of sectors that came in */
 445	mdev->rs_in_flight -= sect_in;
 446
 447	spin_lock(&mdev->peer_seq_lock); /* get an atomic view on mdev->rs_plan_s */
 448
 449	steps = mdev->rs_plan_s.size; /* (mdev->sync_conf.c_plan_ahead * 10 * SLEEP_TIME) / HZ; */
 450
 451	if (mdev->rs_in_flight + sect_in == 0) { /* At start of resync */
 452		want = ((mdev->sync_conf.rate * 2 * SLEEP_TIME) / HZ) * steps;
 453	} else { /* normal path */
 454		want = mdev->sync_conf.c_fill_target ? mdev->sync_conf.c_fill_target :
 455			sect_in * mdev->sync_conf.c_delay_target * HZ / (SLEEP_TIME * 10);
 456	}
 457
 458	correction = want - mdev->rs_in_flight - mdev->rs_planed;
 459
 460	/* Plan ahead */
 461	cps = correction / steps;
 462	fifo_add_val(&mdev->rs_plan_s, cps);
 463	mdev->rs_planed += cps * steps;
 464
 465	/* What we do in this step */
 466	curr_corr = fifo_push(&mdev->rs_plan_s, 0);
 467	spin_unlock(&mdev->peer_seq_lock);
 468	mdev->rs_planed -= curr_corr;
 469
 470	req_sect = sect_in + curr_corr;
 471	if (req_sect < 0)
 472		req_sect = 0;
 473
 474	max_sect = (mdev->sync_conf.c_max_rate * 2 * SLEEP_TIME) / HZ;
 475	if (req_sect > max_sect)
 476		req_sect = max_sect;
 477
 478	/*
 479	dev_warn(DEV, "si=%u if=%d wa=%u co=%d st=%d cps=%d pl=%d cc=%d rs=%d\n",
 480		 sect_in, mdev->rs_in_flight, want, correction,
 481		 steps, cps, mdev->rs_planed, curr_corr, req_sect);
 482	*/
 483
 484	return req_sect;
 485}
 486
 487int w_make_resync_request(struct drbd_conf *mdev,
 488		struct drbd_work *w, int cancel)
 489{
 490	unsigned long bit;
 491	sector_t sector;
 492	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
 493	int max_segment_size;
 494	int number, rollback_i, size, pe, mx;
 495	int align, queued, sndbuf;
 496	int i = 0;
 497
 498	if (unlikely(cancel))
 499		return 1;
 500
 501	if (unlikely(mdev->state.conn < C_CONNECTED)) {
 502		dev_err(DEV, "Confused in w_make_resync_request()! cstate < Connected");
 503		return 0;
 504	}
 505
 506	if (mdev->state.conn != C_SYNC_TARGET)
 507		dev_err(DEV, "%s in w_make_resync_request\n",
 508			drbd_conn_str(mdev->state.conn));
 509
 510	if (mdev->rs_total == 0) {
 511		/* empty resync? */
 512		drbd_resync_finished(mdev);
 513		return 1;
 514	}
 515
 516	if (!get_ldev(mdev)) {
 517		/* Since we only need to access mdev->rsync a
 518		   get_ldev_if_state(mdev,D_FAILED) would be sufficient, but
 519		   to continue resync with a broken disk makes no sense at
 520		   all */
 521		dev_err(DEV, "Disk broke down during resync!\n");
 522		mdev->resync_work.cb = w_resync_inactive;
 523		return 1;
 524	}
 525
 526	/* starting with drbd 8.3.8, we can handle multi-bio EEs,
 527	 * if it should be necessary */
 528	max_segment_size =
 529		mdev->agreed_pro_version < 94 ? queue_max_segment_size(mdev->rq_queue) :
 530		mdev->agreed_pro_version < 95 ?	DRBD_MAX_SIZE_H80_PACKET : DRBD_MAX_SEGMENT_SIZE;
 531
 532	if (mdev->rs_plan_s.size) { /* mdev->sync_conf.c_plan_ahead */
 533		number = drbd_rs_controller(mdev) >> (BM_BLOCK_SHIFT - 9);
 534		mdev->c_sync_rate = number * HZ * (BM_BLOCK_SIZE / 1024) / SLEEP_TIME;
 535	} else {
 536		mdev->c_sync_rate = mdev->sync_conf.rate;
 537		number = SLEEP_TIME * mdev->c_sync_rate  / ((BM_BLOCK_SIZE / 1024) * HZ);
 538	}
 539
 540	/* Throttle resync on lower level disk activity, which may also be
 541	 * caused by application IO on Primary/SyncTarget.
 542	 * Keep this after the call to drbd_rs_controller, as that assumes
 543	 * to be called as precisely as possible every SLEEP_TIME,
 544	 * and would be confused otherwise. */
 545	if (drbd_rs_should_slow_down(mdev))
 546		goto requeue;
 547
 548	mutex_lock(&mdev->data.mutex);
 549	if (mdev->data.socket)
 550		mx = mdev->data.socket->sk->sk_rcvbuf / sizeof(struct p_block_req);
 551	else
 552		mx = 1;
 553	mutex_unlock(&mdev->data.mutex);
 554
 555	/* For resync rates >160MB/sec, allow more pending RS requests */
 556	if (number > mx)
 557		mx = number;
 558
 559	/* Limit the number of pending RS requests to no more than the peer's receive buffer */
 560	pe = atomic_read(&mdev->rs_pending_cnt);
 561	if ((pe + number) > mx) {
 562		number = mx - pe;
 563	}
 564
 565	for (i = 0; i < number; i++) {
 566		/* Stop generating RS requests, when half of the send buffer is filled */
 567		mutex_lock(&mdev->data.mutex);
 568		if (mdev->data.socket) {
 569			queued = mdev->data.socket->sk->sk_wmem_queued;
 570			sndbuf = mdev->data.socket->sk->sk_sndbuf;
 571		} else {
 572			queued = 1;
 573			sndbuf = 0;
 574		}
 575		mutex_unlock(&mdev->data.mutex);
 576		if (queued > sndbuf / 2)
 577			goto requeue;
 578
 579next_sector:
 580		size = BM_BLOCK_SIZE;
 581		bit  = drbd_bm_find_next(mdev, mdev->bm_resync_fo);
 582
 583		if (bit == -1UL) {
 584			mdev->bm_resync_fo = drbd_bm_bits(mdev);
 585			mdev->resync_work.cb = w_resync_inactive;
 586			put_ldev(mdev);
 587			return 1;
 588		}
 589
 590		sector = BM_BIT_TO_SECT(bit);
 591
 592		if (drbd_try_rs_begin_io(mdev, sector)) {
 593			mdev->bm_resync_fo = bit;
 594			goto requeue;
 595		}
 596		mdev->bm_resync_fo = bit + 1;
 597
 598		if (unlikely(drbd_bm_test_bit(mdev, bit) == 0)) {
 599			drbd_rs_complete_io(mdev, sector);
 600			goto next_sector;
 601		}
 602
 603#if DRBD_MAX_SEGMENT_SIZE > BM_BLOCK_SIZE
 604		/* try to find some adjacent bits.
 605		 * we stop if we have already the maximum req size.
 606		 *
 607		 * Additionally always align bigger requests, in order to
 608		 * be prepared for all stripe sizes of software RAIDs.
 609		 */
 610		align = 1;
 611		rollback_i = i;
 612		for (;;) {
 613			if (size + BM_BLOCK_SIZE > max_segment_size)
 614				break;
 615
 616			/* Be always aligned */
 617			if (sector & ((1<<(align+3))-1))
 618				break;
 619
 620			/* do not cross extent boundaries */
 621			if (((bit+1) & BM_BLOCKS_PER_BM_EXT_MASK) == 0)
 622				break;
 623			/* now, is it actually dirty, after all?
 624			 * caution, drbd_bm_test_bit is tri-state for some
 625			 * obscure reason; ( b == 0 ) would get the out-of-band
 626			 * only accidentally right because of the "oddly sized"
 627			 * adjustment below */
 628			if (drbd_bm_test_bit(mdev, bit+1) != 1)
 629				break;
 630			bit++;
 631			size += BM_BLOCK_SIZE;
 632			if ((BM_BLOCK_SIZE << align) <= size)
 633				align++;
 634			i++;
 635		}
 636		/* if we merged some,
 637		 * reset the offset to start the next drbd_bm_find_next from */
 638		if (size > BM_BLOCK_SIZE)
 639			mdev->bm_resync_fo = bit + 1;
 640#endif
 641
 642		/* adjust very last sectors, in case we are oddly sized */
 643		if (sector + (size>>9) > capacity)
 644			size = (capacity-sector)<<9;
 645		if (mdev->agreed_pro_version >= 89 && mdev->csums_tfm) {
 646			switch (read_for_csum(mdev, sector, size)) {
 647			case -EIO: /* Disk failure */
 648				put_ldev(mdev);
 649				return 0;
 650			case -EAGAIN: /* allocation failed, or ldev busy */
 651				drbd_rs_complete_io(mdev, sector);
 652				mdev->bm_resync_fo = BM_SECT_TO_BIT(sector);
 653				i = rollback_i;
 654				goto requeue;
 655			case 0:
 656				/* everything ok */
 657				break;
 658			default:
 659				BUG();
 660			}
 661		} else {
 662			inc_rs_pending(mdev);
 663			if (!drbd_send_drequest(mdev, P_RS_DATA_REQUEST,
 664					       sector, size, ID_SYNCER)) {
 665				dev_err(DEV, "drbd_send_drequest() failed, aborting...\n");
 666				dec_rs_pending(mdev);
 667				put_ldev(mdev);
 668				return 0;
 669			}
 670		}
 671	}
 672
 673	if (mdev->bm_resync_fo >= drbd_bm_bits(mdev)) {
 674		/* last syncer _request_ was sent,
 675		 * but the P_RS_DATA_REPLY not yet received.  sync will end (and
 676		 * next sync group will resume), as soon as we receive the last
 677		 * resync data block, and the last bit is cleared.
 678		 * until then resync "work" is "inactive" ...
 679		 */
 680		mdev->resync_work.cb = w_resync_inactive;
 681		put_ldev(mdev);
 682		return 1;
 683	}
 684
 685 requeue:
 686	mdev->rs_in_flight += (i << (BM_BLOCK_SHIFT - 9));
 687	mod_timer(&mdev->resync_timer, jiffies + SLEEP_TIME);
 688	put_ldev(mdev);
 689	return 1;
 690}
 691
 692static int w_make_ov_request(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
 693{
 694	int number, i, size;
 695	sector_t sector;
 696	const sector_t capacity = drbd_get_capacity(mdev->this_bdev);
 697
 698	if (unlikely(cancel))
 699		return 1;
 700
 701	if (unlikely(mdev->state.conn < C_CONNECTED)) {
 702		dev_err(DEV, "Confused in w_make_ov_request()! cstate < Connected");
 703		return 0;
 704	}
 705
 706	number = SLEEP_TIME*mdev->sync_conf.rate / ((BM_BLOCK_SIZE/1024)*HZ);
 707	if (atomic_read(&mdev->rs_pending_cnt) > number)
 708		goto requeue;
 709
 710	number -= atomic_read(&mdev->rs_pending_cnt);
 711
 712	sector = mdev->ov_position;
 713	for (i = 0; i < number; i++) {
 714		if (sector >= capacity) {
 715			mdev->resync_work.cb = w_resync_inactive;
 716			return 1;
 717		}
 718
 719		size = BM_BLOCK_SIZE;
 720
 721		if (drbd_try_rs_begin_io(mdev, sector)) {
 722			mdev->ov_position = sector;
 723			goto requeue;
 724		}
 725
 726		if (sector + (size>>9) > capacity)
 727			size = (capacity-sector)<<9;
 728
 729		inc_rs_pending(mdev);
 730		if (!drbd_send_ov_request(mdev, sector, size)) {
 731			dec_rs_pending(mdev);
 732			return 0;
 733		}
 734		sector += BM_SECT_PER_BIT;
 735	}
 736	mdev->ov_position = sector;
 737
 738 requeue:
 739	mod_timer(&mdev->resync_timer, jiffies + SLEEP_TIME);
 740	return 1;
 741}
 742
 743
 744int w_ov_finished(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
 745{
 746	kfree(w);
 747	ov_oos_print(mdev);
 748	drbd_resync_finished(mdev);
 749
 750	return 1;
 751}
 752
 753static int w_resync_finished(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
 754{
 755	kfree(w);
 756
 757	drbd_resync_finished(mdev);
 758
 759	return 1;
 760}
 761
 762static void ping_peer(struct drbd_conf *mdev)
 763{
 764	clear_bit(GOT_PING_ACK, &mdev->flags);
 765	request_ping(mdev);
 766	wait_event(mdev->misc_wait,
 767		   test_bit(GOT_PING_ACK, &mdev->flags) || mdev->state.conn < C_CONNECTED);
 768}
 769
 770int drbd_resync_finished(struct drbd_conf *mdev)
 771{
 772	unsigned long db, dt, dbdt;
 773	unsigned long n_oos;
 774	union drbd_state os, ns;
 775	struct drbd_work *w;
 776	char *khelper_cmd = NULL;
 777
 778	/* Remove all elements from the resync LRU. Since future actions
 779	 * might set bits in the (main) bitmap, then the entries in the
 780	 * resync LRU would be wrong. */
 781	if (drbd_rs_del_all(mdev)) {
 782		/* In case this is not possible now, most probably because
 783		 * there are P_RS_DATA_REPLY Packets lingering on the worker's
 784		 * queue (or even the read operations for those packets
 785		 * is not finished by now).   Retry in 100ms. */
 786
 787		drbd_kick_lo(mdev);
 788		__set_current_state(TASK_INTERRUPTIBLE);
 789		schedule_timeout(HZ / 10);
 790		w = kmalloc(sizeof(struct drbd_work), GFP_ATOMIC);
 791		if (w) {
 792			w->cb = w_resync_finished;
 793			drbd_queue_work(&mdev->data.work, w);
 794			return 1;
 795		}
 796		dev_err(DEV, "Warn failed to drbd_rs_del_all() and to kmalloc(w).\n");
 797	}
 798
 799	dt = (jiffies - mdev->rs_start - mdev->rs_paused) / HZ;
 800	if (dt <= 0)
 801		dt = 1;
 802	db = mdev->rs_total;
 803	dbdt = Bit2KB(db/dt);
 804	mdev->rs_paused /= HZ;
 805
 806	if (!get_ldev(mdev))
 807		goto out;
 808
 809	ping_peer(mdev);
 810
 811	spin_lock_irq(&mdev->req_lock);
 812	os = mdev->state;
 813
 814	/* This protects us against multiple calls (that can happen in the presence
 815	   of application IO), and against connectivity loss just before we arrive here. */
 816	if (os.conn <= C_CONNECTED)
 817		goto out_unlock;
 818
 819	ns = os;
 820	ns.conn = C_CONNECTED;
 821
 822	dev_info(DEV, "%s done (total %lu sec; paused %lu sec; %lu K/sec)\n",
 823	     (os.conn == C_VERIFY_S || os.conn == C_VERIFY_T) ?
 824	     "Online verify " : "Resync",
 825	     dt + mdev->rs_paused, mdev->rs_paused, dbdt);
 826
 827	n_oos = drbd_bm_total_weight(mdev);
 828
 829	if (os.conn == C_VERIFY_S || os.conn == C_VERIFY_T) {
 830		if (n_oos) {
 831			dev_alert(DEV, "Online verify found %lu %dk block out of sync!\n",
 832			      n_oos, Bit2KB(1));
 833			khelper_cmd = "out-of-sync";
 834		}
 835	} else {
 836		D_ASSERT((n_oos - mdev->rs_failed) == 0);
 837
 838		if (os.conn == C_SYNC_TARGET || os.conn == C_PAUSED_SYNC_T)
 839			khelper_cmd = "after-resync-target";
 840
 841		if (mdev->csums_tfm && mdev->rs_total) {
 842			const unsigned long s = mdev->rs_same_csum;
 843			const unsigned long t = mdev->rs_total;
 844			const int ratio =
 845				(t == 0)     ? 0 :
 846			(t < 100000) ? ((s*100)/t) : (s/(t/100));
 847			dev_info(DEV, "%u %% had equal check sums, eliminated: %luK; "
 848			     "transferred %luK total %luK\n",
 849			     ratio,
 850			     Bit2KB(mdev->rs_same_csum),
 851			     Bit2KB(mdev->rs_total - mdev->rs_same_csum),
 852			     Bit2KB(mdev->rs_total));
 853		}
 854	}
 855
 856	if (mdev->rs_failed) {
 857		dev_info(DEV, "            %lu failed blocks\n", mdev->rs_failed);
 858
 859		if (os.conn == C_SYNC_TARGET || os.conn == C_PAUSED_SYNC_T) {
 860			ns.disk = D_INCONSISTENT;
 861			ns.pdsk = D_UP_TO_DATE;
 862		} else {
 863			ns.disk = D_UP_TO_DATE;
 864			ns.pdsk = D_INCONSISTENT;
 865		}
 866	} else {
 867		ns.disk = D_UP_TO_DATE;
 868		ns.pdsk = D_UP_TO_DATE;
 869
 870		if (os.conn == C_SYNC_TARGET || os.conn == C_PAUSED_SYNC_T) {
 871			if (mdev->p_uuid) {
 872				int i;
 873				for (i = UI_BITMAP ; i <= UI_HISTORY_END ; i++)
 874					_drbd_uuid_set(mdev, i, mdev->p_uuid[i]);
 875				drbd_uuid_set(mdev, UI_BITMAP, mdev->ldev->md.uuid[UI_CURRENT]);
 876				_drbd_uuid_set(mdev, UI_CURRENT, mdev->p_uuid[UI_CURRENT]);
 877			} else {
 878				dev_err(DEV, "mdev->p_uuid is NULL! BUG\n");
 879			}
 880		}
 881
 882		drbd_uuid_set_bm(mdev, 0UL);
 883
 884		if (mdev->p_uuid) {
 885			/* Now the two UUID sets are equal, update what we
 886			 * know of the peer. */
 887			int i;
 888			for (i = UI_CURRENT ; i <= UI_HISTORY_END ; i++)
 889				mdev->p_uuid[i] = mdev->ldev->md.uuid[i];
 890		}
 891	}
 892
 893	_drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
 894out_unlock:
 895	spin_unlock_irq(&mdev->req_lock);
 896	put_ldev(mdev);
 897out:
 898	mdev->rs_total  = 0;
 899	mdev->rs_failed = 0;
 900	mdev->rs_paused = 0;
 901	mdev->ov_start_sector = 0;
 902
 903	drbd_md_sync(mdev);
 904
 905	if (test_and_clear_bit(WRITE_BM_AFTER_RESYNC, &mdev->flags)) {
 906		dev_info(DEV, "Writing the whole bitmap\n");
 907		drbd_queue_bitmap_io(mdev, &drbd_bm_write, NULL, "write from resync_finished");
 908	}
 909
 910	if (khelper_cmd)
 911		drbd_khelper(mdev, khelper_cmd);
 912
 913	return 1;
 914}
 915
 916/* helper */
 917static void move_to_net_ee_or_free(struct drbd_conf *mdev, struct drbd_epoch_entry *e)
 918{
 919	if (drbd_ee_has_active_page(e)) {
 920		/* This might happen if sendpage() has not finished */
 921		int i = (e->size + PAGE_SIZE -1) >> PAGE_SHIFT;
 922		atomic_add(i, &mdev->pp_in_use_by_net);
 923		atomic_sub(i, &mdev->pp_in_use);
 924		spin_lock_irq(&mdev->req_lock);
 925		list_add_tail(&e->w.list, &mdev->net_ee);
 926		spin_unlock_irq(&mdev->req_lock);
 927		wake_up(&drbd_pp_wait);
 928	} else
 929		drbd_free_ee(mdev, e);
 930}
 931
 932/**
 933 * w_e_end_data_req() - Worker callback, to send a P_DATA_REPLY packet in response to a P_DATA_REQUEST
 934 * @mdev:	DRBD device.
 935 * @w:		work object.
 936 * @cancel:	The connection will be closed anyways
 937 */
 938int w_e_end_data_req(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
 939{
 940	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
 941	int ok;
 942
 943	if (unlikely(cancel)) {
 944		drbd_free_ee(mdev, e);
 945		dec_unacked(mdev);
 946		return 1;
 947	}
 948
 949	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
 950		ok = drbd_send_block(mdev, P_DATA_REPLY, e);
 951	} else {
 952		if (__ratelimit(&drbd_ratelimit_state))
 953			dev_err(DEV, "Sending NegDReply. sector=%llus.\n",
 954			    (unsigned long long)e->sector);
 955
 956		ok = drbd_send_ack(mdev, P_NEG_DREPLY, e);
 957	}
 958
 959	dec_unacked(mdev);
 960
 961	move_to_net_ee_or_free(mdev, e);
 962
 963	if (unlikely(!ok))
 964		dev_err(DEV, "drbd_send_block() failed\n");
 965	return ok;
 966}
 967
 968/**
 969 * w_e_end_rsdata_req() - Worker callback to send a P_RS_DATA_REPLY packet in response to a P_RS_DATA_REQUESTRS
 970 * @mdev:	DRBD device.
 971 * @w:		work object.
 972 * @cancel:	The connection will be closed anyways
 973 */
 974int w_e_end_rsdata_req(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
 975{
 976	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
 977	int ok;
 978
 979	if (unlikely(cancel)) {
 980		drbd_free_ee(mdev, e);
 981		dec_unacked(mdev);
 982		return 1;
 983	}
 984
 985	if (get_ldev_if_state(mdev, D_FAILED)) {
 986		drbd_rs_complete_io(mdev, e->sector);
 987		put_ldev(mdev);
 988	}
 989
 990	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
 991		if (likely(mdev->state.pdsk >= D_INCONSISTENT)) {
 992			inc_rs_pending(mdev);
 993			ok = drbd_send_block(mdev, P_RS_DATA_REPLY, e);
 994		} else {
 995			if (__ratelimit(&drbd_ratelimit_state))
 996				dev_err(DEV, "Not sending RSDataReply, "
 997				    "partner DISKLESS!\n");
 998			ok = 1;
 999		}
1000	} else {
1001		if (__ratelimit(&drbd_ratelimit_state))
1002			dev_err(DEV, "Sending NegRSDReply. sector %llus.\n",
1003			    (unsigned long long)e->sector);
1004
1005		ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
1006
1007		/* update resync data with failure */
1008		drbd_rs_failed_io(mdev, e->sector, e->size);
1009	}
1010
1011	dec_unacked(mdev);
1012
1013	move_to_net_ee_or_free(mdev, e);
1014
1015	if (unlikely(!ok))
1016		dev_err(DEV, "drbd_send_block() failed\n");
1017	return ok;
1018}
1019
1020int w_e_end_csum_rs_req(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
1021{
1022	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
1023	struct digest_info *di;
1024	int digest_size;
1025	void *digest = NULL;
1026	int ok, eq = 0;
1027
1028	if (unlikely(cancel)) {
1029		drbd_free_ee(mdev, e);
1030		dec_unacked(mdev);
1031		return 1;
1032	}
1033
1034	if (get_ldev(mdev)) {
1035		drbd_rs_complete_io(mdev, e->sector);
1036		put_ldev(mdev);
1037	}
1038
1039	di = e->digest;
1040
1041	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
1042		/* quick hack to try to avoid a race against reconfiguration.
1043		 * a real fix would be much more involved,
1044		 * introducing more locking mechanisms */
1045		if (mdev->csums_tfm) {
1046			digest_size = crypto_hash_digestsize(mdev->csums_tfm);
1047			D_ASSERT(digest_size == di->digest_size);
1048			digest = kmalloc(digest_size, GFP_NOIO);
1049		}
1050		if (digest) {
1051			drbd_csum_ee(mdev, mdev->csums_tfm, e, digest);
1052			eq = !memcmp(digest, di->digest, digest_size);
1053			kfree(digest);
1054		}
1055
1056		if (eq) {
1057			drbd_set_in_sync(mdev, e->sector, e->size);
1058			/* rs_same_csums unit is BM_BLOCK_SIZE */
1059			mdev->rs_same_csum += e->size >> BM_BLOCK_SHIFT;
1060			ok = drbd_send_ack(mdev, P_RS_IS_IN_SYNC, e);
1061		} else {
1062			inc_rs_pending(mdev);
1063			e->block_id = ID_SYNCER; /* By setting block_id, digest pointer becomes invalid! */
1064			e->flags &= ~EE_HAS_DIGEST; /* This e no longer has a digest pointer */
1065			kfree(di);
1066			ok = drbd_send_block(mdev, P_RS_DATA_REPLY, e);
1067		}
1068	} else {
1069		ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
1070		if (__ratelimit(&drbd_ratelimit_state))
1071			dev_err(DEV, "Sending NegDReply. I guess it gets messy.\n");
1072	}
1073
1074	dec_unacked(mdev);
1075	move_to_net_ee_or_free(mdev, e);
1076
1077	if (unlikely(!ok))
1078		dev_err(DEV, "drbd_send_block/ack() failed\n");
1079	return ok;
1080}
1081
1082int w_e_end_ov_req(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
1083{
1084	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
1085	int digest_size;
1086	void *digest;
1087	int ok = 1;
1088
1089	if (unlikely(cancel))
1090		goto out;
1091
1092	if (unlikely((e->flags & EE_WAS_ERROR) != 0))
1093		goto out;
1094
1095	digest_size = crypto_hash_digestsize(mdev->verify_tfm);
1096	/* FIXME if this allocation fails, online verify will not terminate! */
1097	digest = kmalloc(digest_size, GFP_NOIO);
1098	if (digest) {
1099		drbd_csum_ee(mdev, mdev->verify_tfm, e, digest);
1100		inc_rs_pending(mdev);
1101		ok = drbd_send_drequest_csum(mdev, e->sector, e->size,
1102					     digest, digest_size, P_OV_REPLY);
1103		if (!ok)
1104			dec_rs_pending(mdev);
1105		kfree(digest);
1106	}
1107
1108out:
1109	drbd_free_ee(mdev, e);
1110
1111	dec_unacked(mdev);
1112
1113	return ok;
1114}
1115
1116void drbd_ov_oos_found(struct drbd_conf *mdev, sector_t sector, int size)
1117{
1118	if (mdev->ov_last_oos_start + mdev->ov_last_oos_size == sector) {
1119		mdev->ov_last_oos_size += size>>9;
1120	} else {
1121		mdev->ov_last_oos_start = sector;
1122		mdev->ov_last_oos_size = size>>9;
1123	}
1124	drbd_set_out_of_sync(mdev, sector, size);
1125	set_bit(WRITE_BM_AFTER_RESYNC, &mdev->flags);
1126}
1127
1128int w_e_end_ov_reply(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
1129{
1130	struct drbd_epoch_entry *e = container_of(w, struct drbd_epoch_entry, w);
1131	struct digest_info *di;
1132	int digest_size;
1133	void *digest;
1134	int ok, eq = 0;
1135
1136	if (unlikely(cancel)) {
1137		drbd_free_ee(mdev, e);
1138		dec_unacked(mdev);
1139		return 1;
1140	}
1141
1142	/* after "cancel", because after drbd_disconnect/drbd_rs_cancel_all
1143	 * the resync lru has been cleaned up already */
1144	if (get_ldev(mdev)) {
1145		drbd_rs_complete_io(mdev, e->sector);
1146		put_ldev(mdev);
1147	}
1148
1149	di = e->digest;
1150
1151	if (likely((e->flags & EE_WAS_ERROR) == 0)) {
1152		digest_size = crypto_hash_digestsize(mdev->verify_tfm);
1153		digest = kmalloc(digest_size, GFP_NOIO);
1154		if (digest) {
1155			drbd_csum_ee(mdev, mdev->verify_tfm, e, digest);
1156
1157			D_ASSERT(digest_size == di->digest_size);
1158			eq = !memcmp(digest, di->digest, digest_size);
1159			kfree(digest);
1160		}
1161	} else {
1162		ok = drbd_send_ack(mdev, P_NEG_RS_DREPLY, e);
1163		if (__ratelimit(&drbd_ratelimit_state))
1164			dev_err(DEV, "Sending NegDReply. I guess it gets messy.\n");
1165	}
1166
1167	dec_unacked(mdev);
1168	if (!eq)
1169		drbd_ov_oos_found(mdev, e->sector, e->size);
1170	else
1171		ov_oos_print(mdev);
1172
1173	ok = drbd_send_ack_ex(mdev, P_OV_RESULT, e->sector, e->size,
1174			      eq ? ID_IN_SYNC : ID_OUT_OF_SYNC);
1175
1176	drbd_free_ee(mdev, e);
1177
1178	if (--mdev->ov_left == 0) {
1179		ov_oos_print(mdev);
1180		drbd_resync_finished(mdev);
1181	}
1182
1183	return ok;
1184}
1185
1186int w_prev_work_done(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
1187{
1188	struct drbd_wq_barrier *b = container_of(w, struct drbd_wq_barrier, w);
1189	complete(&b->done);
1190	return 1;
1191}
1192
1193int w_send_barrier(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
1194{
1195	struct drbd_tl_epoch *b = container_of(w, struct drbd_tl_epoch, w);
1196	struct p_barrier *p = &mdev->data.sbuf.barrier;
1197	int ok = 1;
1198
1199	/* really avoid racing with tl_clear.  w.cb may have been referenced
1200	 * just before it was reassigned and re-queued, so double check that.
1201	 * actually, this race was harmless, since we only try to send the
1202	 * barrier packet here, and otherwise do nothing with the object.
1203	 * but compare with the head of w_clear_epoch */
1204	spin_lock_irq(&mdev->req_lock);
1205	if (w->cb != w_send_barrier || mdev->state.conn < C_CONNECTED)
1206		cancel = 1;
1207	spin_unlock_irq(&mdev->req_lock);
1208	if (cancel)
1209		return 1;
1210
1211	if (!drbd_get_data_sock(mdev))
1212		return 0;
1213	p->barrier = b->br_number;
1214	/* inc_ap_pending was done where this was queued.
1215	 * dec_ap_pending will be done in got_BarrierAck
1216	 * or (on connection loss) in w_clear_epoch.  */
1217	ok = _drbd_send_cmd(mdev, mdev->data.socket, P_BARRIER,
1218				(struct p_header80 *)p, sizeof(*p), 0);
1219	drbd_put_data_sock(mdev);
1220
1221	return ok;
1222}
1223
1224int w_send_write_hint(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
1225{
1226	if (cancel)
1227		return 1;
1228	return drbd_send_short_cmd(mdev, P_UNPLUG_REMOTE);
1229}
1230
1231/**
1232 * w_send_dblock() - Worker callback to send a P_DATA packet in order to mirror a write request
1233 * @mdev:	DRBD device.
1234 * @w:		work object.
1235 * @cancel:	The connection will be closed anyways
1236 */
1237int w_send_dblock(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
1238{
1239	struct drbd_request *req = container_of(w, struct drbd_request, w);
1240	int ok;
1241
1242	if (unlikely(cancel)) {
1243		req_mod(req, send_canceled);
1244		return 1;
1245	}
1246
1247	ok = drbd_send_dblock(mdev, req);
1248	req_mod(req, ok ? handed_over_to_network : send_failed);
1249
1250	return ok;
1251}
1252
1253/**
1254 * w_send_read_req() - Worker callback to send a read request (P_DATA_REQUEST) packet
1255 * @mdev:	DRBD device.
1256 * @w:		work object.
1257 * @cancel:	The connection will be closed anyways
1258 */
1259int w_send_read_req(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
1260{
1261	struct drbd_request *req = container_of(w, struct drbd_request, w);
1262	int ok;
1263
1264	if (unlikely(cancel)) {
1265		req_mod(req, send_canceled);
1266		return 1;
1267	}
1268
1269	ok = drbd_send_drequest(mdev, P_DATA_REQUEST, req->sector, req->size,
1270				(unsigned long)req);
1271
1272	if (!ok) {
1273		/* ?? we set C_TIMEOUT or C_BROKEN_PIPE in drbd_send();
1274		 * so this is probably redundant */
1275		if (mdev->state.conn >= C_CONNECTED)
1276			drbd_force_state(mdev, NS(conn, C_NETWORK_FAILURE));
1277	}
1278	req_mod(req, ok ? handed_over_to_network : send_failed);
1279
1280	return ok;
1281}
1282
1283int w_restart_disk_io(struct drbd_conf *mdev, struct drbd_work *w, int cancel)
1284{
1285	struct drbd_request *req = container_of(w, struct drbd_request, w);
1286
1287	if (bio_data_dir(req->master_bio) == WRITE && req->rq_state & RQ_IN_ACT_LOG)
1288		drbd_al_begin_io(mdev, req->sector);
1289	/* Calling drbd_al_begin_io() out of the worker might deadlocks
1290	   theoretically. Practically it can not deadlock, since this is
1291	   only used when unfreezing IOs. All the extents of the requests
1292	   that made it into the TL are already active */
1293
1294	drbd_req_make_private_bio(req, req->master_bio);
1295	req->private_bio->bi_bdev = mdev->ldev->backing_bdev;
1296	generic_make_request(req->private_bio);
1297
1298	return 1;
1299}
1300
1301static int _drbd_may_sync_now(struct drbd_conf *mdev)
1302{
1303	struct drbd_conf *odev = mdev;
1304
1305	while (1) {
1306		if (odev->sync_conf.after == -1)
1307			return 1;
1308		odev = minor_to_mdev(odev->sync_conf.after);
1309		ERR_IF(!odev) return 1;
1310		if ((odev->state.conn >= C_SYNC_SOURCE &&
1311		     odev->state.conn <= C_PAUSED_SYNC_T) ||
1312		    odev->state.aftr_isp || odev->state.peer_isp ||
1313		    odev->state.user_isp)
1314			return 0;
1315	}
1316}
1317
1318/**
1319 * _drbd_pause_after() - Pause resync on all devices that may not resync now
1320 * @mdev:	DRBD device.
1321 *
1322 * Called from process context only (admin command and after_state_ch).
1323 */
1324static int _drbd_pause_after(struct drbd_conf *mdev)
1325{
1326	struct drbd_conf *odev;
1327	int i, rv = 0;
1328
1329	for (i = 0; i < minor_count; i++) {
1330		odev = minor_to_mdev(i);
1331		if (!odev)
1332			continue;
1333		if (odev->state.conn == C_STANDALONE && odev->state.disk == D_DISKLESS)
1334			continue;
1335		if (!_drbd_may_sync_now(odev))
1336			rv |= (__drbd_set_state(_NS(odev, aftr_isp, 1), CS_HARD, NULL)
1337			       != SS_NOTHING_TO_DO);
1338	}
1339
1340	return rv;
1341}
1342
1343/**
1344 * _drbd_resume_next() - Resume resync on all devices that may resync now
1345 * @mdev:	DRBD device.
1346 *
1347 * Called from process context only (admin command and worker).
1348 */
1349static int _drbd_resume_next(struct drbd_conf *mdev)
1350{
1351	struct drbd_conf *odev;
1352	int i, rv = 0;
1353
1354	for (i = 0; i < minor_count; i++) {
1355		odev = minor_to_mdev(i);
1356		if (!odev)
1357			continue;
1358		if (odev->state.conn == C_STANDALONE && odev->state.disk == D_DISKLESS)
1359			continue;
1360		if (odev->state.aftr_isp) {
1361			if (_drbd_may_sync_now(odev))
1362				rv |= (__drbd_set_state(_NS(odev, aftr_isp, 0),
1363							CS_HARD, NULL)
1364				       != SS_NOTHING_TO_DO) ;
1365		}
1366	}
1367	return rv;
1368}
1369
1370void resume_next_sg(struct drbd_conf *mdev)
1371{
1372	write_lock_irq(&global_state_lock);
1373	_drbd_resume_next(mdev);
1374	write_unlock_irq(&global_state_lock);
1375}
1376
1377void suspend_other_sg(struct drbd_conf *mdev)
1378{
1379	write_lock_irq(&global_state_lock);
1380	_drbd_pause_after(mdev);
1381	write_unlock_irq(&global_state_lock);
1382}
1383
1384static int sync_after_error(struct drbd_conf *mdev, int o_minor)
1385{
1386	struct drbd_conf *odev;
1387
1388	if (o_minor == -1)
1389		return NO_ERROR;
1390	if (o_minor < -1 || minor_to_mdev(o_minor) == NULL)
1391		return ERR_SYNC_AFTER;
1392
1393	/* check for loops */
1394	odev = minor_to_mdev(o_minor);
1395	while (1) {
1396		if (odev == mdev)
1397			return ERR_SYNC_AFTER_CYCLE;
1398
1399		/* dependency chain ends here, no cycles. */
1400		if (odev->sync_conf.after == -1)
1401			return NO_ERROR;
1402
1403		/* follow the dependency chain */
1404		odev = minor_to_mdev(odev->sync_conf.after);
1405	}
1406}
1407
1408int drbd_alter_sa(struct drbd_conf *mdev, int na)
1409{
1410	int changes;
1411	int retcode;
1412
1413	write_lock_irq(&global_state_lock);
1414	retcode = sync_after_error(mdev, na);
1415	if (retcode == NO_ERROR) {
1416		mdev->sync_conf.after = na;
1417		do {
1418			changes  = _drbd_pause_after(mdev);
1419			changes |= _drbd_resume_next(mdev);
1420		} while (changes);
1421	}
1422	write_unlock_irq(&global_state_lock);
1423	return retcode;
1424}
1425
1426/**
1427 * drbd_start_resync() - Start the resync process
1428 * @mdev:	DRBD device.
1429 * @side:	Either C_SYNC_SOURCE or C_SYNC_TARGET
1430 *
1431 * This function might bring you directly into one of the
1432 * C_PAUSED_SYNC_* states.
1433 */
1434void drbd_start_resync(struct drbd_conf *mdev, enum drbd_conns side)
1435{
1436	union drbd_state ns;
1437	int r;
1438
1439	if (mdev->state.conn >= C_SYNC_SOURCE) {
1440		dev_err(DEV, "Resync already running!\n");
1441		return;
1442	}
1443
1444	/* In case a previous resync run was aborted by an IO error/detach on the peer. */
1445	drbd_rs_cancel_all(mdev);
1446
1447	if (side == C_SYNC_TARGET) {
1448		/* Since application IO was locked out during C_WF_BITMAP_T and
1449		   C_WF_SYNC_UUID we are still unmodified. Before going to C_SYNC_TARGET
1450		   we check that we might make the data inconsistent. */
1451		r = drbd_khelper(mdev, "before-resync-target");
1452		r = (r >> 8) & 0xff;
1453		if (r > 0) {
1454			dev_info(DEV, "before-resync-target handler returned %d, "
1455			     "dropping connection.\n", r);
1456			drbd_force_state(mdev, NS(conn, C_DISCONNECTING));
1457			return;
1458		}
1459	}
1460
1461	drbd_state_lock(mdev);
1462
1463	if (!get_ldev_if_state(mdev, D_NEGOTIATING)) {
1464		drbd_state_unlock(mdev);
1465		return;
1466	}
1467
1468	if (side == C_SYNC_TARGET) {
1469		mdev->bm_resync_fo = 0;
1470	} else /* side == C_SYNC_SOURCE */ {
1471		u64 uuid;
1472
1473		get_random_bytes(&uuid, sizeof(u64));
1474		drbd_uuid_set(mdev, UI_BITMAP, uuid);
1475		drbd_send_sync_uuid(mdev, uuid);
1476
1477		D_ASSERT(mdev->state.disk == D_UP_TO_DATE);
1478	}
1479
1480	write_lock_irq(&global_state_lock);
1481	ns = mdev->state;
1482
1483	ns.aftr_isp = !_drbd_may_sync_now(mdev);
1484
1485	ns.conn = side;
1486
1487	if (side == C_SYNC_TARGET)
1488		ns.disk = D_INCONSISTENT;
1489	else /* side == C_SYNC_SOURCE */
1490		ns.pdsk = D_INCONSISTENT;
1491
1492	r = __drbd_set_state(mdev, ns, CS_VERBOSE, NULL);
1493	ns = mdev->state;
1494
1495	if (ns.conn < C_CONNECTED)
1496		r = SS_UNKNOWN_ERROR;
1497
1498	if (r == SS_SUCCESS) {
1499		unsigned long tw = drbd_bm_total_weight(mdev);
1500		unsigned long now = jiffies;
1501		int i;
1502
1503		mdev->rs_failed    = 0;
1504		mdev->rs_paused    = 0;
1505		mdev->rs_same_csum = 0;
1506		mdev->rs_last_events = 0;
1507		mdev->rs_last_sect_ev = 0;
1508		mdev->rs_total     = tw;
1509		mdev->rs_start     = now;
1510		for (i = 0; i < DRBD_SYNC_MARKS; i++) {
1511			mdev->rs_mark_left[i] = tw;
1512			mdev->rs_mark_time[i] = now;
1513		}
1514		_drbd_pause_after(mdev);
1515	}
1516	write_unlock_irq(&global_state_lock);
1517	put_ldev(mdev);
1518
1519	if (r == SS_SUCCESS) {
1520		dev_info(DEV, "Began resync as %s (will sync %lu KB [%lu bits set]).\n",
1521		     drbd_conn_str(ns.conn),
1522		     (unsigned long) mdev->rs_total << (BM_BLOCK_SHIFT-10),
1523		     (unsigned long) mdev->rs_total);
1524
1525		if (mdev->agreed_pro_version < 95 && mdev->rs_total == 0) {
1526			/* This still has a race (about when exactly the peers
1527			 * detect connection loss) that can lead to a full sync
1528			 * on next handshake. In 8.3.9 we fixed this with explicit
1529			 * resync-finished notifications, but the fix
1530			 * introduces a protocol change.  Sleeping for some
1531			 * time longer than the ping interval + timeout on the
1532			 * SyncSource, to give the SyncTarget the chance to
1533			 * detect connection loss, then waiting for a ping
1534			 * response (implicit in drbd_resync_finished) reduces
1535			 * the race considerably, but does not solve it. */
1536			if (side == C_SYNC_SOURCE)
1537				schedule_timeout_interruptible(
1538					mdev->net_conf->ping_int * HZ +
1539					mdev->net_conf->ping_timeo*HZ/9);
1540			drbd_resync_finished(mdev);
1541		}
1542
1543		atomic_set(&mdev->rs_sect_in, 0);
1544		atomic_set(&mdev->rs_sect_ev, 0);
1545		mdev->rs_in_flight = 0;
1546		mdev->rs_planed = 0;
1547		spin_lock(&mdev->peer_seq_lock);
1548		fifo_set(&mdev->rs_plan_s, 0);
1549		spin_unlock(&mdev->peer_seq_lock);
1550		/* ns.conn may already be != mdev->state.conn,
1551		 * we may have been paused in between, or become paused until
1552		 * the timer triggers.
1553		 * No matter, that is handled in resync_timer_fn() */
1554		if (ns.conn == C_SYNC_TARGET)
1555			mod_timer(&mdev->resync_timer, jiffies);
1556
1557		drbd_md_sync(mdev);
1558	}
1559	drbd_state_unlock(mdev);
1560}
1561
1562int drbd_worker(struct drbd_thread *thi)
1563{
1564	struct drbd_conf *mdev = thi->mdev;
1565	struct drbd_work *w = NULL;
1566	LIST_HEAD(work_list);
1567	int intr = 0, i;
1568
1569	sprintf(current->comm, "drbd%d_worker", mdev_to_minor(mdev));
1570
1571	while (get_t_state(thi) == Running) {
1572		drbd_thread_current_set_cpu(mdev);
1573
1574		if (down_trylock(&mdev->data.work.s)) {
1575			mutex_lock(&mdev->data.mutex);
1576			if (mdev->data.socket && !mdev->net_conf->no_cork)
1577				drbd_tcp_uncork(mdev->data.socket);
1578			mutex_unlock(&mdev->data.mutex);
1579
1580			intr = down_interruptible(&mdev->data.work.s);
1581
1582			mutex_lock(&mdev->data.mutex);
1583			if (mdev->data.socket  && !mdev->net_conf->no_cork)
1584				drbd_tcp_cork(mdev->data.socket);
1585			mutex_unlock(&mdev->data.mutex);
1586		}
1587
1588		if (intr) {
1589			D_ASSERT(intr == -EINTR);
1590			flush_signals(current);
1591			ERR_IF (get_t_state(thi) == Running)
1592				continue;
1593			break;
1594		}
1595
1596		if (get_t_state(thi) != Running)
1597			break;
1598		/* With this break, we have done a down() but not consumed
1599		   the entry from the list. The cleanup code takes care of
1600		   this...   */
1601
1602		w = NULL;
1603		spin_lock_irq(&mdev->data.work.q_lock);
1604		ERR_IF(list_empty(&mdev->data.work.q)) {
1605			/* something terribly wrong in our logic.
1606			 * we were able to down() the semaphore,
1607			 * but the list is empty... doh.
1608			 *
1609			 * what is the best thing to do now?
1610			 * try again from scratch, restarting the receiver,
1611			 * asender, whatnot? could break even more ugly,
1612			 * e.g. when we are primary, but no good local data.
1613			 *
1614			 * I'll try to get away just starting over this loop.
1615			 */
1616			spin_unlock_irq(&mdev->data.work.q_lock);
1617			continue;
1618		}
1619		w = list_entry(mdev->data.work.q.next, struct drbd_work, list);
1620		list_del_init(&w->list);
1621		spin_unlock_irq(&mdev->data.work.q_lock);
1622
1623		if (!w->cb(mdev, w, mdev->state.conn < C_CONNECTED)) {
1624			/* dev_warn(DEV, "worker: a callback failed! \n"); */
1625			if (mdev->state.conn >= C_CONNECTED)
1626				drbd_force_state(mdev,
1627						NS(conn, C_NETWORK_FAILURE));
1628		}
1629	}
1630	D_ASSERT(test_bit(DEVICE_DYING, &mdev->flags));
1631	D_ASSERT(test_bit(CONFIG_PENDING, &mdev->flags));
1632
1633	spin_lock_irq(&mdev->data.work.q_lock);
1634	i = 0;
1635	while (!list_empty(&mdev->data.work.q)) {
1636		list_splice_init(&mdev->data.work.q, &work_list);
1637		spin_unlock_irq(&mdev->data.work.q_lock);
1638
1639		while (!list_empty(&work_list)) {
1640			w = list_entry(work_list.next, struct drbd_work, list);
1641			list_del_init(&w->list);
1642			w->cb(mdev, w, 1);
1643			i++; /* dead debugging code */
1644		}
1645
1646		spin_lock_irq(&mdev->data.work.q_lock);
1647	}
1648	sema_init(&mdev->data.work.s, 0);
1649	/* DANGEROUS race: if someone did queue his work within the spinlock,
1650	 * but up() ed outside the spinlock, we could get an up() on the
1651	 * semaphore without corresponding list entry.
1652	 * So don't do that.
1653	 */
1654	spin_unlock_irq(&mdev->data.work.q_lock);
1655
1656	D_ASSERT(mdev->state.disk == D_DISKLESS && mdev->state.conn == C_STANDALONE);
1657	/* _drbd_set_state only uses stop_nowait.
1658	 * wait here for the Exiting receiver. */
1659	drbd_thread_stop(&mdev->receiver);
1660	drbd_mdev_cleanup(mdev);
1661
1662	dev_info(DEV, "worker terminated\n");
1663
1664	clear_bit(DEVICE_DYING, &mdev->flags);
1665	clear_bit(CONFIG_PENDING, &mdev->flags);
1666	wake_up(&mdev->state_wait);
1667
1668	return 0;
1669}
Configure Feed

Configure Feed