drivers/md/md.c at v6.7-rc7

tjh.dev / kernel
fork
Linux kernel mirror (for testing) git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git
kernel os linux
fork
kernel / drivers / md / md.c
at v6.7-rc7 10145 lines 270 kB view raw
wrap content
    1// SPDX-License-Identifier: GPL-2.0-or-later
    2/*
    3   md.c : Multiple Devices driver for Linux
    4     Copyright (C) 1998, 1999, 2000 Ingo Molnar
    5
    6     completely rewritten, based on the MD driver code from Marc Zyngier
    7
    8   Changes:
    9
   10   - RAID-1/RAID-5 extensions by Miguel de Icaza, Gadi Oxman, Ingo Molnar
   11   - RAID-6 extensions by H. Peter Anvin <hpa@zytor.com>
   12   - boot support for linear and striped mode by Harald Hoyer <HarryH@Royal.Net>
   13   - kerneld support by Boris Tobotras <boris@xtalk.msk.su>
   14   - kmod support by: Cyrus Durgin
   15   - RAID0 bugfixes: Mark Anthony Lisher <markal@iname.com>
   16   - Devfs support by Richard Gooch <rgooch@atnf.csiro.au>
   17
   18   - lots of fixes and improvements to the RAID1/RAID5 and generic
   19     RAID code (such as request based resynchronization):
   20
   21     Neil Brown <neilb@cse.unsw.edu.au>.
   22
   23   - persistent bitmap code
   24     Copyright (C) 2003-2004, Paul Clements, SteelEye Technology, Inc.
   25
   26
   27   Errors, Warnings, etc.
   28   Please use:
   29     pr_crit() for error conditions that risk data loss
   30     pr_err() for error conditions that are unexpected, like an IO error
   31         or internal inconsistency
   32     pr_warn() for error conditions that could have been predicated, like
   33         adding a device to an array when it has incompatible metadata
   34     pr_info() for every interesting, very rare events, like an array starting
   35         or stopping, or resync starting or stopping
   36     pr_debug() for everything else.
   37
   38*/
   39
   40#include <linux/sched/mm.h>
   41#include <linux/sched/signal.h>
   42#include <linux/kthread.h>
   43#include <linux/blkdev.h>
   44#include <linux/blk-integrity.h>
   45#include <linux/badblocks.h>
   46#include <linux/sysctl.h>
   47#include <linux/seq_file.h>
   48#include <linux/fs.h>
   49#include <linux/poll.h>
   50#include <linux/ctype.h>
   51#include <linux/string.h>
   52#include <linux/hdreg.h>
   53#include <linux/proc_fs.h>
   54#include <linux/random.h>
   55#include <linux/major.h>
   56#include <linux/module.h>
   57#include <linux/reboot.h>
   58#include <linux/file.h>
   59#include <linux/compat.h>
   60#include <linux/delay.h>
   61#include <linux/raid/md_p.h>
   62#include <linux/raid/md_u.h>
   63#include <linux/raid/detect.h>
   64#include <linux/slab.h>
   65#include <linux/percpu-refcount.h>
   66#include <linux/part_stat.h>
   67
   68#include <trace/events/block.h>
   69#include "md.h"
   70#include "md-bitmap.h"
   71#include "md-cluster.h"
   72
   73/* pers_list is a list of registered personalities protected by pers_lock. */
   74static LIST_HEAD(pers_list);
   75static DEFINE_SPINLOCK(pers_lock);
   76
   77static const struct kobj_type md_ktype;
   78
   79struct md_cluster_operations *md_cluster_ops;
   80EXPORT_SYMBOL(md_cluster_ops);
   81static struct module *md_cluster_mod;
   82
   83static DECLARE_WAIT_QUEUE_HEAD(resync_wait);
   84static struct workqueue_struct *md_wq;
   85
   86/*
   87 * This workqueue is used for sync_work to register new sync_thread, and for
   88 * del_work to remove rdev, and for event_work that is only set by dm-raid.
   89 *
   90 * Noted that sync_work will grab reconfig_mutex, hence never flush this
   91 * workqueue whith reconfig_mutex grabbed.
   92 */
   93static struct workqueue_struct *md_misc_wq;
   94struct workqueue_struct *md_bitmap_wq;
   95
   96static int remove_and_add_spares(struct mddev *mddev,
   97				 struct md_rdev *this);
   98static void mddev_detach(struct mddev *mddev);
   99static void export_rdev(struct md_rdev *rdev, struct mddev *mddev);
  100static void md_wakeup_thread_directly(struct md_thread __rcu *thread);
  101
  102enum md_ro_state {
  103	MD_RDWR,
  104	MD_RDONLY,
  105	MD_AUTO_READ,
  106	MD_MAX_STATE
  107};
  108
  109static bool md_is_rdwr(struct mddev *mddev)
  110{
  111	return (mddev->ro == MD_RDWR);
  112}
  113
  114/*
  115 * Default number of read corrections we'll attempt on an rdev
  116 * before ejecting it from the array. We divide the read error
  117 * count by 2 for every hour elapsed between read errors.
  118 */
  119#define MD_DEFAULT_MAX_CORRECTED_READ_ERRORS 20
  120/* Default safemode delay: 200 msec */
  121#define DEFAULT_SAFEMODE_DELAY ((200 * HZ)/1000 +1)
  122/*
  123 * Current RAID-1,4,5 parallel reconstruction 'guaranteed speed limit'
  124 * is 1000 KB/sec, so the extra system load does not show up that much.
  125 * Increase it if you want to have more _guaranteed_ speed. Note that
  126 * the RAID driver will use the maximum available bandwidth if the IO
  127 * subsystem is idle. There is also an 'absolute maximum' reconstruction
  128 * speed limit - in case reconstruction slows down your system despite
  129 * idle IO detection.
  130 *
  131 * you can change it via /proc/sys/dev/raid/speed_limit_min and _max.
  132 * or /sys/block/mdX/md/sync_speed_{min,max}
  133 */
  134
  135static int sysctl_speed_limit_min = 1000;
  136static int sysctl_speed_limit_max = 200000;
  137static inline int speed_min(struct mddev *mddev)
  138{
  139	return mddev->sync_speed_min ?
  140		mddev->sync_speed_min : sysctl_speed_limit_min;
  141}
  142
  143static inline int speed_max(struct mddev *mddev)
  144{
  145	return mddev->sync_speed_max ?
  146		mddev->sync_speed_max : sysctl_speed_limit_max;
  147}
  148
  149static void rdev_uninit_serial(struct md_rdev *rdev)
  150{
  151	if (!test_and_clear_bit(CollisionCheck, &rdev->flags))
  152		return;
  153
  154	kvfree(rdev->serial);
  155	rdev->serial = NULL;
  156}
  157
  158static void rdevs_uninit_serial(struct mddev *mddev)
  159{
  160	struct md_rdev *rdev;
  161
  162	rdev_for_each(rdev, mddev)
  163		rdev_uninit_serial(rdev);
  164}
  165
  166static int rdev_init_serial(struct md_rdev *rdev)
  167{
  168	/* serial_nums equals with BARRIER_BUCKETS_NR */
  169	int i, serial_nums = 1 << ((PAGE_SHIFT - ilog2(sizeof(atomic_t))));
  170	struct serial_in_rdev *serial = NULL;
  171
  172	if (test_bit(CollisionCheck, &rdev->flags))
  173		return 0;
  174
  175	serial = kvmalloc(sizeof(struct serial_in_rdev) * serial_nums,
  176			  GFP_KERNEL);
  177	if (!serial)
  178		return -ENOMEM;
  179
  180	for (i = 0; i < serial_nums; i++) {
  181		struct serial_in_rdev *serial_tmp = &serial[i];
  182
  183		spin_lock_init(&serial_tmp->serial_lock);
  184		serial_tmp->serial_rb = RB_ROOT_CACHED;
  185		init_waitqueue_head(&serial_tmp->serial_io_wait);
  186	}
  187
  188	rdev->serial = serial;
  189	set_bit(CollisionCheck, &rdev->flags);
  190
  191	return 0;
  192}
  193
  194static int rdevs_init_serial(struct mddev *mddev)
  195{
  196	struct md_rdev *rdev;
  197	int ret = 0;
  198
  199	rdev_for_each(rdev, mddev) {
  200		ret = rdev_init_serial(rdev);
  201		if (ret)
  202			break;
  203	}
  204
  205	/* Free all resources if pool is not existed */
  206	if (ret && !mddev->serial_info_pool)
  207		rdevs_uninit_serial(mddev);
  208
  209	return ret;
  210}
  211
  212/*
  213 * rdev needs to enable serial stuffs if it meets the conditions:
  214 * 1. it is multi-queue device flaged with writemostly.
  215 * 2. the write-behind mode is enabled.
  216 */
  217static int rdev_need_serial(struct md_rdev *rdev)
  218{
  219	return (rdev && rdev->mddev->bitmap_info.max_write_behind > 0 &&
  220		rdev->bdev->bd_disk->queue->nr_hw_queues != 1 &&
  221		test_bit(WriteMostly, &rdev->flags));
  222}
  223
  224/*
  225 * Init resource for rdev(s), then create serial_info_pool if:
  226 * 1. rdev is the first device which return true from rdev_enable_serial.
  227 * 2. rdev is NULL, means we want to enable serialization for all rdevs.
  228 */
  229void mddev_create_serial_pool(struct mddev *mddev, struct md_rdev *rdev)
  230{
  231	int ret = 0;
  232
  233	if (rdev && !rdev_need_serial(rdev) &&
  234	    !test_bit(CollisionCheck, &rdev->flags))
  235		return;
  236
  237	if (!rdev)
  238		ret = rdevs_init_serial(mddev);
  239	else
  240		ret = rdev_init_serial(rdev);
  241	if (ret)
  242		return;
  243
  244	if (mddev->serial_info_pool == NULL) {
  245		/*
  246		 * already in memalloc noio context by
  247		 * mddev_suspend()
  248		 */
  249		mddev->serial_info_pool =
  250			mempool_create_kmalloc_pool(NR_SERIAL_INFOS,
  251						sizeof(struct serial_info));
  252		if (!mddev->serial_info_pool) {
  253			rdevs_uninit_serial(mddev);
  254			pr_err("can't alloc memory pool for serialization\n");
  255		}
  256	}
  257}
  258
  259/*
  260 * Free resource from rdev(s), and destroy serial_info_pool under conditions:
  261 * 1. rdev is the last device flaged with CollisionCheck.
  262 * 2. when bitmap is destroyed while policy is not enabled.
  263 * 3. for disable policy, the pool is destroyed only when no rdev needs it.
  264 */
  265void mddev_destroy_serial_pool(struct mddev *mddev, struct md_rdev *rdev)
  266{
  267	if (rdev && !test_bit(CollisionCheck, &rdev->flags))
  268		return;
  269
  270	if (mddev->serial_info_pool) {
  271		struct md_rdev *temp;
  272		int num = 0; /* used to track if other rdevs need the pool */
  273
  274		rdev_for_each(temp, mddev) {
  275			if (!rdev) {
  276				if (!mddev->serialize_policy ||
  277				    !rdev_need_serial(temp))
  278					rdev_uninit_serial(temp);
  279				else
  280					num++;
  281			} else if (temp != rdev &&
  282				   test_bit(CollisionCheck, &temp->flags))
  283				num++;
  284		}
  285
  286		if (rdev)
  287			rdev_uninit_serial(rdev);
  288
  289		if (num)
  290			pr_info("The mempool could be used by other devices\n");
  291		else {
  292			mempool_destroy(mddev->serial_info_pool);
  293			mddev->serial_info_pool = NULL;
  294		}
  295	}
  296}
  297
  298static struct ctl_table_header *raid_table_header;
  299
  300static struct ctl_table raid_table[] = {
  301	{
  302		.procname	= "speed_limit_min",
  303		.data		= &sysctl_speed_limit_min,
  304		.maxlen		= sizeof(int),
  305		.mode		= S_IRUGO|S_IWUSR,
  306		.proc_handler	= proc_dointvec,
  307	},
  308	{
  309		.procname	= "speed_limit_max",
  310		.data		= &sysctl_speed_limit_max,
  311		.maxlen		= sizeof(int),
  312		.mode		= S_IRUGO|S_IWUSR,
  313		.proc_handler	= proc_dointvec,
  314	},
  315};
  316
  317static int start_readonly;
  318
  319/*
  320 * The original mechanism for creating an md device is to create
  321 * a device node in /dev and to open it.  This causes races with device-close.
  322 * The preferred method is to write to the "new_array" module parameter.
  323 * This can avoid races.
  324 * Setting create_on_open to false disables the original mechanism
  325 * so all the races disappear.
  326 */
  327static bool create_on_open = true;
  328
  329/*
  330 * We have a system wide 'event count' that is incremented
  331 * on any 'interesting' event, and readers of /proc/mdstat
  332 * can use 'poll' or 'select' to find out when the event
  333 * count increases.
  334 *
  335 * Events are:
  336 *  start array, stop array, error, add device, remove device,
  337 *  start build, activate spare
  338 */
  339static DECLARE_WAIT_QUEUE_HEAD(md_event_waiters);
  340static atomic_t md_event_count;
  341void md_new_event(void)
  342{
  343	atomic_inc(&md_event_count);
  344	wake_up(&md_event_waiters);
  345}
  346EXPORT_SYMBOL_GPL(md_new_event);
  347
  348/*
  349 * Enables to iterate over all existing md arrays
  350 * all_mddevs_lock protects this list.
  351 */
  352static LIST_HEAD(all_mddevs);
  353static DEFINE_SPINLOCK(all_mddevs_lock);
  354
  355static bool is_md_suspended(struct mddev *mddev)
  356{
  357	return percpu_ref_is_dying(&mddev->active_io);
  358}
  359/* Rather than calling directly into the personality make_request function,
  360 * IO requests come here first so that we can check if the device is
  361 * being suspended pending a reconfiguration.
  362 * We hold a refcount over the call to ->make_request.  By the time that
  363 * call has finished, the bio has been linked into some internal structure
  364 * and so is visible to ->quiesce(), so we don't need the refcount any more.
  365 */
  366static bool is_suspended(struct mddev *mddev, struct bio *bio)
  367{
  368	if (is_md_suspended(mddev))
  369		return true;
  370	if (bio_data_dir(bio) != WRITE)
  371		return false;
  372	if (READ_ONCE(mddev->suspend_lo) >= READ_ONCE(mddev->suspend_hi))
  373		return false;
  374	if (bio->bi_iter.bi_sector >= READ_ONCE(mddev->suspend_hi))
  375		return false;
  376	if (bio_end_sector(bio) < READ_ONCE(mddev->suspend_lo))
  377		return false;
  378	return true;
  379}
  380
  381void md_handle_request(struct mddev *mddev, struct bio *bio)
  382{
  383check_suspended:
  384	if (is_suspended(mddev, bio)) {
  385		DEFINE_WAIT(__wait);
  386		/* Bail out if REQ_NOWAIT is set for the bio */
  387		if (bio->bi_opf & REQ_NOWAIT) {
  388			bio_wouldblock_error(bio);
  389			return;
  390		}
  391		for (;;) {
  392			prepare_to_wait(&mddev->sb_wait, &__wait,
  393					TASK_UNINTERRUPTIBLE);
  394			if (!is_suspended(mddev, bio))
  395				break;
  396			schedule();
  397		}
  398		finish_wait(&mddev->sb_wait, &__wait);
  399	}
  400	if (!percpu_ref_tryget_live(&mddev->active_io))
  401		goto check_suspended;
  402
  403	if (!mddev->pers->make_request(mddev, bio)) {
  404		percpu_ref_put(&mddev->active_io);
  405		goto check_suspended;
  406	}
  407
  408	percpu_ref_put(&mddev->active_io);
  409}
  410EXPORT_SYMBOL(md_handle_request);
  411
  412static void md_submit_bio(struct bio *bio)
  413{
  414	const int rw = bio_data_dir(bio);
  415	struct mddev *mddev = bio->bi_bdev->bd_disk->private_data;
  416
  417	if (mddev == NULL || mddev->pers == NULL) {
  418		bio_io_error(bio);
  419		return;
  420	}
  421
  422	if (unlikely(test_bit(MD_BROKEN, &mddev->flags)) && (rw == WRITE)) {
  423		bio_io_error(bio);
  424		return;
  425	}
  426
  427	bio = bio_split_to_limits(bio);
  428	if (!bio)
  429		return;
  430
  431	if (mddev->ro == MD_RDONLY && unlikely(rw == WRITE)) {
  432		if (bio_sectors(bio) != 0)
  433			bio->bi_status = BLK_STS_IOERR;
  434		bio_endio(bio);
  435		return;
  436	}
  437
  438	/* bio could be mergeable after passing to underlayer */
  439	bio->bi_opf &= ~REQ_NOMERGE;
  440
  441	md_handle_request(mddev, bio);
  442}
  443
  444/*
  445 * Make sure no new requests are submitted to the device, and any requests that
  446 * have been submitted are completely handled.
  447 */
  448int mddev_suspend(struct mddev *mddev, bool interruptible)
  449{
  450	int err = 0;
  451
  452	/*
  453	 * hold reconfig_mutex to wait for normal io will deadlock, because
  454	 * other context can't update super_block, and normal io can rely on
  455	 * updating super_block.
  456	 */
  457	lockdep_assert_not_held(&mddev->reconfig_mutex);
  458
  459	if (interruptible)
  460		err = mutex_lock_interruptible(&mddev->suspend_mutex);
  461	else
  462		mutex_lock(&mddev->suspend_mutex);
  463	if (err)
  464		return err;
  465
  466	if (mddev->suspended) {
  467		WRITE_ONCE(mddev->suspended, mddev->suspended + 1);
  468		mutex_unlock(&mddev->suspend_mutex);
  469		return 0;
  470	}
  471
  472	percpu_ref_kill(&mddev->active_io);
  473	if (interruptible)
  474		err = wait_event_interruptible(mddev->sb_wait,
  475				percpu_ref_is_zero(&mddev->active_io));
  476	else
  477		wait_event(mddev->sb_wait,
  478				percpu_ref_is_zero(&mddev->active_io));
  479	if (err) {
  480		percpu_ref_resurrect(&mddev->active_io);
  481		mutex_unlock(&mddev->suspend_mutex);
  482		return err;
  483	}
  484
  485	/*
  486	 * For raid456, io might be waiting for reshape to make progress,
  487	 * allow new reshape to start while waiting for io to be done to
  488	 * prevent deadlock.
  489	 */
  490	WRITE_ONCE(mddev->suspended, mddev->suspended + 1);
  491
  492	del_timer_sync(&mddev->safemode_timer);
  493	/* restrict memory reclaim I/O during raid array is suspend */
  494	mddev->noio_flag = memalloc_noio_save();
  495
  496	mutex_unlock(&mddev->suspend_mutex);
  497	return 0;
  498}
  499EXPORT_SYMBOL_GPL(mddev_suspend);
  500
  501static void __mddev_resume(struct mddev *mddev, bool recovery_needed)
  502{
  503	lockdep_assert_not_held(&mddev->reconfig_mutex);
  504
  505	mutex_lock(&mddev->suspend_mutex);
  506	WRITE_ONCE(mddev->suspended, mddev->suspended - 1);
  507	if (mddev->suspended) {
  508		mutex_unlock(&mddev->suspend_mutex);
  509		return;
  510	}
  511
  512	/* entred the memalloc scope from mddev_suspend() */
  513	memalloc_noio_restore(mddev->noio_flag);
  514
  515	percpu_ref_resurrect(&mddev->active_io);
  516	wake_up(&mddev->sb_wait);
  517
  518	if (recovery_needed)
  519		set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
  520	md_wakeup_thread(mddev->thread);
  521	md_wakeup_thread(mddev->sync_thread); /* possibly kick off a reshape */
  522
  523	mutex_unlock(&mddev->suspend_mutex);
  524}
  525
  526void mddev_resume(struct mddev *mddev)
  527{
  528	return __mddev_resume(mddev, true);
  529}
  530EXPORT_SYMBOL_GPL(mddev_resume);
  531
  532/*
  533 * Generic flush handling for md
  534 */
  535
  536static void md_end_flush(struct bio *bio)
  537{
  538	struct md_rdev *rdev = bio->bi_private;
  539	struct mddev *mddev = rdev->mddev;
  540
  541	bio_put(bio);
  542
  543	rdev_dec_pending(rdev, mddev);
  544
  545	if (atomic_dec_and_test(&mddev->flush_pending)) {
  546		/* The pre-request flush has finished */
  547		queue_work(md_wq, &mddev->flush_work);
  548	}
  549}
  550
  551static void md_submit_flush_data(struct work_struct *ws);
  552
  553static void submit_flushes(struct work_struct *ws)
  554{
  555	struct mddev *mddev = container_of(ws, struct mddev, flush_work);
  556	struct md_rdev *rdev;
  557
  558	mddev->start_flush = ktime_get_boottime();
  559	INIT_WORK(&mddev->flush_work, md_submit_flush_data);
  560	atomic_set(&mddev->flush_pending, 1);
  561	rcu_read_lock();
  562	rdev_for_each_rcu(rdev, mddev)
  563		if (rdev->raid_disk >= 0 &&
  564		    !test_bit(Faulty, &rdev->flags)) {
  565			/* Take two references, one is dropped
  566			 * when request finishes, one after
  567			 * we reclaim rcu_read_lock
  568			 */
  569			struct bio *bi;
  570			atomic_inc(&rdev->nr_pending);
  571			atomic_inc(&rdev->nr_pending);
  572			rcu_read_unlock();
  573			bi = bio_alloc_bioset(rdev->bdev, 0,
  574					      REQ_OP_WRITE | REQ_PREFLUSH,
  575					      GFP_NOIO, &mddev->bio_set);
  576			bi->bi_end_io = md_end_flush;
  577			bi->bi_private = rdev;
  578			atomic_inc(&mddev->flush_pending);
  579			submit_bio(bi);
  580			rcu_read_lock();
  581			rdev_dec_pending(rdev, mddev);
  582		}
  583	rcu_read_unlock();
  584	if (atomic_dec_and_test(&mddev->flush_pending))
  585		queue_work(md_wq, &mddev->flush_work);
  586}
  587
  588static void md_submit_flush_data(struct work_struct *ws)
  589{
  590	struct mddev *mddev = container_of(ws, struct mddev, flush_work);
  591	struct bio *bio = mddev->flush_bio;
  592
  593	/*
  594	 * must reset flush_bio before calling into md_handle_request to avoid a
  595	 * deadlock, because other bios passed md_handle_request suspend check
  596	 * could wait for this and below md_handle_request could wait for those
  597	 * bios because of suspend check
  598	 */
  599	spin_lock_irq(&mddev->lock);
  600	mddev->prev_flush_start = mddev->start_flush;
  601	mddev->flush_bio = NULL;
  602	spin_unlock_irq(&mddev->lock);
  603	wake_up(&mddev->sb_wait);
  604
  605	if (bio->bi_iter.bi_size == 0) {
  606		/* an empty barrier - all done */
  607		bio_endio(bio);
  608	} else {
  609		bio->bi_opf &= ~REQ_PREFLUSH;
  610		md_handle_request(mddev, bio);
  611	}
  612}
  613
  614/*
  615 * Manages consolidation of flushes and submitting any flushes needed for
  616 * a bio with REQ_PREFLUSH.  Returns true if the bio is finished or is
  617 * being finished in another context.  Returns false if the flushing is
  618 * complete but still needs the I/O portion of the bio to be processed.
  619 */
  620bool md_flush_request(struct mddev *mddev, struct bio *bio)
  621{
  622	ktime_t req_start = ktime_get_boottime();
  623	spin_lock_irq(&mddev->lock);
  624	/* flush requests wait until ongoing flush completes,
  625	 * hence coalescing all the pending requests.
  626	 */
  627	wait_event_lock_irq(mddev->sb_wait,
  628			    !mddev->flush_bio ||
  629			    ktime_before(req_start, mddev->prev_flush_start),
  630			    mddev->lock);
  631	/* new request after previous flush is completed */
  632	if (ktime_after(req_start, mddev->prev_flush_start)) {
  633		WARN_ON(mddev->flush_bio);
  634		mddev->flush_bio = bio;
  635		bio = NULL;
  636	}
  637	spin_unlock_irq(&mddev->lock);
  638
  639	if (!bio) {
  640		INIT_WORK(&mddev->flush_work, submit_flushes);
  641		queue_work(md_wq, &mddev->flush_work);
  642	} else {
  643		/* flush was performed for some other bio while we waited. */
  644		if (bio->bi_iter.bi_size == 0)
  645			/* an empty barrier - all done */
  646			bio_endio(bio);
  647		else {
  648			bio->bi_opf &= ~REQ_PREFLUSH;
  649			return false;
  650		}
  651	}
  652	return true;
  653}
  654EXPORT_SYMBOL(md_flush_request);
  655
  656static inline struct mddev *mddev_get(struct mddev *mddev)
  657{
  658	lockdep_assert_held(&all_mddevs_lock);
  659
  660	if (test_bit(MD_DELETED, &mddev->flags))
  661		return NULL;
  662	atomic_inc(&mddev->active);
  663	return mddev;
  664}
  665
  666static void mddev_delayed_delete(struct work_struct *ws);
  667
  668static void __mddev_put(struct mddev *mddev)
  669{
  670	if (mddev->raid_disks || !list_empty(&mddev->disks) ||
  671	    mddev->ctime || mddev->hold_active)
  672		return;
  673
  674	/* Array is not configured at all, and not held active, so destroy it */
  675	set_bit(MD_DELETED, &mddev->flags);
  676
  677	/*
  678	 * Call queue_work inside the spinlock so that flush_workqueue() after
  679	 * mddev_find will succeed in waiting for the work to be done.
  680	 */
  681	queue_work(md_misc_wq, &mddev->del_work);
  682}
  683
  684void mddev_put(struct mddev *mddev)
  685{
  686	if (!atomic_dec_and_lock(&mddev->active, &all_mddevs_lock))
  687		return;
  688
  689	__mddev_put(mddev);
  690	spin_unlock(&all_mddevs_lock);
  691}
  692
  693static void md_safemode_timeout(struct timer_list *t);
  694static void md_start_sync(struct work_struct *ws);
  695
  696static void active_io_release(struct percpu_ref *ref)
  697{
  698	struct mddev *mddev = container_of(ref, struct mddev, active_io);
  699
  700	wake_up(&mddev->sb_wait);
  701}
  702
  703static void no_op(struct percpu_ref *r) {}
  704
  705int mddev_init(struct mddev *mddev)
  706{
  707
  708	if (percpu_ref_init(&mddev->active_io, active_io_release,
  709			    PERCPU_REF_ALLOW_REINIT, GFP_KERNEL))
  710		return -ENOMEM;
  711
  712	if (percpu_ref_init(&mddev->writes_pending, no_op,
  713			    PERCPU_REF_ALLOW_REINIT, GFP_KERNEL)) {
  714		percpu_ref_exit(&mddev->active_io);
  715		return -ENOMEM;
  716	}
  717
  718	/* We want to start with the refcount at zero */
  719	percpu_ref_put(&mddev->writes_pending);
  720
  721	mutex_init(&mddev->open_mutex);
  722	mutex_init(&mddev->reconfig_mutex);
  723	mutex_init(&mddev->sync_mutex);
  724	mutex_init(&mddev->suspend_mutex);
  725	mutex_init(&mddev->bitmap_info.mutex);
  726	INIT_LIST_HEAD(&mddev->disks);
  727	INIT_LIST_HEAD(&mddev->all_mddevs);
  728	INIT_LIST_HEAD(&mddev->deleting);
  729	timer_setup(&mddev->safemode_timer, md_safemode_timeout, 0);
  730	atomic_set(&mddev->active, 1);
  731	atomic_set(&mddev->openers, 0);
  732	atomic_set(&mddev->sync_seq, 0);
  733	spin_lock_init(&mddev->lock);
  734	atomic_set(&mddev->flush_pending, 0);
  735	init_waitqueue_head(&mddev->sb_wait);
  736	init_waitqueue_head(&mddev->recovery_wait);
  737	mddev->reshape_position = MaxSector;
  738	mddev->reshape_backwards = 0;
  739	mddev->last_sync_action = "none";
  740	mddev->resync_min = 0;
  741	mddev->resync_max = MaxSector;
  742	mddev->level = LEVEL_NONE;
  743
  744	INIT_WORK(&mddev->sync_work, md_start_sync);
  745	INIT_WORK(&mddev->del_work, mddev_delayed_delete);
  746
  747	return 0;
  748}
  749EXPORT_SYMBOL_GPL(mddev_init);
  750
  751void mddev_destroy(struct mddev *mddev)
  752{
  753	percpu_ref_exit(&mddev->active_io);
  754	percpu_ref_exit(&mddev->writes_pending);
  755}
  756EXPORT_SYMBOL_GPL(mddev_destroy);
  757
  758static struct mddev *mddev_find_locked(dev_t unit)
  759{
  760	struct mddev *mddev;
  761
  762	list_for_each_entry(mddev, &all_mddevs, all_mddevs)
  763		if (mddev->unit == unit)
  764			return mddev;
  765
  766	return NULL;
  767}
  768
  769/* find an unused unit number */
  770static dev_t mddev_alloc_unit(void)
  771{
  772	static int next_minor = 512;
  773	int start = next_minor;
  774	bool is_free = 0;
  775	dev_t dev = 0;
  776
  777	while (!is_free) {
  778		dev = MKDEV(MD_MAJOR, next_minor);
  779		next_minor++;
  780		if (next_minor > MINORMASK)
  781			next_minor = 0;
  782		if (next_minor == start)
  783			return 0;		/* Oh dear, all in use. */
  784		is_free = !mddev_find_locked(dev);
  785	}
  786
  787	return dev;
  788}
  789
  790static struct mddev *mddev_alloc(dev_t unit)
  791{
  792	struct mddev *new;
  793	int error;
  794
  795	if (unit && MAJOR(unit) != MD_MAJOR)
  796		unit &= ~((1 << MdpMinorShift) - 1);
  797
  798	new = kzalloc(sizeof(*new), GFP_KERNEL);
  799	if (!new)
  800		return ERR_PTR(-ENOMEM);
  801
  802	error = mddev_init(new);
  803	if (error)
  804		goto out_free_new;
  805
  806	spin_lock(&all_mddevs_lock);
  807	if (unit) {
  808		error = -EEXIST;
  809		if (mddev_find_locked(unit))
  810			goto out_destroy_new;
  811		new->unit = unit;
  812		if (MAJOR(unit) == MD_MAJOR)
  813			new->md_minor = MINOR(unit);
  814		else
  815			new->md_minor = MINOR(unit) >> MdpMinorShift;
  816		new->hold_active = UNTIL_IOCTL;
  817	} else {
  818		error = -ENODEV;
  819		new->unit = mddev_alloc_unit();
  820		if (!new->unit)
  821			goto out_destroy_new;
  822		new->md_minor = MINOR(new->unit);
  823		new->hold_active = UNTIL_STOP;
  824	}
  825
  826	list_add(&new->all_mddevs, &all_mddevs);
  827	spin_unlock(&all_mddevs_lock);
  828	return new;
  829
  830out_destroy_new:
  831	spin_unlock(&all_mddevs_lock);
  832	mddev_destroy(new);
  833out_free_new:
  834	kfree(new);
  835	return ERR_PTR(error);
  836}
  837
  838static void mddev_free(struct mddev *mddev)
  839{
  840	spin_lock(&all_mddevs_lock);
  841	list_del(&mddev->all_mddevs);
  842	spin_unlock(&all_mddevs_lock);
  843
  844	mddev_destroy(mddev);
  845	kfree(mddev);
  846}
  847
  848static const struct attribute_group md_redundancy_group;
  849
  850void mddev_unlock(struct mddev *mddev)
  851{
  852	struct md_rdev *rdev;
  853	struct md_rdev *tmp;
  854	LIST_HEAD(delete);
  855
  856	if (!list_empty(&mddev->deleting))
  857		list_splice_init(&mddev->deleting, &delete);
  858
  859	if (mddev->to_remove) {
  860		/* These cannot be removed under reconfig_mutex as
  861		 * an access to the files will try to take reconfig_mutex
  862		 * while holding the file unremovable, which leads to
  863		 * a deadlock.
  864		 * So hold set sysfs_active while the remove in happeing,
  865		 * and anything else which might set ->to_remove or my
  866		 * otherwise change the sysfs namespace will fail with
  867		 * -EBUSY if sysfs_active is still set.
  868		 * We set sysfs_active under reconfig_mutex and elsewhere
  869		 * test it under the same mutex to ensure its correct value
  870		 * is seen.
  871		 */
  872		const struct attribute_group *to_remove = mddev->to_remove;
  873		mddev->to_remove = NULL;
  874		mddev->sysfs_active = 1;
  875		mutex_unlock(&mddev->reconfig_mutex);
  876
  877		if (mddev->kobj.sd) {
  878			if (to_remove != &md_redundancy_group)
  879				sysfs_remove_group(&mddev->kobj, to_remove);
  880			if (mddev->pers == NULL ||
  881			    mddev->pers->sync_request == NULL) {
  882				sysfs_remove_group(&mddev->kobj, &md_redundancy_group);
  883				if (mddev->sysfs_action)
  884					sysfs_put(mddev->sysfs_action);
  885				if (mddev->sysfs_completed)
  886					sysfs_put(mddev->sysfs_completed);
  887				if (mddev->sysfs_degraded)
  888					sysfs_put(mddev->sysfs_degraded);
  889				mddev->sysfs_action = NULL;
  890				mddev->sysfs_completed = NULL;
  891				mddev->sysfs_degraded = NULL;
  892			}
  893		}
  894		mddev->sysfs_active = 0;
  895	} else
  896		mutex_unlock(&mddev->reconfig_mutex);
  897
  898	md_wakeup_thread(mddev->thread);
  899	wake_up(&mddev->sb_wait);
  900
  901	list_for_each_entry_safe(rdev, tmp, &delete, same_set) {
  902		list_del_init(&rdev->same_set);
  903		kobject_del(&rdev->kobj);
  904		export_rdev(rdev, mddev);
  905	}
  906}
  907EXPORT_SYMBOL_GPL(mddev_unlock);
  908
  909struct md_rdev *md_find_rdev_nr_rcu(struct mddev *mddev, int nr)
  910{
  911	struct md_rdev *rdev;
  912
  913	rdev_for_each_rcu(rdev, mddev)
  914		if (rdev->desc_nr == nr)
  915			return rdev;
  916
  917	return NULL;
  918}
  919EXPORT_SYMBOL_GPL(md_find_rdev_nr_rcu);
  920
  921static struct md_rdev *find_rdev(struct mddev *mddev, dev_t dev)
  922{
  923	struct md_rdev *rdev;
  924
  925	rdev_for_each(rdev, mddev)
  926		if (rdev->bdev->bd_dev == dev)
  927			return rdev;
  928
  929	return NULL;
  930}
  931
  932struct md_rdev *md_find_rdev_rcu(struct mddev *mddev, dev_t dev)
  933{
  934	struct md_rdev *rdev;
  935
  936	rdev_for_each_rcu(rdev, mddev)
  937		if (rdev->bdev->bd_dev == dev)
  938			return rdev;
  939
  940	return NULL;
  941}
  942EXPORT_SYMBOL_GPL(md_find_rdev_rcu);
  943
  944static struct md_personality *find_pers(int level, char *clevel)
  945{
  946	struct md_personality *pers;
  947	list_for_each_entry(pers, &pers_list, list) {
  948		if (level != LEVEL_NONE && pers->level == level)
  949			return pers;
  950		if (strcmp(pers->name, clevel)==0)
  951			return pers;
  952	}
  953	return NULL;
  954}
  955
  956/* return the offset of the super block in 512byte sectors */
  957static inline sector_t calc_dev_sboffset(struct md_rdev *rdev)
  958{
  959	return MD_NEW_SIZE_SECTORS(bdev_nr_sectors(rdev->bdev));
  960}
  961
  962static int alloc_disk_sb(struct md_rdev *rdev)
  963{
  964	rdev->sb_page = alloc_page(GFP_KERNEL);
  965	if (!rdev->sb_page)
  966		return -ENOMEM;
  967	return 0;
  968}
  969
  970void md_rdev_clear(struct md_rdev *rdev)
  971{
  972	if (rdev->sb_page) {
  973		put_page(rdev->sb_page);
  974		rdev->sb_loaded = 0;
  975		rdev->sb_page = NULL;
  976		rdev->sb_start = 0;
  977		rdev->sectors = 0;
  978	}
  979	if (rdev->bb_page) {
  980		put_page(rdev->bb_page);
  981		rdev->bb_page = NULL;
  982	}
  983	badblocks_exit(&rdev->badblocks);
  984}
  985EXPORT_SYMBOL_GPL(md_rdev_clear);
  986
  987static void super_written(struct bio *bio)
  988{
  989	struct md_rdev *rdev = bio->bi_private;
  990	struct mddev *mddev = rdev->mddev;
  991
  992	if (bio->bi_status) {
  993		pr_err("md: %s gets error=%d\n", __func__,
  994		       blk_status_to_errno(bio->bi_status));
  995		md_error(mddev, rdev);
  996		if (!test_bit(Faulty, &rdev->flags)
  997		    && (bio->bi_opf & MD_FAILFAST)) {
  998			set_bit(MD_SB_NEED_REWRITE, &mddev->sb_flags);
  999			set_bit(LastDev, &rdev->flags);
 1000		}
 1001	} else
 1002		clear_bit(LastDev, &rdev->flags);
 1003
 1004	bio_put(bio);
 1005
 1006	rdev_dec_pending(rdev, mddev);
 1007
 1008	if (atomic_dec_and_test(&mddev->pending_writes))
 1009		wake_up(&mddev->sb_wait);
 1010}
 1011
 1012void md_super_write(struct mddev *mddev, struct md_rdev *rdev,
 1013		   sector_t sector, int size, struct page *page)
 1014{
 1015	/* write first size bytes of page to sector of rdev
 1016	 * Increment mddev->pending_writes before returning
 1017	 * and decrement it on completion, waking up sb_wait
 1018	 * if zero is reached.
 1019	 * If an error occurred, call md_error
 1020	 */
 1021	struct bio *bio;
 1022
 1023	if (!page)
 1024		return;
 1025
 1026	if (test_bit(Faulty, &rdev->flags))
 1027		return;
 1028
 1029	bio = bio_alloc_bioset(rdev->meta_bdev ? rdev->meta_bdev : rdev->bdev,
 1030			       1,
 1031			       REQ_OP_WRITE | REQ_SYNC | REQ_PREFLUSH | REQ_FUA,
 1032			       GFP_NOIO, &mddev->sync_set);
 1033
 1034	atomic_inc(&rdev->nr_pending);
 1035
 1036	bio->bi_iter.bi_sector = sector;
 1037	__bio_add_page(bio, page, size, 0);
 1038	bio->bi_private = rdev;
 1039	bio->bi_end_io = super_written;
 1040
 1041	if (test_bit(MD_FAILFAST_SUPPORTED, &mddev->flags) &&
 1042	    test_bit(FailFast, &rdev->flags) &&
 1043	    !test_bit(LastDev, &rdev->flags))
 1044		bio->bi_opf |= MD_FAILFAST;
 1045
 1046	atomic_inc(&mddev->pending_writes);
 1047	submit_bio(bio);
 1048}
 1049
 1050int md_super_wait(struct mddev *mddev)
 1051{
 1052	/* wait for all superblock writes that were scheduled to complete */
 1053	wait_event(mddev->sb_wait, atomic_read(&mddev->pending_writes)==0);
 1054	if (test_and_clear_bit(MD_SB_NEED_REWRITE, &mddev->sb_flags))
 1055		return -EAGAIN;
 1056	return 0;
 1057}
 1058
 1059int sync_page_io(struct md_rdev *rdev, sector_t sector, int size,
 1060		 struct page *page, blk_opf_t opf, bool metadata_op)
 1061{
 1062	struct bio bio;
 1063	struct bio_vec bvec;
 1064
 1065	if (metadata_op && rdev->meta_bdev)
 1066		bio_init(&bio, rdev->meta_bdev, &bvec, 1, opf);
 1067	else
 1068		bio_init(&bio, rdev->bdev, &bvec, 1, opf);
 1069
 1070	if (metadata_op)
 1071		bio.bi_iter.bi_sector = sector + rdev->sb_start;
 1072	else if (rdev->mddev->reshape_position != MaxSector &&
 1073		 (rdev->mddev->reshape_backwards ==
 1074		  (sector >= rdev->mddev->reshape_position)))
 1075		bio.bi_iter.bi_sector = sector + rdev->new_data_offset;
 1076	else
 1077		bio.bi_iter.bi_sector = sector + rdev->data_offset;
 1078	__bio_add_page(&bio, page, size, 0);
 1079
 1080	submit_bio_wait(&bio);
 1081
 1082	return !bio.bi_status;
 1083}
 1084EXPORT_SYMBOL_GPL(sync_page_io);
 1085
 1086static int read_disk_sb(struct md_rdev *rdev, int size)
 1087{
 1088	if (rdev->sb_loaded)
 1089		return 0;
 1090
 1091	if (!sync_page_io(rdev, 0, size, rdev->sb_page, REQ_OP_READ, true))
 1092		goto fail;
 1093	rdev->sb_loaded = 1;
 1094	return 0;
 1095
 1096fail:
 1097	pr_err("md: disabled device %pg, could not read superblock.\n",
 1098	       rdev->bdev);
 1099	return -EINVAL;
 1100}
 1101
 1102static int md_uuid_equal(mdp_super_t *sb1, mdp_super_t *sb2)
 1103{
 1104	return	sb1->set_uuid0 == sb2->set_uuid0 &&
 1105		sb1->set_uuid1 == sb2->set_uuid1 &&
 1106		sb1->set_uuid2 == sb2->set_uuid2 &&
 1107		sb1->set_uuid3 == sb2->set_uuid3;
 1108}
 1109
 1110static int md_sb_equal(mdp_super_t *sb1, mdp_super_t *sb2)
 1111{
 1112	int ret;
 1113	mdp_super_t *tmp1, *tmp2;
 1114
 1115	tmp1 = kmalloc(sizeof(*tmp1),GFP_KERNEL);
 1116	tmp2 = kmalloc(sizeof(*tmp2),GFP_KERNEL);
 1117
 1118	if (!tmp1 || !tmp2) {
 1119		ret = 0;
 1120		goto abort;
 1121	}
 1122
 1123	*tmp1 = *sb1;
 1124	*tmp2 = *sb2;
 1125
 1126	/*
 1127	 * nr_disks is not constant
 1128	 */
 1129	tmp1->nr_disks = 0;
 1130	tmp2->nr_disks = 0;
 1131
 1132	ret = (memcmp(tmp1, tmp2, MD_SB_GENERIC_CONSTANT_WORDS * 4) == 0);
 1133abort:
 1134	kfree(tmp1);
 1135	kfree(tmp2);
 1136	return ret;
 1137}
 1138
 1139static u32 md_csum_fold(u32 csum)
 1140{
 1141	csum = (csum & 0xffff) + (csum >> 16);
 1142	return (csum & 0xffff) + (csum >> 16);
 1143}
 1144
 1145static unsigned int calc_sb_csum(mdp_super_t *sb)
 1146{
 1147	u64 newcsum = 0;
 1148	u32 *sb32 = (u32*)sb;
 1149	int i;
 1150	unsigned int disk_csum, csum;
 1151
 1152	disk_csum = sb->sb_csum;
 1153	sb->sb_csum = 0;
 1154
 1155	for (i = 0; i < MD_SB_BYTES/4 ; i++)
 1156		newcsum += sb32[i];
 1157	csum = (newcsum & 0xffffffff) + (newcsum>>32);
 1158
 1159#ifdef CONFIG_ALPHA
 1160	/* This used to use csum_partial, which was wrong for several
 1161	 * reasons including that different results are returned on
 1162	 * different architectures.  It isn't critical that we get exactly
 1163	 * the same return value as before (we always csum_fold before
 1164	 * testing, and that removes any differences).  However as we
 1165	 * know that csum_partial always returned a 16bit value on
 1166	 * alphas, do a fold to maximise conformity to previous behaviour.
 1167	 */
 1168	sb->sb_csum = md_csum_fold(disk_csum);
 1169#else
 1170	sb->sb_csum = disk_csum;
 1171#endif
 1172	return csum;
 1173}
 1174
 1175/*
 1176 * Handle superblock details.
 1177 * We want to be able to handle multiple superblock formats
 1178 * so we have a common interface to them all, and an array of
 1179 * different handlers.
 1180 * We rely on user-space to write the initial superblock, and support
 1181 * reading and updating of superblocks.
 1182 * Interface methods are:
 1183 *   int load_super(struct md_rdev *dev, struct md_rdev *refdev, int minor_version)
 1184 *      loads and validates a superblock on dev.
 1185 *      if refdev != NULL, compare superblocks on both devices
 1186 *    Return:
 1187 *      0 - dev has a superblock that is compatible with refdev
 1188 *      1 - dev has a superblock that is compatible and newer than refdev
 1189 *          so dev should be used as the refdev in future
 1190 *     -EINVAL superblock incompatible or invalid
 1191 *     -othererror e.g. -EIO
 1192 *
 1193 *   int validate_super(struct mddev *mddev, struct md_rdev *dev)
 1194 *      Verify that dev is acceptable into mddev.
 1195 *       The first time, mddev->raid_disks will be 0, and data from
 1196 *       dev should be merged in.  Subsequent calls check that dev
 1197 *       is new enough.  Return 0 or -EINVAL
 1198 *
 1199 *   void sync_super(struct mddev *mddev, struct md_rdev *dev)
 1200 *     Update the superblock for rdev with data in mddev
 1201 *     This does not write to disc.
 1202 *
 1203 */
 1204
 1205struct super_type  {
 1206	char		    *name;
 1207	struct module	    *owner;
 1208	int		    (*load_super)(struct md_rdev *rdev,
 1209					  struct md_rdev *refdev,
 1210					  int minor_version);
 1211	int		    (*validate_super)(struct mddev *mddev,
 1212					      struct md_rdev *rdev);
 1213	void		    (*sync_super)(struct mddev *mddev,
 1214					  struct md_rdev *rdev);
 1215	unsigned long long  (*rdev_size_change)(struct md_rdev *rdev,
 1216						sector_t num_sectors);
 1217	int		    (*allow_new_offset)(struct md_rdev *rdev,
 1218						unsigned long long new_offset);
 1219};
 1220
 1221/*
 1222 * Check that the given mddev has no bitmap.
 1223 *
 1224 * This function is called from the run method of all personalities that do not
 1225 * support bitmaps. It prints an error message and returns non-zero if mddev
 1226 * has a bitmap. Otherwise, it returns 0.
 1227 *
 1228 */
 1229int md_check_no_bitmap(struct mddev *mddev)
 1230{
 1231	if (!mddev->bitmap_info.file && !mddev->bitmap_info.offset)
 1232		return 0;
 1233	pr_warn("%s: bitmaps are not supported for %s\n",
 1234		mdname(mddev), mddev->pers->name);
 1235	return 1;
 1236}
 1237EXPORT_SYMBOL(md_check_no_bitmap);
 1238
 1239/*
 1240 * load_super for 0.90.0
 1241 */
 1242static int super_90_load(struct md_rdev *rdev, struct md_rdev *refdev, int minor_version)
 1243{
 1244	mdp_super_t *sb;
 1245	int ret;
 1246	bool spare_disk = true;
 1247
 1248	/*
 1249	 * Calculate the position of the superblock (512byte sectors),
 1250	 * it's at the end of the disk.
 1251	 *
 1252	 * It also happens to be a multiple of 4Kb.
 1253	 */
 1254	rdev->sb_start = calc_dev_sboffset(rdev);
 1255
 1256	ret = read_disk_sb(rdev, MD_SB_BYTES);
 1257	if (ret)
 1258		return ret;
 1259
 1260	ret = -EINVAL;
 1261
 1262	sb = page_address(rdev->sb_page);
 1263
 1264	if (sb->md_magic != MD_SB_MAGIC) {
 1265		pr_warn("md: invalid raid superblock magic on %pg\n",
 1266			rdev->bdev);
 1267		goto abort;
 1268	}
 1269
 1270	if (sb->major_version != 0 ||
 1271	    sb->minor_version < 90 ||
 1272	    sb->minor_version > 91) {
 1273		pr_warn("Bad version number %d.%d on %pg\n",
 1274			sb->major_version, sb->minor_version, rdev->bdev);
 1275		goto abort;
 1276	}
 1277
 1278	if (sb->raid_disks <= 0)
 1279		goto abort;
 1280
 1281	if (md_csum_fold(calc_sb_csum(sb)) != md_csum_fold(sb->sb_csum)) {
 1282		pr_warn("md: invalid superblock checksum on %pg\n", rdev->bdev);
 1283		goto abort;
 1284	}
 1285
 1286	rdev->preferred_minor = sb->md_minor;
 1287	rdev->data_offset = 0;
 1288	rdev->new_data_offset = 0;
 1289	rdev->sb_size = MD_SB_BYTES;
 1290	rdev->badblocks.shift = -1;
 1291
 1292	if (sb->level == LEVEL_MULTIPATH)
 1293		rdev->desc_nr = -1;
 1294	else
 1295		rdev->desc_nr = sb->this_disk.number;
 1296
 1297	/* not spare disk, or LEVEL_MULTIPATH */
 1298	if (sb->level == LEVEL_MULTIPATH ||
 1299		(rdev->desc_nr >= 0 &&
 1300		 rdev->desc_nr < MD_SB_DISKS &&
 1301		 sb->disks[rdev->desc_nr].state &
 1302		 ((1<<MD_DISK_SYNC) | (1 << MD_DISK_ACTIVE))))
 1303		spare_disk = false;
 1304
 1305	if (!refdev) {
 1306		if (!spare_disk)
 1307			ret = 1;
 1308		else
 1309			ret = 0;
 1310	} else {
 1311		__u64 ev1, ev2;
 1312		mdp_super_t *refsb = page_address(refdev->sb_page);
 1313		if (!md_uuid_equal(refsb, sb)) {
 1314			pr_warn("md: %pg has different UUID to %pg\n",
 1315				rdev->bdev, refdev->bdev);
 1316			goto abort;
 1317		}
 1318		if (!md_sb_equal(refsb, sb)) {
 1319			pr_warn("md: %pg has same UUID but different superblock to %pg\n",
 1320				rdev->bdev, refdev->bdev);
 1321			goto abort;
 1322		}
 1323		ev1 = md_event(sb);
 1324		ev2 = md_event(refsb);
 1325
 1326		if (!spare_disk && ev1 > ev2)
 1327			ret = 1;
 1328		else
 1329			ret = 0;
 1330	}
 1331	rdev->sectors = rdev->sb_start;
 1332	/* Limit to 4TB as metadata cannot record more than that.
 1333	 * (not needed for Linear and RAID0 as metadata doesn't
 1334	 * record this size)
 1335	 */
 1336	if ((u64)rdev->sectors >= (2ULL << 32) && sb->level >= 1)
 1337		rdev->sectors = (sector_t)(2ULL << 32) - 2;
 1338
 1339	if (rdev->sectors < ((sector_t)sb->size) * 2 && sb->level >= 1)
 1340		/* "this cannot possibly happen" ... */
 1341		ret = -EINVAL;
 1342
 1343 abort:
 1344	return ret;
 1345}
 1346
 1347/*
 1348 * validate_super for 0.90.0
 1349 */
 1350static int super_90_validate(struct mddev *mddev, struct md_rdev *rdev)
 1351{
 1352	mdp_disk_t *desc;
 1353	mdp_super_t *sb = page_address(rdev->sb_page);
 1354	__u64 ev1 = md_event(sb);
 1355
 1356	rdev->raid_disk = -1;
 1357	clear_bit(Faulty, &rdev->flags);
 1358	clear_bit(In_sync, &rdev->flags);
 1359	clear_bit(Bitmap_sync, &rdev->flags);
 1360	clear_bit(WriteMostly, &rdev->flags);
 1361
 1362	if (mddev->raid_disks == 0) {
 1363		mddev->major_version = 0;
 1364		mddev->minor_version = sb->minor_version;
 1365		mddev->patch_version = sb->patch_version;
 1366		mddev->external = 0;
 1367		mddev->chunk_sectors = sb->chunk_size >> 9;
 1368		mddev->ctime = sb->ctime;
 1369		mddev->utime = sb->utime;
 1370		mddev->level = sb->level;
 1371		mddev->clevel[0] = 0;
 1372		mddev->layout = sb->layout;
 1373		mddev->raid_disks = sb->raid_disks;
 1374		mddev->dev_sectors = ((sector_t)sb->size) * 2;
 1375		mddev->events = ev1;
 1376		mddev->bitmap_info.offset = 0;
 1377		mddev->bitmap_info.space = 0;
 1378		/* bitmap can use 60 K after the 4K superblocks */
 1379		mddev->bitmap_info.default_offset = MD_SB_BYTES >> 9;
 1380		mddev->bitmap_info.default_space = 64*2 - (MD_SB_BYTES >> 9);
 1381		mddev->reshape_backwards = 0;
 1382
 1383		if (mddev->minor_version >= 91) {
 1384			mddev->reshape_position = sb->reshape_position;
 1385			mddev->delta_disks = sb->delta_disks;
 1386			mddev->new_level = sb->new_level;
 1387			mddev->new_layout = sb->new_layout;
 1388			mddev->new_chunk_sectors = sb->new_chunk >> 9;
 1389			if (mddev->delta_disks < 0)
 1390				mddev->reshape_backwards = 1;
 1391		} else {
 1392			mddev->reshape_position = MaxSector;
 1393			mddev->delta_disks = 0;
 1394			mddev->new_level = mddev->level;
 1395			mddev->new_layout = mddev->layout;
 1396			mddev->new_chunk_sectors = mddev->chunk_sectors;
 1397		}
 1398		if (mddev->level == 0)
 1399			mddev->layout = -1;
 1400
 1401		if (sb->state & (1<<MD_SB_CLEAN))
 1402			mddev->recovery_cp = MaxSector;
 1403		else {
 1404			if (sb->events_hi == sb->cp_events_hi &&
 1405				sb->events_lo == sb->cp_events_lo) {
 1406				mddev->recovery_cp = sb->recovery_cp;
 1407			} else
 1408				mddev->recovery_cp = 0;
 1409		}
 1410
 1411		memcpy(mddev->uuid+0, &sb->set_uuid0, 4);
 1412		memcpy(mddev->uuid+4, &sb->set_uuid1, 4);
 1413		memcpy(mddev->uuid+8, &sb->set_uuid2, 4);
 1414		memcpy(mddev->uuid+12,&sb->set_uuid3, 4);
 1415
 1416		mddev->max_disks = MD_SB_DISKS;
 1417
 1418		if (sb->state & (1<<MD_SB_BITMAP_PRESENT) &&
 1419		    mddev->bitmap_info.file == NULL) {
 1420			mddev->bitmap_info.offset =
 1421				mddev->bitmap_info.default_offset;
 1422			mddev->bitmap_info.space =
 1423				mddev->bitmap_info.default_space;
 1424		}
 1425
 1426	} else if (mddev->pers == NULL) {
 1427		/* Insist on good event counter while assembling, except
 1428		 * for spares (which don't need an event count) */
 1429		++ev1;
 1430		if (sb->disks[rdev->desc_nr].state & (
 1431			    (1<<MD_DISK_SYNC) | (1 << MD_DISK_ACTIVE)))
 1432			if (ev1 < mddev->events)
 1433				return -EINVAL;
 1434	} else if (mddev->bitmap) {
 1435		/* if adding to array with a bitmap, then we can accept an
 1436		 * older device ... but not too old.
 1437		 */
 1438		if (ev1 < mddev->bitmap->events_cleared)
 1439			return 0;
 1440		if (ev1 < mddev->events)
 1441			set_bit(Bitmap_sync, &rdev->flags);
 1442	} else {
 1443		if (ev1 < mddev->events)
 1444			/* just a hot-add of a new device, leave raid_disk at -1 */
 1445			return 0;
 1446	}
 1447
 1448	if (mddev->level != LEVEL_MULTIPATH) {
 1449		desc = sb->disks + rdev->desc_nr;
 1450
 1451		if (desc->state & (1<<MD_DISK_FAULTY))
 1452			set_bit(Faulty, &rdev->flags);
 1453		else if (desc->state & (1<<MD_DISK_SYNC) /* &&
 1454			    desc->raid_disk < mddev->raid_disks */) {
 1455			set_bit(In_sync, &rdev->flags);
 1456			rdev->raid_disk = desc->raid_disk;
 1457			rdev->saved_raid_disk = desc->raid_disk;
 1458		} else if (desc->state & (1<<MD_DISK_ACTIVE)) {
 1459			/* active but not in sync implies recovery up to
 1460			 * reshape position.  We don't know exactly where
 1461			 * that is, so set to zero for now */
 1462			if (mddev->minor_version >= 91) {
 1463				rdev->recovery_offset = 0;
 1464				rdev->raid_disk = desc->raid_disk;
 1465			}
 1466		}
 1467		if (desc->state & (1<<MD_DISK_WRITEMOSTLY))
 1468			set_bit(WriteMostly, &rdev->flags);
 1469		if (desc->state & (1<<MD_DISK_FAILFAST))
 1470			set_bit(FailFast, &rdev->flags);
 1471	} else /* MULTIPATH are always insync */
 1472		set_bit(In_sync, &rdev->flags);
 1473	return 0;
 1474}
 1475
 1476/*
 1477 * sync_super for 0.90.0
 1478 */
 1479static void super_90_sync(struct mddev *mddev, struct md_rdev *rdev)
 1480{
 1481	mdp_super_t *sb;
 1482	struct md_rdev *rdev2;
 1483	int next_spare = mddev->raid_disks;
 1484
 1485	/* make rdev->sb match mddev data..
 1486	 *
 1487	 * 1/ zero out disks
 1488	 * 2/ Add info for each disk, keeping track of highest desc_nr (next_spare);
 1489	 * 3/ any empty disks < next_spare become removed
 1490	 *
 1491	 * disks[0] gets initialised to REMOVED because
 1492	 * we cannot be sure from other fields if it has
 1493	 * been initialised or not.
 1494	 */
 1495	int i;
 1496	int active=0, working=0,failed=0,spare=0,nr_disks=0;
 1497
 1498	rdev->sb_size = MD_SB_BYTES;
 1499
 1500	sb = page_address(rdev->sb_page);
 1501
 1502	memset(sb, 0, sizeof(*sb));
 1503
 1504	sb->md_magic = MD_SB_MAGIC;
 1505	sb->major_version = mddev->major_version;
 1506	sb->patch_version = mddev->patch_version;
 1507	sb->gvalid_words  = 0; /* ignored */
 1508	memcpy(&sb->set_uuid0, mddev->uuid+0, 4);
 1509	memcpy(&sb->set_uuid1, mddev->uuid+4, 4);
 1510	memcpy(&sb->set_uuid2, mddev->uuid+8, 4);
 1511	memcpy(&sb->set_uuid3, mddev->uuid+12,4);
 1512
 1513	sb->ctime = clamp_t(time64_t, mddev->ctime, 0, U32_MAX);
 1514	sb->level = mddev->level;
 1515	sb->size = mddev->dev_sectors / 2;
 1516	sb->raid_disks = mddev->raid_disks;
 1517	sb->md_minor = mddev->md_minor;
 1518	sb->not_persistent = 0;
 1519	sb->utime = clamp_t(time64_t, mddev->utime, 0, U32_MAX);
 1520	sb->state = 0;
 1521	sb->events_hi = (mddev->events>>32);
 1522	sb->events_lo = (u32)mddev->events;
 1523
 1524	if (mddev->reshape_position == MaxSector)
 1525		sb->minor_version = 90;
 1526	else {
 1527		sb->minor_version = 91;
 1528		sb->reshape_position = mddev->reshape_position;
 1529		sb->new_level = mddev->new_level;
 1530		sb->delta_disks = mddev->delta_disks;
 1531		sb->new_layout = mddev->new_layout;
 1532		sb->new_chunk = mddev->new_chunk_sectors << 9;
 1533	}
 1534	mddev->minor_version = sb->minor_version;
 1535	if (mddev->in_sync)
 1536	{
 1537		sb->recovery_cp = mddev->recovery_cp;
 1538		sb->cp_events_hi = (mddev->events>>32);
 1539		sb->cp_events_lo = (u32)mddev->events;
 1540		if (mddev->recovery_cp == MaxSector)
 1541			sb->state = (1<< MD_SB_CLEAN);
 1542	} else
 1543		sb->recovery_cp = 0;
 1544
 1545	sb->layout = mddev->layout;
 1546	sb->chunk_size = mddev->chunk_sectors << 9;
 1547
 1548	if (mddev->bitmap && mddev->bitmap_info.file == NULL)
 1549		sb->state |= (1<<MD_SB_BITMAP_PRESENT);
 1550
 1551	sb->disks[0].state = (1<<MD_DISK_REMOVED);
 1552	rdev_for_each(rdev2, mddev) {
 1553		mdp_disk_t *d;
 1554		int desc_nr;
 1555		int is_active = test_bit(In_sync, &rdev2->flags);
 1556
 1557		if (rdev2->raid_disk >= 0 &&
 1558		    sb->minor_version >= 91)
 1559			/* we have nowhere to store the recovery_offset,
 1560			 * but if it is not below the reshape_position,
 1561			 * we can piggy-back on that.
 1562			 */
 1563			is_active = 1;
 1564		if (rdev2->raid_disk < 0 ||
 1565		    test_bit(Faulty, &rdev2->flags))
 1566			is_active = 0;
 1567		if (is_active)
 1568			desc_nr = rdev2->raid_disk;
 1569		else
 1570			desc_nr = next_spare++;
 1571		rdev2->desc_nr = desc_nr;
 1572		d = &sb->disks[rdev2->desc_nr];
 1573		nr_disks++;
 1574		d->number = rdev2->desc_nr;
 1575		d->major = MAJOR(rdev2->bdev->bd_dev);
 1576		d->minor = MINOR(rdev2->bdev->bd_dev);
 1577		if (is_active)
 1578			d->raid_disk = rdev2->raid_disk;
 1579		else
 1580			d->raid_disk = rdev2->desc_nr; /* compatibility */
 1581		if (test_bit(Faulty, &rdev2->flags))
 1582			d->state = (1<<MD_DISK_FAULTY);
 1583		else if (is_active) {
 1584			d->state = (1<<MD_DISK_ACTIVE);
 1585			if (test_bit(In_sync, &rdev2->flags))
 1586				d->state |= (1<<MD_DISK_SYNC);
 1587			active++;
 1588			working++;
 1589		} else {
 1590			d->state = 0;
 1591			spare++;
 1592			working++;
 1593		}
 1594		if (test_bit(WriteMostly, &rdev2->flags))
 1595			d->state |= (1<<MD_DISK_WRITEMOSTLY);
 1596		if (test_bit(FailFast, &rdev2->flags))
 1597			d->state |= (1<<MD_DISK_FAILFAST);
 1598	}
 1599	/* now set the "removed" and "faulty" bits on any missing devices */
 1600	for (i=0 ; i < mddev->raid_disks ; i++) {
 1601		mdp_disk_t *d = &sb->disks[i];
 1602		if (d->state == 0 && d->number == 0) {
 1603			d->number = i;
 1604			d->raid_disk = i;
 1605			d->state = (1<<MD_DISK_REMOVED);
 1606			d->state |= (1<<MD_DISK_FAULTY);
 1607			failed++;
 1608		}
 1609	}
 1610	sb->nr_disks = nr_disks;
 1611	sb->active_disks = active;
 1612	sb->working_disks = working;
 1613	sb->failed_disks = failed;
 1614	sb->spare_disks = spare;
 1615
 1616	sb->this_disk = sb->disks[rdev->desc_nr];
 1617	sb->sb_csum = calc_sb_csum(sb);
 1618}
 1619
 1620/*
 1621 * rdev_size_change for 0.90.0
 1622 */
 1623static unsigned long long
 1624super_90_rdev_size_change(struct md_rdev *rdev, sector_t num_sectors)
 1625{
 1626	if (num_sectors && num_sectors < rdev->mddev->dev_sectors)
 1627		return 0; /* component must fit device */
 1628	if (rdev->mddev->bitmap_info.offset)
 1629		return 0; /* can't move bitmap */
 1630	rdev->sb_start = calc_dev_sboffset(rdev);
 1631	if (!num_sectors || num_sectors > rdev->sb_start)
 1632		num_sectors = rdev->sb_start;
 1633	/* Limit to 4TB as metadata cannot record more than that.
 1634	 * 4TB == 2^32 KB, or 2*2^32 sectors.
 1635	 */
 1636	if ((u64)num_sectors >= (2ULL << 32) && rdev->mddev->level >= 1)
 1637		num_sectors = (sector_t)(2ULL << 32) - 2;
 1638	do {
 1639		md_super_write(rdev->mddev, rdev, rdev->sb_start, rdev->sb_size,
 1640		       rdev->sb_page);
 1641	} while (md_super_wait(rdev->mddev) < 0);
 1642	return num_sectors;
 1643}
 1644
 1645static int
 1646super_90_allow_new_offset(struct md_rdev *rdev, unsigned long long new_offset)
 1647{
 1648	/* non-zero offset changes not possible with v0.90 */
 1649	return new_offset == 0;
 1650}
 1651
 1652/*
 1653 * version 1 superblock
 1654 */
 1655
 1656static __le32 calc_sb_1_csum(struct mdp_superblock_1 *sb)
 1657{
 1658	__le32 disk_csum;
 1659	u32 csum;
 1660	unsigned long long newcsum;
 1661	int size = 256 + le32_to_cpu(sb->max_dev)*2;
 1662	__le32 *isuper = (__le32*)sb;
 1663
 1664	disk_csum = sb->sb_csum;
 1665	sb->sb_csum = 0;
 1666	newcsum = 0;
 1667	for (; size >= 4; size -= 4)
 1668		newcsum += le32_to_cpu(*isuper++);
 1669
 1670	if (size == 2)
 1671		newcsum += le16_to_cpu(*(__le16*) isuper);
 1672
 1673	csum = (newcsum & 0xffffffff) + (newcsum >> 32);
 1674	sb->sb_csum = disk_csum;
 1675	return cpu_to_le32(csum);
 1676}
 1677
 1678static int super_1_load(struct md_rdev *rdev, struct md_rdev *refdev, int minor_version)
 1679{
 1680	struct mdp_superblock_1 *sb;
 1681	int ret;
 1682	sector_t sb_start;
 1683	sector_t sectors;
 1684	int bmask;
 1685	bool spare_disk = true;
 1686
 1687	/*
 1688	 * Calculate the position of the superblock in 512byte sectors.
 1689	 * It is always aligned to a 4K boundary and
 1690	 * depeding on minor_version, it can be:
 1691	 * 0: At least 8K, but less than 12K, from end of device
 1692	 * 1: At start of device
 1693	 * 2: 4K from start of device.
 1694	 */
 1695	switch(minor_version) {
 1696	case 0:
 1697		sb_start = bdev_nr_sectors(rdev->bdev) - 8 * 2;
 1698		sb_start &= ~(sector_t)(4*2-1);
 1699		break;
 1700	case 1:
 1701		sb_start = 0;
 1702		break;
 1703	case 2:
 1704		sb_start = 8;
 1705		break;
 1706	default:
 1707		return -EINVAL;
 1708	}
 1709	rdev->sb_start = sb_start;
 1710
 1711	/* superblock is rarely larger than 1K, but it can be larger,
 1712	 * and it is safe to read 4k, so we do that
 1713	 */
 1714	ret = read_disk_sb(rdev, 4096);
 1715	if (ret) return ret;
 1716
 1717	sb = page_address(rdev->sb_page);
 1718
 1719	if (sb->magic != cpu_to_le32(MD_SB_MAGIC) ||
 1720	    sb->major_version != cpu_to_le32(1) ||
 1721	    le32_to_cpu(sb->max_dev) > (4096-256)/2 ||
 1722	    le64_to_cpu(sb->super_offset) != rdev->sb_start ||
 1723	    (le32_to_cpu(sb->feature_map) & ~MD_FEATURE_ALL) != 0)
 1724		return -EINVAL;
 1725
 1726	if (calc_sb_1_csum(sb) != sb->sb_csum) {
 1727		pr_warn("md: invalid superblock checksum on %pg\n",
 1728			rdev->bdev);
 1729		return -EINVAL;
 1730	}
 1731	if (le64_to_cpu(sb->data_size) < 10) {
 1732		pr_warn("md: data_size too small on %pg\n",
 1733			rdev->bdev);
 1734		return -EINVAL;
 1735	}
 1736	if (sb->pad0 ||
 1737	    sb->pad3[0] ||
 1738	    memcmp(sb->pad3, sb->pad3+1, sizeof(sb->pad3) - sizeof(sb->pad3[1])))
 1739		/* Some padding is non-zero, might be a new feature */
 1740		return -EINVAL;
 1741
 1742	rdev->preferred_minor = 0xffff;
 1743	rdev->data_offset = le64_to_cpu(sb->data_offset);
 1744	rdev->new_data_offset = rdev->data_offset;
 1745	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_RESHAPE_ACTIVE) &&
 1746	    (le32_to_cpu(sb->feature_map) & MD_FEATURE_NEW_OFFSET))
 1747		rdev->new_data_offset += (s32)le32_to_cpu(sb->new_offset);
 1748	atomic_set(&rdev->corrected_errors, le32_to_cpu(sb->cnt_corrected_read));
 1749
 1750	rdev->sb_size = le32_to_cpu(sb->max_dev) * 2 + 256;
 1751	bmask = queue_logical_block_size(rdev->bdev->bd_disk->queue)-1;
 1752	if (rdev->sb_size & bmask)
 1753		rdev->sb_size = (rdev->sb_size | bmask) + 1;
 1754
 1755	if (minor_version
 1756	    && rdev->data_offset < sb_start + (rdev->sb_size/512))
 1757		return -EINVAL;
 1758	if (minor_version
 1759	    && rdev->new_data_offset < sb_start + (rdev->sb_size/512))
 1760		return -EINVAL;
 1761
 1762	if (sb->level == cpu_to_le32(LEVEL_MULTIPATH))
 1763		rdev->desc_nr = -1;
 1764	else
 1765		rdev->desc_nr = le32_to_cpu(sb->dev_number);
 1766
 1767	if (!rdev->bb_page) {
 1768		rdev->bb_page = alloc_page(GFP_KERNEL);
 1769		if (!rdev->bb_page)
 1770			return -ENOMEM;
 1771	}
 1772	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_BAD_BLOCKS) &&
 1773	    rdev->badblocks.count == 0) {
 1774		/* need to load the bad block list.
 1775		 * Currently we limit it to one page.
 1776		 */
 1777		s32 offset;
 1778		sector_t bb_sector;
 1779		__le64 *bbp;
 1780		int i;
 1781		int sectors = le16_to_cpu(sb->bblog_size);
 1782		if (sectors > (PAGE_SIZE / 512))
 1783			return -EINVAL;
 1784		offset = le32_to_cpu(sb->bblog_offset);
 1785		if (offset == 0)
 1786			return -EINVAL;
 1787		bb_sector = (long long)offset;
 1788		if (!sync_page_io(rdev, bb_sector, sectors << 9,
 1789				  rdev->bb_page, REQ_OP_READ, true))
 1790			return -EIO;
 1791		bbp = (__le64 *)page_address(rdev->bb_page);
 1792		rdev->badblocks.shift = sb->bblog_shift;
 1793		for (i = 0 ; i < (sectors << (9-3)) ; i++, bbp++) {
 1794			u64 bb = le64_to_cpu(*bbp);
 1795			int count = bb & (0x3ff);
 1796			u64 sector = bb >> 10;
 1797			sector <<= sb->bblog_shift;
 1798			count <<= sb->bblog_shift;
 1799			if (bb + 1 == 0)
 1800				break;
 1801			if (badblocks_set(&rdev->badblocks, sector, count, 1))
 1802				return -EINVAL;
 1803		}
 1804	} else if (sb->bblog_offset != 0)
 1805		rdev->badblocks.shift = 0;
 1806
 1807	if ((le32_to_cpu(sb->feature_map) &
 1808	    (MD_FEATURE_PPL | MD_FEATURE_MULTIPLE_PPLS))) {
 1809		rdev->ppl.offset = (__s16)le16_to_cpu(sb->ppl.offset);
 1810		rdev->ppl.size = le16_to_cpu(sb->ppl.size);
 1811		rdev->ppl.sector = rdev->sb_start + rdev->ppl.offset;
 1812	}
 1813
 1814	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_RAID0_LAYOUT) &&
 1815	    sb->level != 0)
 1816		return -EINVAL;
 1817
 1818	/* not spare disk, or LEVEL_MULTIPATH */
 1819	if (sb->level == cpu_to_le32(LEVEL_MULTIPATH) ||
 1820		(rdev->desc_nr >= 0 &&
 1821		rdev->desc_nr < le32_to_cpu(sb->max_dev) &&
 1822		(le16_to_cpu(sb->dev_roles[rdev->desc_nr]) < MD_DISK_ROLE_MAX ||
 1823		 le16_to_cpu(sb->dev_roles[rdev->desc_nr]) == MD_DISK_ROLE_JOURNAL)))
 1824		spare_disk = false;
 1825
 1826	if (!refdev) {
 1827		if (!spare_disk)
 1828			ret = 1;
 1829		else
 1830			ret = 0;
 1831	} else {
 1832		__u64 ev1, ev2;
 1833		struct mdp_superblock_1 *refsb = page_address(refdev->sb_page);
 1834
 1835		if (memcmp(sb->set_uuid, refsb->set_uuid, 16) != 0 ||
 1836		    sb->level != refsb->level ||
 1837		    sb->layout != refsb->layout ||
 1838		    sb->chunksize != refsb->chunksize) {
 1839			pr_warn("md: %pg has strangely different superblock to %pg\n",
 1840				rdev->bdev,
 1841				refdev->bdev);
 1842			return -EINVAL;
 1843		}
 1844		ev1 = le64_to_cpu(sb->events);
 1845		ev2 = le64_to_cpu(refsb->events);
 1846
 1847		if (!spare_disk && ev1 > ev2)
 1848			ret = 1;
 1849		else
 1850			ret = 0;
 1851	}
 1852	if (minor_version)
 1853		sectors = bdev_nr_sectors(rdev->bdev) - rdev->data_offset;
 1854	else
 1855		sectors = rdev->sb_start;
 1856	if (sectors < le64_to_cpu(sb->data_size))
 1857		return -EINVAL;
 1858	rdev->sectors = le64_to_cpu(sb->data_size);
 1859	return ret;
 1860}
 1861
 1862static int super_1_validate(struct mddev *mddev, struct md_rdev *rdev)
 1863{
 1864	struct mdp_superblock_1 *sb = page_address(rdev->sb_page);
 1865	__u64 ev1 = le64_to_cpu(sb->events);
 1866
 1867	rdev->raid_disk = -1;
 1868	clear_bit(Faulty, &rdev->flags);
 1869	clear_bit(In_sync, &rdev->flags);
 1870	clear_bit(Bitmap_sync, &rdev->flags);
 1871	clear_bit(WriteMostly, &rdev->flags);
 1872
 1873	if (mddev->raid_disks == 0) {
 1874		mddev->major_version = 1;
 1875		mddev->patch_version = 0;
 1876		mddev->external = 0;
 1877		mddev->chunk_sectors = le32_to_cpu(sb->chunksize);
 1878		mddev->ctime = le64_to_cpu(sb->ctime);
 1879		mddev->utime = le64_to_cpu(sb->utime);
 1880		mddev->level = le32_to_cpu(sb->level);
 1881		mddev->clevel[0] = 0;
 1882		mddev->layout = le32_to_cpu(sb->layout);
 1883		mddev->raid_disks = le32_to_cpu(sb->raid_disks);
 1884		mddev->dev_sectors = le64_to_cpu(sb->size);
 1885		mddev->events = ev1;
 1886		mddev->bitmap_info.offset = 0;
 1887		mddev->bitmap_info.space = 0;
 1888		/* Default location for bitmap is 1K after superblock
 1889		 * using 3K - total of 4K
 1890		 */
 1891		mddev->bitmap_info.default_offset = 1024 >> 9;
 1892		mddev->bitmap_info.default_space = (4096-1024) >> 9;
 1893		mddev->reshape_backwards = 0;
 1894
 1895		mddev->recovery_cp = le64_to_cpu(sb->resync_offset);
 1896		memcpy(mddev->uuid, sb->set_uuid, 16);
 1897
 1898		mddev->max_disks =  (4096-256)/2;
 1899
 1900		if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_BITMAP_OFFSET) &&
 1901		    mddev->bitmap_info.file == NULL) {
 1902			mddev->bitmap_info.offset =
 1903				(__s32)le32_to_cpu(sb->bitmap_offset);
 1904			/* Metadata doesn't record how much space is available.
 1905			 * For 1.0, we assume we can use up to the superblock
 1906			 * if before, else to 4K beyond superblock.
 1907			 * For others, assume no change is possible.
 1908			 */
 1909			if (mddev->minor_version > 0)
 1910				mddev->bitmap_info.space = 0;
 1911			else if (mddev->bitmap_info.offset > 0)
 1912				mddev->bitmap_info.space =
 1913					8 - mddev->bitmap_info.offset;
 1914			else
 1915				mddev->bitmap_info.space =
 1916					-mddev->bitmap_info.offset;
 1917		}
 1918
 1919		if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_RESHAPE_ACTIVE)) {
 1920			mddev->reshape_position = le64_to_cpu(sb->reshape_position);
 1921			mddev->delta_disks = le32_to_cpu(sb->delta_disks);
 1922			mddev->new_level = le32_to_cpu(sb->new_level);
 1923			mddev->new_layout = le32_to_cpu(sb->new_layout);
 1924			mddev->new_chunk_sectors = le32_to_cpu(sb->new_chunk);
 1925			if (mddev->delta_disks < 0 ||
 1926			    (mddev->delta_disks == 0 &&
 1927			     (le32_to_cpu(sb->feature_map)
 1928			      & MD_FEATURE_RESHAPE_BACKWARDS)))
 1929				mddev->reshape_backwards = 1;
 1930		} else {
 1931			mddev->reshape_position = MaxSector;
 1932			mddev->delta_disks = 0;
 1933			mddev->new_level = mddev->level;
 1934			mddev->new_layout = mddev->layout;
 1935			mddev->new_chunk_sectors = mddev->chunk_sectors;
 1936		}
 1937
 1938		if (mddev->level == 0 &&
 1939		    !(le32_to_cpu(sb->feature_map) & MD_FEATURE_RAID0_LAYOUT))
 1940			mddev->layout = -1;
 1941
 1942		if (le32_to_cpu(sb->feature_map) & MD_FEATURE_JOURNAL)
 1943			set_bit(MD_HAS_JOURNAL, &mddev->flags);
 1944
 1945		if (le32_to_cpu(sb->feature_map) &
 1946		    (MD_FEATURE_PPL | MD_FEATURE_MULTIPLE_PPLS)) {
 1947			if (le32_to_cpu(sb->feature_map) &
 1948			    (MD_FEATURE_BITMAP_OFFSET | MD_FEATURE_JOURNAL))
 1949				return -EINVAL;
 1950			if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_PPL) &&
 1951			    (le32_to_cpu(sb->feature_map) &
 1952					    MD_FEATURE_MULTIPLE_PPLS))
 1953				return -EINVAL;
 1954			set_bit(MD_HAS_PPL, &mddev->flags);
 1955		}
 1956	} else if (mddev->pers == NULL) {
 1957		/* Insist of good event counter while assembling, except for
 1958		 * spares (which don't need an event count) */
 1959		++ev1;
 1960		if (rdev->desc_nr >= 0 &&
 1961		    rdev->desc_nr < le32_to_cpu(sb->max_dev) &&
 1962		    (le16_to_cpu(sb->dev_roles[rdev->desc_nr]) < MD_DISK_ROLE_MAX ||
 1963		     le16_to_cpu(sb->dev_roles[rdev->desc_nr]) == MD_DISK_ROLE_JOURNAL))
 1964			if (ev1 < mddev->events)
 1965				return -EINVAL;
 1966	} else if (mddev->bitmap) {
 1967		/* If adding to array with a bitmap, then we can accept an
 1968		 * older device, but not too old.
 1969		 */
 1970		if (ev1 < mddev->bitmap->events_cleared)
 1971			return 0;
 1972		if (ev1 < mddev->events)
 1973			set_bit(Bitmap_sync, &rdev->flags);
 1974	} else {
 1975		if (ev1 < mddev->events)
 1976			/* just a hot-add of a new device, leave raid_disk at -1 */
 1977			return 0;
 1978	}
 1979	if (mddev->level != LEVEL_MULTIPATH) {
 1980		int role;
 1981		if (rdev->desc_nr < 0 ||
 1982		    rdev->desc_nr >= le32_to_cpu(sb->max_dev)) {
 1983			role = MD_DISK_ROLE_SPARE;
 1984			rdev->desc_nr = -1;
 1985		} else
 1986			role = le16_to_cpu(sb->dev_roles[rdev->desc_nr]);
 1987		switch(role) {
 1988		case MD_DISK_ROLE_SPARE: /* spare */
 1989			break;
 1990		case MD_DISK_ROLE_FAULTY: /* faulty */
 1991			set_bit(Faulty, &rdev->flags);
 1992			break;
 1993		case MD_DISK_ROLE_JOURNAL: /* journal device */
 1994			if (!(le32_to_cpu(sb->feature_map) & MD_FEATURE_JOURNAL)) {
 1995				/* journal device without journal feature */
 1996				pr_warn("md: journal device provided without journal feature, ignoring the device\n");
 1997				return -EINVAL;
 1998			}
 1999			set_bit(Journal, &rdev->flags);
 2000			rdev->journal_tail = le64_to_cpu(sb->journal_tail);
 2001			rdev->raid_disk = 0;
 2002			break;
 2003		default:
 2004			rdev->saved_raid_disk = role;
 2005			if ((le32_to_cpu(sb->feature_map) &
 2006			     MD_FEATURE_RECOVERY_OFFSET)) {
 2007				rdev->recovery_offset = le64_to_cpu(sb->recovery_offset);
 2008				if (!(le32_to_cpu(sb->feature_map) &
 2009				      MD_FEATURE_RECOVERY_BITMAP))
 2010					rdev->saved_raid_disk = -1;
 2011			} else {
 2012				/*
 2013				 * If the array is FROZEN, then the device can't
 2014				 * be in_sync with rest of array.
 2015				 */
 2016				if (!test_bit(MD_RECOVERY_FROZEN,
 2017					      &mddev->recovery))
 2018					set_bit(In_sync, &rdev->flags);
 2019			}
 2020			rdev->raid_disk = role;
 2021			break;
 2022		}
 2023		if (sb->devflags & WriteMostly1)
 2024			set_bit(WriteMostly, &rdev->flags);
 2025		if (sb->devflags & FailFast1)
 2026			set_bit(FailFast, &rdev->flags);
 2027		if (le32_to_cpu(sb->feature_map) & MD_FEATURE_REPLACEMENT)
 2028			set_bit(Replacement, &rdev->flags);
 2029	} else /* MULTIPATH are always insync */
 2030		set_bit(In_sync, &rdev->flags);
 2031
 2032	return 0;
 2033}
 2034
 2035static void super_1_sync(struct mddev *mddev, struct md_rdev *rdev)
 2036{
 2037	struct mdp_superblock_1 *sb;
 2038	struct md_rdev *rdev2;
 2039	int max_dev, i;
 2040	/* make rdev->sb match mddev and rdev data. */
 2041
 2042	sb = page_address(rdev->sb_page);
 2043
 2044	sb->feature_map = 0;
 2045	sb->pad0 = 0;
 2046	sb->recovery_offset = cpu_to_le64(0);
 2047	memset(sb->pad3, 0, sizeof(sb->pad3));
 2048
 2049	sb->utime = cpu_to_le64((__u64)mddev->utime);
 2050	sb->events = cpu_to_le64(mddev->events);
 2051	if (mddev->in_sync)
 2052		sb->resync_offset = cpu_to_le64(mddev->recovery_cp);
 2053	else if (test_bit(MD_JOURNAL_CLEAN, &mddev->flags))
 2054		sb->resync_offset = cpu_to_le64(MaxSector);
 2055	else
 2056		sb->resync_offset = cpu_to_le64(0);
 2057
 2058	sb->cnt_corrected_read = cpu_to_le32(atomic_read(&rdev->corrected_errors));
 2059
 2060	sb->raid_disks = cpu_to_le32(mddev->raid_disks);
 2061	sb->size = cpu_to_le64(mddev->dev_sectors);
 2062	sb->chunksize = cpu_to_le32(mddev->chunk_sectors);
 2063	sb->level = cpu_to_le32(mddev->level);
 2064	sb->layout = cpu_to_le32(mddev->layout);
 2065	if (test_bit(FailFast, &rdev->flags))
 2066		sb->devflags |= FailFast1;
 2067	else
 2068		sb->devflags &= ~FailFast1;
 2069
 2070	if (test_bit(WriteMostly, &rdev->flags))
 2071		sb->devflags |= WriteMostly1;
 2072	else
 2073		sb->devflags &= ~WriteMostly1;
 2074	sb->data_offset = cpu_to_le64(rdev->data_offset);
 2075	sb->data_size = cpu_to_le64(rdev->sectors);
 2076
 2077	if (mddev->bitmap && mddev->bitmap_info.file == NULL) {
 2078		sb->bitmap_offset = cpu_to_le32((__u32)mddev->bitmap_info.offset);
 2079		sb->feature_map = cpu_to_le32(MD_FEATURE_BITMAP_OFFSET);
 2080	}
 2081
 2082	if (rdev->raid_disk >= 0 && !test_bit(Journal, &rdev->flags) &&
 2083	    !test_bit(In_sync, &rdev->flags)) {
 2084		sb->feature_map |=
 2085			cpu_to_le32(MD_FEATURE_RECOVERY_OFFSET);
 2086		sb->recovery_offset =
 2087			cpu_to_le64(rdev->recovery_offset);
 2088		if (rdev->saved_raid_disk >= 0 && mddev->bitmap)
 2089			sb->feature_map |=
 2090				cpu_to_le32(MD_FEATURE_RECOVERY_BITMAP);
 2091	}
 2092	/* Note: recovery_offset and journal_tail share space  */
 2093	if (test_bit(Journal, &rdev->flags))
 2094		sb->journal_tail = cpu_to_le64(rdev->journal_tail);
 2095	if (test_bit(Replacement, &rdev->flags))
 2096		sb->feature_map |=
 2097			cpu_to_le32(MD_FEATURE_REPLACEMENT);
 2098
 2099	if (mddev->reshape_position != MaxSector) {
 2100		sb->feature_map |= cpu_to_le32(MD_FEATURE_RESHAPE_ACTIVE);
 2101		sb->reshape_position = cpu_to_le64(mddev->reshape_position);
 2102		sb->new_layout = cpu_to_le32(mddev->new_layout);
 2103		sb->delta_disks = cpu_to_le32(mddev->delta_disks);
 2104		sb->new_level = cpu_to_le32(mddev->new_level);
 2105		sb->new_chunk = cpu_to_le32(mddev->new_chunk_sectors);
 2106		if (mddev->delta_disks == 0 &&
 2107		    mddev->reshape_backwards)
 2108			sb->feature_map
 2109				|= cpu_to_le32(MD_FEATURE_RESHAPE_BACKWARDS);
 2110		if (rdev->new_data_offset != rdev->data_offset) {
 2111			sb->feature_map
 2112				|= cpu_to_le32(MD_FEATURE_NEW_OFFSET);
 2113			sb->new_offset = cpu_to_le32((__u32)(rdev->new_data_offset
 2114							     - rdev->data_offset));
 2115		}
 2116	}
 2117
 2118	if (mddev_is_clustered(mddev))
 2119		sb->feature_map |= cpu_to_le32(MD_FEATURE_CLUSTERED);
 2120
 2121	if (rdev->badblocks.count == 0)
 2122		/* Nothing to do for bad blocks*/ ;
 2123	else if (sb->bblog_offset == 0)
 2124		/* Cannot record bad blocks on this device */
 2125		md_error(mddev, rdev);
 2126	else {
 2127		struct badblocks *bb = &rdev->badblocks;
 2128		__le64 *bbp = (__le64 *)page_address(rdev->bb_page);
 2129		u64 *p = bb->page;
 2130		sb->feature_map |= cpu_to_le32(MD_FEATURE_BAD_BLOCKS);
 2131		if (bb->changed) {
 2132			unsigned seq;
 2133
 2134retry:
 2135			seq = read_seqbegin(&bb->lock);
 2136
 2137			memset(bbp, 0xff, PAGE_SIZE);
 2138
 2139			for (i = 0 ; i < bb->count ; i++) {
 2140				u64 internal_bb = p[i];
 2141				u64 store_bb = ((BB_OFFSET(internal_bb) << 10)
 2142						| BB_LEN(internal_bb));
 2143				bbp[i] = cpu_to_le64(store_bb);
 2144			}
 2145			bb->changed = 0;
 2146			if (read_seqretry(&bb->lock, seq))
 2147				goto retry;
 2148
 2149			bb->sector = (rdev->sb_start +
 2150				      (int)le32_to_cpu(sb->bblog_offset));
 2151			bb->size = le16_to_cpu(sb->bblog_size);
 2152		}
 2153	}
 2154
 2155	max_dev = 0;
 2156	rdev_for_each(rdev2, mddev)
 2157		if (rdev2->desc_nr+1 > max_dev)
 2158			max_dev = rdev2->desc_nr+1;
 2159
 2160	if (max_dev > le32_to_cpu(sb->max_dev)) {
 2161		int bmask;
 2162		sb->max_dev = cpu_to_le32(max_dev);
 2163		rdev->sb_size = max_dev * 2 + 256;
 2164		bmask = queue_logical_block_size(rdev->bdev->bd_disk->queue)-1;
 2165		if (rdev->sb_size & bmask)
 2166			rdev->sb_size = (rdev->sb_size | bmask) + 1;
 2167	} else
 2168		max_dev = le32_to_cpu(sb->max_dev);
 2169
 2170	for (i=0; i<max_dev;i++)
 2171		sb->dev_roles[i] = cpu_to_le16(MD_DISK_ROLE_SPARE);
 2172
 2173	if (test_bit(MD_HAS_JOURNAL, &mddev->flags))
 2174		sb->feature_map |= cpu_to_le32(MD_FEATURE_JOURNAL);
 2175
 2176	if (test_bit(MD_HAS_PPL, &mddev->flags)) {
 2177		if (test_bit(MD_HAS_MULTIPLE_PPLS, &mddev->flags))
 2178			sb->feature_map |=
 2179			    cpu_to_le32(MD_FEATURE_MULTIPLE_PPLS);
 2180		else
 2181			sb->feature_map |= cpu_to_le32(MD_FEATURE_PPL);
 2182		sb->ppl.offset = cpu_to_le16(rdev->ppl.offset);
 2183		sb->ppl.size = cpu_to_le16(rdev->ppl.size);
 2184	}
 2185
 2186	rdev_for_each(rdev2, mddev) {
 2187		i = rdev2->desc_nr;
 2188		if (test_bit(Faulty, &rdev2->flags))
 2189			sb->dev_roles[i] = cpu_to_le16(MD_DISK_ROLE_FAULTY);
 2190		else if (test_bit(In_sync, &rdev2->flags))
 2191			sb->dev_roles[i] = cpu_to_le16(rdev2->raid_disk);
 2192		else if (test_bit(Journal, &rdev2->flags))
 2193			sb->dev_roles[i] = cpu_to_le16(MD_DISK_ROLE_JOURNAL);
 2194		else if (rdev2->raid_disk >= 0)
 2195			sb->dev_roles[i] = cpu_to_le16(rdev2->raid_disk);
 2196		else
 2197			sb->dev_roles[i] = cpu_to_le16(MD_DISK_ROLE_SPARE);
 2198	}
 2199
 2200	sb->sb_csum = calc_sb_1_csum(sb);
 2201}
 2202
 2203static sector_t super_1_choose_bm_space(sector_t dev_size)
 2204{
 2205	sector_t bm_space;
 2206
 2207	/* if the device is bigger than 8Gig, save 64k for bitmap
 2208	 * usage, if bigger than 200Gig, save 128k
 2209	 */
 2210	if (dev_size < 64*2)
 2211		bm_space = 0;
 2212	else if (dev_size - 64*2 >= 200*1024*1024*2)
 2213		bm_space = 128*2;
 2214	else if (dev_size - 4*2 > 8*1024*1024*2)
 2215		bm_space = 64*2;
 2216	else
 2217		bm_space = 4*2;
 2218	return bm_space;
 2219}
 2220
 2221static unsigned long long
 2222super_1_rdev_size_change(struct md_rdev *rdev, sector_t num_sectors)
 2223{
 2224	struct mdp_superblock_1 *sb;
 2225	sector_t max_sectors;
 2226	if (num_sectors && num_sectors < rdev->mddev->dev_sectors)
 2227		return 0; /* component must fit device */
 2228	if (rdev->data_offset != rdev->new_data_offset)
 2229		return 0; /* too confusing */
 2230	if (rdev->sb_start < rdev->data_offset) {
 2231		/* minor versions 1 and 2; superblock before data */
 2232		max_sectors = bdev_nr_sectors(rdev->bdev) - rdev->data_offset;
 2233		if (!num_sectors || num_sectors > max_sectors)
 2234			num_sectors = max_sectors;
 2235	} else if (rdev->mddev->bitmap_info.offset) {
 2236		/* minor version 0 with bitmap we can't move */
 2237		return 0;
 2238	} else {
 2239		/* minor version 0; superblock after data */
 2240		sector_t sb_start, bm_space;
 2241		sector_t dev_size = bdev_nr_sectors(rdev->bdev);
 2242
 2243		/* 8K is for superblock */
 2244		sb_start = dev_size - 8*2;
 2245		sb_start &= ~(sector_t)(4*2 - 1);
 2246
 2247		bm_space = super_1_choose_bm_space(dev_size);
 2248
 2249		/* Space that can be used to store date needs to decrease
 2250		 * superblock bitmap space and bad block space(4K)
 2251		 */
 2252		max_sectors = sb_start - bm_space - 4*2;
 2253
 2254		if (!num_sectors || num_sectors > max_sectors)
 2255			num_sectors = max_sectors;
 2256		rdev->sb_start = sb_start;
 2257	}
 2258	sb = page_address(rdev->sb_page);
 2259	sb->data_size = cpu_to_le64(num_sectors);
 2260	sb->super_offset = cpu_to_le64(rdev->sb_start);
 2261	sb->sb_csum = calc_sb_1_csum(sb);
 2262	do {
 2263		md_super_write(rdev->mddev, rdev, rdev->sb_start, rdev->sb_size,
 2264			       rdev->sb_page);
 2265	} while (md_super_wait(rdev->mddev) < 0);
 2266	return num_sectors;
 2267
 2268}
 2269
 2270static int
 2271super_1_allow_new_offset(struct md_rdev *rdev,
 2272			 unsigned long long new_offset)
 2273{
 2274	/* All necessary checks on new >= old have been done */
 2275	struct bitmap *bitmap;
 2276	if (new_offset >= rdev->data_offset)
 2277		return 1;
 2278
 2279	/* with 1.0 metadata, there is no metadata to tread on
 2280	 * so we can always move back */
 2281	if (rdev->mddev->minor_version == 0)
 2282		return 1;
 2283
 2284	/* otherwise we must be sure not to step on
 2285	 * any metadata, so stay:
 2286	 * 36K beyond start of superblock
 2287	 * beyond end of badblocks
 2288	 * beyond write-intent bitmap
 2289	 */
 2290	if (rdev->sb_start + (32+4)*2 > new_offset)
 2291		return 0;
 2292	bitmap = rdev->mddev->bitmap;
 2293	if (bitmap && !rdev->mddev->bitmap_info.file &&
 2294	    rdev->sb_start + rdev->mddev->bitmap_info.offset +
 2295	    bitmap->storage.file_pages * (PAGE_SIZE>>9) > new_offset)
 2296		return 0;
 2297	if (rdev->badblocks.sector + rdev->badblocks.size > new_offset)
 2298		return 0;
 2299
 2300	return 1;
 2301}
 2302
 2303static struct super_type super_types[] = {
 2304	[0] = {
 2305		.name	= "0.90.0",
 2306		.owner	= THIS_MODULE,
 2307		.load_super	    = super_90_load,
 2308		.validate_super	    = super_90_validate,
 2309		.sync_super	    = super_90_sync,
 2310		.rdev_size_change   = super_90_rdev_size_change,
 2311		.allow_new_offset   = super_90_allow_new_offset,
 2312	},
 2313	[1] = {
 2314		.name	= "md-1",
 2315		.owner	= THIS_MODULE,
 2316		.load_super	    = super_1_load,
 2317		.validate_super	    = super_1_validate,
 2318		.sync_super	    = super_1_sync,
 2319		.rdev_size_change   = super_1_rdev_size_change,
 2320		.allow_new_offset   = super_1_allow_new_offset,
 2321	},
 2322};
 2323
 2324static void sync_super(struct mddev *mddev, struct md_rdev *rdev)
 2325{
 2326	if (mddev->sync_super) {
 2327		mddev->sync_super(mddev, rdev);
 2328		return;
 2329	}
 2330
 2331	BUG_ON(mddev->major_version >= ARRAY_SIZE(super_types));
 2332
 2333	super_types[mddev->major_version].sync_super(mddev, rdev);
 2334}
 2335
 2336static int match_mddev_units(struct mddev *mddev1, struct mddev *mddev2)
 2337{
 2338	struct md_rdev *rdev, *rdev2;
 2339
 2340	rcu_read_lock();
 2341	rdev_for_each_rcu(rdev, mddev1) {
 2342		if (test_bit(Faulty, &rdev->flags) ||
 2343		    test_bit(Journal, &rdev->flags) ||
 2344		    rdev->raid_disk == -1)
 2345			continue;
 2346		rdev_for_each_rcu(rdev2, mddev2) {
 2347			if (test_bit(Faulty, &rdev2->flags) ||
 2348			    test_bit(Journal, &rdev2->flags) ||
 2349			    rdev2->raid_disk == -1)
 2350				continue;
 2351			if (rdev->bdev->bd_disk == rdev2->bdev->bd_disk) {
 2352				rcu_read_unlock();
 2353				return 1;
 2354			}
 2355		}
 2356	}
 2357	rcu_read_unlock();
 2358	return 0;
 2359}
 2360
 2361static LIST_HEAD(pending_raid_disks);
 2362
 2363/*
 2364 * Try to register data integrity profile for an mddev
 2365 *
 2366 * This is called when an array is started and after a disk has been kicked
 2367 * from the array. It only succeeds if all working and active component devices
 2368 * are integrity capable with matching profiles.
 2369 */
 2370int md_integrity_register(struct mddev *mddev)
 2371{
 2372	struct md_rdev *rdev, *reference = NULL;
 2373
 2374	if (list_empty(&mddev->disks))
 2375		return 0; /* nothing to do */
 2376	if (!mddev->gendisk || blk_get_integrity(mddev->gendisk))
 2377		return 0; /* shouldn't register, or already is */
 2378	rdev_for_each(rdev, mddev) {
 2379		/* skip spares and non-functional disks */
 2380		if (test_bit(Faulty, &rdev->flags))
 2381			continue;
 2382		if (rdev->raid_disk < 0)
 2383			continue;
 2384		if (!reference) {
 2385			/* Use the first rdev as the reference */
 2386			reference = rdev;
 2387			continue;
 2388		}
 2389		/* does this rdev's profile match the reference profile? */
 2390		if (blk_integrity_compare(reference->bdev->bd_disk,
 2391				rdev->bdev->bd_disk) < 0)
 2392			return -EINVAL;
 2393	}
 2394	if (!reference || !bdev_get_integrity(reference->bdev))
 2395		return 0;
 2396	/*
 2397	 * All component devices are integrity capable and have matching
 2398	 * profiles, register the common profile for the md device.
 2399	 */
 2400	blk_integrity_register(mddev->gendisk,
 2401			       bdev_get_integrity(reference->bdev));
 2402
 2403	pr_debug("md: data integrity enabled on %s\n", mdname(mddev));
 2404	if (bioset_integrity_create(&mddev->bio_set, BIO_POOL_SIZE) ||
 2405	    (mddev->level != 1 && mddev->level != 10 &&
 2406	     bioset_integrity_create(&mddev->io_clone_set, BIO_POOL_SIZE))) {
 2407		/*
 2408		 * No need to handle the failure of bioset_integrity_create,
 2409		 * because the function is called by md_run() -> pers->run(),
 2410		 * md_run calls bioset_exit -> bioset_integrity_free in case
 2411		 * of failure case.
 2412		 */
 2413		pr_err("md: failed to create integrity pool for %s\n",
 2414		       mdname(mddev));
 2415		return -EINVAL;
 2416	}
 2417	return 0;
 2418}
 2419EXPORT_SYMBOL(md_integrity_register);
 2420
 2421/*
 2422 * Attempt to add an rdev, but only if it is consistent with the current
 2423 * integrity profile
 2424 */
 2425int md_integrity_add_rdev(struct md_rdev *rdev, struct mddev *mddev)
 2426{
 2427	struct blk_integrity *bi_mddev;
 2428
 2429	if (!mddev->gendisk)
 2430		return 0;
 2431
 2432	bi_mddev = blk_get_integrity(mddev->gendisk);
 2433
 2434	if (!bi_mddev) /* nothing to do */
 2435		return 0;
 2436
 2437	if (blk_integrity_compare(mddev->gendisk, rdev->bdev->bd_disk) != 0) {
 2438		pr_err("%s: incompatible integrity profile for %pg\n",
 2439		       mdname(mddev), rdev->bdev);
 2440		return -ENXIO;
 2441	}
 2442
 2443	return 0;
 2444}
 2445EXPORT_SYMBOL(md_integrity_add_rdev);
 2446
 2447static bool rdev_read_only(struct md_rdev *rdev)
 2448{
 2449	return bdev_read_only(rdev->bdev) ||
 2450		(rdev->meta_bdev && bdev_read_only(rdev->meta_bdev));
 2451}
 2452
 2453static int bind_rdev_to_array(struct md_rdev *rdev, struct mddev *mddev)
 2454{
 2455	char b[BDEVNAME_SIZE];
 2456	int err;
 2457
 2458	/* prevent duplicates */
 2459	if (find_rdev(mddev, rdev->bdev->bd_dev))
 2460		return -EEXIST;
 2461
 2462	if (rdev_read_only(rdev) && mddev->pers)
 2463		return -EROFS;
 2464
 2465	/* make sure rdev->sectors exceeds mddev->dev_sectors */
 2466	if (!test_bit(Journal, &rdev->flags) &&
 2467	    rdev->sectors &&
 2468	    (mddev->dev_sectors == 0 || rdev->sectors < mddev->dev_sectors)) {
 2469		if (mddev->pers) {
 2470			/* Cannot change size, so fail
 2471			 * If mddev->level <= 0, then we don't care
 2472			 * about aligning sizes (e.g. linear)
 2473			 */
 2474			if (mddev->level > 0)
 2475				return -ENOSPC;
 2476		} else
 2477			mddev->dev_sectors = rdev->sectors;
 2478	}
 2479
 2480	/* Verify rdev->desc_nr is unique.
 2481	 * If it is -1, assign a free number, else
 2482	 * check number is not in use
 2483	 */
 2484	rcu_read_lock();
 2485	if (rdev->desc_nr < 0) {
 2486		int choice = 0;
 2487		if (mddev->pers)
 2488			choice = mddev->raid_disks;
 2489		while (md_find_rdev_nr_rcu(mddev, choice))
 2490			choice++;
 2491		rdev->desc_nr = choice;
 2492	} else {
 2493		if (md_find_rdev_nr_rcu(mddev, rdev->desc_nr)) {
 2494			rcu_read_unlock();
 2495			return -EBUSY;
 2496		}
 2497	}
 2498	rcu_read_unlock();
 2499	if (!test_bit(Journal, &rdev->flags) &&
 2500	    mddev->max_disks && rdev->desc_nr >= mddev->max_disks) {
 2501		pr_warn("md: %s: array is limited to %d devices\n",
 2502			mdname(mddev), mddev->max_disks);
 2503		return -EBUSY;
 2504	}
 2505	snprintf(b, sizeof(b), "%pg", rdev->bdev);
 2506	strreplace(b, '/', '!');
 2507
 2508	rdev->mddev = mddev;
 2509	pr_debug("md: bind<%s>\n", b);
 2510
 2511	if (mddev->raid_disks)
 2512		mddev_create_serial_pool(mddev, rdev);
 2513
 2514	if ((err = kobject_add(&rdev->kobj, &mddev->kobj, "dev-%s", b)))
 2515		goto fail;
 2516
 2517	/* failure here is OK */
 2518	err = sysfs_create_link(&rdev->kobj, bdev_kobj(rdev->bdev), "block");
 2519	rdev->sysfs_state = sysfs_get_dirent_safe(rdev->kobj.sd, "state");
 2520	rdev->sysfs_unack_badblocks =
 2521		sysfs_get_dirent_safe(rdev->kobj.sd, "unacknowledged_bad_blocks");
 2522	rdev->sysfs_badblocks =
 2523		sysfs_get_dirent_safe(rdev->kobj.sd, "bad_blocks");
 2524
 2525	list_add_rcu(&rdev->same_set, &mddev->disks);
 2526	bd_link_disk_holder(rdev->bdev, mddev->gendisk);
 2527
 2528	/* May as well allow recovery to be retried once */
 2529	mddev->recovery_disabled++;
 2530
 2531	return 0;
 2532
 2533 fail:
 2534	pr_warn("md: failed to register dev-%s for %s\n",
 2535		b, mdname(mddev));
 2536	return err;
 2537}
 2538
 2539void md_autodetect_dev(dev_t dev);
 2540
 2541/* just for claiming the bdev */
 2542static struct md_rdev claim_rdev;
 2543
 2544static void export_rdev(struct md_rdev *rdev, struct mddev *mddev)
 2545{
 2546	pr_debug("md: export_rdev(%pg)\n", rdev->bdev);
 2547	md_rdev_clear(rdev);
 2548#ifndef MODULE
 2549	if (test_bit(AutoDetected, &rdev->flags))
 2550		md_autodetect_dev(rdev->bdev->bd_dev);
 2551#endif
 2552	bdev_release(rdev->bdev_handle);
 2553	rdev->bdev = NULL;
 2554	kobject_put(&rdev->kobj);
 2555}
 2556
 2557static void md_kick_rdev_from_array(struct md_rdev *rdev)
 2558{
 2559	struct mddev *mddev = rdev->mddev;
 2560
 2561	bd_unlink_disk_holder(rdev->bdev, rdev->mddev->gendisk);
 2562	list_del_rcu(&rdev->same_set);
 2563	pr_debug("md: unbind<%pg>\n", rdev->bdev);
 2564	mddev_destroy_serial_pool(rdev->mddev, rdev);
 2565	rdev->mddev = NULL;
 2566	sysfs_remove_link(&rdev->kobj, "block");
 2567	sysfs_put(rdev->sysfs_state);
 2568	sysfs_put(rdev->sysfs_unack_badblocks);
 2569	sysfs_put(rdev->sysfs_badblocks);
 2570	rdev->sysfs_state = NULL;
 2571	rdev->sysfs_unack_badblocks = NULL;
 2572	rdev->sysfs_badblocks = NULL;
 2573	rdev->badblocks.count = 0;
 2574
 2575	synchronize_rcu();
 2576
 2577	/*
 2578	 * kobject_del() will wait for all in progress writers to be done, where
 2579	 * reconfig_mutex is held, hence it can't be called under
 2580	 * reconfig_mutex and it's delayed to mddev_unlock().
 2581	 */
 2582	list_add(&rdev->same_set, &mddev->deleting);
 2583}
 2584
 2585static void export_array(struct mddev *mddev)
 2586{
 2587	struct md_rdev *rdev;
 2588
 2589	while (!list_empty(&mddev->disks)) {
 2590		rdev = list_first_entry(&mddev->disks, struct md_rdev,
 2591					same_set);
 2592		md_kick_rdev_from_array(rdev);
 2593	}
 2594	mddev->raid_disks = 0;
 2595	mddev->major_version = 0;
 2596}
 2597
 2598static bool set_in_sync(struct mddev *mddev)
 2599{
 2600	lockdep_assert_held(&mddev->lock);
 2601	if (!mddev->in_sync) {
 2602		mddev->sync_checkers++;
 2603		spin_unlock(&mddev->lock);
 2604		percpu_ref_switch_to_atomic_sync(&mddev->writes_pending);
 2605		spin_lock(&mddev->lock);
 2606		if (!mddev->in_sync &&
 2607		    percpu_ref_is_zero(&mddev->writes_pending)) {
 2608			mddev->in_sync = 1;
 2609			/*
 2610			 * Ensure ->in_sync is visible before we clear
 2611			 * ->sync_checkers.
 2612			 */
 2613			smp_mb();
 2614			set_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
 2615			sysfs_notify_dirent_safe(mddev->sysfs_state);
 2616		}
 2617		if (--mddev->sync_checkers == 0)
 2618			percpu_ref_switch_to_percpu(&mddev->writes_pending);
 2619	}
 2620	if (mddev->safemode == 1)
 2621		mddev->safemode = 0;
 2622	return mddev->in_sync;
 2623}
 2624
 2625static void sync_sbs(struct mddev *mddev, int nospares)
 2626{
 2627	/* Update each superblock (in-memory image), but
 2628	 * if we are allowed to, skip spares which already
 2629	 * have the right event counter, or have one earlier
 2630	 * (which would mean they aren't being marked as dirty
 2631	 * with the rest of the array)
 2632	 */
 2633	struct md_rdev *rdev;
 2634	rdev_for_each(rdev, mddev) {
 2635		if (rdev->sb_events == mddev->events ||
 2636		    (nospares &&
 2637		     rdev->raid_disk < 0 &&
 2638		     rdev->sb_events+1 == mddev->events)) {
 2639			/* Don't update this superblock */
 2640			rdev->sb_loaded = 2;
 2641		} else {
 2642			sync_super(mddev, rdev);
 2643			rdev->sb_loaded = 1;
 2644		}
 2645	}
 2646}
 2647
 2648static bool does_sb_need_changing(struct mddev *mddev)
 2649{
 2650	struct md_rdev *rdev = NULL, *iter;
 2651	struct mdp_superblock_1 *sb;
 2652	int role;
 2653
 2654	/* Find a good rdev */
 2655	rdev_for_each(iter, mddev)
 2656		if ((iter->raid_disk >= 0) && !test_bit(Faulty, &iter->flags)) {
 2657			rdev = iter;
 2658			break;
 2659		}
 2660
 2661	/* No good device found. */
 2662	if (!rdev)
 2663		return false;
 2664
 2665	sb = page_address(rdev->sb_page);
 2666	/* Check if a device has become faulty or a spare become active */
 2667	rdev_for_each(rdev, mddev) {
 2668		role = le16_to_cpu(sb->dev_roles[rdev->desc_nr]);
 2669		/* Device activated? */
 2670		if (role == MD_DISK_ROLE_SPARE && rdev->raid_disk >= 0 &&
 2671		    !test_bit(Faulty, &rdev->flags))
 2672			return true;
 2673		/* Device turned faulty? */
 2674		if (test_bit(Faulty, &rdev->flags) && (role < MD_DISK_ROLE_MAX))
 2675			return true;
 2676	}
 2677
 2678	/* Check if any mddev parameters have changed */
 2679	if ((mddev->dev_sectors != le64_to_cpu(sb->size)) ||
 2680	    (mddev->reshape_position != le64_to_cpu(sb->reshape_position)) ||
 2681	    (mddev->layout != le32_to_cpu(sb->layout)) ||
 2682	    (mddev->raid_disks != le32_to_cpu(sb->raid_disks)) ||
 2683	    (mddev->chunk_sectors != le32_to_cpu(sb->chunksize)))
 2684		return true;
 2685
 2686	return false;
 2687}
 2688
 2689void md_update_sb(struct mddev *mddev, int force_change)
 2690{
 2691	struct md_rdev *rdev;
 2692	int sync_req;
 2693	int nospares = 0;
 2694	int any_badblocks_changed = 0;
 2695	int ret = -1;
 2696
 2697	if (!md_is_rdwr(mddev)) {
 2698		if (force_change)
 2699			set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 2700		return;
 2701	}
 2702
 2703repeat:
 2704	if (mddev_is_clustered(mddev)) {
 2705		if (test_and_clear_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags))
 2706			force_change = 1;
 2707		if (test_and_clear_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags))
 2708			nospares = 1;
 2709		ret = md_cluster_ops->metadata_update_start(mddev);
 2710		/* Has someone else has updated the sb */
 2711		if (!does_sb_need_changing(mddev)) {
 2712			if (ret == 0)
 2713				md_cluster_ops->metadata_update_cancel(mddev);
 2714			bit_clear_unless(&mddev->sb_flags, BIT(MD_SB_CHANGE_PENDING),
 2715							 BIT(MD_SB_CHANGE_DEVS) |
 2716							 BIT(MD_SB_CHANGE_CLEAN));
 2717			return;
 2718		}
 2719	}
 2720
 2721	/*
 2722	 * First make sure individual recovery_offsets are correct
 2723	 * curr_resync_completed can only be used during recovery.
 2724	 * During reshape/resync it might use array-addresses rather
 2725	 * that device addresses.
 2726	 */
 2727	rdev_for_each(rdev, mddev) {
 2728		if (rdev->raid_disk >= 0 &&
 2729		    mddev->delta_disks >= 0 &&
 2730		    test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) &&
 2731		    test_bit(MD_RECOVERY_RECOVER, &mddev->recovery) &&
 2732		    !test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
 2733		    !test_bit(Journal, &rdev->flags) &&
 2734		    !test_bit(In_sync, &rdev->flags) &&
 2735		    mddev->curr_resync_completed > rdev->recovery_offset)
 2736				rdev->recovery_offset = mddev->curr_resync_completed;
 2737
 2738	}
 2739	if (!mddev->persistent) {
 2740		clear_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
 2741		clear_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 2742		if (!mddev->external) {
 2743			clear_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
 2744			rdev_for_each(rdev, mddev) {
 2745				if (rdev->badblocks.changed) {
 2746					rdev->badblocks.changed = 0;
 2747					ack_all_badblocks(&rdev->badblocks);
 2748					md_error(mddev, rdev);
 2749				}
 2750				clear_bit(Blocked, &rdev->flags);
 2751				clear_bit(BlockedBadBlocks, &rdev->flags);
 2752				wake_up(&rdev->blocked_wait);
 2753			}
 2754		}
 2755		wake_up(&mddev->sb_wait);
 2756		return;
 2757	}
 2758
 2759	spin_lock(&mddev->lock);
 2760
 2761	mddev->utime = ktime_get_real_seconds();
 2762
 2763	if (test_and_clear_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags))
 2764		force_change = 1;
 2765	if (test_and_clear_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags))
 2766		/* just a clean<-> dirty transition, possibly leave spares alone,
 2767		 * though if events isn't the right even/odd, we will have to do
 2768		 * spares after all
 2769		 */
 2770		nospares = 1;
 2771	if (force_change)
 2772		nospares = 0;
 2773	if (mddev->degraded)
 2774		/* If the array is degraded, then skipping spares is both
 2775		 * dangerous and fairly pointless.
 2776		 * Dangerous because a device that was removed from the array
 2777		 * might have a event_count that still looks up-to-date,
 2778		 * so it can be re-added without a resync.
 2779		 * Pointless because if there are any spares to skip,
 2780		 * then a recovery will happen and soon that array won't
 2781		 * be degraded any more and the spare can go back to sleep then.
 2782		 */
 2783		nospares = 0;
 2784
 2785	sync_req = mddev->in_sync;
 2786
 2787	/* If this is just a dirty<->clean transition, and the array is clean
 2788	 * and 'events' is odd, we can roll back to the previous clean state */
 2789	if (nospares
 2790	    && (mddev->in_sync && mddev->recovery_cp == MaxSector)
 2791	    && mddev->can_decrease_events
 2792	    && mddev->events != 1) {
 2793		mddev->events--;
 2794		mddev->can_decrease_events = 0;
 2795	} else {
 2796		/* otherwise we have to go forward and ... */
 2797		mddev->events ++;
 2798		mddev->can_decrease_events = nospares;
 2799	}
 2800
 2801	/*
 2802	 * This 64-bit counter should never wrap.
 2803	 * Either we are in around ~1 trillion A.C., assuming
 2804	 * 1 reboot per second, or we have a bug...
 2805	 */
 2806	WARN_ON(mddev->events == 0);
 2807
 2808	rdev_for_each(rdev, mddev) {
 2809		if (rdev->badblocks.changed)
 2810			any_badblocks_changed++;
 2811		if (test_bit(Faulty, &rdev->flags))
 2812			set_bit(FaultRecorded, &rdev->flags);
 2813	}
 2814
 2815	sync_sbs(mddev, nospares);
 2816	spin_unlock(&mddev->lock);
 2817
 2818	pr_debug("md: updating %s RAID superblock on device (in sync %d)\n",
 2819		 mdname(mddev), mddev->in_sync);
 2820
 2821	if (mddev->queue)
 2822		blk_add_trace_msg(mddev->queue, "md md_update_sb");
 2823rewrite:
 2824	md_bitmap_update_sb(mddev->bitmap);
 2825	rdev_for_each(rdev, mddev) {
 2826		if (rdev->sb_loaded != 1)
 2827			continue; /* no noise on spare devices */
 2828
 2829		if (!test_bit(Faulty, &rdev->flags)) {
 2830			md_super_write(mddev,rdev,
 2831				       rdev->sb_start, rdev->sb_size,
 2832				       rdev->sb_page);
 2833			pr_debug("md: (write) %pg's sb offset: %llu\n",
 2834				 rdev->bdev,
 2835				 (unsigned long long)rdev->sb_start);
 2836			rdev->sb_events = mddev->events;
 2837			if (rdev->badblocks.size) {
 2838				md_super_write(mddev, rdev,
 2839					       rdev->badblocks.sector,
 2840					       rdev->badblocks.size << 9,
 2841					       rdev->bb_page);
 2842				rdev->badblocks.size = 0;
 2843			}
 2844
 2845		} else
 2846			pr_debug("md: %pg (skipping faulty)\n",
 2847				 rdev->bdev);
 2848
 2849		if (mddev->level == LEVEL_MULTIPATH)
 2850			/* only need to write one superblock... */
 2851			break;
 2852	}
 2853	if (md_super_wait(mddev) < 0)
 2854		goto rewrite;
 2855	/* if there was a failure, MD_SB_CHANGE_DEVS was set, and we re-write super */
 2856
 2857	if (mddev_is_clustered(mddev) && ret == 0)
 2858		md_cluster_ops->metadata_update_finish(mddev);
 2859
 2860	if (mddev->in_sync != sync_req ||
 2861	    !bit_clear_unless(&mddev->sb_flags, BIT(MD_SB_CHANGE_PENDING),
 2862			       BIT(MD_SB_CHANGE_DEVS) | BIT(MD_SB_CHANGE_CLEAN)))
 2863		/* have to write it out again */
 2864		goto repeat;
 2865	wake_up(&mddev->sb_wait);
 2866	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
 2867		sysfs_notify_dirent_safe(mddev->sysfs_completed);
 2868
 2869	rdev_for_each(rdev, mddev) {
 2870		if (test_and_clear_bit(FaultRecorded, &rdev->flags))
 2871			clear_bit(Blocked, &rdev->flags);
 2872
 2873		if (any_badblocks_changed)
 2874			ack_all_badblocks(&rdev->badblocks);
 2875		clear_bit(BlockedBadBlocks, &rdev->flags);
 2876		wake_up(&rdev->blocked_wait);
 2877	}
 2878}
 2879EXPORT_SYMBOL(md_update_sb);
 2880
 2881static int add_bound_rdev(struct md_rdev *rdev)
 2882{
 2883	struct mddev *mddev = rdev->mddev;
 2884	int err = 0;
 2885	bool add_journal = test_bit(Journal, &rdev->flags);
 2886
 2887	if (!mddev->pers->hot_remove_disk || add_journal) {
 2888		/* If there is hot_add_disk but no hot_remove_disk
 2889		 * then added disks for geometry changes,
 2890		 * and should be added immediately.
 2891		 */
 2892		super_types[mddev->major_version].
 2893			validate_super(mddev, rdev);
 2894		err = mddev->pers->hot_add_disk(mddev, rdev);
 2895		if (err) {
 2896			md_kick_rdev_from_array(rdev);
 2897			return err;
 2898		}
 2899	}
 2900	sysfs_notify_dirent_safe(rdev->sysfs_state);
 2901
 2902	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 2903	if (mddev->degraded)
 2904		set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
 2905	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 2906	md_new_event();
 2907	md_wakeup_thread(mddev->thread);
 2908	return 0;
 2909}
 2910
 2911/* words written to sysfs files may, or may not, be \n terminated.
 2912 * We want to accept with case. For this we use cmd_match.
 2913 */
 2914static int cmd_match(const char *cmd, const char *str)
 2915{
 2916	/* See if cmd, written into a sysfs file, matches
 2917	 * str.  They must either be the same, or cmd can
 2918	 * have a trailing newline
 2919	 */
 2920	while (*cmd && *str && *cmd == *str) {
 2921		cmd++;
 2922		str++;
 2923	}
 2924	if (*cmd == '\n')
 2925		cmd++;
 2926	if (*str || *cmd)
 2927		return 0;
 2928	return 1;
 2929}
 2930
 2931struct rdev_sysfs_entry {
 2932	struct attribute attr;
 2933	ssize_t (*show)(struct md_rdev *, char *);
 2934	ssize_t (*store)(struct md_rdev *, const char *, size_t);
 2935};
 2936
 2937static ssize_t
 2938state_show(struct md_rdev *rdev, char *page)
 2939{
 2940	char *sep = ",";
 2941	size_t len = 0;
 2942	unsigned long flags = READ_ONCE(rdev->flags);
 2943
 2944	if (test_bit(Faulty, &flags) ||
 2945	    (!test_bit(ExternalBbl, &flags) &&
 2946	    rdev->badblocks.unacked_exist))
 2947		len += sprintf(page+len, "faulty%s", sep);
 2948	if (test_bit(In_sync, &flags))
 2949		len += sprintf(page+len, "in_sync%s", sep);
 2950	if (test_bit(Journal, &flags))
 2951		len += sprintf(page+len, "journal%s", sep);
 2952	if (test_bit(WriteMostly, &flags))
 2953		len += sprintf(page+len, "write_mostly%s", sep);
 2954	if (test_bit(Blocked, &flags) ||
 2955	    (rdev->badblocks.unacked_exist
 2956	     && !test_bit(Faulty, &flags)))
 2957		len += sprintf(page+len, "blocked%s", sep);
 2958	if (!test_bit(Faulty, &flags) &&
 2959	    !test_bit(Journal, &flags) &&
 2960	    !test_bit(In_sync, &flags))
 2961		len += sprintf(page+len, "spare%s", sep);
 2962	if (test_bit(WriteErrorSeen, &flags))
 2963		len += sprintf(page+len, "write_error%s", sep);
 2964	if (test_bit(WantReplacement, &flags))
 2965		len += sprintf(page+len, "want_replacement%s", sep);
 2966	if (test_bit(Replacement, &flags))
 2967		len += sprintf(page+len, "replacement%s", sep);
 2968	if (test_bit(ExternalBbl, &flags))
 2969		len += sprintf(page+len, "external_bbl%s", sep);
 2970	if (test_bit(FailFast, &flags))
 2971		len += sprintf(page+len, "failfast%s", sep);
 2972
 2973	if (len)
 2974		len -= strlen(sep);
 2975
 2976	return len+sprintf(page+len, "\n");
 2977}
 2978
 2979static ssize_t
 2980state_store(struct md_rdev *rdev, const char *buf, size_t len)
 2981{
 2982	/* can write
 2983	 *  faulty  - simulates an error
 2984	 *  remove  - disconnects the device
 2985	 *  writemostly - sets write_mostly
 2986	 *  -writemostly - clears write_mostly
 2987	 *  blocked - sets the Blocked flags
 2988	 *  -blocked - clears the Blocked and possibly simulates an error
 2989	 *  insync - sets Insync providing device isn't active
 2990	 *  -insync - clear Insync for a device with a slot assigned,
 2991	 *            so that it gets rebuilt based on bitmap
 2992	 *  write_error - sets WriteErrorSeen
 2993	 *  -write_error - clears WriteErrorSeen
 2994	 *  {,-}failfast - set/clear FailFast
 2995	 */
 2996
 2997	struct mddev *mddev = rdev->mddev;
 2998	int err = -EINVAL;
 2999	bool need_update_sb = false;
 3000
 3001	if (cmd_match(buf, "faulty") && rdev->mddev->pers) {
 3002		md_error(rdev->mddev, rdev);
 3003
 3004		if (test_bit(MD_BROKEN, &rdev->mddev->flags))
 3005			err = -EBUSY;
 3006		else
 3007			err = 0;
 3008	} else if (cmd_match(buf, "remove")) {
 3009		if (rdev->mddev->pers) {
 3010			clear_bit(Blocked, &rdev->flags);
 3011			remove_and_add_spares(rdev->mddev, rdev);
 3012		}
 3013		if (rdev->raid_disk >= 0)
 3014			err = -EBUSY;
 3015		else {
 3016			err = 0;
 3017			if (mddev_is_clustered(mddev))
 3018				err = md_cluster_ops->remove_disk(mddev, rdev);
 3019
 3020			if (err == 0) {
 3021				md_kick_rdev_from_array(rdev);
 3022				if (mddev->pers) {
 3023					set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 3024					md_wakeup_thread(mddev->thread);
 3025				}
 3026				md_new_event();
 3027			}
 3028		}
 3029	} else if (cmd_match(buf, "writemostly")) {
 3030		set_bit(WriteMostly, &rdev->flags);
 3031		mddev_create_serial_pool(rdev->mddev, rdev);
 3032		need_update_sb = true;
 3033		err = 0;
 3034	} else if (cmd_match(buf, "-writemostly")) {
 3035		mddev_destroy_serial_pool(rdev->mddev, rdev);
 3036		clear_bit(WriteMostly, &rdev->flags);
 3037		need_update_sb = true;
 3038		err = 0;
 3039	} else if (cmd_match(buf, "blocked")) {
 3040		set_bit(Blocked, &rdev->flags);
 3041		err = 0;
 3042	} else if (cmd_match(buf, "-blocked")) {
 3043		if (!test_bit(Faulty, &rdev->flags) &&
 3044		    !test_bit(ExternalBbl, &rdev->flags) &&
 3045		    rdev->badblocks.unacked_exist) {
 3046			/* metadata handler doesn't understand badblocks,
 3047			 * so we need to fail the device
 3048			 */
 3049			md_error(rdev->mddev, rdev);
 3050		}
 3051		clear_bit(Blocked, &rdev->flags);
 3052		clear_bit(BlockedBadBlocks, &rdev->flags);
 3053		wake_up(&rdev->blocked_wait);
 3054		set_bit(MD_RECOVERY_NEEDED, &rdev->mddev->recovery);
 3055		md_wakeup_thread(rdev->mddev->thread);
 3056
 3057		err = 0;
 3058	} else if (cmd_match(buf, "insync") && rdev->raid_disk == -1) {
 3059		set_bit(In_sync, &rdev->flags);
 3060		err = 0;
 3061	} else if (cmd_match(buf, "failfast")) {
 3062		set_bit(FailFast, &rdev->flags);
 3063		need_update_sb = true;
 3064		err = 0;
 3065	} else if (cmd_match(buf, "-failfast")) {
 3066		clear_bit(FailFast, &rdev->flags);
 3067		need_update_sb = true;
 3068		err = 0;
 3069	} else if (cmd_match(buf, "-insync") && rdev->raid_disk >= 0 &&
 3070		   !test_bit(Journal, &rdev->flags)) {
 3071		if (rdev->mddev->pers == NULL) {
 3072			clear_bit(In_sync, &rdev->flags);
 3073			rdev->saved_raid_disk = rdev->raid_disk;
 3074			rdev->raid_disk = -1;
 3075			err = 0;
 3076		}
 3077	} else if (cmd_match(buf, "write_error")) {
 3078		set_bit(WriteErrorSeen, &rdev->flags);
 3079		err = 0;
 3080	} else if (cmd_match(buf, "-write_error")) {
 3081		clear_bit(WriteErrorSeen, &rdev->flags);
 3082		err = 0;
 3083	} else if (cmd_match(buf, "want_replacement")) {
 3084		/* Any non-spare device that is not a replacement can
 3085		 * become want_replacement at any time, but we then need to
 3086		 * check if recovery is needed.
 3087		 */
 3088		if (rdev->raid_disk >= 0 &&
 3089		    !test_bit(Journal, &rdev->flags) &&
 3090		    !test_bit(Replacement, &rdev->flags))
 3091			set_bit(WantReplacement, &rdev->flags);
 3092		set_bit(MD_RECOVERY_NEEDED, &rdev->mddev->recovery);
 3093		md_wakeup_thread(rdev->mddev->thread);
 3094		err = 0;
 3095	} else if (cmd_match(buf, "-want_replacement")) {
 3096		/* Clearing 'want_replacement' is always allowed.
 3097		 * Once replacements starts it is too late though.
 3098		 */
 3099		err = 0;
 3100		clear_bit(WantReplacement, &rdev->flags);
 3101	} else if (cmd_match(buf, "replacement")) {
 3102		/* Can only set a device as a replacement when array has not
 3103		 * yet been started.  Once running, replacement is automatic
 3104		 * from spares, or by assigning 'slot'.
 3105		 */
 3106		if (rdev->mddev->pers)
 3107			err = -EBUSY;
 3108		else {
 3109			set_bit(Replacement, &rdev->flags);
 3110			err = 0;
 3111		}
 3112	} else if (cmd_match(buf, "-replacement")) {
 3113		/* Similarly, can only clear Replacement before start */
 3114		if (rdev->mddev->pers)
 3115			err = -EBUSY;
 3116		else {
 3117			clear_bit(Replacement, &rdev->flags);
 3118			err = 0;
 3119		}
 3120	} else if (cmd_match(buf, "re-add")) {
 3121		if (!rdev->mddev->pers)
 3122			err = -EINVAL;
 3123		else if (test_bit(Faulty, &rdev->flags) && (rdev->raid_disk == -1) &&
 3124				rdev->saved_raid_disk >= 0) {
 3125			/* clear_bit is performed _after_ all the devices
 3126			 * have their local Faulty bit cleared. If any writes
 3127			 * happen in the meantime in the local node, they
 3128			 * will land in the local bitmap, which will be synced
 3129			 * by this node eventually
 3130			 */
 3131			if (!mddev_is_clustered(rdev->mddev) ||
 3132			    (err = md_cluster_ops->gather_bitmaps(rdev)) == 0) {
 3133				clear_bit(Faulty, &rdev->flags);
 3134				err = add_bound_rdev(rdev);
 3135			}
 3136		} else
 3137			err = -EBUSY;
 3138	} else if (cmd_match(buf, "external_bbl") && (rdev->mddev->external)) {
 3139		set_bit(ExternalBbl, &rdev->flags);
 3140		rdev->badblocks.shift = 0;
 3141		err = 0;
 3142	} else if (cmd_match(buf, "-external_bbl") && (rdev->mddev->external)) {
 3143		clear_bit(ExternalBbl, &rdev->flags);
 3144		err = 0;
 3145	}
 3146	if (need_update_sb)
 3147		md_update_sb(mddev, 1);
 3148	if (!err)
 3149		sysfs_notify_dirent_safe(rdev->sysfs_state);
 3150	return err ? err : len;
 3151}
 3152static struct rdev_sysfs_entry rdev_state =
 3153__ATTR_PREALLOC(state, S_IRUGO|S_IWUSR, state_show, state_store);
 3154
 3155static ssize_t
 3156errors_show(struct md_rdev *rdev, char *page)
 3157{
 3158	return sprintf(page, "%d\n", atomic_read(&rdev->corrected_errors));
 3159}
 3160
 3161static ssize_t
 3162errors_store(struct md_rdev *rdev, const char *buf, size_t len)
 3163{
 3164	unsigned int n;
 3165	int rv;
 3166
 3167	rv = kstrtouint(buf, 10, &n);
 3168	if (rv < 0)
 3169		return rv;
 3170	atomic_set(&rdev->corrected_errors, n);
 3171	return len;
 3172}
 3173static struct rdev_sysfs_entry rdev_errors =
 3174__ATTR(errors, S_IRUGO|S_IWUSR, errors_show, errors_store);
 3175
 3176static ssize_t
 3177slot_show(struct md_rdev *rdev, char *page)
 3178{
 3179	if (test_bit(Journal, &rdev->flags))
 3180		return sprintf(page, "journal\n");
 3181	else if (rdev->raid_disk < 0)
 3182		return sprintf(page, "none\n");
 3183	else
 3184		return sprintf(page, "%d\n", rdev->raid_disk);
 3185}
 3186
 3187static ssize_t
 3188slot_store(struct md_rdev *rdev, const char *buf, size_t len)
 3189{
 3190	int slot;
 3191	int err;
 3192
 3193	if (test_bit(Journal, &rdev->flags))
 3194		return -EBUSY;
 3195	if (strncmp(buf, "none", 4)==0)
 3196		slot = -1;
 3197	else {
 3198		err = kstrtouint(buf, 10, (unsigned int *)&slot);
 3199		if (err < 0)
 3200			return err;
 3201		if (slot < 0)
 3202			/* overflow */
 3203			return -ENOSPC;
 3204	}
 3205	if (rdev->mddev->pers && slot == -1) {
 3206		/* Setting 'slot' on an active array requires also
 3207		 * updating the 'rd%d' link, and communicating
 3208		 * with the personality with ->hot_*_disk.
 3209		 * For now we only support removing
 3210		 * failed/spare devices.  This normally happens automatically,
 3211		 * but not when the metadata is externally managed.
 3212		 */
 3213		if (rdev->raid_disk == -1)
 3214			return -EEXIST;
 3215		/* personality does all needed checks */
 3216		if (rdev->mddev->pers->hot_remove_disk == NULL)
 3217			return -EINVAL;
 3218		clear_bit(Blocked, &rdev->flags);
 3219		remove_and_add_spares(rdev->mddev, rdev);
 3220		if (rdev->raid_disk >= 0)
 3221			return -EBUSY;
 3222		set_bit(MD_RECOVERY_NEEDED, &rdev->mddev->recovery);
 3223		md_wakeup_thread(rdev->mddev->thread);
 3224	} else if (rdev->mddev->pers) {
 3225		/* Activating a spare .. or possibly reactivating
 3226		 * if we ever get bitmaps working here.
 3227		 */
 3228		int err;
 3229
 3230		if (rdev->raid_disk != -1)
 3231			return -EBUSY;
 3232
 3233		if (test_bit(MD_RECOVERY_RUNNING, &rdev->mddev->recovery))
 3234			return -EBUSY;
 3235
 3236		if (rdev->mddev->pers->hot_add_disk == NULL)
 3237			return -EINVAL;
 3238
 3239		if (slot >= rdev->mddev->raid_disks &&
 3240		    slot >= rdev->mddev->raid_disks + rdev->mddev->delta_disks)
 3241			return -ENOSPC;
 3242
 3243		rdev->raid_disk = slot;
 3244		if (test_bit(In_sync, &rdev->flags))
 3245			rdev->saved_raid_disk = slot;
 3246		else
 3247			rdev->saved_raid_disk = -1;
 3248		clear_bit(In_sync, &rdev->flags);
 3249		clear_bit(Bitmap_sync, &rdev->flags);
 3250		err = rdev->mddev->pers->hot_add_disk(rdev->mddev, rdev);
 3251		if (err) {
 3252			rdev->raid_disk = -1;
 3253			return err;
 3254		} else
 3255			sysfs_notify_dirent_safe(rdev->sysfs_state);
 3256		/* failure here is OK */;
 3257		sysfs_link_rdev(rdev->mddev, rdev);
 3258		/* don't wakeup anyone, leave that to userspace. */
 3259	} else {
 3260		if (slot >= rdev->mddev->raid_disks &&
 3261		    slot >= rdev->mddev->raid_disks + rdev->mddev->delta_disks)
 3262			return -ENOSPC;
 3263		rdev->raid_disk = slot;
 3264		/* assume it is working */
 3265		clear_bit(Faulty, &rdev->flags);
 3266		clear_bit(WriteMostly, &rdev->flags);
 3267		set_bit(In_sync, &rdev->flags);
 3268		sysfs_notify_dirent_safe(rdev->sysfs_state);
 3269	}
 3270	return len;
 3271}
 3272
 3273static struct rdev_sysfs_entry rdev_slot =
 3274__ATTR(slot, S_IRUGO|S_IWUSR, slot_show, slot_store);
 3275
 3276static ssize_t
 3277offset_show(struct md_rdev *rdev, char *page)
 3278{
 3279	return sprintf(page, "%llu\n", (unsigned long long)rdev->data_offset);
 3280}
 3281
 3282static ssize_t
 3283offset_store(struct md_rdev *rdev, const char *buf, size_t len)
 3284{
 3285	unsigned long long offset;
 3286	if (kstrtoull(buf, 10, &offset) < 0)
 3287		return -EINVAL;
 3288	if (rdev->mddev->pers && rdev->raid_disk >= 0)
 3289		return -EBUSY;
 3290	if (rdev->sectors && rdev->mddev->external)
 3291		/* Must set offset before size, so overlap checks
 3292		 * can be sane */
 3293		return -EBUSY;
 3294	rdev->data_offset = offset;
 3295	rdev->new_data_offset = offset;
 3296	return len;
 3297}
 3298
 3299static struct rdev_sysfs_entry rdev_offset =
 3300__ATTR(offset, S_IRUGO|S_IWUSR, offset_show, offset_store);
 3301
 3302static ssize_t new_offset_show(struct md_rdev *rdev, char *page)
 3303{
 3304	return sprintf(page, "%llu\n",
 3305		       (unsigned long long)rdev->new_data_offset);
 3306}
 3307
 3308static ssize_t new_offset_store(struct md_rdev *rdev,
 3309				const char *buf, size_t len)
 3310{
 3311	unsigned long long new_offset;
 3312	struct mddev *mddev = rdev->mddev;
 3313
 3314	if (kstrtoull(buf, 10, &new_offset) < 0)
 3315		return -EINVAL;
 3316
 3317	if (mddev->sync_thread ||
 3318	    test_bit(MD_RECOVERY_RUNNING,&mddev->recovery))
 3319		return -EBUSY;
 3320	if (new_offset == rdev->data_offset)
 3321		/* reset is always permitted */
 3322		;
 3323	else if (new_offset > rdev->data_offset) {
 3324		/* must not push array size beyond rdev_sectors */
 3325		if (new_offset - rdev->data_offset
 3326		    + mddev->dev_sectors > rdev->sectors)
 3327				return -E2BIG;
 3328	}
 3329	/* Metadata worries about other space details. */
 3330
 3331	/* decreasing the offset is inconsistent with a backwards
 3332	 * reshape.
 3333	 */
 3334	if (new_offset < rdev->data_offset &&
 3335	    mddev->reshape_backwards)
 3336		return -EINVAL;
 3337	/* Increasing offset is inconsistent with forwards
 3338	 * reshape.  reshape_direction should be set to
 3339	 * 'backwards' first.
 3340	 */
 3341	if (new_offset > rdev->data_offset &&
 3342	    !mddev->reshape_backwards)
 3343		return -EINVAL;
 3344
 3345	if (mddev->pers && mddev->persistent &&
 3346	    !super_types[mddev->major_version]
 3347	    .allow_new_offset(rdev, new_offset))
 3348		return -E2BIG;
 3349	rdev->new_data_offset = new_offset;
 3350	if (new_offset > rdev->data_offset)
 3351		mddev->reshape_backwards = 1;
 3352	else if (new_offset < rdev->data_offset)
 3353		mddev->reshape_backwards = 0;
 3354
 3355	return len;
 3356}
 3357static struct rdev_sysfs_entry rdev_new_offset =
 3358__ATTR(new_offset, S_IRUGO|S_IWUSR, new_offset_show, new_offset_store);
 3359
 3360static ssize_t
 3361rdev_size_show(struct md_rdev *rdev, char *page)
 3362{
 3363	return sprintf(page, "%llu\n", (unsigned long long)rdev->sectors / 2);
 3364}
 3365
 3366static int md_rdevs_overlap(struct md_rdev *a, struct md_rdev *b)
 3367{
 3368	/* check if two start/length pairs overlap */
 3369	if (a->data_offset + a->sectors <= b->data_offset)
 3370		return false;
 3371	if (b->data_offset + b->sectors <= a->data_offset)
 3372		return false;
 3373	return true;
 3374}
 3375
 3376static bool md_rdev_overlaps(struct md_rdev *rdev)
 3377{
 3378	struct mddev *mddev;
 3379	struct md_rdev *rdev2;
 3380
 3381	spin_lock(&all_mddevs_lock);
 3382	list_for_each_entry(mddev, &all_mddevs, all_mddevs) {
 3383		if (test_bit(MD_DELETED, &mddev->flags))
 3384			continue;
 3385		rdev_for_each(rdev2, mddev) {
 3386			if (rdev != rdev2 && rdev->bdev == rdev2->bdev &&
 3387			    md_rdevs_overlap(rdev, rdev2)) {
 3388				spin_unlock(&all_mddevs_lock);
 3389				return true;
 3390			}
 3391		}
 3392	}
 3393	spin_unlock(&all_mddevs_lock);
 3394	return false;
 3395}
 3396
 3397static int strict_blocks_to_sectors(const char *buf, sector_t *sectors)
 3398{
 3399	unsigned long long blocks;
 3400	sector_t new;
 3401
 3402	if (kstrtoull(buf, 10, &blocks) < 0)
 3403		return -EINVAL;
 3404
 3405	if (blocks & 1ULL << (8 * sizeof(blocks) - 1))
 3406		return -EINVAL; /* sector conversion overflow */
 3407
 3408	new = blocks * 2;
 3409	if (new != blocks * 2)
 3410		return -EINVAL; /* unsigned long long to sector_t overflow */
 3411
 3412	*sectors = new;
 3413	return 0;
 3414}
 3415
 3416static ssize_t
 3417rdev_size_store(struct md_rdev *rdev, const char *buf, size_t len)
 3418{
 3419	struct mddev *my_mddev = rdev->mddev;
 3420	sector_t oldsectors = rdev->sectors;
 3421	sector_t sectors;
 3422
 3423	if (test_bit(Journal, &rdev->flags))
 3424		return -EBUSY;
 3425	if (strict_blocks_to_sectors(buf, &sectors) < 0)
 3426		return -EINVAL;
 3427	if (rdev->data_offset != rdev->new_data_offset)
 3428		return -EINVAL; /* too confusing */
 3429	if (my_mddev->pers && rdev->raid_disk >= 0) {
 3430		if (my_mddev->persistent) {
 3431			sectors = super_types[my_mddev->major_version].
 3432				rdev_size_change(rdev, sectors);
 3433			if (!sectors)
 3434				return -EBUSY;
 3435		} else if (!sectors)
 3436			sectors = bdev_nr_sectors(rdev->bdev) -
 3437				rdev->data_offset;
 3438		if (!my_mddev->pers->resize)
 3439			/* Cannot change size for RAID0 or Linear etc */
 3440			return -EINVAL;
 3441	}
 3442	if (sectors < my_mddev->dev_sectors)
 3443		return -EINVAL; /* component must fit device */
 3444
 3445	rdev->sectors = sectors;
 3446
 3447	/*
 3448	 * Check that all other rdevs with the same bdev do not overlap.  This
 3449	 * check does not provide a hard guarantee, it just helps avoid
 3450	 * dangerous mistakes.
 3451	 */
 3452	if (sectors > oldsectors && my_mddev->external &&
 3453	    md_rdev_overlaps(rdev)) {
 3454		/*
 3455		 * Someone else could have slipped in a size change here, but
 3456		 * doing so is just silly.  We put oldsectors back because we
 3457		 * know it is safe, and trust userspace not to race with itself.
 3458		 */
 3459		rdev->sectors = oldsectors;
 3460		return -EBUSY;
 3461	}
 3462	return len;
 3463}
 3464
 3465static struct rdev_sysfs_entry rdev_size =
 3466__ATTR(size, S_IRUGO|S_IWUSR, rdev_size_show, rdev_size_store);
 3467
 3468static ssize_t recovery_start_show(struct md_rdev *rdev, char *page)
 3469{
 3470	unsigned long long recovery_start = rdev->recovery_offset;
 3471
 3472	if (test_bit(In_sync, &rdev->flags) ||
 3473	    recovery_start == MaxSector)
 3474		return sprintf(page, "none\n");
 3475
 3476	return sprintf(page, "%llu\n", recovery_start);
 3477}
 3478
 3479static ssize_t recovery_start_store(struct md_rdev *rdev, const char *buf, size_t len)
 3480{
 3481	unsigned long long recovery_start;
 3482
 3483	if (cmd_match(buf, "none"))
 3484		recovery_start = MaxSector;
 3485	else if (kstrtoull(buf, 10, &recovery_start))
 3486		return -EINVAL;
 3487
 3488	if (rdev->mddev->pers &&
 3489	    rdev->raid_disk >= 0)
 3490		return -EBUSY;
 3491
 3492	rdev->recovery_offset = recovery_start;
 3493	if (recovery_start == MaxSector)
 3494		set_bit(In_sync, &rdev->flags);
 3495	else
 3496		clear_bit(In_sync, &rdev->flags);
 3497	return len;
 3498}
 3499
 3500static struct rdev_sysfs_entry rdev_recovery_start =
 3501__ATTR(recovery_start, S_IRUGO|S_IWUSR, recovery_start_show, recovery_start_store);
 3502
 3503/* sysfs access to bad-blocks list.
 3504 * We present two files.
 3505 * 'bad-blocks' lists sector numbers and lengths of ranges that
 3506 *    are recorded as bad.  The list is truncated to fit within
 3507 *    the one-page limit of sysfs.
 3508 *    Writing "sector length" to this file adds an acknowledged
 3509 *    bad block list.
 3510 * 'unacknowledged-bad-blocks' lists bad blocks that have not yet
 3511 *    been acknowledged.  Writing to this file adds bad blocks
 3512 *    without acknowledging them.  This is largely for testing.
 3513 */
 3514static ssize_t bb_show(struct md_rdev *rdev, char *page)
 3515{
 3516	return badblocks_show(&rdev->badblocks, page, 0);
 3517}
 3518static ssize_t bb_store(struct md_rdev *rdev, const char *page, size_t len)
 3519{
 3520	int rv = badblocks_store(&rdev->badblocks, page, len, 0);
 3521	/* Maybe that ack was all we needed */
 3522	if (test_and_clear_bit(BlockedBadBlocks, &rdev->flags))
 3523		wake_up(&rdev->blocked_wait);
 3524	return rv;
 3525}
 3526static struct rdev_sysfs_entry rdev_bad_blocks =
 3527__ATTR(bad_blocks, S_IRUGO|S_IWUSR, bb_show, bb_store);
 3528
 3529static ssize_t ubb_show(struct md_rdev *rdev, char *page)
 3530{
 3531	return badblocks_show(&rdev->badblocks, page, 1);
 3532}
 3533static ssize_t ubb_store(struct md_rdev *rdev, const char *page, size_t len)
 3534{
 3535	return badblocks_store(&rdev->badblocks, page, len, 1);
 3536}
 3537static struct rdev_sysfs_entry rdev_unack_bad_blocks =
 3538__ATTR(unacknowledged_bad_blocks, S_IRUGO|S_IWUSR, ubb_show, ubb_store);
 3539
 3540static ssize_t
 3541ppl_sector_show(struct md_rdev *rdev, char *page)
 3542{
 3543	return sprintf(page, "%llu\n", (unsigned long long)rdev->ppl.sector);
 3544}
 3545
 3546static ssize_t
 3547ppl_sector_store(struct md_rdev *rdev, const char *buf, size_t len)
 3548{
 3549	unsigned long long sector;
 3550
 3551	if (kstrtoull(buf, 10, &sector) < 0)
 3552		return -EINVAL;
 3553	if (sector != (sector_t)sector)
 3554		return -EINVAL;
 3555
 3556	if (rdev->mddev->pers && test_bit(MD_HAS_PPL, &rdev->mddev->flags) &&
 3557	    rdev->raid_disk >= 0)
 3558		return -EBUSY;
 3559
 3560	if (rdev->mddev->persistent) {
 3561		if (rdev->mddev->major_version == 0)
 3562			return -EINVAL;
 3563		if ((sector > rdev->sb_start &&
 3564		     sector - rdev->sb_start > S16_MAX) ||
 3565		    (sector < rdev->sb_start &&
 3566		     rdev->sb_start - sector > -S16_MIN))
 3567			return -EINVAL;
 3568		rdev->ppl.offset = sector - rdev->sb_start;
 3569	} else if (!rdev->mddev->external) {
 3570		return -EBUSY;
 3571	}
 3572	rdev->ppl.sector = sector;
 3573	return len;
 3574}
 3575
 3576static struct rdev_sysfs_entry rdev_ppl_sector =
 3577__ATTR(ppl_sector, S_IRUGO|S_IWUSR, ppl_sector_show, ppl_sector_store);
 3578
 3579static ssize_t
 3580ppl_size_show(struct md_rdev *rdev, char *page)
 3581{
 3582	return sprintf(page, "%u\n", rdev->ppl.size);
 3583}
 3584
 3585static ssize_t
 3586ppl_size_store(struct md_rdev *rdev, const char *buf, size_t len)
 3587{
 3588	unsigned int size;
 3589
 3590	if (kstrtouint(buf, 10, &size) < 0)
 3591		return -EINVAL;
 3592
 3593	if (rdev->mddev->pers && test_bit(MD_HAS_PPL, &rdev->mddev->flags) &&
 3594	    rdev->raid_disk >= 0)
 3595		return -EBUSY;
 3596
 3597	if (rdev->mddev->persistent) {
 3598		if (rdev->mddev->major_version == 0)
 3599			return -EINVAL;
 3600		if (size > U16_MAX)
 3601			return -EINVAL;
 3602	} else if (!rdev->mddev->external) {
 3603		return -EBUSY;
 3604	}
 3605	rdev->ppl.size = size;
 3606	return len;
 3607}
 3608
 3609static struct rdev_sysfs_entry rdev_ppl_size =
 3610__ATTR(ppl_size, S_IRUGO|S_IWUSR, ppl_size_show, ppl_size_store);
 3611
 3612static struct attribute *rdev_default_attrs[] = {
 3613	&rdev_state.attr,
 3614	&rdev_errors.attr,
 3615	&rdev_slot.attr,
 3616	&rdev_offset.attr,
 3617	&rdev_new_offset.attr,
 3618	&rdev_size.attr,
 3619	&rdev_recovery_start.attr,
 3620	&rdev_bad_blocks.attr,
 3621	&rdev_unack_bad_blocks.attr,
 3622	&rdev_ppl_sector.attr,
 3623	&rdev_ppl_size.attr,
 3624	NULL,
 3625};
 3626ATTRIBUTE_GROUPS(rdev_default);
 3627static ssize_t
 3628rdev_attr_show(struct kobject *kobj, struct attribute *attr, char *page)
 3629{
 3630	struct rdev_sysfs_entry *entry = container_of(attr, struct rdev_sysfs_entry, attr);
 3631	struct md_rdev *rdev = container_of(kobj, struct md_rdev, kobj);
 3632
 3633	if (!entry->show)
 3634		return -EIO;
 3635	if (!rdev->mddev)
 3636		return -ENODEV;
 3637	return entry->show(rdev, page);
 3638}
 3639
 3640static ssize_t
 3641rdev_attr_store(struct kobject *kobj, struct attribute *attr,
 3642	      const char *page, size_t length)
 3643{
 3644	struct rdev_sysfs_entry *entry = container_of(attr, struct rdev_sysfs_entry, attr);
 3645	struct md_rdev *rdev = container_of(kobj, struct md_rdev, kobj);
 3646	struct kernfs_node *kn = NULL;
 3647	bool suspend = false;
 3648	ssize_t rv;
 3649	struct mddev *mddev = rdev->mddev;
 3650
 3651	if (!entry->store)
 3652		return -EIO;
 3653	if (!capable(CAP_SYS_ADMIN))
 3654		return -EACCES;
 3655	if (!mddev)
 3656		return -ENODEV;
 3657
 3658	if (entry->store == state_store) {
 3659		if (cmd_match(page, "remove"))
 3660			kn = sysfs_break_active_protection(kobj, attr);
 3661		if (cmd_match(page, "remove") || cmd_match(page, "re-add") ||
 3662		    cmd_match(page, "writemostly") ||
 3663		    cmd_match(page, "-writemostly"))
 3664			suspend = true;
 3665	}
 3666
 3667	rv = suspend ? mddev_suspend_and_lock(mddev) : mddev_lock(mddev);
 3668	if (!rv) {
 3669		if (rdev->mddev == NULL)
 3670			rv = -ENODEV;
 3671		else
 3672			rv = entry->store(rdev, page, length);
 3673		suspend ? mddev_unlock_and_resume(mddev) : mddev_unlock(mddev);
 3674	}
 3675
 3676	if (kn)
 3677		sysfs_unbreak_active_protection(kn);
 3678
 3679	return rv;
 3680}
 3681
 3682static void rdev_free(struct kobject *ko)
 3683{
 3684	struct md_rdev *rdev = container_of(ko, struct md_rdev, kobj);
 3685	kfree(rdev);
 3686}
 3687static const struct sysfs_ops rdev_sysfs_ops = {
 3688	.show		= rdev_attr_show,
 3689	.store		= rdev_attr_store,
 3690};
 3691static const struct kobj_type rdev_ktype = {
 3692	.release	= rdev_free,
 3693	.sysfs_ops	= &rdev_sysfs_ops,
 3694	.default_groups	= rdev_default_groups,
 3695};
 3696
 3697int md_rdev_init(struct md_rdev *rdev)
 3698{
 3699	rdev->desc_nr = -1;
 3700	rdev->saved_raid_disk = -1;
 3701	rdev->raid_disk = -1;
 3702	rdev->flags = 0;
 3703	rdev->data_offset = 0;
 3704	rdev->new_data_offset = 0;
 3705	rdev->sb_events = 0;
 3706	rdev->last_read_error = 0;
 3707	rdev->sb_loaded = 0;
 3708	rdev->bb_page = NULL;
 3709	atomic_set(&rdev->nr_pending, 0);
 3710	atomic_set(&rdev->read_errors, 0);
 3711	atomic_set(&rdev->corrected_errors, 0);
 3712
 3713	INIT_LIST_HEAD(&rdev->same_set);
 3714	init_waitqueue_head(&rdev->blocked_wait);
 3715
 3716	/* Add space to store bad block list.
 3717	 * This reserves the space even on arrays where it cannot
 3718	 * be used - I wonder if that matters
 3719	 */
 3720	return badblocks_init(&rdev->badblocks, 0);
 3721}
 3722EXPORT_SYMBOL_GPL(md_rdev_init);
 3723
 3724/*
 3725 * Import a device. If 'super_format' >= 0, then sanity check the superblock
 3726 *
 3727 * mark the device faulty if:
 3728 *
 3729 *   - the device is nonexistent (zero size)
 3730 *   - the device has no valid superblock
 3731 *
 3732 * a faulty rdev _never_ has rdev->sb set.
 3733 */
 3734static struct md_rdev *md_import_device(dev_t newdev, int super_format, int super_minor)
 3735{
 3736	struct md_rdev *rdev;
 3737	sector_t size;
 3738	int err;
 3739
 3740	rdev = kzalloc(sizeof(*rdev), GFP_KERNEL);
 3741	if (!rdev)
 3742		return ERR_PTR(-ENOMEM);
 3743
 3744	err = md_rdev_init(rdev);
 3745	if (err)
 3746		goto out_free_rdev;
 3747	err = alloc_disk_sb(rdev);
 3748	if (err)
 3749		goto out_clear_rdev;
 3750
 3751	rdev->bdev_handle = bdev_open_by_dev(newdev,
 3752			BLK_OPEN_READ | BLK_OPEN_WRITE,
 3753			super_format == -2 ? &claim_rdev : rdev, NULL);
 3754	if (IS_ERR(rdev->bdev_handle)) {
 3755		pr_warn("md: could not open device unknown-block(%u,%u).\n",
 3756			MAJOR(newdev), MINOR(newdev));
 3757		err = PTR_ERR(rdev->bdev_handle);
 3758		goto out_clear_rdev;
 3759	}
 3760	rdev->bdev = rdev->bdev_handle->bdev;
 3761
 3762	kobject_init(&rdev->kobj, &rdev_ktype);
 3763
 3764	size = bdev_nr_bytes(rdev->bdev) >> BLOCK_SIZE_BITS;
 3765	if (!size) {
 3766		pr_warn("md: %pg has zero or unknown size, marking faulty!\n",
 3767			rdev->bdev);
 3768		err = -EINVAL;
 3769		goto out_blkdev_put;
 3770	}
 3771
 3772	if (super_format >= 0) {
 3773		err = super_types[super_format].
 3774			load_super(rdev, NULL, super_minor);
 3775		if (err == -EINVAL) {
 3776			pr_warn("md: %pg does not have a valid v%d.%d superblock, not importing!\n",
 3777				rdev->bdev,
 3778				super_format, super_minor);
 3779			goto out_blkdev_put;
 3780		}
 3781		if (err < 0) {
 3782			pr_warn("md: could not read %pg's sb, not importing!\n",
 3783				rdev->bdev);
 3784			goto out_blkdev_put;
 3785		}
 3786	}
 3787
 3788	return rdev;
 3789
 3790out_blkdev_put:
 3791	bdev_release(rdev->bdev_handle);
 3792out_clear_rdev:
 3793	md_rdev_clear(rdev);
 3794out_free_rdev:
 3795	kfree(rdev);
 3796	return ERR_PTR(err);
 3797}
 3798
 3799/*
 3800 * Check a full RAID array for plausibility
 3801 */
 3802
 3803static int analyze_sbs(struct mddev *mddev)
 3804{
 3805	int i;
 3806	struct md_rdev *rdev, *freshest, *tmp;
 3807
 3808	freshest = NULL;
 3809	rdev_for_each_safe(rdev, tmp, mddev)
 3810		switch (super_types[mddev->major_version].
 3811			load_super(rdev, freshest, mddev->minor_version)) {
 3812		case 1:
 3813			freshest = rdev;
 3814			break;
 3815		case 0:
 3816			break;
 3817		default:
 3818			pr_warn("md: fatal superblock inconsistency in %pg -- removing from array\n",
 3819				rdev->bdev);
 3820			md_kick_rdev_from_array(rdev);
 3821		}
 3822
 3823	/* Cannot find a valid fresh disk */
 3824	if (!freshest) {
 3825		pr_warn("md: cannot find a valid disk\n");
 3826		return -EINVAL;
 3827	}
 3828
 3829	super_types[mddev->major_version].
 3830		validate_super(mddev, freshest);
 3831
 3832	i = 0;
 3833	rdev_for_each_safe(rdev, tmp, mddev) {
 3834		if (mddev->max_disks &&
 3835		    (rdev->desc_nr >= mddev->max_disks ||
 3836		     i > mddev->max_disks)) {
 3837			pr_warn("md: %s: %pg: only %d devices permitted\n",
 3838				mdname(mddev), rdev->bdev,
 3839				mddev->max_disks);
 3840			md_kick_rdev_from_array(rdev);
 3841			continue;
 3842		}
 3843		if (rdev != freshest) {
 3844			if (super_types[mddev->major_version].
 3845			    validate_super(mddev, rdev)) {
 3846				pr_warn("md: kicking non-fresh %pg from array!\n",
 3847					rdev->bdev);
 3848				md_kick_rdev_from_array(rdev);
 3849				continue;
 3850			}
 3851		}
 3852		if (mddev->level == LEVEL_MULTIPATH) {
 3853			rdev->desc_nr = i++;
 3854			rdev->raid_disk = rdev->desc_nr;
 3855			set_bit(In_sync, &rdev->flags);
 3856		} else if (rdev->raid_disk >=
 3857			    (mddev->raid_disks - min(0, mddev->delta_disks)) &&
 3858			   !test_bit(Journal, &rdev->flags)) {
 3859			rdev->raid_disk = -1;
 3860			clear_bit(In_sync, &rdev->flags);
 3861		}
 3862	}
 3863
 3864	return 0;
 3865}
 3866
 3867/* Read a fixed-point number.
 3868 * Numbers in sysfs attributes should be in "standard" units where
 3869 * possible, so time should be in seconds.
 3870 * However we internally use a a much smaller unit such as
 3871 * milliseconds or jiffies.
 3872 * This function takes a decimal number with a possible fractional
 3873 * component, and produces an integer which is the result of
 3874 * multiplying that number by 10^'scale'.
 3875 * all without any floating-point arithmetic.
 3876 */
 3877int strict_strtoul_scaled(const char *cp, unsigned long *res, int scale)
 3878{
 3879	unsigned long result = 0;
 3880	long decimals = -1;
 3881	while (isdigit(*cp) || (*cp == '.' && decimals < 0)) {
 3882		if (*cp == '.')
 3883			decimals = 0;
 3884		else if (decimals < scale) {
 3885			unsigned int value;
 3886			value = *cp - '0';
 3887			result = result * 10 + value;
 3888			if (decimals >= 0)
 3889				decimals++;
 3890		}
 3891		cp++;
 3892	}
 3893	if (*cp == '\n')
 3894		cp++;
 3895	if (*cp)
 3896		return -EINVAL;
 3897	if (decimals < 0)
 3898		decimals = 0;
 3899	*res = result * int_pow(10, scale - decimals);
 3900	return 0;
 3901}
 3902
 3903static ssize_t
 3904safe_delay_show(struct mddev *mddev, char *page)
 3905{
 3906	unsigned int msec = ((unsigned long)mddev->safemode_delay*1000)/HZ;
 3907
 3908	return sprintf(page, "%u.%03u\n", msec/1000, msec%1000);
 3909}
 3910static ssize_t
 3911safe_delay_store(struct mddev *mddev, const char *cbuf, size_t len)
 3912{
 3913	unsigned long msec;
 3914
 3915	if (mddev_is_clustered(mddev)) {
 3916		pr_warn("md: Safemode is disabled for clustered mode\n");
 3917		return -EINVAL;
 3918	}
 3919
 3920	if (strict_strtoul_scaled(cbuf, &msec, 3) < 0 || msec > UINT_MAX / HZ)
 3921		return -EINVAL;
 3922	if (msec == 0)
 3923		mddev->safemode_delay = 0;
 3924	else {
 3925		unsigned long old_delay = mddev->safemode_delay;
 3926		unsigned long new_delay = (msec*HZ)/1000;
 3927
 3928		if (new_delay == 0)
 3929			new_delay = 1;
 3930		mddev->safemode_delay = new_delay;
 3931		if (new_delay < old_delay || old_delay == 0)
 3932			mod_timer(&mddev->safemode_timer, jiffies+1);
 3933	}
 3934	return len;
 3935}
 3936static struct md_sysfs_entry md_safe_delay =
 3937__ATTR(safe_mode_delay, S_IRUGO|S_IWUSR,safe_delay_show, safe_delay_store);
 3938
 3939static ssize_t
 3940level_show(struct mddev *mddev, char *page)
 3941{
 3942	struct md_personality *p;
 3943	int ret;
 3944	spin_lock(&mddev->lock);
 3945	p = mddev->pers;
 3946	if (p)
 3947		ret = sprintf(page, "%s\n", p->name);
 3948	else if (mddev->clevel[0])
 3949		ret = sprintf(page, "%s\n", mddev->clevel);
 3950	else if (mddev->level != LEVEL_NONE)
 3951		ret = sprintf(page, "%d\n", mddev->level);
 3952	else
 3953		ret = 0;
 3954	spin_unlock(&mddev->lock);
 3955	return ret;
 3956}
 3957
 3958static ssize_t
 3959level_store(struct mddev *mddev, const char *buf, size_t len)
 3960{
 3961	char clevel[16];
 3962	ssize_t rv;
 3963	size_t slen = len;
 3964	struct md_personality *pers, *oldpers;
 3965	long level;
 3966	void *priv, *oldpriv;
 3967	struct md_rdev *rdev;
 3968
 3969	if (slen == 0 || slen >= sizeof(clevel))
 3970		return -EINVAL;
 3971
 3972	rv = mddev_suspend_and_lock(mddev);
 3973	if (rv)
 3974		return rv;
 3975
 3976	if (mddev->pers == NULL) {
 3977		memcpy(mddev->clevel, buf, slen);
 3978		if (mddev->clevel[slen-1] == '\n')
 3979			slen--;
 3980		mddev->clevel[slen] = 0;
 3981		mddev->level = LEVEL_NONE;
 3982		rv = len;
 3983		goto out_unlock;
 3984	}
 3985	rv = -EROFS;
 3986	if (!md_is_rdwr(mddev))
 3987		goto out_unlock;
 3988
 3989	/* request to change the personality.  Need to ensure:
 3990	 *  - array is not engaged in resync/recovery/reshape
 3991	 *  - old personality can be suspended
 3992	 *  - new personality will access other array.
 3993	 */
 3994
 3995	rv = -EBUSY;
 3996	if (mddev->sync_thread ||
 3997	    test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) ||
 3998	    mddev->reshape_position != MaxSector ||
 3999	    mddev->sysfs_active)
 4000		goto out_unlock;
 4001
 4002	rv = -EINVAL;
 4003	if (!mddev->pers->quiesce) {
 4004		pr_warn("md: %s: %s does not support online personality change\n",
 4005			mdname(mddev), mddev->pers->name);
 4006		goto out_unlock;
 4007	}
 4008
 4009	/* Now find the new personality */
 4010	memcpy(clevel, buf, slen);
 4011	if (clevel[slen-1] == '\n')
 4012		slen--;
 4013	clevel[slen] = 0;
 4014	if (kstrtol(clevel, 10, &level))
 4015		level = LEVEL_NONE;
 4016
 4017	if (request_module("md-%s", clevel) != 0)
 4018		request_module("md-level-%s", clevel);
 4019	spin_lock(&pers_lock);
 4020	pers = find_pers(level, clevel);
 4021	if (!pers || !try_module_get(pers->owner)) {
 4022		spin_unlock(&pers_lock);
 4023		pr_warn("md: personality %s not loaded\n", clevel);
 4024		rv = -EINVAL;
 4025		goto out_unlock;
 4026	}
 4027	spin_unlock(&pers_lock);
 4028
 4029	if (pers == mddev->pers) {
 4030		/* Nothing to do! */
 4031		module_put(pers->owner);
 4032		rv = len;
 4033		goto out_unlock;
 4034	}
 4035	if (!pers->takeover) {
 4036		module_put(pers->owner);
 4037		pr_warn("md: %s: %s does not support personality takeover\n",
 4038			mdname(mddev), clevel);
 4039		rv = -EINVAL;
 4040		goto out_unlock;
 4041	}
 4042
 4043	rdev_for_each(rdev, mddev)
 4044		rdev->new_raid_disk = rdev->raid_disk;
 4045
 4046	/* ->takeover must set new_* and/or delta_disks
 4047	 * if it succeeds, and may set them when it fails.
 4048	 */
 4049	priv = pers->takeover(mddev);
 4050	if (IS_ERR(priv)) {
 4051		mddev->new_level = mddev->level;
 4052		mddev->new_layout = mddev->layout;
 4053		mddev->new_chunk_sectors = mddev->chunk_sectors;
 4054		mddev->raid_disks -= mddev->delta_disks;
 4055		mddev->delta_disks = 0;
 4056		mddev->reshape_backwards = 0;
 4057		module_put(pers->owner);
 4058		pr_warn("md: %s: %s would not accept array\n",
 4059			mdname(mddev), clevel);
 4060		rv = PTR_ERR(priv);
 4061		goto out_unlock;
 4062	}
 4063
 4064	/* Looks like we have a winner */
 4065	mddev_detach(mddev);
 4066
 4067	spin_lock(&mddev->lock);
 4068	oldpers = mddev->pers;
 4069	oldpriv = mddev->private;
 4070	mddev->pers = pers;
 4071	mddev->private = priv;
 4072	strscpy(mddev->clevel, pers->name, sizeof(mddev->clevel));
 4073	mddev->level = mddev->new_level;
 4074	mddev->layout = mddev->new_layout;
 4075	mddev->chunk_sectors = mddev->new_chunk_sectors;
 4076	mddev->delta_disks = 0;
 4077	mddev->reshape_backwards = 0;
 4078	mddev->degraded = 0;
 4079	spin_unlock(&mddev->lock);
 4080
 4081	if (oldpers->sync_request == NULL &&
 4082	    mddev->external) {
 4083		/* We are converting from a no-redundancy array
 4084		 * to a redundancy array and metadata is managed
 4085		 * externally so we need to be sure that writes
 4086		 * won't block due to a need to transition
 4087		 *      clean->dirty
 4088		 * until external management is started.
 4089		 */
 4090		mddev->in_sync = 0;
 4091		mddev->safemode_delay = 0;
 4092		mddev->safemode = 0;
 4093	}
 4094
 4095	oldpers->free(mddev, oldpriv);
 4096
 4097	if (oldpers->sync_request == NULL &&
 4098	    pers->sync_request != NULL) {
 4099		/* need to add the md_redundancy_group */
 4100		if (sysfs_create_group(&mddev->kobj, &md_redundancy_group))
 4101			pr_warn("md: cannot register extra attributes for %s\n",
 4102				mdname(mddev));
 4103		mddev->sysfs_action = sysfs_get_dirent(mddev->kobj.sd, "sync_action");
 4104		mddev->sysfs_completed = sysfs_get_dirent_safe(mddev->kobj.sd, "sync_completed");
 4105		mddev->sysfs_degraded = sysfs_get_dirent_safe(mddev->kobj.sd, "degraded");
 4106	}
 4107	if (oldpers->sync_request != NULL &&
 4108	    pers->sync_request == NULL) {
 4109		/* need to remove the md_redundancy_group */
 4110		if (mddev->to_remove == NULL)
 4111			mddev->to_remove = &md_redundancy_group;
 4112	}
 4113
 4114	module_put(oldpers->owner);
 4115
 4116	rdev_for_each(rdev, mddev) {
 4117		if (rdev->raid_disk < 0)
 4118			continue;
 4119		if (rdev->new_raid_disk >= mddev->raid_disks)
 4120			rdev->new_raid_disk = -1;
 4121		if (rdev->new_raid_disk == rdev->raid_disk)
 4122			continue;
 4123		sysfs_unlink_rdev(mddev, rdev);
 4124	}
 4125	rdev_for_each(rdev, mddev) {
 4126		if (rdev->raid_disk < 0)
 4127			continue;
 4128		if (rdev->new_raid_disk == rdev->raid_disk)
 4129			continue;
 4130		rdev->raid_disk = rdev->new_raid_disk;
 4131		if (rdev->raid_disk < 0)
 4132			clear_bit(In_sync, &rdev->flags);
 4133		else {
 4134			if (sysfs_link_rdev(mddev, rdev))
 4135				pr_warn("md: cannot register rd%d for %s after level change\n",
 4136					rdev->raid_disk, mdname(mddev));
 4137		}
 4138	}
 4139
 4140	if (pers->sync_request == NULL) {
 4141		/* this is now an array without redundancy, so
 4142		 * it must always be in_sync
 4143		 */
 4144		mddev->in_sync = 1;
 4145		del_timer_sync(&mddev->safemode_timer);
 4146	}
 4147	blk_set_stacking_limits(&mddev->queue->limits);
 4148	pers->run(mddev);
 4149	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 4150	if (!mddev->thread)
 4151		md_update_sb(mddev, 1);
 4152	sysfs_notify_dirent_safe(mddev->sysfs_level);
 4153	md_new_event();
 4154	rv = len;
 4155out_unlock:
 4156	mddev_unlock_and_resume(mddev);
 4157	return rv;
 4158}
 4159
 4160static struct md_sysfs_entry md_level =
 4161__ATTR(level, S_IRUGO|S_IWUSR, level_show, level_store);
 4162
 4163static ssize_t
 4164layout_show(struct mddev *mddev, char *page)
 4165{
 4166	/* just a number, not meaningful for all levels */
 4167	if (mddev->reshape_position != MaxSector &&
 4168	    mddev->layout != mddev->new_layout)
 4169		return sprintf(page, "%d (%d)\n",
 4170			       mddev->new_layout, mddev->layout);
 4171	return sprintf(page, "%d\n", mddev->layout);
 4172}
 4173
 4174static ssize_t
 4175layout_store(struct mddev *mddev, const char *buf, size_t len)
 4176{
 4177	unsigned int n;
 4178	int err;
 4179
 4180	err = kstrtouint(buf, 10, &n);
 4181	if (err < 0)
 4182		return err;
 4183	err = mddev_lock(mddev);
 4184	if (err)
 4185		return err;
 4186
 4187	if (mddev->pers) {
 4188		if (mddev->pers->check_reshape == NULL)
 4189			err = -EBUSY;
 4190		else if (!md_is_rdwr(mddev))
 4191			err = -EROFS;
 4192		else {
 4193			mddev->new_layout = n;
 4194			err = mddev->pers->check_reshape(mddev);
 4195			if (err)
 4196				mddev->new_layout = mddev->layout;
 4197		}
 4198	} else {
 4199		mddev->new_layout = n;
 4200		if (mddev->reshape_position == MaxSector)
 4201			mddev->layout = n;
 4202	}
 4203	mddev_unlock(mddev);
 4204	return err ?: len;
 4205}
 4206static struct md_sysfs_entry md_layout =
 4207__ATTR(layout, S_IRUGO|S_IWUSR, layout_show, layout_store);
 4208
 4209static ssize_t
 4210raid_disks_show(struct mddev *mddev, char *page)
 4211{
 4212	if (mddev->raid_disks == 0)
 4213		return 0;
 4214	if (mddev->reshape_position != MaxSector &&
 4215	    mddev->delta_disks != 0)
 4216		return sprintf(page, "%d (%d)\n", mddev->raid_disks,
 4217			       mddev->raid_disks - mddev->delta_disks);
 4218	return sprintf(page, "%d\n", mddev->raid_disks);
 4219}
 4220
 4221static int update_raid_disks(struct mddev *mddev, int raid_disks);
 4222
 4223static ssize_t
 4224raid_disks_store(struct mddev *mddev, const char *buf, size_t len)
 4225{
 4226	unsigned int n;
 4227	int err;
 4228
 4229	err = kstrtouint(buf, 10, &n);
 4230	if (err < 0)
 4231		return err;
 4232
 4233	err = mddev_lock(mddev);
 4234	if (err)
 4235		return err;
 4236	if (mddev->pers)
 4237		err = update_raid_disks(mddev, n);
 4238	else if (mddev->reshape_position != MaxSector) {
 4239		struct md_rdev *rdev;
 4240		int olddisks = mddev->raid_disks - mddev->delta_disks;
 4241
 4242		err = -EINVAL;
 4243		rdev_for_each(rdev, mddev) {
 4244			if (olddisks < n &&
 4245			    rdev->data_offset < rdev->new_data_offset)
 4246				goto out_unlock;
 4247			if (olddisks > n &&
 4248			    rdev->data_offset > rdev->new_data_offset)
 4249				goto out_unlock;
 4250		}
 4251		err = 0;
 4252		mddev->delta_disks = n - olddisks;
 4253		mddev->raid_disks = n;
 4254		mddev->reshape_backwards = (mddev->delta_disks < 0);
 4255	} else
 4256		mddev->raid_disks = n;
 4257out_unlock:
 4258	mddev_unlock(mddev);
 4259	return err ? err : len;
 4260}
 4261static struct md_sysfs_entry md_raid_disks =
 4262__ATTR(raid_disks, S_IRUGO|S_IWUSR, raid_disks_show, raid_disks_store);
 4263
 4264static ssize_t
 4265uuid_show(struct mddev *mddev, char *page)
 4266{
 4267	return sprintf(page, "%pU\n", mddev->uuid);
 4268}
 4269static struct md_sysfs_entry md_uuid =
 4270__ATTR(uuid, S_IRUGO, uuid_show, NULL);
 4271
 4272static ssize_t
 4273chunk_size_show(struct mddev *mddev, char *page)
 4274{
 4275	if (mddev->reshape_position != MaxSector &&
 4276	    mddev->chunk_sectors != mddev->new_chunk_sectors)
 4277		return sprintf(page, "%d (%d)\n",
 4278			       mddev->new_chunk_sectors << 9,
 4279			       mddev->chunk_sectors << 9);
 4280	return sprintf(page, "%d\n", mddev->chunk_sectors << 9);
 4281}
 4282
 4283static ssize_t
 4284chunk_size_store(struct mddev *mddev, const char *buf, size_t len)
 4285{
 4286	unsigned long n;
 4287	int err;
 4288
 4289	err = kstrtoul(buf, 10, &n);
 4290	if (err < 0)
 4291		return err;
 4292
 4293	err = mddev_lock(mddev);
 4294	if (err)
 4295		return err;
 4296	if (mddev->pers) {
 4297		if (mddev->pers->check_reshape == NULL)
 4298			err = -EBUSY;
 4299		else if (!md_is_rdwr(mddev))
 4300			err = -EROFS;
 4301		else {
 4302			mddev->new_chunk_sectors = n >> 9;
 4303			err = mddev->pers->check_reshape(mddev);
 4304			if (err)
 4305				mddev->new_chunk_sectors = mddev->chunk_sectors;
 4306		}
 4307	} else {
 4308		mddev->new_chunk_sectors = n >> 9;
 4309		if (mddev->reshape_position == MaxSector)
 4310			mddev->chunk_sectors = n >> 9;
 4311	}
 4312	mddev_unlock(mddev);
 4313	return err ?: len;
 4314}
 4315static struct md_sysfs_entry md_chunk_size =
 4316__ATTR(chunk_size, S_IRUGO|S_IWUSR, chunk_size_show, chunk_size_store);
 4317
 4318static ssize_t
 4319resync_start_show(struct mddev *mddev, char *page)
 4320{
 4321	if (mddev->recovery_cp == MaxSector)
 4322		return sprintf(page, "none\n");
 4323	return sprintf(page, "%llu\n", (unsigned long long)mddev->recovery_cp);
 4324}
 4325
 4326static ssize_t
 4327resync_start_store(struct mddev *mddev, const char *buf, size_t len)
 4328{
 4329	unsigned long long n;
 4330	int err;
 4331
 4332	if (cmd_match(buf, "none"))
 4333		n = MaxSector;
 4334	else {
 4335		err = kstrtoull(buf, 10, &n);
 4336		if (err < 0)
 4337			return err;
 4338		if (n != (sector_t)n)
 4339			return -EINVAL;
 4340	}
 4341
 4342	err = mddev_lock(mddev);
 4343	if (err)
 4344		return err;
 4345	if (mddev->pers && !test_bit(MD_RECOVERY_FROZEN, &mddev->recovery))
 4346		err = -EBUSY;
 4347
 4348	if (!err) {
 4349		mddev->recovery_cp = n;
 4350		if (mddev->pers)
 4351			set_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
 4352	}
 4353	mddev_unlock(mddev);
 4354	return err ?: len;
 4355}
 4356static struct md_sysfs_entry md_resync_start =
 4357__ATTR_PREALLOC(resync_start, S_IRUGO|S_IWUSR,
 4358		resync_start_show, resync_start_store);
 4359
 4360/*
 4361 * The array state can be:
 4362 *
 4363 * clear
 4364 *     No devices, no size, no level
 4365 *     Equivalent to STOP_ARRAY ioctl
 4366 * inactive
 4367 *     May have some settings, but array is not active
 4368 *        all IO results in error
 4369 *     When written, doesn't tear down array, but just stops it
 4370 * suspended (not supported yet)
 4371 *     All IO requests will block. The array can be reconfigured.
 4372 *     Writing this, if accepted, will block until array is quiescent
 4373 * readonly
 4374 *     no resync can happen.  no superblocks get written.
 4375 *     write requests fail
 4376 * read-auto
 4377 *     like readonly, but behaves like 'clean' on a write request.
 4378 *
 4379 * clean - no pending writes, but otherwise active.
 4380 *     When written to inactive array, starts without resync
 4381 *     If a write request arrives then
 4382 *       if metadata is known, mark 'dirty' and switch to 'active'.
 4383 *       if not known, block and switch to write-pending
 4384 *     If written to an active array that has pending writes, then fails.
 4385 * active
 4386 *     fully active: IO and resync can be happening.
 4387 *     When written to inactive array, starts with resync
 4388 *
 4389 * write-pending
 4390 *     clean, but writes are blocked waiting for 'active' to be written.
 4391 *
 4392 * active-idle
 4393 *     like active, but no writes have been seen for a while (100msec).
 4394 *
 4395 * broken
 4396*     Array is failed. It's useful because mounted-arrays aren't stopped
 4397*     when array is failed, so this state will at least alert the user that
 4398*     something is wrong.
 4399 */
 4400enum array_state { clear, inactive, suspended, readonly, read_auto, clean, active,
 4401		   write_pending, active_idle, broken, bad_word};
 4402static char *array_states[] = {
 4403	"clear", "inactive", "suspended", "readonly", "read-auto", "clean", "active",
 4404	"write-pending", "active-idle", "broken", NULL };
 4405
 4406static int match_word(const char *word, char **list)
 4407{
 4408	int n;
 4409	for (n=0; list[n]; n++)
 4410		if (cmd_match(word, list[n]))
 4411			break;
 4412	return n;
 4413}
 4414
 4415static ssize_t
 4416array_state_show(struct mddev *mddev, char *page)
 4417{
 4418	enum array_state st = inactive;
 4419
 4420	if (mddev->pers && !test_bit(MD_NOT_READY, &mddev->flags)) {
 4421		switch(mddev->ro) {
 4422		case MD_RDONLY:
 4423			st = readonly;
 4424			break;
 4425		case MD_AUTO_READ:
 4426			st = read_auto;
 4427			break;
 4428		case MD_RDWR:
 4429			spin_lock(&mddev->lock);
 4430			if (test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags))
 4431				st = write_pending;
 4432			else if (mddev->in_sync)
 4433				st = clean;
 4434			else if (mddev->safemode)
 4435				st = active_idle;
 4436			else
 4437				st = active;
 4438			spin_unlock(&mddev->lock);
 4439		}
 4440
 4441		if (test_bit(MD_BROKEN, &mddev->flags) && st == clean)
 4442			st = broken;
 4443	} else {
 4444		if (list_empty(&mddev->disks) &&
 4445		    mddev->raid_disks == 0 &&
 4446		    mddev->dev_sectors == 0)
 4447			st = clear;
 4448		else
 4449			st = inactive;
 4450	}
 4451	return sprintf(page, "%s\n", array_states[st]);
 4452}
 4453
 4454static int do_md_stop(struct mddev *mddev, int ro, struct block_device *bdev);
 4455static int md_set_readonly(struct mddev *mddev, struct block_device *bdev);
 4456static int restart_array(struct mddev *mddev);
 4457
 4458static ssize_t
 4459array_state_store(struct mddev *mddev, const char *buf, size_t len)
 4460{
 4461	int err = 0;
 4462	enum array_state st = match_word(buf, array_states);
 4463
 4464	/* No lock dependent actions */
 4465	switch (st) {
 4466	case suspended:		/* not supported yet */
 4467	case write_pending:	/* cannot be set */
 4468	case active_idle:	/* cannot be set */
 4469	case broken:		/* cannot be set */
 4470	case bad_word:
 4471		return -EINVAL;
 4472	default:
 4473		break;
 4474	}
 4475
 4476	if (mddev->pers && (st == active || st == clean) &&
 4477	    mddev->ro != MD_RDONLY) {
 4478		/* don't take reconfig_mutex when toggling between
 4479		 * clean and active
 4480		 */
 4481		spin_lock(&mddev->lock);
 4482		if (st == active) {
 4483			restart_array(mddev);
 4484			clear_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
 4485			md_wakeup_thread(mddev->thread);
 4486			wake_up(&mddev->sb_wait);
 4487		} else /* st == clean */ {
 4488			restart_array(mddev);
 4489			if (!set_in_sync(mddev))
 4490				err = -EBUSY;
 4491		}
 4492		if (!err)
 4493			sysfs_notify_dirent_safe(mddev->sysfs_state);
 4494		spin_unlock(&mddev->lock);
 4495		return err ?: len;
 4496	}
 4497	err = mddev_lock(mddev);
 4498	if (err)
 4499		return err;
 4500
 4501	switch (st) {
 4502	case inactive:
 4503		/* stop an active array, return 0 otherwise */
 4504		if (mddev->pers)
 4505			err = do_md_stop(mddev, 2, NULL);
 4506		break;
 4507	case clear:
 4508		err = do_md_stop(mddev, 0, NULL);
 4509		break;
 4510	case readonly:
 4511		if (mddev->pers)
 4512			err = md_set_readonly(mddev, NULL);
 4513		else {
 4514			mddev->ro = MD_RDONLY;
 4515			set_disk_ro(mddev->gendisk, 1);
 4516			err = do_md_run(mddev);
 4517		}
 4518		break;
 4519	case read_auto:
 4520		if (mddev->pers) {
 4521			if (md_is_rdwr(mddev))
 4522				err = md_set_readonly(mddev, NULL);
 4523			else if (mddev->ro == MD_RDONLY)
 4524				err = restart_array(mddev);
 4525			if (err == 0) {
 4526				mddev->ro = MD_AUTO_READ;
 4527				set_disk_ro(mddev->gendisk, 0);
 4528			}
 4529		} else {
 4530			mddev->ro = MD_AUTO_READ;
 4531			err = do_md_run(mddev);
 4532		}
 4533		break;
 4534	case clean:
 4535		if (mddev->pers) {
 4536			err = restart_array(mddev);
 4537			if (err)
 4538				break;
 4539			spin_lock(&mddev->lock);
 4540			if (!set_in_sync(mddev))
 4541				err = -EBUSY;
 4542			spin_unlock(&mddev->lock);
 4543		} else
 4544			err = -EINVAL;
 4545		break;
 4546	case active:
 4547		if (mddev->pers) {
 4548			err = restart_array(mddev);
 4549			if (err)
 4550				break;
 4551			clear_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
 4552			wake_up(&mddev->sb_wait);
 4553			err = 0;
 4554		} else {
 4555			mddev->ro = MD_RDWR;
 4556			set_disk_ro(mddev->gendisk, 0);
 4557			err = do_md_run(mddev);
 4558		}
 4559		break;
 4560	default:
 4561		err = -EINVAL;
 4562		break;
 4563	}
 4564
 4565	if (!err) {
 4566		if (mddev->hold_active == UNTIL_IOCTL)
 4567			mddev->hold_active = 0;
 4568		sysfs_notify_dirent_safe(mddev->sysfs_state);
 4569	}
 4570	mddev_unlock(mddev);
 4571	return err ?: len;
 4572}
 4573static struct md_sysfs_entry md_array_state =
 4574__ATTR_PREALLOC(array_state, S_IRUGO|S_IWUSR, array_state_show, array_state_store);
 4575
 4576static ssize_t
 4577max_corrected_read_errors_show(struct mddev *mddev, char *page) {
 4578	return sprintf(page, "%d\n",
 4579		       atomic_read(&mddev->max_corr_read_errors));
 4580}
 4581
 4582static ssize_t
 4583max_corrected_read_errors_store(struct mddev *mddev, const char *buf, size_t len)
 4584{
 4585	unsigned int n;
 4586	int rv;
 4587
 4588	rv = kstrtouint(buf, 10, &n);
 4589	if (rv < 0)
 4590		return rv;
 4591	if (n > INT_MAX)
 4592		return -EINVAL;
 4593	atomic_set(&mddev->max_corr_read_errors, n);
 4594	return len;
 4595}
 4596
 4597static struct md_sysfs_entry max_corr_read_errors =
 4598__ATTR(max_read_errors, S_IRUGO|S_IWUSR, max_corrected_read_errors_show,
 4599	max_corrected_read_errors_store);
 4600
 4601static ssize_t
 4602null_show(struct mddev *mddev, char *page)
 4603{
 4604	return -EINVAL;
 4605}
 4606
 4607static ssize_t
 4608new_dev_store(struct mddev *mddev, const char *buf, size_t len)
 4609{
 4610	/* buf must be %d:%d\n? giving major and minor numbers */
 4611	/* The new device is added to the array.
 4612	 * If the array has a persistent superblock, we read the
 4613	 * superblock to initialise info and check validity.
 4614	 * Otherwise, only checking done is that in bind_rdev_to_array,
 4615	 * which mainly checks size.
 4616	 */
 4617	char *e;
 4618	int major = simple_strtoul(buf, &e, 10);
 4619	int minor;
 4620	dev_t dev;
 4621	struct md_rdev *rdev;
 4622	int err;
 4623
 4624	if (!*buf || *e != ':' || !e[1] || e[1] == '\n')
 4625		return -EINVAL;
 4626	minor = simple_strtoul(e+1, &e, 10);
 4627	if (*e && *e != '\n')
 4628		return -EINVAL;
 4629	dev = MKDEV(major, minor);
 4630	if (major != MAJOR(dev) ||
 4631	    minor != MINOR(dev))
 4632		return -EOVERFLOW;
 4633
 4634	err = mddev_suspend_and_lock(mddev);
 4635	if (err)
 4636		return err;
 4637	if (mddev->persistent) {
 4638		rdev = md_import_device(dev, mddev->major_version,
 4639					mddev->minor_version);
 4640		if (!IS_ERR(rdev) && !list_empty(&mddev->disks)) {
 4641			struct md_rdev *rdev0
 4642				= list_entry(mddev->disks.next,
 4643					     struct md_rdev, same_set);
 4644			err = super_types[mddev->major_version]
 4645				.load_super(rdev, rdev0, mddev->minor_version);
 4646			if (err < 0)
 4647				goto out;
 4648		}
 4649	} else if (mddev->external)
 4650		rdev = md_import_device(dev, -2, -1);
 4651	else
 4652		rdev = md_import_device(dev, -1, -1);
 4653
 4654	if (IS_ERR(rdev)) {
 4655		mddev_unlock_and_resume(mddev);
 4656		return PTR_ERR(rdev);
 4657	}
 4658	err = bind_rdev_to_array(rdev, mddev);
 4659 out:
 4660	if (err)
 4661		export_rdev(rdev, mddev);
 4662	mddev_unlock_and_resume(mddev);
 4663	if (!err)
 4664		md_new_event();
 4665	return err ? err : len;
 4666}
 4667
 4668static struct md_sysfs_entry md_new_device =
 4669__ATTR(new_dev, S_IWUSR, null_show, new_dev_store);
 4670
 4671static ssize_t
 4672bitmap_store(struct mddev *mddev, const char *buf, size_t len)
 4673{
 4674	char *end;
 4675	unsigned long chunk, end_chunk;
 4676	int err;
 4677
 4678	err = mddev_lock(mddev);
 4679	if (err)
 4680		return err;
 4681	if (!mddev->bitmap)
 4682		goto out;
 4683	/* buf should be <chunk> <chunk> ... or <chunk>-<chunk> ... (range) */
 4684	while (*buf) {
 4685		chunk = end_chunk = simple_strtoul(buf, &end, 0);
 4686		if (buf == end) break;
 4687		if (*end == '-') { /* range */
 4688			buf = end + 1;
 4689			end_chunk = simple_strtoul(buf, &end, 0);
 4690			if (buf == end) break;
 4691		}
 4692		if (*end && !isspace(*end)) break;
 4693		md_bitmap_dirty_bits(mddev->bitmap, chunk, end_chunk);
 4694		buf = skip_spaces(end);
 4695	}
 4696	md_bitmap_unplug(mddev->bitmap); /* flush the bits to disk */
 4697out:
 4698	mddev_unlock(mddev);
 4699	return len;
 4700}
 4701
 4702static struct md_sysfs_entry md_bitmap =
 4703__ATTR(bitmap_set_bits, S_IWUSR, null_show, bitmap_store);
 4704
 4705static ssize_t
 4706size_show(struct mddev *mddev, char *page)
 4707{
 4708	return sprintf(page, "%llu\n",
 4709		(unsigned long long)mddev->dev_sectors / 2);
 4710}
 4711
 4712static int update_size(struct mddev *mddev, sector_t num_sectors);
 4713
 4714static ssize_t
 4715size_store(struct mddev *mddev, const char *buf, size_t len)
 4716{
 4717	/* If array is inactive, we can reduce the component size, but
 4718	 * not increase it (except from 0).
 4719	 * If array is active, we can try an on-line resize
 4720	 */
 4721	sector_t sectors;
 4722	int err = strict_blocks_to_sectors(buf, &sectors);
 4723
 4724	if (err < 0)
 4725		return err;
 4726	err = mddev_lock(mddev);
 4727	if (err)
 4728		return err;
 4729	if (mddev->pers) {
 4730		err = update_size(mddev, sectors);
 4731		if (err == 0)
 4732			md_update_sb(mddev, 1);
 4733	} else {
 4734		if (mddev->dev_sectors == 0 ||
 4735		    mddev->dev_sectors > sectors)
 4736			mddev->dev_sectors = sectors;
 4737		else
 4738			err = -ENOSPC;
 4739	}
 4740	mddev_unlock(mddev);
 4741	return err ? err : len;
 4742}
 4743
 4744static struct md_sysfs_entry md_size =
 4745__ATTR(component_size, S_IRUGO|S_IWUSR, size_show, size_store);
 4746
 4747/* Metadata version.
 4748 * This is one of
 4749 *   'none' for arrays with no metadata (good luck...)
 4750 *   'external' for arrays with externally managed metadata,
 4751 * or N.M for internally known formats
 4752 */
 4753static ssize_t
 4754metadata_show(struct mddev *mddev, char *page)
 4755{
 4756	if (mddev->persistent)
 4757		return sprintf(page, "%d.%d\n",
 4758			       mddev->major_version, mddev->minor_version);
 4759	else if (mddev->external)
 4760		return sprintf(page, "external:%s\n", mddev->metadata_type);
 4761	else
 4762		return sprintf(page, "none\n");
 4763}
 4764
 4765static ssize_t
 4766metadata_store(struct mddev *mddev, const char *buf, size_t len)
 4767{
 4768	int major, minor;
 4769	char *e;
 4770	int err;
 4771	/* Changing the details of 'external' metadata is
 4772	 * always permitted.  Otherwise there must be
 4773	 * no devices attached to the array.
 4774	 */
 4775
 4776	err = mddev_lock(mddev);
 4777	if (err)
 4778		return err;
 4779	err = -EBUSY;
 4780	if (mddev->external && strncmp(buf, "external:", 9) == 0)
 4781		;
 4782	else if (!list_empty(&mddev->disks))
 4783		goto out_unlock;
 4784
 4785	err = 0;
 4786	if (cmd_match(buf, "none")) {
 4787		mddev->persistent = 0;
 4788		mddev->external = 0;
 4789		mddev->major_version = 0;
 4790		mddev->minor_version = 90;
 4791		goto out_unlock;
 4792	}
 4793	if (strncmp(buf, "external:", 9) == 0) {
 4794		size_t namelen = len-9;
 4795		if (namelen >= sizeof(mddev->metadata_type))
 4796			namelen = sizeof(mddev->metadata_type)-1;
 4797		memcpy(mddev->metadata_type, buf+9, namelen);
 4798		mddev->metadata_type[namelen] = 0;
 4799		if (namelen && mddev->metadata_type[namelen-1] == '\n')
 4800			mddev->metadata_type[--namelen] = 0;
 4801		mddev->persistent = 0;
 4802		mddev->external = 1;
 4803		mddev->major_version = 0;
 4804		mddev->minor_version = 90;
 4805		goto out_unlock;
 4806	}
 4807	major = simple_strtoul(buf, &e, 10);
 4808	err = -EINVAL;
 4809	if (e==buf || *e != '.')
 4810		goto out_unlock;
 4811	buf = e+1;
 4812	minor = simple_strtoul(buf, &e, 10);
 4813	if (e==buf || (*e && *e != '\n') )
 4814		goto out_unlock;
 4815	err = -ENOENT;
 4816	if (major >= ARRAY_SIZE(super_types) || super_types[major].name == NULL)
 4817		goto out_unlock;
 4818	mddev->major_version = major;
 4819	mddev->minor_version = minor;
 4820	mddev->persistent = 1;
 4821	mddev->external = 0;
 4822	err = 0;
 4823out_unlock:
 4824	mddev_unlock(mddev);
 4825	return err ?: len;
 4826}
 4827
 4828static struct md_sysfs_entry md_metadata =
 4829__ATTR_PREALLOC(metadata_version, S_IRUGO|S_IWUSR, metadata_show, metadata_store);
 4830
 4831static ssize_t
 4832action_show(struct mddev *mddev, char *page)
 4833{
 4834	char *type = "idle";
 4835	unsigned long recovery = mddev->recovery;
 4836	if (test_bit(MD_RECOVERY_FROZEN, &recovery))
 4837		type = "frozen";
 4838	else if (test_bit(MD_RECOVERY_RUNNING, &recovery) ||
 4839	    (md_is_rdwr(mddev) && test_bit(MD_RECOVERY_NEEDED, &recovery))) {
 4840		if (test_bit(MD_RECOVERY_RESHAPE, &recovery))
 4841			type = "reshape";
 4842		else if (test_bit(MD_RECOVERY_SYNC, &recovery)) {
 4843			if (!test_bit(MD_RECOVERY_REQUESTED, &recovery))
 4844				type = "resync";
 4845			else if (test_bit(MD_RECOVERY_CHECK, &recovery))
 4846				type = "check";
 4847			else
 4848				type = "repair";
 4849		} else if (test_bit(MD_RECOVERY_RECOVER, &recovery))
 4850			type = "recover";
 4851		else if (mddev->reshape_position != MaxSector)
 4852			type = "reshape";
 4853	}
 4854	return sprintf(page, "%s\n", type);
 4855}
 4856
 4857/**
 4858 * stop_sync_thread() - wait for sync_thread to stop if it's running.
 4859 * @mddev:	the array.
 4860 * @locked:	if set, reconfig_mutex will still be held after this function
 4861 *		return; if not set, reconfig_mutex will be released after this
 4862 *		function return.
 4863 * @check_seq:	if set, only wait for curent running sync_thread to stop, noted
 4864 *		that new sync_thread can still start.
 4865 */
 4866static void stop_sync_thread(struct mddev *mddev, bool locked, bool check_seq)
 4867{
 4868	int sync_seq;
 4869
 4870	if (check_seq)
 4871		sync_seq = atomic_read(&mddev->sync_seq);
 4872
 4873	if (!test_bit(MD_RECOVERY_RUNNING, &mddev->recovery)) {
 4874		if (!locked)
 4875			mddev_unlock(mddev);
 4876		return;
 4877	}
 4878
 4879	mddev_unlock(mddev);
 4880
 4881	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
 4882	/*
 4883	 * Thread might be blocked waiting for metadata update which will now
 4884	 * never happen
 4885	 */
 4886	md_wakeup_thread_directly(mddev->sync_thread);
 4887	if (work_pending(&mddev->sync_work))
 4888		flush_work(&mddev->sync_work);
 4889
 4890	wait_event(resync_wait,
 4891		   !test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) ||
 4892		   (check_seq && sync_seq != atomic_read(&mddev->sync_seq)));
 4893
 4894	if (locked)
 4895		mddev_lock_nointr(mddev);
 4896}
 4897
 4898static void idle_sync_thread(struct mddev *mddev)
 4899{
 4900	mutex_lock(&mddev->sync_mutex);
 4901	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 4902
 4903	if (mddev_lock(mddev)) {
 4904		mutex_unlock(&mddev->sync_mutex);
 4905		return;
 4906	}
 4907
 4908	stop_sync_thread(mddev, false, true);
 4909	mutex_unlock(&mddev->sync_mutex);
 4910}
 4911
 4912static void frozen_sync_thread(struct mddev *mddev)
 4913{
 4914	mutex_lock(&mddev->sync_mutex);
 4915	set_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 4916
 4917	if (mddev_lock(mddev)) {
 4918		mutex_unlock(&mddev->sync_mutex);
 4919		return;
 4920	}
 4921
 4922	stop_sync_thread(mddev, false, false);
 4923	mutex_unlock(&mddev->sync_mutex);
 4924}
 4925
 4926static ssize_t
 4927action_store(struct mddev *mddev, const char *page, size_t len)
 4928{
 4929	if (!mddev->pers || !mddev->pers->sync_request)
 4930		return -EINVAL;
 4931
 4932
 4933	if (cmd_match(page, "idle"))
 4934		idle_sync_thread(mddev);
 4935	else if (cmd_match(page, "frozen"))
 4936		frozen_sync_thread(mddev);
 4937	else if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
 4938		return -EBUSY;
 4939	else if (cmd_match(page, "resync"))
 4940		clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 4941	else if (cmd_match(page, "recover")) {
 4942		clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 4943		set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
 4944	} else if (cmd_match(page, "reshape")) {
 4945		int err;
 4946		if (mddev->pers->start_reshape == NULL)
 4947			return -EINVAL;
 4948		err = mddev_lock(mddev);
 4949		if (!err) {
 4950			if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery)) {
 4951				err =  -EBUSY;
 4952			} else if (mddev->reshape_position == MaxSector ||
 4953				   mddev->pers->check_reshape == NULL ||
 4954				   mddev->pers->check_reshape(mddev)) {
 4955				clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 4956				err = mddev->pers->start_reshape(mddev);
 4957			} else {
 4958				/*
 4959				 * If reshape is still in progress, and
 4960				 * md_check_recovery() can continue to reshape,
 4961				 * don't restart reshape because data can be
 4962				 * corrupted for raid456.
 4963				 */
 4964				clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 4965			}
 4966			mddev_unlock(mddev);
 4967		}
 4968		if (err)
 4969			return err;
 4970		sysfs_notify_dirent_safe(mddev->sysfs_degraded);
 4971	} else {
 4972		if (cmd_match(page, "check"))
 4973			set_bit(MD_RECOVERY_CHECK, &mddev->recovery);
 4974		else if (!cmd_match(page, "repair"))
 4975			return -EINVAL;
 4976		clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 4977		set_bit(MD_RECOVERY_REQUESTED, &mddev->recovery);
 4978		set_bit(MD_RECOVERY_SYNC, &mddev->recovery);
 4979	}
 4980	if (mddev->ro == MD_AUTO_READ) {
 4981		/* A write to sync_action is enough to justify
 4982		 * canceling read-auto mode
 4983		 */
 4984		flush_work(&mddev->sync_work);
 4985		mddev->ro = MD_RDWR;
 4986		md_wakeup_thread(mddev->sync_thread);
 4987	}
 4988	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 4989	md_wakeup_thread(mddev->thread);
 4990	sysfs_notify_dirent_safe(mddev->sysfs_action);
 4991	return len;
 4992}
 4993
 4994static struct md_sysfs_entry md_scan_mode =
 4995__ATTR_PREALLOC(sync_action, S_IRUGO|S_IWUSR, action_show, action_store);
 4996
 4997static ssize_t
 4998last_sync_action_show(struct mddev *mddev, char *page)
 4999{
 5000	return sprintf(page, "%s\n", mddev->last_sync_action);
 5001}
 5002
 5003static struct md_sysfs_entry md_last_scan_mode = __ATTR_RO(last_sync_action);
 5004
 5005static ssize_t
 5006mismatch_cnt_show(struct mddev *mddev, char *page)
 5007{
 5008	return sprintf(page, "%llu\n",
 5009		       (unsigned long long)
 5010		       atomic64_read(&mddev->resync_mismatches));
 5011}
 5012
 5013static struct md_sysfs_entry md_mismatches = __ATTR_RO(mismatch_cnt);
 5014
 5015static ssize_t
 5016sync_min_show(struct mddev *mddev, char *page)
 5017{
 5018	return sprintf(page, "%d (%s)\n", speed_min(mddev),
 5019		       mddev->sync_speed_min ? "local": "system");
 5020}
 5021
 5022static ssize_t
 5023sync_min_store(struct mddev *mddev, const char *buf, size_t len)
 5024{
 5025	unsigned int min;
 5026	int rv;
 5027
 5028	if (strncmp(buf, "system", 6)==0) {
 5029		min = 0;
 5030	} else {
 5031		rv = kstrtouint(buf, 10, &min);
 5032		if (rv < 0)
 5033			return rv;
 5034		if (min == 0)
 5035			return -EINVAL;
 5036	}
 5037	mddev->sync_speed_min = min;
 5038	return len;
 5039}
 5040
 5041static struct md_sysfs_entry md_sync_min =
 5042__ATTR(sync_speed_min, S_IRUGO|S_IWUSR, sync_min_show, sync_min_store);
 5043
 5044static ssize_t
 5045sync_max_show(struct mddev *mddev, char *page)
 5046{
 5047	return sprintf(page, "%d (%s)\n", speed_max(mddev),
 5048		       mddev->sync_speed_max ? "local": "system");
 5049}
 5050
 5051static ssize_t
 5052sync_max_store(struct mddev *mddev, const char *buf, size_t len)
 5053{
 5054	unsigned int max;
 5055	int rv;
 5056
 5057	if (strncmp(buf, "system", 6)==0) {
 5058		max = 0;
 5059	} else {
 5060		rv = kstrtouint(buf, 10, &max);
 5061		if (rv < 0)
 5062			return rv;
 5063		if (max == 0)
 5064			return -EINVAL;
 5065	}
 5066	mddev->sync_speed_max = max;
 5067	return len;
 5068}
 5069
 5070static struct md_sysfs_entry md_sync_max =
 5071__ATTR(sync_speed_max, S_IRUGO|S_IWUSR, sync_max_show, sync_max_store);
 5072
 5073static ssize_t
 5074degraded_show(struct mddev *mddev, char *page)
 5075{
 5076	return sprintf(page, "%d\n", mddev->degraded);
 5077}
 5078static struct md_sysfs_entry md_degraded = __ATTR_RO(degraded);
 5079
 5080static ssize_t
 5081sync_force_parallel_show(struct mddev *mddev, char *page)
 5082{
 5083	return sprintf(page, "%d\n", mddev->parallel_resync);
 5084}
 5085
 5086static ssize_t
 5087sync_force_parallel_store(struct mddev *mddev, const char *buf, size_t len)
 5088{
 5089	long n;
 5090
 5091	if (kstrtol(buf, 10, &n))
 5092		return -EINVAL;
 5093
 5094	if (n != 0 && n != 1)
 5095		return -EINVAL;
 5096
 5097	mddev->parallel_resync = n;
 5098
 5099	if (mddev->sync_thread)
 5100		wake_up(&resync_wait);
 5101
 5102	return len;
 5103}
 5104
 5105/* force parallel resync, even with shared block devices */
 5106static struct md_sysfs_entry md_sync_force_parallel =
 5107__ATTR(sync_force_parallel, S_IRUGO|S_IWUSR,
 5108       sync_force_parallel_show, sync_force_parallel_store);
 5109
 5110static ssize_t
 5111sync_speed_show(struct mddev *mddev, char *page)
 5112{
 5113	unsigned long resync, dt, db;
 5114	if (mddev->curr_resync == MD_RESYNC_NONE)
 5115		return sprintf(page, "none\n");
 5116	resync = mddev->curr_mark_cnt - atomic_read(&mddev->recovery_active);
 5117	dt = (jiffies - mddev->resync_mark) / HZ;
 5118	if (!dt) dt++;
 5119	db = resync - mddev->resync_mark_cnt;
 5120	return sprintf(page, "%lu\n", db/dt/2); /* K/sec */
 5121}
 5122
 5123static struct md_sysfs_entry md_sync_speed = __ATTR_RO(sync_speed);
 5124
 5125static ssize_t
 5126sync_completed_show(struct mddev *mddev, char *page)
 5127{
 5128	unsigned long long max_sectors, resync;
 5129
 5130	if (!test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
 5131		return sprintf(page, "none\n");
 5132
 5133	if (mddev->curr_resync == MD_RESYNC_YIELDED ||
 5134	    mddev->curr_resync == MD_RESYNC_DELAYED)
 5135		return sprintf(page, "delayed\n");
 5136
 5137	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery) ||
 5138	    test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery))
 5139		max_sectors = mddev->resync_max_sectors;
 5140	else
 5141		max_sectors = mddev->dev_sectors;
 5142
 5143	resync = mddev->curr_resync_completed;
 5144	return sprintf(page, "%llu / %llu\n", resync, max_sectors);
 5145}
 5146
 5147static struct md_sysfs_entry md_sync_completed =
 5148	__ATTR_PREALLOC(sync_completed, S_IRUGO, sync_completed_show, NULL);
 5149
 5150static ssize_t
 5151min_sync_show(struct mddev *mddev, char *page)
 5152{
 5153	return sprintf(page, "%llu\n",
 5154		       (unsigned long long)mddev->resync_min);
 5155}
 5156static ssize_t
 5157min_sync_store(struct mddev *mddev, const char *buf, size_t len)
 5158{
 5159	unsigned long long min;
 5160	int err;
 5161
 5162	if (kstrtoull(buf, 10, &min))
 5163		return -EINVAL;
 5164
 5165	spin_lock(&mddev->lock);
 5166	err = -EINVAL;
 5167	if (min > mddev->resync_max)
 5168		goto out_unlock;
 5169
 5170	err = -EBUSY;
 5171	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
 5172		goto out_unlock;
 5173
 5174	/* Round down to multiple of 4K for safety */
 5175	mddev->resync_min = round_down(min, 8);
 5176	err = 0;
 5177
 5178out_unlock:
 5179	spin_unlock(&mddev->lock);
 5180	return err ?: len;
 5181}
 5182
 5183static struct md_sysfs_entry md_min_sync =
 5184__ATTR(sync_min, S_IRUGO|S_IWUSR, min_sync_show, min_sync_store);
 5185
 5186static ssize_t
 5187max_sync_show(struct mddev *mddev, char *page)
 5188{
 5189	if (mddev->resync_max == MaxSector)
 5190		return sprintf(page, "max\n");
 5191	else
 5192		return sprintf(page, "%llu\n",
 5193			       (unsigned long long)mddev->resync_max);
 5194}
 5195static ssize_t
 5196max_sync_store(struct mddev *mddev, const char *buf, size_t len)
 5197{
 5198	int err;
 5199	spin_lock(&mddev->lock);
 5200	if (strncmp(buf, "max", 3) == 0)
 5201		mddev->resync_max = MaxSector;
 5202	else {
 5203		unsigned long long max;
 5204		int chunk;
 5205
 5206		err = -EINVAL;
 5207		if (kstrtoull(buf, 10, &max))
 5208			goto out_unlock;
 5209		if (max < mddev->resync_min)
 5210			goto out_unlock;
 5211
 5212		err = -EBUSY;
 5213		if (max < mddev->resync_max && md_is_rdwr(mddev) &&
 5214		    test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
 5215			goto out_unlock;
 5216
 5217		/* Must be a multiple of chunk_size */
 5218		chunk = mddev->chunk_sectors;
 5219		if (chunk) {
 5220			sector_t temp = max;
 5221
 5222			err = -EINVAL;
 5223			if (sector_div(temp, chunk))
 5224				goto out_unlock;
 5225		}
 5226		mddev->resync_max = max;
 5227	}
 5228	wake_up(&mddev->recovery_wait);
 5229	err = 0;
 5230out_unlock:
 5231	spin_unlock(&mddev->lock);
 5232	return err ?: len;
 5233}
 5234
 5235static struct md_sysfs_entry md_max_sync =
 5236__ATTR(sync_max, S_IRUGO|S_IWUSR, max_sync_show, max_sync_store);
 5237
 5238static ssize_t
 5239suspend_lo_show(struct mddev *mddev, char *page)
 5240{
 5241	return sprintf(page, "%llu\n",
 5242		       (unsigned long long)READ_ONCE(mddev->suspend_lo));
 5243}
 5244
 5245static ssize_t
 5246suspend_lo_store(struct mddev *mddev, const char *buf, size_t len)
 5247{
 5248	unsigned long long new;
 5249	int err;
 5250
 5251	err = kstrtoull(buf, 10, &new);
 5252	if (err < 0)
 5253		return err;
 5254	if (new != (sector_t)new)
 5255		return -EINVAL;
 5256
 5257	err = mddev_suspend(mddev, true);
 5258	if (err)
 5259		return err;
 5260
 5261	WRITE_ONCE(mddev->suspend_lo, new);
 5262	mddev_resume(mddev);
 5263
 5264	return len;
 5265}
 5266static struct md_sysfs_entry md_suspend_lo =
 5267__ATTR(suspend_lo, S_IRUGO|S_IWUSR, suspend_lo_show, suspend_lo_store);
 5268
 5269static ssize_t
 5270suspend_hi_show(struct mddev *mddev, char *page)
 5271{
 5272	return sprintf(page, "%llu\n",
 5273		       (unsigned long long)READ_ONCE(mddev->suspend_hi));
 5274}
 5275
 5276static ssize_t
 5277suspend_hi_store(struct mddev *mddev, const char *buf, size_t len)
 5278{
 5279	unsigned long long new;
 5280	int err;
 5281
 5282	err = kstrtoull(buf, 10, &new);
 5283	if (err < 0)
 5284		return err;
 5285	if (new != (sector_t)new)
 5286		return -EINVAL;
 5287
 5288	err = mddev_suspend(mddev, true);
 5289	if (err)
 5290		return err;
 5291
 5292	WRITE_ONCE(mddev->suspend_hi, new);
 5293	mddev_resume(mddev);
 5294
 5295	return len;
 5296}
 5297static struct md_sysfs_entry md_suspend_hi =
 5298__ATTR(suspend_hi, S_IRUGO|S_IWUSR, suspend_hi_show, suspend_hi_store);
 5299
 5300static ssize_t
 5301reshape_position_show(struct mddev *mddev, char *page)
 5302{
 5303	if (mddev->reshape_position != MaxSector)
 5304		return sprintf(page, "%llu\n",
 5305			       (unsigned long long)mddev->reshape_position);
 5306	strcpy(page, "none\n");
 5307	return 5;
 5308}
 5309
 5310static ssize_t
 5311reshape_position_store(struct mddev *mddev, const char *buf, size_t len)
 5312{
 5313	struct md_rdev *rdev;
 5314	unsigned long long new;
 5315	int err;
 5316
 5317	err = kstrtoull(buf, 10, &new);
 5318	if (err < 0)
 5319		return err;
 5320	if (new != (sector_t)new)
 5321		return -EINVAL;
 5322	err = mddev_lock(mddev);
 5323	if (err)
 5324		return err;
 5325	err = -EBUSY;
 5326	if (mddev->pers)
 5327		goto unlock;
 5328	mddev->reshape_position = new;
 5329	mddev->delta_disks = 0;
 5330	mddev->reshape_backwards = 0;
 5331	mddev->new_level = mddev->level;
 5332	mddev->new_layout = mddev->layout;
 5333	mddev->new_chunk_sectors = mddev->chunk_sectors;
 5334	rdev_for_each(rdev, mddev)
 5335		rdev->new_data_offset = rdev->data_offset;
 5336	err = 0;
 5337unlock:
 5338	mddev_unlock(mddev);
 5339	return err ?: len;
 5340}
 5341
 5342static struct md_sysfs_entry md_reshape_position =
 5343__ATTR(reshape_position, S_IRUGO|S_IWUSR, reshape_position_show,
 5344       reshape_position_store);
 5345
 5346static ssize_t
 5347reshape_direction_show(struct mddev *mddev, char *page)
 5348{
 5349	return sprintf(page, "%s\n",
 5350		       mddev->reshape_backwards ? "backwards" : "forwards");
 5351}
 5352
 5353static ssize_t
 5354reshape_direction_store(struct mddev *mddev, const char *buf, size_t len)
 5355{
 5356	int backwards = 0;
 5357	int err;
 5358
 5359	if (cmd_match(buf, "forwards"))
 5360		backwards = 0;
 5361	else if (cmd_match(buf, "backwards"))
 5362		backwards = 1;
 5363	else
 5364		return -EINVAL;
 5365	if (mddev->reshape_backwards == backwards)
 5366		return len;
 5367
 5368	err = mddev_lock(mddev);
 5369	if (err)
 5370		return err;
 5371	/* check if we are allowed to change */
 5372	if (mddev->delta_disks)
 5373		err = -EBUSY;
 5374	else if (mddev->persistent &&
 5375	    mddev->major_version == 0)
 5376		err =  -EINVAL;
 5377	else
 5378		mddev->reshape_backwards = backwards;
 5379	mddev_unlock(mddev);
 5380	return err ?: len;
 5381}
 5382
 5383static struct md_sysfs_entry md_reshape_direction =
 5384__ATTR(reshape_direction, S_IRUGO|S_IWUSR, reshape_direction_show,
 5385       reshape_direction_store);
 5386
 5387static ssize_t
 5388array_size_show(struct mddev *mddev, char *page)
 5389{
 5390	if (mddev->external_size)
 5391		return sprintf(page, "%llu\n",
 5392			       (unsigned long long)mddev->array_sectors/2);
 5393	else
 5394		return sprintf(page, "default\n");
 5395}
 5396
 5397static ssize_t
 5398array_size_store(struct mddev *mddev, const char *buf, size_t len)
 5399{
 5400	sector_t sectors;
 5401	int err;
 5402
 5403	err = mddev_lock(mddev);
 5404	if (err)
 5405		return err;
 5406
 5407	/* cluster raid doesn't support change array_sectors */
 5408	if (mddev_is_clustered(mddev)) {
 5409		mddev_unlock(mddev);
 5410		return -EINVAL;
 5411	}
 5412
 5413	if (strncmp(buf, "default", 7) == 0) {
 5414		if (mddev->pers)
 5415			sectors = mddev->pers->size(mddev, 0, 0);
 5416		else
 5417			sectors = mddev->array_sectors;
 5418
 5419		mddev->external_size = 0;
 5420	} else {
 5421		if (strict_blocks_to_sectors(buf, &sectors) < 0)
 5422			err = -EINVAL;
 5423		else if (mddev->pers && mddev->pers->size(mddev, 0, 0) < sectors)
 5424			err = -E2BIG;
 5425		else
 5426			mddev->external_size = 1;
 5427	}
 5428
 5429	if (!err) {
 5430		mddev->array_sectors = sectors;
 5431		if (mddev->pers)
 5432			set_capacity_and_notify(mddev->gendisk,
 5433						mddev->array_sectors);
 5434	}
 5435	mddev_unlock(mddev);
 5436	return err ?: len;
 5437}
 5438
 5439static struct md_sysfs_entry md_array_size =
 5440__ATTR(array_size, S_IRUGO|S_IWUSR, array_size_show,
 5441       array_size_store);
 5442
 5443static ssize_t
 5444consistency_policy_show(struct mddev *mddev, char *page)
 5445{
 5446	int ret;
 5447
 5448	if (test_bit(MD_HAS_JOURNAL, &mddev->flags)) {
 5449		ret = sprintf(page, "journal\n");
 5450	} else if (test_bit(MD_HAS_PPL, &mddev->flags)) {
 5451		ret = sprintf(page, "ppl\n");
 5452	} else if (mddev->bitmap) {
 5453		ret = sprintf(page, "bitmap\n");
 5454	} else if (mddev->pers) {
 5455		if (mddev->pers->sync_request)
 5456			ret = sprintf(page, "resync\n");
 5457		else
 5458			ret = sprintf(page, "none\n");
 5459	} else {
 5460		ret = sprintf(page, "unknown\n");
 5461	}
 5462
 5463	return ret;
 5464}
 5465
 5466static ssize_t
 5467consistency_policy_store(struct mddev *mddev, const char *buf, size_t len)
 5468{
 5469	int err = 0;
 5470
 5471	if (mddev->pers) {
 5472		if (mddev->pers->change_consistency_policy)
 5473			err = mddev->pers->change_consistency_policy(mddev, buf);
 5474		else
 5475			err = -EBUSY;
 5476	} else if (mddev->external && strncmp(buf, "ppl", 3) == 0) {
 5477		set_bit(MD_HAS_PPL, &mddev->flags);
 5478	} else {
 5479		err = -EINVAL;
 5480	}
 5481
 5482	return err ? err : len;
 5483}
 5484
 5485static struct md_sysfs_entry md_consistency_policy =
 5486__ATTR(consistency_policy, S_IRUGO | S_IWUSR, consistency_policy_show,
 5487       consistency_policy_store);
 5488
 5489static ssize_t fail_last_dev_show(struct mddev *mddev, char *page)
 5490{
 5491	return sprintf(page, "%d\n", mddev->fail_last_dev);
 5492}
 5493
 5494/*
 5495 * Setting fail_last_dev to true to allow last device to be forcibly removed
 5496 * from RAID1/RAID10.
 5497 */
 5498static ssize_t
 5499fail_last_dev_store(struct mddev *mddev, const char *buf, size_t len)
 5500{
 5501	int ret;
 5502	bool value;
 5503
 5504	ret = kstrtobool(buf, &value);
 5505	if (ret)
 5506		return ret;
 5507
 5508	if (value != mddev->fail_last_dev)
 5509		mddev->fail_last_dev = value;
 5510
 5511	return len;
 5512}
 5513static struct md_sysfs_entry md_fail_last_dev =
 5514__ATTR(fail_last_dev, S_IRUGO | S_IWUSR, fail_last_dev_show,
 5515       fail_last_dev_store);
 5516
 5517static ssize_t serialize_policy_show(struct mddev *mddev, char *page)
 5518{
 5519	if (mddev->pers == NULL || (mddev->pers->level != 1))
 5520		return sprintf(page, "n/a\n");
 5521	else
 5522		return sprintf(page, "%d\n", mddev->serialize_policy);
 5523}
 5524
 5525/*
 5526 * Setting serialize_policy to true to enforce write IO is not reordered
 5527 * for raid1.
 5528 */
 5529static ssize_t
 5530serialize_policy_store(struct mddev *mddev, const char *buf, size_t len)
 5531{
 5532	int err;
 5533	bool value;
 5534
 5535	err = kstrtobool(buf, &value);
 5536	if (err)
 5537		return err;
 5538
 5539	if (value == mddev->serialize_policy)
 5540		return len;
 5541
 5542	err = mddev_suspend_and_lock(mddev);
 5543	if (err)
 5544		return err;
 5545	if (mddev->pers == NULL || (mddev->pers->level != 1)) {
 5546		pr_err("md: serialize_policy is only effective for raid1\n");
 5547		err = -EINVAL;
 5548		goto unlock;
 5549	}
 5550
 5551	if (value)
 5552		mddev_create_serial_pool(mddev, NULL);
 5553	else
 5554		mddev_destroy_serial_pool(mddev, NULL);
 5555	mddev->serialize_policy = value;
 5556unlock:
 5557	mddev_unlock_and_resume(mddev);
 5558	return err ?: len;
 5559}
 5560
 5561static struct md_sysfs_entry md_serialize_policy =
 5562__ATTR(serialize_policy, S_IRUGO | S_IWUSR, serialize_policy_show,
 5563       serialize_policy_store);
 5564
 5565
 5566static struct attribute *md_default_attrs[] = {
 5567	&md_level.attr,
 5568	&md_layout.attr,
 5569	&md_raid_disks.attr,
 5570	&md_uuid.attr,
 5571	&md_chunk_size.attr,
 5572	&md_size.attr,
 5573	&md_resync_start.attr,
 5574	&md_metadata.attr,
 5575	&md_new_device.attr,
 5576	&md_safe_delay.attr,
 5577	&md_array_state.attr,
 5578	&md_reshape_position.attr,
 5579	&md_reshape_direction.attr,
 5580	&md_array_size.attr,
 5581	&max_corr_read_errors.attr,
 5582	&md_consistency_policy.attr,
 5583	&md_fail_last_dev.attr,
 5584	&md_serialize_policy.attr,
 5585	NULL,
 5586};
 5587
 5588static const struct attribute_group md_default_group = {
 5589	.attrs = md_default_attrs,
 5590};
 5591
 5592static struct attribute *md_redundancy_attrs[] = {
 5593	&md_scan_mode.attr,
 5594	&md_last_scan_mode.attr,
 5595	&md_mismatches.attr,
 5596	&md_sync_min.attr,
 5597	&md_sync_max.attr,
 5598	&md_sync_speed.attr,
 5599	&md_sync_force_parallel.attr,
 5600	&md_sync_completed.attr,
 5601	&md_min_sync.attr,
 5602	&md_max_sync.attr,
 5603	&md_suspend_lo.attr,
 5604	&md_suspend_hi.attr,
 5605	&md_bitmap.attr,
 5606	&md_degraded.attr,
 5607	NULL,
 5608};
 5609static const struct attribute_group md_redundancy_group = {
 5610	.name = NULL,
 5611	.attrs = md_redundancy_attrs,
 5612};
 5613
 5614static const struct attribute_group *md_attr_groups[] = {
 5615	&md_default_group,
 5616	&md_bitmap_group,
 5617	NULL,
 5618};
 5619
 5620static ssize_t
 5621md_attr_show(struct kobject *kobj, struct attribute *attr, char *page)
 5622{
 5623	struct md_sysfs_entry *entry = container_of(attr, struct md_sysfs_entry, attr);
 5624	struct mddev *mddev = container_of(kobj, struct mddev, kobj);
 5625	ssize_t rv;
 5626
 5627	if (!entry->show)
 5628		return -EIO;
 5629	spin_lock(&all_mddevs_lock);
 5630	if (!mddev_get(mddev)) {
 5631		spin_unlock(&all_mddevs_lock);
 5632		return -EBUSY;
 5633	}
 5634	spin_unlock(&all_mddevs_lock);
 5635
 5636	rv = entry->show(mddev, page);
 5637	mddev_put(mddev);
 5638	return rv;
 5639}
 5640
 5641static ssize_t
 5642md_attr_store(struct kobject *kobj, struct attribute *attr,
 5643	      const char *page, size_t length)
 5644{
 5645	struct md_sysfs_entry *entry = container_of(attr, struct md_sysfs_entry, attr);
 5646	struct mddev *mddev = container_of(kobj, struct mddev, kobj);
 5647	ssize_t rv;
 5648
 5649	if (!entry->store)
 5650		return -EIO;
 5651	if (!capable(CAP_SYS_ADMIN))
 5652		return -EACCES;
 5653	spin_lock(&all_mddevs_lock);
 5654	if (!mddev_get(mddev)) {
 5655		spin_unlock(&all_mddevs_lock);
 5656		return -EBUSY;
 5657	}
 5658	spin_unlock(&all_mddevs_lock);
 5659	rv = entry->store(mddev, page, length);
 5660	mddev_put(mddev);
 5661	return rv;
 5662}
 5663
 5664static void md_kobj_release(struct kobject *ko)
 5665{
 5666	struct mddev *mddev = container_of(ko, struct mddev, kobj);
 5667
 5668	if (mddev->sysfs_state)
 5669		sysfs_put(mddev->sysfs_state);
 5670	if (mddev->sysfs_level)
 5671		sysfs_put(mddev->sysfs_level);
 5672
 5673	del_gendisk(mddev->gendisk);
 5674	put_disk(mddev->gendisk);
 5675}
 5676
 5677static const struct sysfs_ops md_sysfs_ops = {
 5678	.show	= md_attr_show,
 5679	.store	= md_attr_store,
 5680};
 5681static const struct kobj_type md_ktype = {
 5682	.release	= md_kobj_release,
 5683	.sysfs_ops	= &md_sysfs_ops,
 5684	.default_groups	= md_attr_groups,
 5685};
 5686
 5687int mdp_major = 0;
 5688
 5689static void mddev_delayed_delete(struct work_struct *ws)
 5690{
 5691	struct mddev *mddev = container_of(ws, struct mddev, del_work);
 5692
 5693	kobject_put(&mddev->kobj);
 5694}
 5695
 5696struct mddev *md_alloc(dev_t dev, char *name)
 5697{
 5698	/*
 5699	 * If dev is zero, name is the name of a device to allocate with
 5700	 * an arbitrary minor number.  It will be "md_???"
 5701	 * If dev is non-zero it must be a device number with a MAJOR of
 5702	 * MD_MAJOR or mdp_major.  In this case, if "name" is NULL, then
 5703	 * the device is being created by opening a node in /dev.
 5704	 * If "name" is not NULL, the device is being created by
 5705	 * writing to /sys/module/md_mod/parameters/new_array.
 5706	 */
 5707	static DEFINE_MUTEX(disks_mutex);
 5708	struct mddev *mddev;
 5709	struct gendisk *disk;
 5710	int partitioned;
 5711	int shift;
 5712	int unit;
 5713	int error ;
 5714
 5715	/*
 5716	 * Wait for any previous instance of this device to be completely
 5717	 * removed (mddev_delayed_delete).
 5718	 */
 5719	flush_workqueue(md_misc_wq);
 5720
 5721	mutex_lock(&disks_mutex);
 5722	mddev = mddev_alloc(dev);
 5723	if (IS_ERR(mddev)) {
 5724		error = PTR_ERR(mddev);
 5725		goto out_unlock;
 5726	}
 5727
 5728	partitioned = (MAJOR(mddev->unit) != MD_MAJOR);
 5729	shift = partitioned ? MdpMinorShift : 0;
 5730	unit = MINOR(mddev->unit) >> shift;
 5731
 5732	if (name && !dev) {
 5733		/* Need to ensure that 'name' is not a duplicate.
 5734		 */
 5735		struct mddev *mddev2;
 5736		spin_lock(&all_mddevs_lock);
 5737
 5738		list_for_each_entry(mddev2, &all_mddevs, all_mddevs)
 5739			if (mddev2->gendisk &&
 5740			    strcmp(mddev2->gendisk->disk_name, name) == 0) {
 5741				spin_unlock(&all_mddevs_lock);
 5742				error = -EEXIST;
 5743				goto out_free_mddev;
 5744			}
 5745		spin_unlock(&all_mddevs_lock);
 5746	}
 5747	if (name && dev)
 5748		/*
 5749		 * Creating /dev/mdNNN via "newarray", so adjust hold_active.
 5750		 */
 5751		mddev->hold_active = UNTIL_STOP;
 5752
 5753	error = -ENOMEM;
 5754	disk = blk_alloc_disk(NUMA_NO_NODE);
 5755	if (!disk)
 5756		goto out_free_mddev;
 5757
 5758	disk->major = MAJOR(mddev->unit);
 5759	disk->first_minor = unit << shift;
 5760	disk->minors = 1 << shift;
 5761	if (name)
 5762		strcpy(disk->disk_name, name);
 5763	else if (partitioned)
 5764		sprintf(disk->disk_name, "md_d%d", unit);
 5765	else
 5766		sprintf(disk->disk_name, "md%d", unit);
 5767	disk->fops = &md_fops;
 5768	disk->private_data = mddev;
 5769
 5770	mddev->queue = disk->queue;
 5771	blk_set_stacking_limits(&mddev->queue->limits);
 5772	blk_queue_write_cache(mddev->queue, true, true);
 5773	disk->events |= DISK_EVENT_MEDIA_CHANGE;
 5774	mddev->gendisk = disk;
 5775	error = add_disk(disk);
 5776	if (error)
 5777		goto out_put_disk;
 5778
 5779	kobject_init(&mddev->kobj, &md_ktype);
 5780	error = kobject_add(&mddev->kobj, &disk_to_dev(disk)->kobj, "%s", "md");
 5781	if (error) {
 5782		/*
 5783		 * The disk is already live at this point.  Clear the hold flag
 5784		 * and let mddev_put take care of the deletion, as it isn't any
 5785		 * different from a normal close on last release now.
 5786		 */
 5787		mddev->hold_active = 0;
 5788		mutex_unlock(&disks_mutex);
 5789		mddev_put(mddev);
 5790		return ERR_PTR(error);
 5791	}
 5792
 5793	kobject_uevent(&mddev->kobj, KOBJ_ADD);
 5794	mddev->sysfs_state = sysfs_get_dirent_safe(mddev->kobj.sd, "array_state");
 5795	mddev->sysfs_level = sysfs_get_dirent_safe(mddev->kobj.sd, "level");
 5796	mutex_unlock(&disks_mutex);
 5797	return mddev;
 5798
 5799out_put_disk:
 5800	put_disk(disk);
 5801out_free_mddev:
 5802	mddev_free(mddev);
 5803out_unlock:
 5804	mutex_unlock(&disks_mutex);
 5805	return ERR_PTR(error);
 5806}
 5807
 5808static int md_alloc_and_put(dev_t dev, char *name)
 5809{
 5810	struct mddev *mddev = md_alloc(dev, name);
 5811
 5812	if (IS_ERR(mddev))
 5813		return PTR_ERR(mddev);
 5814	mddev_put(mddev);
 5815	return 0;
 5816}
 5817
 5818static void md_probe(dev_t dev)
 5819{
 5820	if (MAJOR(dev) == MD_MAJOR && MINOR(dev) >= 512)
 5821		return;
 5822	if (create_on_open)
 5823		md_alloc_and_put(dev, NULL);
 5824}
 5825
 5826static int add_named_array(const char *val, const struct kernel_param *kp)
 5827{
 5828	/*
 5829	 * val must be "md_*" or "mdNNN".
 5830	 * For "md_*" we allocate an array with a large free minor number, and
 5831	 * set the name to val.  val must not already be an active name.
 5832	 * For "mdNNN" we allocate an array with the minor number NNN
 5833	 * which must not already be in use.
 5834	 */
 5835	int len = strlen(val);
 5836	char buf[DISK_NAME_LEN];
 5837	unsigned long devnum;
 5838
 5839	while (len && val[len-1] == '\n')
 5840		len--;
 5841	if (len >= DISK_NAME_LEN)
 5842		return -E2BIG;
 5843	strscpy(buf, val, len+1);
 5844	if (strncmp(buf, "md_", 3) == 0)
 5845		return md_alloc_and_put(0, buf);
 5846	if (strncmp(buf, "md", 2) == 0 &&
 5847	    isdigit(buf[2]) &&
 5848	    kstrtoul(buf+2, 10, &devnum) == 0 &&
 5849	    devnum <= MINORMASK)
 5850		return md_alloc_and_put(MKDEV(MD_MAJOR, devnum), NULL);
 5851
 5852	return -EINVAL;
 5853}
 5854
 5855static void md_safemode_timeout(struct timer_list *t)
 5856{
 5857	struct mddev *mddev = from_timer(mddev, t, safemode_timer);
 5858
 5859	mddev->safemode = 1;
 5860	if (mddev->external)
 5861		sysfs_notify_dirent_safe(mddev->sysfs_state);
 5862
 5863	md_wakeup_thread(mddev->thread);
 5864}
 5865
 5866static int start_dirty_degraded;
 5867
 5868int md_run(struct mddev *mddev)
 5869{
 5870	int err;
 5871	struct md_rdev *rdev;
 5872	struct md_personality *pers;
 5873	bool nowait = true;
 5874
 5875	if (list_empty(&mddev->disks))
 5876		/* cannot run an array with no devices.. */
 5877		return -EINVAL;
 5878
 5879	if (mddev->pers)
 5880		return -EBUSY;
 5881	/* Cannot run until previous stop completes properly */
 5882	if (mddev->sysfs_active)
 5883		return -EBUSY;
 5884
 5885	/*
 5886	 * Analyze all RAID superblock(s)
 5887	 */
 5888	if (!mddev->raid_disks) {
 5889		if (!mddev->persistent)
 5890			return -EINVAL;
 5891		err = analyze_sbs(mddev);
 5892		if (err)
 5893			return -EINVAL;
 5894	}
 5895
 5896	if (mddev->level != LEVEL_NONE)
 5897		request_module("md-level-%d", mddev->level);
 5898	else if (mddev->clevel[0])
 5899		request_module("md-%s", mddev->clevel);
 5900
 5901	/*
 5902	 * Drop all container device buffers, from now on
 5903	 * the only valid external interface is through the md
 5904	 * device.
 5905	 */
 5906	mddev->has_superblocks = false;
 5907	rdev_for_each(rdev, mddev) {
 5908		if (test_bit(Faulty, &rdev->flags))
 5909			continue;
 5910		sync_blockdev(rdev->bdev);
 5911		invalidate_bdev(rdev->bdev);
 5912		if (mddev->ro != MD_RDONLY && rdev_read_only(rdev)) {
 5913			mddev->ro = MD_RDONLY;
 5914			if (mddev->gendisk)
 5915				set_disk_ro(mddev->gendisk, 1);
 5916		}
 5917
 5918		if (rdev->sb_page)
 5919			mddev->has_superblocks = true;
 5920
 5921		/* perform some consistency tests on the device.
 5922		 * We don't want the data to overlap the metadata,
 5923		 * Internal Bitmap issues have been handled elsewhere.
 5924		 */
 5925		if (rdev->meta_bdev) {
 5926			/* Nothing to check */;
 5927		} else if (rdev->data_offset < rdev->sb_start) {
 5928			if (mddev->dev_sectors &&
 5929			    rdev->data_offset + mddev->dev_sectors
 5930			    > rdev->sb_start) {
 5931				pr_warn("md: %s: data overlaps metadata\n",
 5932					mdname(mddev));
 5933				return -EINVAL;
 5934			}
 5935		} else {
 5936			if (rdev->sb_start + rdev->sb_size/512
 5937			    > rdev->data_offset) {
 5938				pr_warn("md: %s: metadata overlaps data\n",
 5939					mdname(mddev));
 5940				return -EINVAL;
 5941			}
 5942		}
 5943		sysfs_notify_dirent_safe(rdev->sysfs_state);
 5944		nowait = nowait && bdev_nowait(rdev->bdev);
 5945	}
 5946
 5947	if (!bioset_initialized(&mddev->bio_set)) {
 5948		err = bioset_init(&mddev->bio_set, BIO_POOL_SIZE, 0, BIOSET_NEED_BVECS);
 5949		if (err)
 5950			return err;
 5951	}
 5952	if (!bioset_initialized(&mddev->sync_set)) {
 5953		err = bioset_init(&mddev->sync_set, BIO_POOL_SIZE, 0, BIOSET_NEED_BVECS);
 5954		if (err)
 5955			goto exit_bio_set;
 5956	}
 5957
 5958	if (!bioset_initialized(&mddev->io_clone_set)) {
 5959		err = bioset_init(&mddev->io_clone_set, BIO_POOL_SIZE,
 5960				  offsetof(struct md_io_clone, bio_clone), 0);
 5961		if (err)
 5962			goto exit_sync_set;
 5963	}
 5964
 5965	spin_lock(&pers_lock);
 5966	pers = find_pers(mddev->level, mddev->clevel);
 5967	if (!pers || !try_module_get(pers->owner)) {
 5968		spin_unlock(&pers_lock);
 5969		if (mddev->level != LEVEL_NONE)
 5970			pr_warn("md: personality for level %d is not loaded!\n",
 5971				mddev->level);
 5972		else
 5973			pr_warn("md: personality for level %s is not loaded!\n",
 5974				mddev->clevel);
 5975		err = -EINVAL;
 5976		goto abort;
 5977	}
 5978	spin_unlock(&pers_lock);
 5979	if (mddev->level != pers->level) {
 5980		mddev->level = pers->level;
 5981		mddev->new_level = pers->level;
 5982	}
 5983	strscpy(mddev->clevel, pers->name, sizeof(mddev->clevel));
 5984
 5985	if (mddev->reshape_position != MaxSector &&
 5986	    pers->start_reshape == NULL) {
 5987		/* This personality cannot handle reshaping... */
 5988		module_put(pers->owner);
 5989		err = -EINVAL;
 5990		goto abort;
 5991	}
 5992
 5993	if (pers->sync_request) {
 5994		/* Warn if this is a potentially silly
 5995		 * configuration.
 5996		 */
 5997		struct md_rdev *rdev2;
 5998		int warned = 0;
 5999
 6000		rdev_for_each(rdev, mddev)
 6001			rdev_for_each(rdev2, mddev) {
 6002				if (rdev < rdev2 &&
 6003				    rdev->bdev->bd_disk ==
 6004				    rdev2->bdev->bd_disk) {
 6005					pr_warn("%s: WARNING: %pg appears to be on the same physical disk as %pg.\n",
 6006						mdname(mddev),
 6007						rdev->bdev,
 6008						rdev2->bdev);
 6009					warned = 1;
 6010				}
 6011			}
 6012
 6013		if (warned)
 6014			pr_warn("True protection against single-disk failure might be compromised.\n");
 6015	}
 6016
 6017	mddev->recovery = 0;
 6018	/* may be over-ridden by personality */
 6019	mddev->resync_max_sectors = mddev->dev_sectors;
 6020
 6021	mddev->ok_start_degraded = start_dirty_degraded;
 6022
 6023	if (start_readonly && md_is_rdwr(mddev))
 6024		mddev->ro = MD_AUTO_READ; /* read-only, but switch on first write */
 6025
 6026	err = pers->run(mddev);
 6027	if (err)
 6028		pr_warn("md: pers->run() failed ...\n");
 6029	else if (pers->size(mddev, 0, 0) < mddev->array_sectors) {
 6030		WARN_ONCE(!mddev->external_size,
 6031			  "%s: default size too small, but 'external_size' not in effect?\n",
 6032			  __func__);
 6033		pr_warn("md: invalid array_size %llu > default size %llu\n",
 6034			(unsigned long long)mddev->array_sectors / 2,
 6035			(unsigned long long)pers->size(mddev, 0, 0) / 2);
 6036		err = -EINVAL;
 6037	}
 6038	if (err == 0 && pers->sync_request &&
 6039	    (mddev->bitmap_info.file || mddev->bitmap_info.offset)) {
 6040		struct bitmap *bitmap;
 6041
 6042		bitmap = md_bitmap_create(mddev, -1);
 6043		if (IS_ERR(bitmap)) {
 6044			err = PTR_ERR(bitmap);
 6045			pr_warn("%s: failed to create bitmap (%d)\n",
 6046				mdname(mddev), err);
 6047		} else
 6048			mddev->bitmap = bitmap;
 6049
 6050	}
 6051	if (err)
 6052		goto bitmap_abort;
 6053
 6054	if (mddev->bitmap_info.max_write_behind > 0) {
 6055		bool create_pool = false;
 6056
 6057		rdev_for_each(rdev, mddev) {
 6058			if (test_bit(WriteMostly, &rdev->flags) &&
 6059			    rdev_init_serial(rdev))
 6060				create_pool = true;
 6061		}
 6062		if (create_pool && mddev->serial_info_pool == NULL) {
 6063			mddev->serial_info_pool =
 6064				mempool_create_kmalloc_pool(NR_SERIAL_INFOS,
 6065						    sizeof(struct serial_info));
 6066			if (!mddev->serial_info_pool) {
 6067				err = -ENOMEM;
 6068				goto bitmap_abort;
 6069			}
 6070		}
 6071	}
 6072
 6073	if (mddev->queue) {
 6074		bool nonrot = true;
 6075
 6076		rdev_for_each(rdev, mddev) {
 6077			if (rdev->raid_disk >= 0 && !bdev_nonrot(rdev->bdev)) {
 6078				nonrot = false;
 6079				break;
 6080			}
 6081		}
 6082		if (mddev->degraded)
 6083			nonrot = false;
 6084		if (nonrot)
 6085			blk_queue_flag_set(QUEUE_FLAG_NONROT, mddev->queue);
 6086		else
 6087			blk_queue_flag_clear(QUEUE_FLAG_NONROT, mddev->queue);
 6088		blk_queue_flag_set(QUEUE_FLAG_IO_STAT, mddev->queue);
 6089
 6090		/* Set the NOWAIT flags if all underlying devices support it */
 6091		if (nowait)
 6092			blk_queue_flag_set(QUEUE_FLAG_NOWAIT, mddev->queue);
 6093	}
 6094	if (pers->sync_request) {
 6095		if (mddev->kobj.sd &&
 6096		    sysfs_create_group(&mddev->kobj, &md_redundancy_group))
 6097			pr_warn("md: cannot register extra attributes for %s\n",
 6098				mdname(mddev));
 6099		mddev->sysfs_action = sysfs_get_dirent_safe(mddev->kobj.sd, "sync_action");
 6100		mddev->sysfs_completed = sysfs_get_dirent_safe(mddev->kobj.sd, "sync_completed");
 6101		mddev->sysfs_degraded = sysfs_get_dirent_safe(mddev->kobj.sd, "degraded");
 6102	} else if (mddev->ro == MD_AUTO_READ)
 6103		mddev->ro = MD_RDWR;
 6104
 6105	atomic_set(&mddev->max_corr_read_errors,
 6106		   MD_DEFAULT_MAX_CORRECTED_READ_ERRORS);
 6107	mddev->safemode = 0;
 6108	if (mddev_is_clustered(mddev))
 6109		mddev->safemode_delay = 0;
 6110	else
 6111		mddev->safemode_delay = DEFAULT_SAFEMODE_DELAY;
 6112	mddev->in_sync = 1;
 6113	smp_wmb();
 6114	spin_lock(&mddev->lock);
 6115	mddev->pers = pers;
 6116	spin_unlock(&mddev->lock);
 6117	rdev_for_each(rdev, mddev)
 6118		if (rdev->raid_disk >= 0)
 6119			sysfs_link_rdev(mddev, rdev); /* failure here is OK */
 6120
 6121	if (mddev->degraded && md_is_rdwr(mddev))
 6122		/* This ensures that recovering status is reported immediately
 6123		 * via sysfs - until a lack of spares is confirmed.
 6124		 */
 6125		set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
 6126	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 6127
 6128	if (mddev->sb_flags)
 6129		md_update_sb(mddev, 0);
 6130
 6131	md_new_event();
 6132	return 0;
 6133
 6134bitmap_abort:
 6135	mddev_detach(mddev);
 6136	if (mddev->private)
 6137		pers->free(mddev, mddev->private);
 6138	mddev->private = NULL;
 6139	module_put(pers->owner);
 6140	md_bitmap_destroy(mddev);
 6141abort:
 6142	bioset_exit(&mddev->io_clone_set);
 6143exit_sync_set:
 6144	bioset_exit(&mddev->sync_set);
 6145exit_bio_set:
 6146	bioset_exit(&mddev->bio_set);
 6147	return err;
 6148}
 6149EXPORT_SYMBOL_GPL(md_run);
 6150
 6151int do_md_run(struct mddev *mddev)
 6152{
 6153	int err;
 6154
 6155	set_bit(MD_NOT_READY, &mddev->flags);
 6156	err = md_run(mddev);
 6157	if (err)
 6158		goto out;
 6159	err = md_bitmap_load(mddev);
 6160	if (err) {
 6161		md_bitmap_destroy(mddev);
 6162		goto out;
 6163	}
 6164
 6165	if (mddev_is_clustered(mddev))
 6166		md_allow_write(mddev);
 6167
 6168	/* run start up tasks that require md_thread */
 6169	md_start(mddev);
 6170
 6171	md_wakeup_thread(mddev->thread);
 6172	md_wakeup_thread(mddev->sync_thread); /* possibly kick off a reshape */
 6173
 6174	set_capacity_and_notify(mddev->gendisk, mddev->array_sectors);
 6175	clear_bit(MD_NOT_READY, &mddev->flags);
 6176	mddev->changed = 1;
 6177	kobject_uevent(&disk_to_dev(mddev->gendisk)->kobj, KOBJ_CHANGE);
 6178	sysfs_notify_dirent_safe(mddev->sysfs_state);
 6179	sysfs_notify_dirent_safe(mddev->sysfs_action);
 6180	sysfs_notify_dirent_safe(mddev->sysfs_degraded);
 6181out:
 6182	clear_bit(MD_NOT_READY, &mddev->flags);
 6183	return err;
 6184}
 6185
 6186int md_start(struct mddev *mddev)
 6187{
 6188	int ret = 0;
 6189
 6190	if (mddev->pers->start) {
 6191		set_bit(MD_RECOVERY_WAIT, &mddev->recovery);
 6192		md_wakeup_thread(mddev->thread);
 6193		ret = mddev->pers->start(mddev);
 6194		clear_bit(MD_RECOVERY_WAIT, &mddev->recovery);
 6195		md_wakeup_thread(mddev->sync_thread);
 6196	}
 6197	return ret;
 6198}
 6199EXPORT_SYMBOL_GPL(md_start);
 6200
 6201static int restart_array(struct mddev *mddev)
 6202{
 6203	struct gendisk *disk = mddev->gendisk;
 6204	struct md_rdev *rdev;
 6205	bool has_journal = false;
 6206	bool has_readonly = false;
 6207
 6208	/* Complain if it has no devices */
 6209	if (list_empty(&mddev->disks))
 6210		return -ENXIO;
 6211	if (!mddev->pers)
 6212		return -EINVAL;
 6213	if (md_is_rdwr(mddev))
 6214		return -EBUSY;
 6215
 6216	rcu_read_lock();
 6217	rdev_for_each_rcu(rdev, mddev) {
 6218		if (test_bit(Journal, &rdev->flags) &&
 6219		    !test_bit(Faulty, &rdev->flags))
 6220			has_journal = true;
 6221		if (rdev_read_only(rdev))
 6222			has_readonly = true;
 6223	}
 6224	rcu_read_unlock();
 6225	if (test_bit(MD_HAS_JOURNAL, &mddev->flags) && !has_journal)
 6226		/* Don't restart rw with journal missing/faulty */
 6227			return -EINVAL;
 6228	if (has_readonly)
 6229		return -EROFS;
 6230
 6231	mddev->safemode = 0;
 6232	mddev->ro = MD_RDWR;
 6233	set_disk_ro(disk, 0);
 6234	pr_debug("md: %s switched to read-write mode.\n", mdname(mddev));
 6235	/* Kick recovery or resync if necessary */
 6236	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 6237	md_wakeup_thread(mddev->thread);
 6238	md_wakeup_thread(mddev->sync_thread);
 6239	sysfs_notify_dirent_safe(mddev->sysfs_state);
 6240	return 0;
 6241}
 6242
 6243static void md_clean(struct mddev *mddev)
 6244{
 6245	mddev->array_sectors = 0;
 6246	mddev->external_size = 0;
 6247	mddev->dev_sectors = 0;
 6248	mddev->raid_disks = 0;
 6249	mddev->recovery_cp = 0;
 6250	mddev->resync_min = 0;
 6251	mddev->resync_max = MaxSector;
 6252	mddev->reshape_position = MaxSector;
 6253	/* we still need mddev->external in export_rdev, do not clear it yet */
 6254	mddev->persistent = 0;
 6255	mddev->level = LEVEL_NONE;
 6256	mddev->clevel[0] = 0;
 6257	mddev->flags = 0;
 6258	mddev->sb_flags = 0;
 6259	mddev->ro = MD_RDWR;
 6260	mddev->metadata_type[0] = 0;
 6261	mddev->chunk_sectors = 0;
 6262	mddev->ctime = mddev->utime = 0;
 6263	mddev->layout = 0;
 6264	mddev->max_disks = 0;
 6265	mddev->events = 0;
 6266	mddev->can_decrease_events = 0;
 6267	mddev->delta_disks = 0;
 6268	mddev->reshape_backwards = 0;
 6269	mddev->new_level = LEVEL_NONE;
 6270	mddev->new_layout = 0;
 6271	mddev->new_chunk_sectors = 0;
 6272	mddev->curr_resync = MD_RESYNC_NONE;
 6273	atomic64_set(&mddev->resync_mismatches, 0);
 6274	mddev->suspend_lo = mddev->suspend_hi = 0;
 6275	mddev->sync_speed_min = mddev->sync_speed_max = 0;
 6276	mddev->recovery = 0;
 6277	mddev->in_sync = 0;
 6278	mddev->changed = 0;
 6279	mddev->degraded = 0;
 6280	mddev->safemode = 0;
 6281	mddev->private = NULL;
 6282	mddev->cluster_info = NULL;
 6283	mddev->bitmap_info.offset = 0;
 6284	mddev->bitmap_info.default_offset = 0;
 6285	mddev->bitmap_info.default_space = 0;
 6286	mddev->bitmap_info.chunksize = 0;
 6287	mddev->bitmap_info.daemon_sleep = 0;
 6288	mddev->bitmap_info.max_write_behind = 0;
 6289	mddev->bitmap_info.nodes = 0;
 6290}
 6291
 6292static void __md_stop_writes(struct mddev *mddev)
 6293{
 6294	stop_sync_thread(mddev, true, false);
 6295	del_timer_sync(&mddev->safemode_timer);
 6296
 6297	if (mddev->pers && mddev->pers->quiesce) {
 6298		mddev->pers->quiesce(mddev, 1);
 6299		mddev->pers->quiesce(mddev, 0);
 6300	}
 6301	md_bitmap_flush(mddev);
 6302
 6303	if (md_is_rdwr(mddev) &&
 6304	    ((!mddev->in_sync && !mddev_is_clustered(mddev)) ||
 6305	     mddev->sb_flags)) {
 6306		/* mark array as shutdown cleanly */
 6307		if (!mddev_is_clustered(mddev))
 6308			mddev->in_sync = 1;
 6309		md_update_sb(mddev, 1);
 6310	}
 6311	/* disable policy to guarantee rdevs free resources for serialization */
 6312	mddev->serialize_policy = 0;
 6313	mddev_destroy_serial_pool(mddev, NULL);
 6314}
 6315
 6316void md_stop_writes(struct mddev *mddev)
 6317{
 6318	mddev_lock_nointr(mddev);
 6319	__md_stop_writes(mddev);
 6320	mddev_unlock(mddev);
 6321}
 6322EXPORT_SYMBOL_GPL(md_stop_writes);
 6323
 6324static void mddev_detach(struct mddev *mddev)
 6325{
 6326	md_bitmap_wait_behind_writes(mddev);
 6327	if (mddev->pers && mddev->pers->quiesce && !is_md_suspended(mddev)) {
 6328		mddev->pers->quiesce(mddev, 1);
 6329		mddev->pers->quiesce(mddev, 0);
 6330	}
 6331	md_unregister_thread(mddev, &mddev->thread);
 6332	if (mddev->queue)
 6333		blk_sync_queue(mddev->queue); /* the unplug fn references 'conf'*/
 6334}
 6335
 6336static void __md_stop(struct mddev *mddev)
 6337{
 6338	struct md_personality *pers = mddev->pers;
 6339	md_bitmap_destroy(mddev);
 6340	mddev_detach(mddev);
 6341	spin_lock(&mddev->lock);
 6342	mddev->pers = NULL;
 6343	spin_unlock(&mddev->lock);
 6344	if (mddev->private)
 6345		pers->free(mddev, mddev->private);
 6346	mddev->private = NULL;
 6347	if (pers->sync_request && mddev->to_remove == NULL)
 6348		mddev->to_remove = &md_redundancy_group;
 6349	module_put(pers->owner);
 6350	clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 6351
 6352	bioset_exit(&mddev->bio_set);
 6353	bioset_exit(&mddev->sync_set);
 6354	bioset_exit(&mddev->io_clone_set);
 6355}
 6356
 6357void md_stop(struct mddev *mddev)
 6358{
 6359	lockdep_assert_held(&mddev->reconfig_mutex);
 6360
 6361	/* stop the array and free an attached data structures.
 6362	 * This is called from dm-raid
 6363	 */
 6364	__md_stop_writes(mddev);
 6365	__md_stop(mddev);
 6366}
 6367
 6368EXPORT_SYMBOL_GPL(md_stop);
 6369
 6370static int md_set_readonly(struct mddev *mddev, struct block_device *bdev)
 6371{
 6372	int err = 0;
 6373	int did_freeze = 0;
 6374
 6375	if (mddev->external && test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags))
 6376		return -EBUSY;
 6377
 6378	if (!test_bit(MD_RECOVERY_FROZEN, &mddev->recovery)) {
 6379		did_freeze = 1;
 6380		set_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 6381		md_wakeup_thread(mddev->thread);
 6382	}
 6383
 6384	stop_sync_thread(mddev, false, false);
 6385	wait_event(mddev->sb_wait,
 6386		   !test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags));
 6387	mddev_lock_nointr(mddev);
 6388
 6389	mutex_lock(&mddev->open_mutex);
 6390	if ((mddev->pers && atomic_read(&mddev->openers) > !!bdev) ||
 6391	    mddev->sync_thread ||
 6392	    test_bit(MD_RECOVERY_RUNNING, &mddev->recovery)) {
 6393		pr_warn("md: %s still in use.\n",mdname(mddev));
 6394		err = -EBUSY;
 6395		goto out;
 6396	}
 6397
 6398	if (mddev->pers) {
 6399		__md_stop_writes(mddev);
 6400
 6401		if (mddev->ro == MD_RDONLY) {
 6402			err  = -ENXIO;
 6403			goto out;
 6404		}
 6405
 6406		mddev->ro = MD_RDONLY;
 6407		set_disk_ro(mddev->gendisk, 1);
 6408	}
 6409
 6410out:
 6411	if ((mddev->pers && !err) || did_freeze) {
 6412		clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 6413		set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 6414		md_wakeup_thread(mddev->thread);
 6415		sysfs_notify_dirent_safe(mddev->sysfs_state);
 6416	}
 6417
 6418	mutex_unlock(&mddev->open_mutex);
 6419	return err;
 6420}
 6421
 6422/* mode:
 6423 *   0 - completely stop and dis-assemble array
 6424 *   2 - stop but do not disassemble array
 6425 */
 6426static int do_md_stop(struct mddev *mddev, int mode,
 6427		      struct block_device *bdev)
 6428{
 6429	struct gendisk *disk = mddev->gendisk;
 6430	struct md_rdev *rdev;
 6431	int did_freeze = 0;
 6432
 6433	if (!test_bit(MD_RECOVERY_FROZEN, &mddev->recovery)) {
 6434		did_freeze = 1;
 6435		set_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 6436		md_wakeup_thread(mddev->thread);
 6437	}
 6438
 6439	stop_sync_thread(mddev, true, false);
 6440
 6441	mutex_lock(&mddev->open_mutex);
 6442	if ((mddev->pers && atomic_read(&mddev->openers) > !!bdev) ||
 6443	    mddev->sysfs_active ||
 6444	    mddev->sync_thread ||
 6445	    test_bit(MD_RECOVERY_RUNNING, &mddev->recovery)) {
 6446		pr_warn("md: %s still in use.\n",mdname(mddev));
 6447		mutex_unlock(&mddev->open_mutex);
 6448		if (did_freeze) {
 6449			clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
 6450			set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 6451			md_wakeup_thread(mddev->thread);
 6452		}
 6453		return -EBUSY;
 6454	}
 6455	if (mddev->pers) {
 6456		if (!md_is_rdwr(mddev))
 6457			set_disk_ro(disk, 0);
 6458
 6459		__md_stop_writes(mddev);
 6460		__md_stop(mddev);
 6461
 6462		/* tell userspace to handle 'inactive' */
 6463		sysfs_notify_dirent_safe(mddev->sysfs_state);
 6464
 6465		rdev_for_each(rdev, mddev)
 6466			if (rdev->raid_disk >= 0)
 6467				sysfs_unlink_rdev(mddev, rdev);
 6468
 6469		set_capacity_and_notify(disk, 0);
 6470		mutex_unlock(&mddev->open_mutex);
 6471		mddev->changed = 1;
 6472
 6473		if (!md_is_rdwr(mddev))
 6474			mddev->ro = MD_RDWR;
 6475	} else
 6476		mutex_unlock(&mddev->open_mutex);
 6477	/*
 6478	 * Free resources if final stop
 6479	 */
 6480	if (mode == 0) {
 6481		pr_info("md: %s stopped.\n", mdname(mddev));
 6482
 6483		if (mddev->bitmap_info.file) {
 6484			struct file *f = mddev->bitmap_info.file;
 6485			spin_lock(&mddev->lock);
 6486			mddev->bitmap_info.file = NULL;
 6487			spin_unlock(&mddev->lock);
 6488			fput(f);
 6489		}
 6490		mddev->bitmap_info.offset = 0;
 6491
 6492		export_array(mddev);
 6493
 6494		md_clean(mddev);
 6495		if (mddev->hold_active == UNTIL_STOP)
 6496			mddev->hold_active = 0;
 6497	}
 6498	md_new_event();
 6499	sysfs_notify_dirent_safe(mddev->sysfs_state);
 6500	return 0;
 6501}
 6502
 6503#ifndef MODULE
 6504static void autorun_array(struct mddev *mddev)
 6505{
 6506	struct md_rdev *rdev;
 6507	int err;
 6508
 6509	if (list_empty(&mddev->disks))
 6510		return;
 6511
 6512	pr_info("md: running: ");
 6513
 6514	rdev_for_each(rdev, mddev) {
 6515		pr_cont("<%pg>", rdev->bdev);
 6516	}
 6517	pr_cont("\n");
 6518
 6519	err = do_md_run(mddev);
 6520	if (err) {
 6521		pr_warn("md: do_md_run() returned %d\n", err);
 6522		do_md_stop(mddev, 0, NULL);
 6523	}
 6524}
 6525
 6526/*
 6527 * lets try to run arrays based on all disks that have arrived
 6528 * until now. (those are in pending_raid_disks)
 6529 *
 6530 * the method: pick the first pending disk, collect all disks with
 6531 * the same UUID, remove all from the pending list and put them into
 6532 * the 'same_array' list. Then order this list based on superblock
 6533 * update time (freshest comes first), kick out 'old' disks and
 6534 * compare superblocks. If everything's fine then run it.
 6535 *
 6536 * If "unit" is allocated, then bump its reference count
 6537 */
 6538static void autorun_devices(int part)
 6539{
 6540	struct md_rdev *rdev0, *rdev, *tmp;
 6541	struct mddev *mddev;
 6542
 6543	pr_info("md: autorun ...\n");
 6544	while (!list_empty(&pending_raid_disks)) {
 6545		int unit;
 6546		dev_t dev;
 6547		LIST_HEAD(candidates);
 6548		rdev0 = list_entry(pending_raid_disks.next,
 6549					 struct md_rdev, same_set);
 6550
 6551		pr_debug("md: considering %pg ...\n", rdev0->bdev);
 6552		INIT_LIST_HEAD(&candidates);
 6553		rdev_for_each_list(rdev, tmp, &pending_raid_disks)
 6554			if (super_90_load(rdev, rdev0, 0) >= 0) {
 6555				pr_debug("md:  adding %pg ...\n",
 6556					 rdev->bdev);
 6557				list_move(&rdev->same_set, &candidates);
 6558			}
 6559		/*
 6560		 * now we have a set of devices, with all of them having
 6561		 * mostly sane superblocks. It's time to allocate the
 6562		 * mddev.
 6563		 */
 6564		if (part) {
 6565			dev = MKDEV(mdp_major,
 6566				    rdev0->preferred_minor << MdpMinorShift);
 6567			unit = MINOR(dev) >> MdpMinorShift;
 6568		} else {
 6569			dev = MKDEV(MD_MAJOR, rdev0->preferred_minor);
 6570			unit = MINOR(dev);
 6571		}
 6572		if (rdev0->preferred_minor != unit) {
 6573			pr_warn("md: unit number in %pg is bad: %d\n",
 6574				rdev0->bdev, rdev0->preferred_minor);
 6575			break;
 6576		}
 6577
 6578		mddev = md_alloc(dev, NULL);
 6579		if (IS_ERR(mddev))
 6580			break;
 6581
 6582		if (mddev_suspend_and_lock(mddev))
 6583			pr_warn("md: %s locked, cannot run\n", mdname(mddev));
 6584		else if (mddev->raid_disks || mddev->major_version
 6585			 || !list_empty(&mddev->disks)) {
 6586			pr_warn("md: %s already running, cannot run %pg\n",
 6587				mdname(mddev), rdev0->bdev);
 6588			mddev_unlock_and_resume(mddev);
 6589		} else {
 6590			pr_debug("md: created %s\n", mdname(mddev));
 6591			mddev->persistent = 1;
 6592			rdev_for_each_list(rdev, tmp, &candidates) {
 6593				list_del_init(&rdev->same_set);
 6594				if (bind_rdev_to_array(rdev, mddev))
 6595					export_rdev(rdev, mddev);
 6596			}
 6597			autorun_array(mddev);
 6598			mddev_unlock_and_resume(mddev);
 6599		}
 6600		/* on success, candidates will be empty, on error
 6601		 * it won't...
 6602		 */
 6603		rdev_for_each_list(rdev, tmp, &candidates) {
 6604			list_del_init(&rdev->same_set);
 6605			export_rdev(rdev, mddev);
 6606		}
 6607		mddev_put(mddev);
 6608	}
 6609	pr_info("md: ... autorun DONE.\n");
 6610}
 6611#endif /* !MODULE */
 6612
 6613static int get_version(void __user *arg)
 6614{
 6615	mdu_version_t ver;
 6616
 6617	ver.major = MD_MAJOR_VERSION;
 6618	ver.minor = MD_MINOR_VERSION;
 6619	ver.patchlevel = MD_PATCHLEVEL_VERSION;
 6620
 6621	if (copy_to_user(arg, &ver, sizeof(ver)))
 6622		return -EFAULT;
 6623
 6624	return 0;
 6625}
 6626
 6627static int get_array_info(struct mddev *mddev, void __user *arg)
 6628{
 6629	mdu_array_info_t info;
 6630	int nr,working,insync,failed,spare;
 6631	struct md_rdev *rdev;
 6632
 6633	nr = working = insync = failed = spare = 0;
 6634	rcu_read_lock();
 6635	rdev_for_each_rcu(rdev, mddev) {
 6636		nr++;
 6637		if (test_bit(Faulty, &rdev->flags))
 6638			failed++;
 6639		else {
 6640			working++;
 6641			if (test_bit(In_sync, &rdev->flags))
 6642				insync++;
 6643			else if (test_bit(Journal, &rdev->flags))
 6644				/* TODO: add journal count to md_u.h */
 6645				;
 6646			else
 6647				spare++;
 6648		}
 6649	}
 6650	rcu_read_unlock();
 6651
 6652	info.major_version = mddev->major_version;
 6653	info.minor_version = mddev->minor_version;
 6654	info.patch_version = MD_PATCHLEVEL_VERSION;
 6655	info.ctime         = clamp_t(time64_t, mddev->ctime, 0, U32_MAX);
 6656	info.level         = mddev->level;
 6657	info.size          = mddev->dev_sectors / 2;
 6658	if (info.size != mddev->dev_sectors / 2) /* overflow */
 6659		info.size = -1;
 6660	info.nr_disks      = nr;
 6661	info.raid_disks    = mddev->raid_disks;
 6662	info.md_minor      = mddev->md_minor;
 6663	info.not_persistent= !mddev->persistent;
 6664
 6665	info.utime         = clamp_t(time64_t, mddev->utime, 0, U32_MAX);
 6666	info.state         = 0;
 6667	if (mddev->in_sync)
 6668		info.state = (1<<MD_SB_CLEAN);
 6669	if (mddev->bitmap && mddev->bitmap_info.offset)
 6670		info.state |= (1<<MD_SB_BITMAP_PRESENT);
 6671	if (mddev_is_clustered(mddev))
 6672		info.state |= (1<<MD_SB_CLUSTERED);
 6673	info.active_disks  = insync;
 6674	info.working_disks = working;
 6675	info.failed_disks  = failed;
 6676	info.spare_disks   = spare;
 6677
 6678	info.layout        = mddev->layout;
 6679	info.chunk_size    = mddev->chunk_sectors << 9;
 6680
 6681	if (copy_to_user(arg, &info, sizeof(info)))
 6682		return -EFAULT;
 6683
 6684	return 0;
 6685}
 6686
 6687static int get_bitmap_file(struct mddev *mddev, void __user * arg)
 6688{
 6689	mdu_bitmap_file_t *file = NULL; /* too big for stack allocation */
 6690	char *ptr;
 6691	int err;
 6692
 6693	file = kzalloc(sizeof(*file), GFP_NOIO);
 6694	if (!file)
 6695		return -ENOMEM;
 6696
 6697	err = 0;
 6698	spin_lock(&mddev->lock);
 6699	/* bitmap enabled */
 6700	if (mddev->bitmap_info.file) {
 6701		ptr = file_path(mddev->bitmap_info.file, file->pathname,
 6702				sizeof(file->pathname));
 6703		if (IS_ERR(ptr))
 6704			err = PTR_ERR(ptr);
 6705		else
 6706			memmove(file->pathname, ptr,
 6707				sizeof(file->pathname)-(ptr-file->pathname));
 6708	}
 6709	spin_unlock(&mddev->lock);
 6710
 6711	if (err == 0 &&
 6712	    copy_to_user(arg, file, sizeof(*file)))
 6713		err = -EFAULT;
 6714
 6715	kfree(file);
 6716	return err;
 6717}
 6718
 6719static int get_disk_info(struct mddev *mddev, void __user * arg)
 6720{
 6721	mdu_disk_info_t info;
 6722	struct md_rdev *rdev;
 6723
 6724	if (copy_from_user(&info, arg, sizeof(info)))
 6725		return -EFAULT;
 6726
 6727	rcu_read_lock();
 6728	rdev = md_find_rdev_nr_rcu(mddev, info.number);
 6729	if (rdev) {
 6730		info.major = MAJOR(rdev->bdev->bd_dev);
 6731		info.minor = MINOR(rdev->bdev->bd_dev);
 6732		info.raid_disk = rdev->raid_disk;
 6733		info.state = 0;
 6734		if (test_bit(Faulty, &rdev->flags))
 6735			info.state |= (1<<MD_DISK_FAULTY);
 6736		else if (test_bit(In_sync, &rdev->flags)) {
 6737			info.state |= (1<<MD_DISK_ACTIVE);
 6738			info.state |= (1<<MD_DISK_SYNC);
 6739		}
 6740		if (test_bit(Journal, &rdev->flags))
 6741			info.state |= (1<<MD_DISK_JOURNAL);
 6742		if (test_bit(WriteMostly, &rdev->flags))
 6743			info.state |= (1<<MD_DISK_WRITEMOSTLY);
 6744		if (test_bit(FailFast, &rdev->flags))
 6745			info.state |= (1<<MD_DISK_FAILFAST);
 6746	} else {
 6747		info.major = info.minor = 0;
 6748		info.raid_disk = -1;
 6749		info.state = (1<<MD_DISK_REMOVED);
 6750	}
 6751	rcu_read_unlock();
 6752
 6753	if (copy_to_user(arg, &info, sizeof(info)))
 6754		return -EFAULT;
 6755
 6756	return 0;
 6757}
 6758
 6759int md_add_new_disk(struct mddev *mddev, struct mdu_disk_info_s *info)
 6760{
 6761	struct md_rdev *rdev;
 6762	dev_t dev = MKDEV(info->major,info->minor);
 6763
 6764	if (mddev_is_clustered(mddev) &&
 6765		!(info->state & ((1 << MD_DISK_CLUSTER_ADD) | (1 << MD_DISK_CANDIDATE)))) {
 6766		pr_warn("%s: Cannot add to clustered mddev.\n",
 6767			mdname(mddev));
 6768		return -EINVAL;
 6769	}
 6770
 6771	if (info->major != MAJOR(dev) || info->minor != MINOR(dev))
 6772		return -EOVERFLOW;
 6773
 6774	if (!mddev->raid_disks) {
 6775		int err;
 6776		/* expecting a device which has a superblock */
 6777		rdev = md_import_device(dev, mddev->major_version, mddev->minor_version);
 6778		if (IS_ERR(rdev)) {
 6779			pr_warn("md: md_import_device returned %ld\n",
 6780				PTR_ERR(rdev));
 6781			return PTR_ERR(rdev);
 6782		}
 6783		if (!list_empty(&mddev->disks)) {
 6784			struct md_rdev *rdev0
 6785				= list_entry(mddev->disks.next,
 6786					     struct md_rdev, same_set);
 6787			err = super_types[mddev->major_version]
 6788				.load_super(rdev, rdev0, mddev->minor_version);
 6789			if (err < 0) {
 6790				pr_warn("md: %pg has different UUID to %pg\n",
 6791					rdev->bdev,
 6792					rdev0->bdev);
 6793				export_rdev(rdev, mddev);
 6794				return -EINVAL;
 6795			}
 6796		}
 6797		err = bind_rdev_to_array(rdev, mddev);
 6798		if (err)
 6799			export_rdev(rdev, mddev);
 6800		return err;
 6801	}
 6802
 6803	/*
 6804	 * md_add_new_disk can be used once the array is assembled
 6805	 * to add "hot spares".  They must already have a superblock
 6806	 * written
 6807	 */
 6808	if (mddev->pers) {
 6809		int err;
 6810		if (!mddev->pers->hot_add_disk) {
 6811			pr_warn("%s: personality does not support diskops!\n",
 6812				mdname(mddev));
 6813			return -EINVAL;
 6814		}
 6815		if (mddev->persistent)
 6816			rdev = md_import_device(dev, mddev->major_version,
 6817						mddev->minor_version);
 6818		else
 6819			rdev = md_import_device(dev, -1, -1);
 6820		if (IS_ERR(rdev)) {
 6821			pr_warn("md: md_import_device returned %ld\n",
 6822				PTR_ERR(rdev));
 6823			return PTR_ERR(rdev);
 6824		}
 6825		/* set saved_raid_disk if appropriate */
 6826		if (!mddev->persistent) {
 6827			if (info->state & (1<<MD_DISK_SYNC)  &&
 6828			    info->raid_disk < mddev->raid_disks) {
 6829				rdev->raid_disk = info->raid_disk;
 6830				clear_bit(Bitmap_sync, &rdev->flags);
 6831			} else
 6832				rdev->raid_disk = -1;
 6833			rdev->saved_raid_disk = rdev->raid_disk;
 6834		} else
 6835			super_types[mddev->major_version].
 6836				validate_super(mddev, rdev);
 6837		if ((info->state & (1<<MD_DISK_SYNC)) &&
 6838		     rdev->raid_disk != info->raid_disk) {
 6839			/* This was a hot-add request, but events doesn't
 6840			 * match, so reject it.
 6841			 */
 6842			export_rdev(rdev, mddev);
 6843			return -EINVAL;
 6844		}
 6845
 6846		clear_bit(In_sync, &rdev->flags); /* just to be sure */
 6847		if (info->state & (1<<MD_DISK_WRITEMOSTLY))
 6848			set_bit(WriteMostly, &rdev->flags);
 6849		else
 6850			clear_bit(WriteMostly, &rdev->flags);
 6851		if (info->state & (1<<MD_DISK_FAILFAST))
 6852			set_bit(FailFast, &rdev->flags);
 6853		else
 6854			clear_bit(FailFast, &rdev->flags);
 6855
 6856		if (info->state & (1<<MD_DISK_JOURNAL)) {
 6857			struct md_rdev *rdev2;
 6858			bool has_journal = false;
 6859
 6860			/* make sure no existing journal disk */
 6861			rdev_for_each(rdev2, mddev) {
 6862				if (test_bit(Journal, &rdev2->flags)) {
 6863					has_journal = true;
 6864					break;
 6865				}
 6866			}
 6867			if (has_journal || mddev->bitmap) {
 6868				export_rdev(rdev, mddev);
 6869				return -EBUSY;
 6870			}
 6871			set_bit(Journal, &rdev->flags);
 6872		}
 6873		/*
 6874		 * check whether the device shows up in other nodes
 6875		 */
 6876		if (mddev_is_clustered(mddev)) {
 6877			if (info->state & (1 << MD_DISK_CANDIDATE))
 6878				set_bit(Candidate, &rdev->flags);
 6879			else if (info->state & (1 << MD_DISK_CLUSTER_ADD)) {
 6880				/* --add initiated by this node */
 6881				err = md_cluster_ops->add_new_disk(mddev, rdev);
 6882				if (err) {
 6883					export_rdev(rdev, mddev);
 6884					return err;
 6885				}
 6886			}
 6887		}
 6888
 6889		rdev->raid_disk = -1;
 6890		err = bind_rdev_to_array(rdev, mddev);
 6891
 6892		if (err)
 6893			export_rdev(rdev, mddev);
 6894
 6895		if (mddev_is_clustered(mddev)) {
 6896			if (info->state & (1 << MD_DISK_CANDIDATE)) {
 6897				if (!err) {
 6898					err = md_cluster_ops->new_disk_ack(mddev,
 6899						err == 0);
 6900					if (err)
 6901						md_kick_rdev_from_array(rdev);
 6902				}
 6903			} else {
 6904				if (err)
 6905					md_cluster_ops->add_new_disk_cancel(mddev);
 6906				else
 6907					err = add_bound_rdev(rdev);
 6908			}
 6909
 6910		} else if (!err)
 6911			err = add_bound_rdev(rdev);
 6912
 6913		return err;
 6914	}
 6915
 6916	/* otherwise, md_add_new_disk is only allowed
 6917	 * for major_version==0 superblocks
 6918	 */
 6919	if (mddev->major_version != 0) {
 6920		pr_warn("%s: ADD_NEW_DISK not supported\n", mdname(mddev));
 6921		return -EINVAL;
 6922	}
 6923
 6924	if (!(info->state & (1<<MD_DISK_FAULTY))) {
 6925		int err;
 6926		rdev = md_import_device(dev, -1, 0);
 6927		if (IS_ERR(rdev)) {
 6928			pr_warn("md: error, md_import_device() returned %ld\n",
 6929				PTR_ERR(rdev));
 6930			return PTR_ERR(rdev);
 6931		}
 6932		rdev->desc_nr = info->number;
 6933		if (info->raid_disk < mddev->raid_disks)
 6934			rdev->raid_disk = info->raid_disk;
 6935		else
 6936			rdev->raid_disk = -1;
 6937
 6938		if (rdev->raid_disk < mddev->raid_disks)
 6939			if (info->state & (1<<MD_DISK_SYNC))
 6940				set_bit(In_sync, &rdev->flags);
 6941
 6942		if (info->state & (1<<MD_DISK_WRITEMOSTLY))
 6943			set_bit(WriteMostly, &rdev->flags);
 6944		if (info->state & (1<<MD_DISK_FAILFAST))
 6945			set_bit(FailFast, &rdev->flags);
 6946
 6947		if (!mddev->persistent) {
 6948			pr_debug("md: nonpersistent superblock ...\n");
 6949			rdev->sb_start = bdev_nr_sectors(rdev->bdev);
 6950		} else
 6951			rdev->sb_start = calc_dev_sboffset(rdev);
 6952		rdev->sectors = rdev->sb_start;
 6953
 6954		err = bind_rdev_to_array(rdev, mddev);
 6955		if (err) {
 6956			export_rdev(rdev, mddev);
 6957			return err;
 6958		}
 6959	}
 6960
 6961	return 0;
 6962}
 6963
 6964static int hot_remove_disk(struct mddev *mddev, dev_t dev)
 6965{
 6966	struct md_rdev *rdev;
 6967
 6968	if (!mddev->pers)
 6969		return -ENODEV;
 6970
 6971	rdev = find_rdev(mddev, dev);
 6972	if (!rdev)
 6973		return -ENXIO;
 6974
 6975	if (rdev->raid_disk < 0)
 6976		goto kick_rdev;
 6977
 6978	clear_bit(Blocked, &rdev->flags);
 6979	remove_and_add_spares(mddev, rdev);
 6980
 6981	if (rdev->raid_disk >= 0)
 6982		goto busy;
 6983
 6984kick_rdev:
 6985	if (mddev_is_clustered(mddev)) {
 6986		if (md_cluster_ops->remove_disk(mddev, rdev))
 6987			goto busy;
 6988	}
 6989
 6990	md_kick_rdev_from_array(rdev);
 6991	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 6992	if (mddev->thread)
 6993		md_wakeup_thread(mddev->thread);
 6994	else
 6995		md_update_sb(mddev, 1);
 6996	md_new_event();
 6997
 6998	return 0;
 6999busy:
 7000	pr_debug("md: cannot remove active disk %pg from %s ...\n",
 7001		 rdev->bdev, mdname(mddev));
 7002	return -EBUSY;
 7003}
 7004
 7005static int hot_add_disk(struct mddev *mddev, dev_t dev)
 7006{
 7007	int err;
 7008	struct md_rdev *rdev;
 7009
 7010	if (!mddev->pers)
 7011		return -ENODEV;
 7012
 7013	if (mddev->major_version != 0) {
 7014		pr_warn("%s: HOT_ADD may only be used with version-0 superblocks.\n",
 7015			mdname(mddev));
 7016		return -EINVAL;
 7017	}
 7018	if (!mddev->pers->hot_add_disk) {
 7019		pr_warn("%s: personality does not support diskops!\n",
 7020			mdname(mddev));
 7021		return -EINVAL;
 7022	}
 7023
 7024	rdev = md_import_device(dev, -1, 0);
 7025	if (IS_ERR(rdev)) {
 7026		pr_warn("md: error, md_import_device() returned %ld\n",
 7027			PTR_ERR(rdev));
 7028		return -EINVAL;
 7029	}
 7030
 7031	if (mddev->persistent)
 7032		rdev->sb_start = calc_dev_sboffset(rdev);
 7033	else
 7034		rdev->sb_start = bdev_nr_sectors(rdev->bdev);
 7035
 7036	rdev->sectors = rdev->sb_start;
 7037
 7038	if (test_bit(Faulty, &rdev->flags)) {
 7039		pr_warn("md: can not hot-add faulty %pg disk to %s!\n",
 7040			rdev->bdev, mdname(mddev));
 7041		err = -EINVAL;
 7042		goto abort_export;
 7043	}
 7044
 7045	clear_bit(In_sync, &rdev->flags);
 7046	rdev->desc_nr = -1;
 7047	rdev->saved_raid_disk = -1;
 7048	err = bind_rdev_to_array(rdev, mddev);
 7049	if (err)
 7050		goto abort_export;
 7051
 7052	/*
 7053	 * The rest should better be atomic, we can have disk failures
 7054	 * noticed in interrupt contexts ...
 7055	 */
 7056
 7057	rdev->raid_disk = -1;
 7058
 7059	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 7060	if (!mddev->thread)
 7061		md_update_sb(mddev, 1);
 7062	/*
 7063	 * If the new disk does not support REQ_NOWAIT,
 7064	 * disable on the whole MD.
 7065	 */
 7066	if (!bdev_nowait(rdev->bdev)) {
 7067		pr_info("%s: Disabling nowait because %pg does not support nowait\n",
 7068			mdname(mddev), rdev->bdev);
 7069		blk_queue_flag_clear(QUEUE_FLAG_NOWAIT, mddev->queue);
 7070	}
 7071	/*
 7072	 * Kick recovery, maybe this spare has to be added to the
 7073	 * array immediately.
 7074	 */
 7075	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 7076	md_wakeup_thread(mddev->thread);
 7077	md_new_event();
 7078	return 0;
 7079
 7080abort_export:
 7081	export_rdev(rdev, mddev);
 7082	return err;
 7083}
 7084
 7085static int set_bitmap_file(struct mddev *mddev, int fd)
 7086{
 7087	int err = 0;
 7088
 7089	if (mddev->pers) {
 7090		if (!mddev->pers->quiesce || !mddev->thread)
 7091			return -EBUSY;
 7092		if (mddev->recovery || mddev->sync_thread)
 7093			return -EBUSY;
 7094		/* we should be able to change the bitmap.. */
 7095	}
 7096
 7097	if (fd >= 0) {
 7098		struct inode *inode;
 7099		struct file *f;
 7100
 7101		if (mddev->bitmap || mddev->bitmap_info.file)
 7102			return -EEXIST; /* cannot add when bitmap is present */
 7103
 7104		if (!IS_ENABLED(CONFIG_MD_BITMAP_FILE)) {
 7105			pr_warn("%s: bitmap files not supported by this kernel\n",
 7106				mdname(mddev));
 7107			return -EINVAL;
 7108		}
 7109		pr_warn("%s: using deprecated bitmap file support\n",
 7110			mdname(mddev));
 7111
 7112		f = fget(fd);
 7113
 7114		if (f == NULL) {
 7115			pr_warn("%s: error: failed to get bitmap file\n",
 7116				mdname(mddev));
 7117			return -EBADF;
 7118		}
 7119
 7120		inode = f->f_mapping->host;
 7121		if (!S_ISREG(inode->i_mode)) {
 7122			pr_warn("%s: error: bitmap file must be a regular file\n",
 7123				mdname(mddev));
 7124			err = -EBADF;
 7125		} else if (!(f->f_mode & FMODE_WRITE)) {
 7126			pr_warn("%s: error: bitmap file must open for write\n",
 7127				mdname(mddev));
 7128			err = -EBADF;
 7129		} else if (atomic_read(&inode->i_writecount) != 1) {
 7130			pr_warn("%s: error: bitmap file is already in use\n",
 7131				mdname(mddev));
 7132			err = -EBUSY;
 7133		}
 7134		if (err) {
 7135			fput(f);
 7136			return err;
 7137		}
 7138		mddev->bitmap_info.file = f;
 7139		mddev->bitmap_info.offset = 0; /* file overrides offset */
 7140	} else if (mddev->bitmap == NULL)
 7141		return -ENOENT; /* cannot remove what isn't there */
 7142	err = 0;
 7143	if (mddev->pers) {
 7144		if (fd >= 0) {
 7145			struct bitmap *bitmap;
 7146
 7147			bitmap = md_bitmap_create(mddev, -1);
 7148			if (!IS_ERR(bitmap)) {
 7149				mddev->bitmap = bitmap;
 7150				err = md_bitmap_load(mddev);
 7151			} else
 7152				err = PTR_ERR(bitmap);
 7153			if (err) {
 7154				md_bitmap_destroy(mddev);
 7155				fd = -1;
 7156			}
 7157		} else if (fd < 0) {
 7158			md_bitmap_destroy(mddev);
 7159		}
 7160	}
 7161	if (fd < 0) {
 7162		struct file *f = mddev->bitmap_info.file;
 7163		if (f) {
 7164			spin_lock(&mddev->lock);
 7165			mddev->bitmap_info.file = NULL;
 7166			spin_unlock(&mddev->lock);
 7167			fput(f);
 7168		}
 7169	}
 7170
 7171	return err;
 7172}
 7173
 7174/*
 7175 * md_set_array_info is used two different ways
 7176 * The original usage is when creating a new array.
 7177 * In this usage, raid_disks is > 0 and it together with
 7178 *  level, size, not_persistent,layout,chunksize determine the
 7179 *  shape of the array.
 7180 *  This will always create an array with a type-0.90.0 superblock.
 7181 * The newer usage is when assembling an array.
 7182 *  In this case raid_disks will be 0, and the major_version field is
 7183 *  use to determine which style super-blocks are to be found on the devices.
 7184 *  The minor and patch _version numbers are also kept incase the
 7185 *  super_block handler wishes to interpret them.
 7186 */
 7187int md_set_array_info(struct mddev *mddev, struct mdu_array_info_s *info)
 7188{
 7189	if (info->raid_disks == 0) {
 7190		/* just setting version number for superblock loading */
 7191		if (info->major_version < 0 ||
 7192		    info->major_version >= ARRAY_SIZE(super_types) ||
 7193		    super_types[info->major_version].name == NULL) {
 7194			/* maybe try to auto-load a module? */
 7195			pr_warn("md: superblock version %d not known\n",
 7196				info->major_version);
 7197			return -EINVAL;
 7198		}
 7199		mddev->major_version = info->major_version;
 7200		mddev->minor_version = info->minor_version;
 7201		mddev->patch_version = info->patch_version;
 7202		mddev->persistent = !info->not_persistent;
 7203		/* ensure mddev_put doesn't delete this now that there
 7204		 * is some minimal configuration.
 7205		 */
 7206		mddev->ctime         = ktime_get_real_seconds();
 7207		return 0;
 7208	}
 7209	mddev->major_version = MD_MAJOR_VERSION;
 7210	mddev->minor_version = MD_MINOR_VERSION;
 7211	mddev->patch_version = MD_PATCHLEVEL_VERSION;
 7212	mddev->ctime         = ktime_get_real_seconds();
 7213
 7214	mddev->level         = info->level;
 7215	mddev->clevel[0]     = 0;
 7216	mddev->dev_sectors   = 2 * (sector_t)info->size;
 7217	mddev->raid_disks    = info->raid_disks;
 7218	/* don't set md_minor, it is determined by which /dev/md* was
 7219	 * openned
 7220	 */
 7221	if (info->state & (1<<MD_SB_CLEAN))
 7222		mddev->recovery_cp = MaxSector;
 7223	else
 7224		mddev->recovery_cp = 0;
 7225	mddev->persistent    = ! info->not_persistent;
 7226	mddev->external	     = 0;
 7227
 7228	mddev->layout        = info->layout;
 7229	if (mddev->level == 0)
 7230		/* Cannot trust RAID0 layout info here */
 7231		mddev->layout = -1;
 7232	mddev->chunk_sectors = info->chunk_size >> 9;
 7233
 7234	if (mddev->persistent) {
 7235		mddev->max_disks = MD_SB_DISKS;
 7236		mddev->flags = 0;
 7237		mddev->sb_flags = 0;
 7238	}
 7239	set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 7240
 7241	mddev->bitmap_info.default_offset = MD_SB_BYTES >> 9;
 7242	mddev->bitmap_info.default_space = 64*2 - (MD_SB_BYTES >> 9);
 7243	mddev->bitmap_info.offset = 0;
 7244
 7245	mddev->reshape_position = MaxSector;
 7246
 7247	/*
 7248	 * Generate a 128 bit UUID
 7249	 */
 7250	get_random_bytes(mddev->uuid, 16);
 7251
 7252	mddev->new_level = mddev->level;
 7253	mddev->new_chunk_sectors = mddev->chunk_sectors;
 7254	mddev->new_layout = mddev->layout;
 7255	mddev->delta_disks = 0;
 7256	mddev->reshape_backwards = 0;
 7257
 7258	return 0;
 7259}
 7260
 7261void md_set_array_sectors(struct mddev *mddev, sector_t array_sectors)
 7262{
 7263	lockdep_assert_held(&mddev->reconfig_mutex);
 7264
 7265	if (mddev->external_size)
 7266		return;
 7267
 7268	mddev->array_sectors = array_sectors;
 7269}
 7270EXPORT_SYMBOL(md_set_array_sectors);
 7271
 7272static int update_size(struct mddev *mddev, sector_t num_sectors)
 7273{
 7274	struct md_rdev *rdev;
 7275	int rv;
 7276	int fit = (num_sectors == 0);
 7277	sector_t old_dev_sectors = mddev->dev_sectors;
 7278
 7279	if (mddev->pers->resize == NULL)
 7280		return -EINVAL;
 7281	/* The "num_sectors" is the number of sectors of each device that
 7282	 * is used.  This can only make sense for arrays with redundancy.
 7283	 * linear and raid0 always use whatever space is available. We can only
 7284	 * consider changing this number if no resync or reconstruction is
 7285	 * happening, and if the new size is acceptable. It must fit before the
 7286	 * sb_start or, if that is <data_offset, it must fit before the size
 7287	 * of each device.  If num_sectors is zero, we find the largest size
 7288	 * that fits.
 7289	 */
 7290	if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) ||
 7291	    mddev->sync_thread)
 7292		return -EBUSY;
 7293	if (!md_is_rdwr(mddev))
 7294		return -EROFS;
 7295
 7296	rdev_for_each(rdev, mddev) {
 7297		sector_t avail = rdev->sectors;
 7298
 7299		if (fit && (num_sectors == 0 || num_sectors > avail))
 7300			num_sectors = avail;
 7301		if (avail < num_sectors)
 7302			return -ENOSPC;
 7303	}
 7304	rv = mddev->pers->resize(mddev, num_sectors);
 7305	if (!rv) {
 7306		if (mddev_is_clustered(mddev))
 7307			md_cluster_ops->update_size(mddev, old_dev_sectors);
 7308		else if (mddev->queue) {
 7309			set_capacity_and_notify(mddev->gendisk,
 7310						mddev->array_sectors);
 7311		}
 7312	}
 7313	return rv;
 7314}
 7315
 7316static int update_raid_disks(struct mddev *mddev, int raid_disks)
 7317{
 7318	int rv;
 7319	struct md_rdev *rdev;
 7320	/* change the number of raid disks */
 7321	if (mddev->pers->check_reshape == NULL)
 7322		return -EINVAL;
 7323	if (!md_is_rdwr(mddev))
 7324		return -EROFS;
 7325	if (raid_disks <= 0 ||
 7326	    (mddev->max_disks && raid_disks >= mddev->max_disks))
 7327		return -EINVAL;
 7328	if (mddev->sync_thread ||
 7329	    test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) ||
 7330	    test_bit(MD_RESYNCING_REMOTE, &mddev->recovery) ||
 7331	    mddev->reshape_position != MaxSector)
 7332		return -EBUSY;
 7333
 7334	rdev_for_each(rdev, mddev) {
 7335		if (mddev->raid_disks < raid_disks &&
 7336		    rdev->data_offset < rdev->new_data_offset)
 7337			return -EINVAL;
 7338		if (mddev->raid_disks > raid_disks &&
 7339		    rdev->data_offset > rdev->new_data_offset)
 7340			return -EINVAL;
 7341	}
 7342
 7343	mddev->delta_disks = raid_disks - mddev->raid_disks;
 7344	if (mddev->delta_disks < 0)
 7345		mddev->reshape_backwards = 1;
 7346	else if (mddev->delta_disks > 0)
 7347		mddev->reshape_backwards = 0;
 7348
 7349	rv = mddev->pers->check_reshape(mddev);
 7350	if (rv < 0) {
 7351		mddev->delta_disks = 0;
 7352		mddev->reshape_backwards = 0;
 7353	}
 7354	return rv;
 7355}
 7356
 7357/*
 7358 * update_array_info is used to change the configuration of an
 7359 * on-line array.
 7360 * The version, ctime,level,size,raid_disks,not_persistent, layout,chunk_size
 7361 * fields in the info are checked against the array.
 7362 * Any differences that cannot be handled will cause an error.
 7363 * Normally, only one change can be managed at a time.
 7364 */
 7365static int update_array_info(struct mddev *mddev, mdu_array_info_t *info)
 7366{
 7367	int rv = 0;
 7368	int cnt = 0;
 7369	int state = 0;
 7370
 7371	/* calculate expected state,ignoring low bits */
 7372	if (mddev->bitmap && mddev->bitmap_info.offset)
 7373		state |= (1 << MD_SB_BITMAP_PRESENT);
 7374
 7375	if (mddev->major_version != info->major_version ||
 7376	    mddev->minor_version != info->minor_version ||
 7377/*	    mddev->patch_version != info->patch_version || */
 7378	    mddev->ctime         != info->ctime         ||
 7379	    mddev->level         != info->level         ||
 7380/*	    mddev->layout        != info->layout        || */
 7381	    mddev->persistent	 != !info->not_persistent ||
 7382	    mddev->chunk_sectors != info->chunk_size >> 9 ||
 7383	    /* ignore bottom 8 bits of state, and allow SB_BITMAP_PRESENT to change */
 7384	    ((state^info->state) & 0xfffffe00)
 7385		)
 7386		return -EINVAL;
 7387	/* Check there is only one change */
 7388	if (info->size >= 0 && mddev->dev_sectors / 2 != info->size)
 7389		cnt++;
 7390	if (mddev->raid_disks != info->raid_disks)
 7391		cnt++;
 7392	if (mddev->layout != info->layout)
 7393		cnt++;
 7394	if ((state ^ info->state) & (1<<MD_SB_BITMAP_PRESENT))
 7395		cnt++;
 7396	if (cnt == 0)
 7397		return 0;
 7398	if (cnt > 1)
 7399		return -EINVAL;
 7400
 7401	if (mddev->layout != info->layout) {
 7402		/* Change layout
 7403		 * we don't need to do anything at the md level, the
 7404		 * personality will take care of it all.
 7405		 */
 7406		if (mddev->pers->check_reshape == NULL)
 7407			return -EINVAL;
 7408		else {
 7409			mddev->new_layout = info->layout;
 7410			rv = mddev->pers->check_reshape(mddev);
 7411			if (rv)
 7412				mddev->new_layout = mddev->layout;
 7413			return rv;
 7414		}
 7415	}
 7416	if (info->size >= 0 && mddev->dev_sectors / 2 != info->size)
 7417		rv = update_size(mddev, (sector_t)info->size * 2);
 7418
 7419	if (mddev->raid_disks    != info->raid_disks)
 7420		rv = update_raid_disks(mddev, info->raid_disks);
 7421
 7422	if ((state ^ info->state) & (1<<MD_SB_BITMAP_PRESENT)) {
 7423		if (mddev->pers->quiesce == NULL || mddev->thread == NULL) {
 7424			rv = -EINVAL;
 7425			goto err;
 7426		}
 7427		if (mddev->recovery || mddev->sync_thread) {
 7428			rv = -EBUSY;
 7429			goto err;
 7430		}
 7431		if (info->state & (1<<MD_SB_BITMAP_PRESENT)) {
 7432			struct bitmap *bitmap;
 7433			/* add the bitmap */
 7434			if (mddev->bitmap) {
 7435				rv = -EEXIST;
 7436				goto err;
 7437			}
 7438			if (mddev->bitmap_info.default_offset == 0) {
 7439				rv = -EINVAL;
 7440				goto err;
 7441			}
 7442			mddev->bitmap_info.offset =
 7443				mddev->bitmap_info.default_offset;
 7444			mddev->bitmap_info.space =
 7445				mddev->bitmap_info.default_space;
 7446			bitmap = md_bitmap_create(mddev, -1);
 7447			if (!IS_ERR(bitmap)) {
 7448				mddev->bitmap = bitmap;
 7449				rv = md_bitmap_load(mddev);
 7450			} else
 7451				rv = PTR_ERR(bitmap);
 7452			if (rv)
 7453				md_bitmap_destroy(mddev);
 7454		} else {
 7455			/* remove the bitmap */
 7456			if (!mddev->bitmap) {
 7457				rv = -ENOENT;
 7458				goto err;
 7459			}
 7460			if (mddev->bitmap->storage.file) {
 7461				rv = -EINVAL;
 7462				goto err;
 7463			}
 7464			if (mddev->bitmap_info.nodes) {
 7465				/* hold PW on all the bitmap lock */
 7466				if (md_cluster_ops->lock_all_bitmaps(mddev) <= 0) {
 7467					pr_warn("md: can't change bitmap to none since the array is in use by more than one node\n");
 7468					rv = -EPERM;
 7469					md_cluster_ops->unlock_all_bitmaps(mddev);
 7470					goto err;
 7471				}
 7472
 7473				mddev->bitmap_info.nodes = 0;
 7474				md_cluster_ops->leave(mddev);
 7475				module_put(md_cluster_mod);
 7476				mddev->safemode_delay = DEFAULT_SAFEMODE_DELAY;
 7477			}
 7478			md_bitmap_destroy(mddev);
 7479			mddev->bitmap_info.offset = 0;
 7480		}
 7481	}
 7482	md_update_sb(mddev, 1);
 7483	return rv;
 7484err:
 7485	return rv;
 7486}
 7487
 7488static int set_disk_faulty(struct mddev *mddev, dev_t dev)
 7489{
 7490	struct md_rdev *rdev;
 7491	int err = 0;
 7492
 7493	if (mddev->pers == NULL)
 7494		return -ENODEV;
 7495
 7496	rcu_read_lock();
 7497	rdev = md_find_rdev_rcu(mddev, dev);
 7498	if (!rdev)
 7499		err =  -ENODEV;
 7500	else {
 7501		md_error(mddev, rdev);
 7502		if (test_bit(MD_BROKEN, &mddev->flags))
 7503			err = -EBUSY;
 7504	}
 7505	rcu_read_unlock();
 7506	return err;
 7507}
 7508
 7509/*
 7510 * We have a problem here : there is no easy way to give a CHS
 7511 * virtual geometry. We currently pretend that we have a 2 heads
 7512 * 4 sectors (with a BIG number of cylinders...). This drives
 7513 * dosfs just mad... ;-)
 7514 */
 7515static int md_getgeo(struct block_device *bdev, struct hd_geometry *geo)
 7516{
 7517	struct mddev *mddev = bdev->bd_disk->private_data;
 7518
 7519	geo->heads = 2;
 7520	geo->sectors = 4;
 7521	geo->cylinders = mddev->array_sectors / 8;
 7522	return 0;
 7523}
 7524
 7525static inline bool md_ioctl_valid(unsigned int cmd)
 7526{
 7527	switch (cmd) {
 7528	case ADD_NEW_DISK:
 7529	case GET_ARRAY_INFO:
 7530	case GET_BITMAP_FILE:
 7531	case GET_DISK_INFO:
 7532	case HOT_ADD_DISK:
 7533	case HOT_REMOVE_DISK:
 7534	case RAID_VERSION:
 7535	case RESTART_ARRAY_RW:
 7536	case RUN_ARRAY:
 7537	case SET_ARRAY_INFO:
 7538	case SET_BITMAP_FILE:
 7539	case SET_DISK_FAULTY:
 7540	case STOP_ARRAY:
 7541	case STOP_ARRAY_RO:
 7542	case CLUSTERED_DISK_NACK:
 7543		return true;
 7544	default:
 7545		return false;
 7546	}
 7547}
 7548
 7549static bool md_ioctl_need_suspend(unsigned int cmd)
 7550{
 7551	switch (cmd) {
 7552	case ADD_NEW_DISK:
 7553	case HOT_ADD_DISK:
 7554	case HOT_REMOVE_DISK:
 7555	case SET_BITMAP_FILE:
 7556	case SET_ARRAY_INFO:
 7557		return true;
 7558	default:
 7559		return false;
 7560	}
 7561}
 7562
 7563static int __md_set_array_info(struct mddev *mddev, void __user *argp)
 7564{
 7565	mdu_array_info_t info;
 7566	int err;
 7567
 7568	if (!argp)
 7569		memset(&info, 0, sizeof(info));
 7570	else if (copy_from_user(&info, argp, sizeof(info)))
 7571		return -EFAULT;
 7572
 7573	if (mddev->pers) {
 7574		err = update_array_info(mddev, &info);
 7575		if (err)
 7576			pr_warn("md: couldn't update array info. %d\n", err);
 7577		return err;
 7578	}
 7579
 7580	if (!list_empty(&mddev->disks)) {
 7581		pr_warn("md: array %s already has disks!\n", mdname(mddev));
 7582		return -EBUSY;
 7583	}
 7584
 7585	if (mddev->raid_disks) {
 7586		pr_warn("md: array %s already initialised!\n", mdname(mddev));
 7587		return -EBUSY;
 7588	}
 7589
 7590	err = md_set_array_info(mddev, &info);
 7591	if (err)
 7592		pr_warn("md: couldn't set array info. %d\n", err);
 7593
 7594	return err;
 7595}
 7596
 7597static int md_ioctl(struct block_device *bdev, blk_mode_t mode,
 7598			unsigned int cmd, unsigned long arg)
 7599{
 7600	int err = 0;
 7601	void __user *argp = (void __user *)arg;
 7602	struct mddev *mddev = NULL;
 7603	bool did_set_md_closing = false;
 7604
 7605	if (!md_ioctl_valid(cmd))
 7606		return -ENOTTY;
 7607
 7608	switch (cmd) {
 7609	case RAID_VERSION:
 7610	case GET_ARRAY_INFO:
 7611	case GET_DISK_INFO:
 7612		break;
 7613	default:
 7614		if (!capable(CAP_SYS_ADMIN))
 7615			return -EACCES;
 7616	}
 7617
 7618	/*
 7619	 * Commands dealing with the RAID driver but not any
 7620	 * particular array:
 7621	 */
 7622	switch (cmd) {
 7623	case RAID_VERSION:
 7624		err = get_version(argp);
 7625		goto out;
 7626	default:;
 7627	}
 7628
 7629	/*
 7630	 * Commands creating/starting a new array:
 7631	 */
 7632
 7633	mddev = bdev->bd_disk->private_data;
 7634
 7635	if (!mddev) {
 7636		BUG();
 7637		goto out;
 7638	}
 7639
 7640	/* Some actions do not requires the mutex */
 7641	switch (cmd) {
 7642	case GET_ARRAY_INFO:
 7643		if (!mddev->raid_disks && !mddev->external)
 7644			err = -ENODEV;
 7645		else
 7646			err = get_array_info(mddev, argp);
 7647		goto out;
 7648
 7649	case GET_DISK_INFO:
 7650		if (!mddev->raid_disks && !mddev->external)
 7651			err = -ENODEV;
 7652		else
 7653			err = get_disk_info(mddev, argp);
 7654		goto out;
 7655
 7656	case SET_DISK_FAULTY:
 7657		err = set_disk_faulty(mddev, new_decode_dev(arg));
 7658		goto out;
 7659
 7660	case GET_BITMAP_FILE:
 7661		err = get_bitmap_file(mddev, argp);
 7662		goto out;
 7663
 7664	}
 7665
 7666	if (cmd == HOT_REMOVE_DISK)
 7667		/* need to ensure recovery thread has run */
 7668		wait_event_interruptible_timeout(mddev->sb_wait,
 7669						 !test_bit(MD_RECOVERY_NEEDED,
 7670							   &mddev->recovery),
 7671						 msecs_to_jiffies(5000));
 7672	if (cmd == STOP_ARRAY || cmd == STOP_ARRAY_RO) {
 7673		/* Need to flush page cache, and ensure no-one else opens
 7674		 * and writes
 7675		 */
 7676		mutex_lock(&mddev->open_mutex);
 7677		if (mddev->pers && atomic_read(&mddev->openers) > 1) {
 7678			mutex_unlock(&mddev->open_mutex);
 7679			err = -EBUSY;
 7680			goto out;
 7681		}
 7682		if (test_and_set_bit(MD_CLOSING, &mddev->flags)) {
 7683			mutex_unlock(&mddev->open_mutex);
 7684			err = -EBUSY;
 7685			goto out;
 7686		}
 7687		did_set_md_closing = true;
 7688		mutex_unlock(&mddev->open_mutex);
 7689		sync_blockdev(bdev);
 7690	}
 7691
 7692	if (!md_is_rdwr(mddev))
 7693		flush_work(&mddev->sync_work);
 7694
 7695	err = md_ioctl_need_suspend(cmd) ? mddev_suspend_and_lock(mddev) :
 7696					   mddev_lock(mddev);
 7697	if (err) {
 7698		pr_debug("md: ioctl lock interrupted, reason %d, cmd %d\n",
 7699			 err, cmd);
 7700		goto out;
 7701	}
 7702
 7703	if (cmd == SET_ARRAY_INFO) {
 7704		err = __md_set_array_info(mddev, argp);
 7705		goto unlock;
 7706	}
 7707
 7708	/*
 7709	 * Commands querying/configuring an existing array:
 7710	 */
 7711	/* if we are not initialised yet, only ADD_NEW_DISK, STOP_ARRAY,
 7712	 * RUN_ARRAY, and GET_ and SET_BITMAP_FILE are allowed */
 7713	if ((!mddev->raid_disks && !mddev->external)
 7714	    && cmd != ADD_NEW_DISK && cmd != STOP_ARRAY
 7715	    && cmd != RUN_ARRAY && cmd != SET_BITMAP_FILE
 7716	    && cmd != GET_BITMAP_FILE) {
 7717		err = -ENODEV;
 7718		goto unlock;
 7719	}
 7720
 7721	/*
 7722	 * Commands even a read-only array can execute:
 7723	 */
 7724	switch (cmd) {
 7725	case RESTART_ARRAY_RW:
 7726		err = restart_array(mddev);
 7727		goto unlock;
 7728
 7729	case STOP_ARRAY:
 7730		err = do_md_stop(mddev, 0, bdev);
 7731		goto unlock;
 7732
 7733	case STOP_ARRAY_RO:
 7734		err = md_set_readonly(mddev, bdev);
 7735		goto unlock;
 7736
 7737	case HOT_REMOVE_DISK:
 7738		err = hot_remove_disk(mddev, new_decode_dev(arg));
 7739		goto unlock;
 7740
 7741	case ADD_NEW_DISK:
 7742		/* We can support ADD_NEW_DISK on read-only arrays
 7743		 * only if we are re-adding a preexisting device.
 7744		 * So require mddev->pers and MD_DISK_SYNC.
 7745		 */
 7746		if (mddev->pers) {
 7747			mdu_disk_info_t info;
 7748			if (copy_from_user(&info, argp, sizeof(info)))
 7749				err = -EFAULT;
 7750			else if (!(info.state & (1<<MD_DISK_SYNC)))
 7751				/* Need to clear read-only for this */
 7752				break;
 7753			else
 7754				err = md_add_new_disk(mddev, &info);
 7755			goto unlock;
 7756		}
 7757		break;
 7758	}
 7759
 7760	/*
 7761	 * The remaining ioctls are changing the state of the
 7762	 * superblock, so we do not allow them on read-only arrays.
 7763	 */
 7764	if (!md_is_rdwr(mddev) && mddev->pers) {
 7765		if (mddev->ro != MD_AUTO_READ) {
 7766			err = -EROFS;
 7767			goto unlock;
 7768		}
 7769		mddev->ro = MD_RDWR;
 7770		sysfs_notify_dirent_safe(mddev->sysfs_state);
 7771		set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 7772		/* mddev_unlock will wake thread */
 7773		/* If a device failed while we were read-only, we
 7774		 * need to make sure the metadata is updated now.
 7775		 */
 7776		if (test_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags)) {
 7777			mddev_unlock(mddev);
 7778			wait_event(mddev->sb_wait,
 7779				   !test_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags) &&
 7780				   !test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags));
 7781			mddev_lock_nointr(mddev);
 7782		}
 7783	}
 7784
 7785	switch (cmd) {
 7786	case ADD_NEW_DISK:
 7787	{
 7788		mdu_disk_info_t info;
 7789		if (copy_from_user(&info, argp, sizeof(info)))
 7790			err = -EFAULT;
 7791		else
 7792			err = md_add_new_disk(mddev, &info);
 7793		goto unlock;
 7794	}
 7795
 7796	case CLUSTERED_DISK_NACK:
 7797		if (mddev_is_clustered(mddev))
 7798			md_cluster_ops->new_disk_ack(mddev, false);
 7799		else
 7800			err = -EINVAL;
 7801		goto unlock;
 7802
 7803	case HOT_ADD_DISK:
 7804		err = hot_add_disk(mddev, new_decode_dev(arg));
 7805		goto unlock;
 7806
 7807	case RUN_ARRAY:
 7808		err = do_md_run(mddev);
 7809		goto unlock;
 7810
 7811	case SET_BITMAP_FILE:
 7812		err = set_bitmap_file(mddev, (int)arg);
 7813		goto unlock;
 7814
 7815	default:
 7816		err = -EINVAL;
 7817		goto unlock;
 7818	}
 7819
 7820unlock:
 7821	if (mddev->hold_active == UNTIL_IOCTL &&
 7822	    err != -EINVAL)
 7823		mddev->hold_active = 0;
 7824
 7825	md_ioctl_need_suspend(cmd) ? mddev_unlock_and_resume(mddev) :
 7826				     mddev_unlock(mddev);
 7827
 7828out:
 7829	if(did_set_md_closing)
 7830		clear_bit(MD_CLOSING, &mddev->flags);
 7831	return err;
 7832}
 7833#ifdef CONFIG_COMPAT
 7834static int md_compat_ioctl(struct block_device *bdev, blk_mode_t mode,
 7835		    unsigned int cmd, unsigned long arg)
 7836{
 7837	switch (cmd) {
 7838	case HOT_REMOVE_DISK:
 7839	case HOT_ADD_DISK:
 7840	case SET_DISK_FAULTY:
 7841	case SET_BITMAP_FILE:
 7842		/* These take in integer arg, do not convert */
 7843		break;
 7844	default:
 7845		arg = (unsigned long)compat_ptr(arg);
 7846		break;
 7847	}
 7848
 7849	return md_ioctl(bdev, mode, cmd, arg);
 7850}
 7851#endif /* CONFIG_COMPAT */
 7852
 7853static int md_set_read_only(struct block_device *bdev, bool ro)
 7854{
 7855	struct mddev *mddev = bdev->bd_disk->private_data;
 7856	int err;
 7857
 7858	err = mddev_lock(mddev);
 7859	if (err)
 7860		return err;
 7861
 7862	if (!mddev->raid_disks && !mddev->external) {
 7863		err = -ENODEV;
 7864		goto out_unlock;
 7865	}
 7866
 7867	/*
 7868	 * Transitioning to read-auto need only happen for arrays that call
 7869	 * md_write_start and which are not ready for writes yet.
 7870	 */
 7871	if (!ro && mddev->ro == MD_RDONLY && mddev->pers) {
 7872		err = restart_array(mddev);
 7873		if (err)
 7874			goto out_unlock;
 7875		mddev->ro = MD_AUTO_READ;
 7876	}
 7877
 7878out_unlock:
 7879	mddev_unlock(mddev);
 7880	return err;
 7881}
 7882
 7883static int md_open(struct gendisk *disk, blk_mode_t mode)
 7884{
 7885	struct mddev *mddev;
 7886	int err;
 7887
 7888	spin_lock(&all_mddevs_lock);
 7889	mddev = mddev_get(disk->private_data);
 7890	spin_unlock(&all_mddevs_lock);
 7891	if (!mddev)
 7892		return -ENODEV;
 7893
 7894	err = mutex_lock_interruptible(&mddev->open_mutex);
 7895	if (err)
 7896		goto out;
 7897
 7898	err = -ENODEV;
 7899	if (test_bit(MD_CLOSING, &mddev->flags))
 7900		goto out_unlock;
 7901
 7902	atomic_inc(&mddev->openers);
 7903	mutex_unlock(&mddev->open_mutex);
 7904
 7905	disk_check_media_change(disk);
 7906	return 0;
 7907
 7908out_unlock:
 7909	mutex_unlock(&mddev->open_mutex);
 7910out:
 7911	mddev_put(mddev);
 7912	return err;
 7913}
 7914
 7915static void md_release(struct gendisk *disk)
 7916{
 7917	struct mddev *mddev = disk->private_data;
 7918
 7919	BUG_ON(!mddev);
 7920	atomic_dec(&mddev->openers);
 7921	mddev_put(mddev);
 7922}
 7923
 7924static unsigned int md_check_events(struct gendisk *disk, unsigned int clearing)
 7925{
 7926	struct mddev *mddev = disk->private_data;
 7927	unsigned int ret = 0;
 7928
 7929	if (mddev->changed)
 7930		ret = DISK_EVENT_MEDIA_CHANGE;
 7931	mddev->changed = 0;
 7932	return ret;
 7933}
 7934
 7935static void md_free_disk(struct gendisk *disk)
 7936{
 7937	struct mddev *mddev = disk->private_data;
 7938
 7939	mddev_free(mddev);
 7940}
 7941
 7942const struct block_device_operations md_fops =
 7943{
 7944	.owner		= THIS_MODULE,
 7945	.submit_bio	= md_submit_bio,
 7946	.open		= md_open,
 7947	.release	= md_release,
 7948	.ioctl		= md_ioctl,
 7949#ifdef CONFIG_COMPAT
 7950	.compat_ioctl	= md_compat_ioctl,
 7951#endif
 7952	.getgeo		= md_getgeo,
 7953	.check_events	= md_check_events,
 7954	.set_read_only	= md_set_read_only,
 7955	.free_disk	= md_free_disk,
 7956};
 7957
 7958static int md_thread(void *arg)
 7959{
 7960	struct md_thread *thread = arg;
 7961
 7962	/*
 7963	 * md_thread is a 'system-thread', it's priority should be very
 7964	 * high. We avoid resource deadlocks individually in each
 7965	 * raid personality. (RAID5 does preallocation) We also use RR and
 7966	 * the very same RT priority as kswapd, thus we will never get
 7967	 * into a priority inversion deadlock.
 7968	 *
 7969	 * we definitely have to have equal or higher priority than
 7970	 * bdflush, otherwise bdflush will deadlock if there are too
 7971	 * many dirty RAID5 blocks.
 7972	 */
 7973
 7974	allow_signal(SIGKILL);
 7975	while (!kthread_should_stop()) {
 7976
 7977		/* We need to wait INTERRUPTIBLE so that
 7978		 * we don't add to the load-average.
 7979		 * That means we need to be sure no signals are
 7980		 * pending
 7981		 */
 7982		if (signal_pending(current))
 7983			flush_signals(current);
 7984
 7985		wait_event_interruptible_timeout
 7986			(thread->wqueue,
 7987			 test_bit(THREAD_WAKEUP, &thread->flags)
 7988			 || kthread_should_stop() || kthread_should_park(),
 7989			 thread->timeout);
 7990
 7991		clear_bit(THREAD_WAKEUP, &thread->flags);
 7992		if (kthread_should_park())
 7993			kthread_parkme();
 7994		if (!kthread_should_stop())
 7995			thread->run(thread);
 7996	}
 7997
 7998	return 0;
 7999}
 8000
 8001static void md_wakeup_thread_directly(struct md_thread __rcu *thread)
 8002{
 8003	struct md_thread *t;
 8004
 8005	rcu_read_lock();
 8006	t = rcu_dereference(thread);
 8007	if (t)
 8008		wake_up_process(t->tsk);
 8009	rcu_read_unlock();
 8010}
 8011
 8012void md_wakeup_thread(struct md_thread __rcu *thread)
 8013{
 8014	struct md_thread *t;
 8015
 8016	rcu_read_lock();
 8017	t = rcu_dereference(thread);
 8018	if (t) {
 8019		pr_debug("md: waking up MD thread %s.\n", t->tsk->comm);
 8020		set_bit(THREAD_WAKEUP, &t->flags);
 8021		wake_up(&t->wqueue);
 8022	}
 8023	rcu_read_unlock();
 8024}
 8025EXPORT_SYMBOL(md_wakeup_thread);
 8026
 8027struct md_thread *md_register_thread(void (*run) (struct md_thread *),
 8028		struct mddev *mddev, const char *name)
 8029{
 8030	struct md_thread *thread;
 8031
 8032	thread = kzalloc(sizeof(struct md_thread), GFP_KERNEL);
 8033	if (!thread)
 8034		return NULL;
 8035
 8036	init_waitqueue_head(&thread->wqueue);
 8037
 8038	thread->run = run;
 8039	thread->mddev = mddev;
 8040	thread->timeout = MAX_SCHEDULE_TIMEOUT;
 8041	thread->tsk = kthread_run(md_thread, thread,
 8042				  "%s_%s",
 8043				  mdname(thread->mddev),
 8044				  name);
 8045	if (IS_ERR(thread->tsk)) {
 8046		kfree(thread);
 8047		return NULL;
 8048	}
 8049	return thread;
 8050}
 8051EXPORT_SYMBOL(md_register_thread);
 8052
 8053void md_unregister_thread(struct mddev *mddev, struct md_thread __rcu **threadp)
 8054{
 8055	struct md_thread *thread = rcu_dereference_protected(*threadp,
 8056					lockdep_is_held(&mddev->reconfig_mutex));
 8057
 8058	if (!thread)
 8059		return;
 8060
 8061	rcu_assign_pointer(*threadp, NULL);
 8062	synchronize_rcu();
 8063
 8064	pr_debug("interrupting MD-thread pid %d\n", task_pid_nr(thread->tsk));
 8065	kthread_stop(thread->tsk);
 8066	kfree(thread);
 8067}
 8068EXPORT_SYMBOL(md_unregister_thread);
 8069
 8070void md_error(struct mddev *mddev, struct md_rdev *rdev)
 8071{
 8072	if (!rdev || test_bit(Faulty, &rdev->flags))
 8073		return;
 8074
 8075	if (!mddev->pers || !mddev->pers->error_handler)
 8076		return;
 8077	mddev->pers->error_handler(mddev, rdev);
 8078
 8079	if (mddev->pers->level == 0 || mddev->pers->level == LEVEL_LINEAR)
 8080		return;
 8081
 8082	if (mddev->degraded && !test_bit(MD_BROKEN, &mddev->flags))
 8083		set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
 8084	sysfs_notify_dirent_safe(rdev->sysfs_state);
 8085	set_bit(MD_RECOVERY_INTR, &mddev->recovery);
 8086	if (!test_bit(MD_BROKEN, &mddev->flags)) {
 8087		set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 8088		md_wakeup_thread(mddev->thread);
 8089	}
 8090	if (mddev->event_work.func)
 8091		queue_work(md_misc_wq, &mddev->event_work);
 8092	md_new_event();
 8093}
 8094EXPORT_SYMBOL(md_error);
 8095
 8096/* seq_file implementation /proc/mdstat */
 8097
 8098static void status_unused(struct seq_file *seq)
 8099{
 8100	int i = 0;
 8101	struct md_rdev *rdev;
 8102
 8103	seq_printf(seq, "unused devices: ");
 8104
 8105	list_for_each_entry(rdev, &pending_raid_disks, same_set) {
 8106		i++;
 8107		seq_printf(seq, "%pg ", rdev->bdev);
 8108	}
 8109	if (!i)
 8110		seq_printf(seq, "<none>");
 8111
 8112	seq_printf(seq, "\n");
 8113}
 8114
 8115static int status_resync(struct seq_file *seq, struct mddev *mddev)
 8116{
 8117	sector_t max_sectors, resync, res;
 8118	unsigned long dt, db = 0;
 8119	sector_t rt, curr_mark_cnt, resync_mark_cnt;
 8120	int scale, recovery_active;
 8121	unsigned int per_milli;
 8122
 8123	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery) ||
 8124	    test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery))
 8125		max_sectors = mddev->resync_max_sectors;
 8126	else
 8127		max_sectors = mddev->dev_sectors;
 8128
 8129	resync = mddev->curr_resync;
 8130	if (resync < MD_RESYNC_ACTIVE) {
 8131		if (test_bit(MD_RECOVERY_DONE, &mddev->recovery))
 8132			/* Still cleaning up */
 8133			resync = max_sectors;
 8134	} else if (resync > max_sectors) {
 8135		resync = max_sectors;
 8136	} else {
 8137		res = atomic_read(&mddev->recovery_active);
 8138		/*
 8139		 * Resync has started, but the subtraction has overflowed or
 8140		 * yielded one of the special values. Force it to active to
 8141		 * ensure the status reports an active resync.
 8142		 */
 8143		if (resync < res || resync - res < MD_RESYNC_ACTIVE)
 8144			resync = MD_RESYNC_ACTIVE;
 8145		else
 8146			resync -= res;
 8147	}
 8148
 8149	if (resync == MD_RESYNC_NONE) {
 8150		if (test_bit(MD_RESYNCING_REMOTE, &mddev->recovery)) {
 8151			struct md_rdev *rdev;
 8152
 8153			rdev_for_each(rdev, mddev)
 8154				if (rdev->raid_disk >= 0 &&
 8155				    !test_bit(Faulty, &rdev->flags) &&
 8156				    rdev->recovery_offset != MaxSector &&
 8157				    rdev->recovery_offset) {
 8158					seq_printf(seq, "\trecover=REMOTE");
 8159					return 1;
 8160				}
 8161			if (mddev->reshape_position != MaxSector)
 8162				seq_printf(seq, "\treshape=REMOTE");
 8163			else
 8164				seq_printf(seq, "\tresync=REMOTE");
 8165			return 1;
 8166		}
 8167		if (mddev->recovery_cp < MaxSector) {
 8168			seq_printf(seq, "\tresync=PENDING");
 8169			return 1;
 8170		}
 8171		return 0;
 8172	}
 8173	if (resync < MD_RESYNC_ACTIVE) {
 8174		seq_printf(seq, "\tresync=DELAYED");
 8175		return 1;
 8176	}
 8177
 8178	WARN_ON(max_sectors == 0);
 8179	/* Pick 'scale' such that (resync>>scale)*1000 will fit
 8180	 * in a sector_t, and (max_sectors>>scale) will fit in a
 8181	 * u32, as those are the requirements for sector_div.
 8182	 * Thus 'scale' must be at least 10
 8183	 */
 8184	scale = 10;
 8185	if (sizeof(sector_t) > sizeof(unsigned long)) {
 8186		while ( max_sectors/2 > (1ULL<<(scale+32)))
 8187			scale++;
 8188	}
 8189	res = (resync>>scale)*1000;
 8190	sector_div(res, (u32)((max_sectors>>scale)+1));
 8191
 8192	per_milli = res;
 8193	{
 8194		int i, x = per_milli/50, y = 20-x;
 8195		seq_printf(seq, "[");
 8196		for (i = 0; i < x; i++)
 8197			seq_printf(seq, "=");
 8198		seq_printf(seq, ">");
 8199		for (i = 0; i < y; i++)
 8200			seq_printf(seq, ".");
 8201		seq_printf(seq, "] ");
 8202	}
 8203	seq_printf(seq, " %s =%3u.%u%% (%llu/%llu)",
 8204		   (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery)?
 8205		    "reshape" :
 8206		    (test_bit(MD_RECOVERY_CHECK, &mddev->recovery)?
 8207		     "check" :
 8208		     (test_bit(MD_RECOVERY_SYNC, &mddev->recovery) ?
 8209		      "resync" : "recovery"))),
 8210		   per_milli/10, per_milli % 10,
 8211		   (unsigned long long) resync/2,
 8212		   (unsigned long long) max_sectors/2);
 8213
 8214	/*
 8215	 * dt: time from mark until now
 8216	 * db: blocks written from mark until now
 8217	 * rt: remaining time
 8218	 *
 8219	 * rt is a sector_t, which is always 64bit now. We are keeping
 8220	 * the original algorithm, but it is not really necessary.
 8221	 *
 8222	 * Original algorithm:
 8223	 *   So we divide before multiply in case it is 32bit and close
 8224	 *   to the limit.
 8225	 *   We scale the divisor (db) by 32 to avoid losing precision
 8226	 *   near the end of resync when the number of remaining sectors
 8227	 *   is close to 'db'.
 8228	 *   We then divide rt by 32 after multiplying by db to compensate.
 8229	 *   The '+1' avoids division by zero if db is very small.
 8230	 */
 8231	dt = ((jiffies - mddev->resync_mark) / HZ);
 8232	if (!dt) dt++;
 8233
 8234	curr_mark_cnt = mddev->curr_mark_cnt;
 8235	recovery_active = atomic_read(&mddev->recovery_active);
 8236	resync_mark_cnt = mddev->resync_mark_cnt;
 8237
 8238	if (curr_mark_cnt >= (recovery_active + resync_mark_cnt))
 8239		db = curr_mark_cnt - (recovery_active + resync_mark_cnt);
 8240
 8241	rt = max_sectors - resync;    /* number of remaining sectors */
 8242	rt = div64_u64(rt, db/32+1);
 8243	rt *= dt;
 8244	rt >>= 5;
 8245
 8246	seq_printf(seq, " finish=%lu.%lumin", (unsigned long)rt / 60,
 8247		   ((unsigned long)rt % 60)/6);
 8248
 8249	seq_printf(seq, " speed=%ldK/sec", db/2/dt);
 8250	return 1;
 8251}
 8252
 8253static void *md_seq_start(struct seq_file *seq, loff_t *pos)
 8254	__acquires(&all_mddevs_lock)
 8255{
 8256	struct md_personality *pers;
 8257
 8258	seq_puts(seq, "Personalities : ");
 8259	spin_lock(&pers_lock);
 8260	list_for_each_entry(pers, &pers_list, list)
 8261		seq_printf(seq, "[%s] ", pers->name);
 8262
 8263	spin_unlock(&pers_lock);
 8264	seq_puts(seq, "\n");
 8265	seq->poll_event = atomic_read(&md_event_count);
 8266
 8267	spin_lock(&all_mddevs_lock);
 8268
 8269	return seq_list_start(&all_mddevs, *pos);
 8270}
 8271
 8272static void *md_seq_next(struct seq_file *seq, void *v, loff_t *pos)
 8273{
 8274	return seq_list_next(v, &all_mddevs, pos);
 8275}
 8276
 8277static void md_seq_stop(struct seq_file *seq, void *v)
 8278	__releases(&all_mddevs_lock)
 8279{
 8280	status_unused(seq);
 8281	spin_unlock(&all_mddevs_lock);
 8282}
 8283
 8284static int md_seq_show(struct seq_file *seq, void *v)
 8285{
 8286	struct mddev *mddev = list_entry(v, struct mddev, all_mddevs);
 8287	sector_t sectors;
 8288	struct md_rdev *rdev;
 8289
 8290	if (!mddev_get(mddev))
 8291		return 0;
 8292
 8293	spin_unlock(&all_mddevs_lock);
 8294	spin_lock(&mddev->lock);
 8295	if (mddev->pers || mddev->raid_disks || !list_empty(&mddev->disks)) {
 8296		seq_printf(seq, "%s : %sactive", mdname(mddev),
 8297						mddev->pers ? "" : "in");
 8298		if (mddev->pers) {
 8299			if (mddev->ro == MD_RDONLY)
 8300				seq_printf(seq, " (read-only)");
 8301			if (mddev->ro == MD_AUTO_READ)
 8302				seq_printf(seq, " (auto-read-only)");
 8303			seq_printf(seq, " %s", mddev->pers->name);
 8304		}
 8305
 8306		sectors = 0;
 8307		rcu_read_lock();
 8308		rdev_for_each_rcu(rdev, mddev) {
 8309			seq_printf(seq, " %pg[%d]", rdev->bdev, rdev->desc_nr);
 8310
 8311			if (test_bit(WriteMostly, &rdev->flags))
 8312				seq_printf(seq, "(W)");
 8313			if (test_bit(Journal, &rdev->flags))
 8314				seq_printf(seq, "(J)");
 8315			if (test_bit(Faulty, &rdev->flags)) {
 8316				seq_printf(seq, "(F)");
 8317				continue;
 8318			}
 8319			if (rdev->raid_disk < 0)
 8320				seq_printf(seq, "(S)"); /* spare */
 8321			if (test_bit(Replacement, &rdev->flags))
 8322				seq_printf(seq, "(R)");
 8323			sectors += rdev->sectors;
 8324		}
 8325		rcu_read_unlock();
 8326
 8327		if (!list_empty(&mddev->disks)) {
 8328			if (mddev->pers)
 8329				seq_printf(seq, "\n      %llu blocks",
 8330					   (unsigned long long)
 8331					   mddev->array_sectors / 2);
 8332			else
 8333				seq_printf(seq, "\n      %llu blocks",
 8334					   (unsigned long long)sectors / 2);
 8335		}
 8336		if (mddev->persistent) {
 8337			if (mddev->major_version != 0 ||
 8338			    mddev->minor_version != 90) {
 8339				seq_printf(seq," super %d.%d",
 8340					   mddev->major_version,
 8341					   mddev->minor_version);
 8342			}
 8343		} else if (mddev->external)
 8344			seq_printf(seq, " super external:%s",
 8345				   mddev->metadata_type);
 8346		else
 8347			seq_printf(seq, " super non-persistent");
 8348
 8349		if (mddev->pers) {
 8350			mddev->pers->status(seq, mddev);
 8351			seq_printf(seq, "\n      ");
 8352			if (mddev->pers->sync_request) {
 8353				if (status_resync(seq, mddev))
 8354					seq_printf(seq, "\n      ");
 8355			}
 8356		} else
 8357			seq_printf(seq, "\n       ");
 8358
 8359		md_bitmap_status(seq, mddev->bitmap);
 8360
 8361		seq_printf(seq, "\n");
 8362	}
 8363	spin_unlock(&mddev->lock);
 8364	spin_lock(&all_mddevs_lock);
 8365	if (atomic_dec_and_test(&mddev->active))
 8366		__mddev_put(mddev);
 8367
 8368	return 0;
 8369}
 8370
 8371static const struct seq_operations md_seq_ops = {
 8372	.start  = md_seq_start,
 8373	.next   = md_seq_next,
 8374	.stop   = md_seq_stop,
 8375	.show   = md_seq_show,
 8376};
 8377
 8378static int md_seq_open(struct inode *inode, struct file *file)
 8379{
 8380	struct seq_file *seq;
 8381	int error;
 8382
 8383	error = seq_open(file, &md_seq_ops);
 8384	if (error)
 8385		return error;
 8386
 8387	seq = file->private_data;
 8388	seq->poll_event = atomic_read(&md_event_count);
 8389	return error;
 8390}
 8391
 8392static int md_unloading;
 8393static __poll_t mdstat_poll(struct file *filp, poll_table *wait)
 8394{
 8395	struct seq_file *seq = filp->private_data;
 8396	__poll_t mask;
 8397
 8398	if (md_unloading)
 8399		return EPOLLIN|EPOLLRDNORM|EPOLLERR|EPOLLPRI;
 8400	poll_wait(filp, &md_event_waiters, wait);
 8401
 8402	/* always allow read */
 8403	mask = EPOLLIN | EPOLLRDNORM;
 8404
 8405	if (seq->poll_event != atomic_read(&md_event_count))
 8406		mask |= EPOLLERR | EPOLLPRI;
 8407	return mask;
 8408}
 8409
 8410static const struct proc_ops mdstat_proc_ops = {
 8411	.proc_open	= md_seq_open,
 8412	.proc_read	= seq_read,
 8413	.proc_lseek	= seq_lseek,
 8414	.proc_release	= seq_release,
 8415	.proc_poll	= mdstat_poll,
 8416};
 8417
 8418int register_md_personality(struct md_personality *p)
 8419{
 8420	pr_debug("md: %s personality registered for level %d\n",
 8421		 p->name, p->level);
 8422	spin_lock(&pers_lock);
 8423	list_add_tail(&p->list, &pers_list);
 8424	spin_unlock(&pers_lock);
 8425	return 0;
 8426}
 8427EXPORT_SYMBOL(register_md_personality);
 8428
 8429int unregister_md_personality(struct md_personality *p)
 8430{
 8431	pr_debug("md: %s personality unregistered\n", p->name);
 8432	spin_lock(&pers_lock);
 8433	list_del_init(&p->list);
 8434	spin_unlock(&pers_lock);
 8435	return 0;
 8436}
 8437EXPORT_SYMBOL(unregister_md_personality);
 8438
 8439int register_md_cluster_operations(struct md_cluster_operations *ops,
 8440				   struct module *module)
 8441{
 8442	int ret = 0;
 8443	spin_lock(&pers_lock);
 8444	if (md_cluster_ops != NULL)
 8445		ret = -EALREADY;
 8446	else {
 8447		md_cluster_ops = ops;
 8448		md_cluster_mod = module;
 8449	}
 8450	spin_unlock(&pers_lock);
 8451	return ret;
 8452}
 8453EXPORT_SYMBOL(register_md_cluster_operations);
 8454
 8455int unregister_md_cluster_operations(void)
 8456{
 8457	spin_lock(&pers_lock);
 8458	md_cluster_ops = NULL;
 8459	spin_unlock(&pers_lock);
 8460	return 0;
 8461}
 8462EXPORT_SYMBOL(unregister_md_cluster_operations);
 8463
 8464int md_setup_cluster(struct mddev *mddev, int nodes)
 8465{
 8466	int ret;
 8467	if (!md_cluster_ops)
 8468		request_module("md-cluster");
 8469	spin_lock(&pers_lock);
 8470	/* ensure module won't be unloaded */
 8471	if (!md_cluster_ops || !try_module_get(md_cluster_mod)) {
 8472		pr_warn("can't find md-cluster module or get its reference.\n");
 8473		spin_unlock(&pers_lock);
 8474		return -ENOENT;
 8475	}
 8476	spin_unlock(&pers_lock);
 8477
 8478	ret = md_cluster_ops->join(mddev, nodes);
 8479	if (!ret)
 8480		mddev->safemode_delay = 0;
 8481	return ret;
 8482}
 8483
 8484void md_cluster_stop(struct mddev *mddev)
 8485{
 8486	if (!md_cluster_ops)
 8487		return;
 8488	md_cluster_ops->leave(mddev);
 8489	module_put(md_cluster_mod);
 8490}
 8491
 8492static int is_mddev_idle(struct mddev *mddev, int init)
 8493{
 8494	struct md_rdev *rdev;
 8495	int idle;
 8496	int curr_events;
 8497
 8498	idle = 1;
 8499	rcu_read_lock();
 8500	rdev_for_each_rcu(rdev, mddev) {
 8501		struct gendisk *disk = rdev->bdev->bd_disk;
 8502		curr_events = (int)part_stat_read_accum(disk->part0, sectors) -
 8503			      atomic_read(&disk->sync_io);
 8504		/* sync IO will cause sync_io to increase before the disk_stats
 8505		 * as sync_io is counted when a request starts, and
 8506		 * disk_stats is counted when it completes.
 8507		 * So resync activity will cause curr_events to be smaller than
 8508		 * when there was no such activity.
 8509		 * non-sync IO will cause disk_stat to increase without
 8510		 * increasing sync_io so curr_events will (eventually)
 8511		 * be larger than it was before.  Once it becomes
 8512		 * substantially larger, the test below will cause
 8513		 * the array to appear non-idle, and resync will slow
 8514		 * down.
 8515		 * If there is a lot of outstanding resync activity when
 8516		 * we set last_event to curr_events, then all that activity
 8517		 * completing might cause the array to appear non-idle
 8518		 * and resync will be slowed down even though there might
 8519		 * not have been non-resync activity.  This will only
 8520		 * happen once though.  'last_events' will soon reflect
 8521		 * the state where there is little or no outstanding
 8522		 * resync requests, and further resync activity will
 8523		 * always make curr_events less than last_events.
 8524		 *
 8525		 */
 8526		if (init || curr_events - rdev->last_events > 64) {
 8527			rdev->last_events = curr_events;
 8528			idle = 0;
 8529		}
 8530	}
 8531	rcu_read_unlock();
 8532	return idle;
 8533}
 8534
 8535void md_done_sync(struct mddev *mddev, int blocks, int ok)
 8536{
 8537	/* another "blocks" (512byte) blocks have been synced */
 8538	atomic_sub(blocks, &mddev->recovery_active);
 8539	wake_up(&mddev->recovery_wait);
 8540	if (!ok) {
 8541		set_bit(MD_RECOVERY_INTR, &mddev->recovery);
 8542		set_bit(MD_RECOVERY_ERROR, &mddev->recovery);
 8543		md_wakeup_thread(mddev->thread);
 8544		// stop recovery, signal do_sync ....
 8545	}
 8546}
 8547EXPORT_SYMBOL(md_done_sync);
 8548
 8549/* md_write_start(mddev, bi)
 8550 * If we need to update some array metadata (e.g. 'active' flag
 8551 * in superblock) before writing, schedule a superblock update
 8552 * and wait for it to complete.
 8553 * A return value of 'false' means that the write wasn't recorded
 8554 * and cannot proceed as the array is being suspend.
 8555 */
 8556bool md_write_start(struct mddev *mddev, struct bio *bi)
 8557{
 8558	int did_change = 0;
 8559
 8560	if (bio_data_dir(bi) != WRITE)
 8561		return true;
 8562
 8563	BUG_ON(mddev->ro == MD_RDONLY);
 8564	if (mddev->ro == MD_AUTO_READ) {
 8565		/* need to switch to read/write */
 8566		flush_work(&mddev->sync_work);
 8567		mddev->ro = MD_RDWR;
 8568		set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 8569		md_wakeup_thread(mddev->thread);
 8570		md_wakeup_thread(mddev->sync_thread);
 8571		did_change = 1;
 8572	}
 8573	rcu_read_lock();
 8574	percpu_ref_get(&mddev->writes_pending);
 8575	smp_mb(); /* Match smp_mb in set_in_sync() */
 8576	if (mddev->safemode == 1)
 8577		mddev->safemode = 0;
 8578	/* sync_checkers is always 0 when writes_pending is in per-cpu mode */
 8579	if (mddev->in_sync || mddev->sync_checkers) {
 8580		spin_lock(&mddev->lock);
 8581		if (mddev->in_sync) {
 8582			mddev->in_sync = 0;
 8583			set_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
 8584			set_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
 8585			md_wakeup_thread(mddev->thread);
 8586			did_change = 1;
 8587		}
 8588		spin_unlock(&mddev->lock);
 8589	}
 8590	rcu_read_unlock();
 8591	if (did_change)
 8592		sysfs_notify_dirent_safe(mddev->sysfs_state);
 8593	if (!mddev->has_superblocks)
 8594		return true;
 8595	wait_event(mddev->sb_wait,
 8596		   !test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags) ||
 8597		   is_md_suspended(mddev));
 8598	if (test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags)) {
 8599		percpu_ref_put(&mddev->writes_pending);
 8600		return false;
 8601	}
 8602	return true;
 8603}
 8604EXPORT_SYMBOL(md_write_start);
 8605
 8606/* md_write_inc can only be called when md_write_start() has
 8607 * already been called at least once of the current request.
 8608 * It increments the counter and is useful when a single request
 8609 * is split into several parts.  Each part causes an increment and
 8610 * so needs a matching md_write_end().
 8611 * Unlike md_write_start(), it is safe to call md_write_inc() inside
 8612 * a spinlocked region.
 8613 */
 8614void md_write_inc(struct mddev *mddev, struct bio *bi)
 8615{
 8616	if (bio_data_dir(bi) != WRITE)
 8617		return;
 8618	WARN_ON_ONCE(mddev->in_sync || !md_is_rdwr(mddev));
 8619	percpu_ref_get(&mddev->writes_pending);
 8620}
 8621EXPORT_SYMBOL(md_write_inc);
 8622
 8623void md_write_end(struct mddev *mddev)
 8624{
 8625	percpu_ref_put(&mddev->writes_pending);
 8626
 8627	if (mddev->safemode == 2)
 8628		md_wakeup_thread(mddev->thread);
 8629	else if (mddev->safemode_delay)
 8630		/* The roundup() ensures this only performs locking once
 8631		 * every ->safemode_delay jiffies
 8632		 */
 8633		mod_timer(&mddev->safemode_timer,
 8634			  roundup(jiffies, mddev->safemode_delay) +
 8635			  mddev->safemode_delay);
 8636}
 8637
 8638EXPORT_SYMBOL(md_write_end);
 8639
 8640/* This is used by raid0 and raid10 */
 8641void md_submit_discard_bio(struct mddev *mddev, struct md_rdev *rdev,
 8642			struct bio *bio, sector_t start, sector_t size)
 8643{
 8644	struct bio *discard_bio = NULL;
 8645
 8646	if (__blkdev_issue_discard(rdev->bdev, start, size, GFP_NOIO,
 8647			&discard_bio) || !discard_bio)
 8648		return;
 8649
 8650	bio_chain(discard_bio, bio);
 8651	bio_clone_blkg_association(discard_bio, bio);
 8652	if (mddev->gendisk)
 8653		trace_block_bio_remap(discard_bio,
 8654				disk_devt(mddev->gendisk),
 8655				bio->bi_iter.bi_sector);
 8656	submit_bio_noacct(discard_bio);
 8657}
 8658EXPORT_SYMBOL_GPL(md_submit_discard_bio);
 8659
 8660static void md_end_clone_io(struct bio *bio)
 8661{
 8662	struct md_io_clone *md_io_clone = bio->bi_private;
 8663	struct bio *orig_bio = md_io_clone->orig_bio;
 8664	struct mddev *mddev = md_io_clone->mddev;
 8665
 8666	if (bio->bi_status && !orig_bio->bi_status)
 8667		orig_bio->bi_status = bio->bi_status;
 8668
 8669	if (md_io_clone->start_time)
 8670		bio_end_io_acct(orig_bio, md_io_clone->start_time);
 8671
 8672	bio_put(bio);
 8673	bio_endio(orig_bio);
 8674	percpu_ref_put(&mddev->active_io);
 8675}
 8676
 8677static void md_clone_bio(struct mddev *mddev, struct bio **bio)
 8678{
 8679	struct block_device *bdev = (*bio)->bi_bdev;
 8680	struct md_io_clone *md_io_clone;
 8681	struct bio *clone =
 8682		bio_alloc_clone(bdev, *bio, GFP_NOIO, &mddev->io_clone_set);
 8683
 8684	md_io_clone = container_of(clone, struct md_io_clone, bio_clone);
 8685	md_io_clone->orig_bio = *bio;
 8686	md_io_clone->mddev = mddev;
 8687	if (blk_queue_io_stat(bdev->bd_disk->queue))
 8688		md_io_clone->start_time = bio_start_io_acct(*bio);
 8689
 8690	clone->bi_end_io = md_end_clone_io;
 8691	clone->bi_private = md_io_clone;
 8692	*bio = clone;
 8693}
 8694
 8695void md_account_bio(struct mddev *mddev, struct bio **bio)
 8696{
 8697	percpu_ref_get(&mddev->active_io);
 8698	md_clone_bio(mddev, bio);
 8699}
 8700EXPORT_SYMBOL_GPL(md_account_bio);
 8701
 8702/* md_allow_write(mddev)
 8703 * Calling this ensures that the array is marked 'active' so that writes
 8704 * may proceed without blocking.  It is important to call this before
 8705 * attempting a GFP_KERNEL allocation while holding the mddev lock.
 8706 * Must be called with mddev_lock held.
 8707 */
 8708void md_allow_write(struct mddev *mddev)
 8709{
 8710	if (!mddev->pers)
 8711		return;
 8712	if (!md_is_rdwr(mddev))
 8713		return;
 8714	if (!mddev->pers->sync_request)
 8715		return;
 8716
 8717	spin_lock(&mddev->lock);
 8718	if (mddev->in_sync) {
 8719		mddev->in_sync = 0;
 8720		set_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
 8721		set_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
 8722		if (mddev->safemode_delay &&
 8723		    mddev->safemode == 0)
 8724			mddev->safemode = 1;
 8725		spin_unlock(&mddev->lock);
 8726		md_update_sb(mddev, 0);
 8727		sysfs_notify_dirent_safe(mddev->sysfs_state);
 8728		/* wait for the dirty state to be recorded in the metadata */
 8729		wait_event(mddev->sb_wait,
 8730			   !test_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags));
 8731	} else
 8732		spin_unlock(&mddev->lock);
 8733}
 8734EXPORT_SYMBOL_GPL(md_allow_write);
 8735
 8736#define SYNC_MARKS	10
 8737#define	SYNC_MARK_STEP	(3*HZ)
 8738#define UPDATE_FREQUENCY (5*60*HZ)
 8739void md_do_sync(struct md_thread *thread)
 8740{
 8741	struct mddev *mddev = thread->mddev;
 8742	struct mddev *mddev2;
 8743	unsigned int currspeed = 0, window;
 8744	sector_t max_sectors,j, io_sectors, recovery_done;
 8745	unsigned long mark[SYNC_MARKS];
 8746	unsigned long update_time;
 8747	sector_t mark_cnt[SYNC_MARKS];
 8748	int last_mark,m;
 8749	sector_t last_check;
 8750	int skipped = 0;
 8751	struct md_rdev *rdev;
 8752	char *desc, *action = NULL;
 8753	struct blk_plug plug;
 8754	int ret;
 8755
 8756	/* just incase thread restarts... */
 8757	if (test_bit(MD_RECOVERY_DONE, &mddev->recovery) ||
 8758	    test_bit(MD_RECOVERY_WAIT, &mddev->recovery))
 8759		return;
 8760	if (!md_is_rdwr(mddev)) {/* never try to sync a read-only array */
 8761		set_bit(MD_RECOVERY_INTR, &mddev->recovery);
 8762		return;
 8763	}
 8764
 8765	if (mddev_is_clustered(mddev)) {
 8766		ret = md_cluster_ops->resync_start(mddev);
 8767		if (ret)
 8768			goto skip;
 8769
 8770		set_bit(MD_CLUSTER_RESYNC_LOCKED, &mddev->flags);
 8771		if (!(test_bit(MD_RECOVERY_SYNC, &mddev->recovery) ||
 8772			test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) ||
 8773			test_bit(MD_RECOVERY_RECOVER, &mddev->recovery))
 8774		     && ((unsigned long long)mddev->curr_resync_completed
 8775			 < (unsigned long long)mddev->resync_max_sectors))
 8776			goto skip;
 8777	}
 8778
 8779	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
 8780		if (test_bit(MD_RECOVERY_CHECK, &mddev->recovery)) {
 8781			desc = "data-check";
 8782			action = "check";
 8783		} else if (test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery)) {
 8784			desc = "requested-resync";
 8785			action = "repair";
 8786		} else
 8787			desc = "resync";
 8788	} else if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery))
 8789		desc = "reshape";
 8790	else
 8791		desc = "recovery";
 8792
 8793	mddev->last_sync_action = action ?: desc;
 8794
 8795	/*
 8796	 * Before starting a resync we must have set curr_resync to
 8797	 * 2, and then checked that every "conflicting" array has curr_resync
 8798	 * less than ours.  When we find one that is the same or higher
 8799	 * we wait on resync_wait.  To avoid deadlock, we reduce curr_resync
 8800	 * to 1 if we choose to yield (based arbitrarily on address of mddev structure).
 8801	 * This will mean we have to start checking from the beginning again.
 8802	 *
 8803	 */
 8804
 8805	do {
 8806		int mddev2_minor = -1;
 8807		mddev->curr_resync = MD_RESYNC_DELAYED;
 8808
 8809	try_again:
 8810		if (test_bit(MD_RECOVERY_INTR, &mddev->recovery))
 8811			goto skip;
 8812		spin_lock(&all_mddevs_lock);
 8813		list_for_each_entry(mddev2, &all_mddevs, all_mddevs) {
 8814			if (test_bit(MD_DELETED, &mddev2->flags))
 8815				continue;
 8816			if (mddev2 == mddev)
 8817				continue;
 8818			if (!mddev->parallel_resync
 8819			&&  mddev2->curr_resync
 8820			&&  match_mddev_units(mddev, mddev2)) {
 8821				DEFINE_WAIT(wq);
 8822				if (mddev < mddev2 &&
 8823				    mddev->curr_resync == MD_RESYNC_DELAYED) {
 8824					/* arbitrarily yield */
 8825					mddev->curr_resync = MD_RESYNC_YIELDED;
 8826					wake_up(&resync_wait);
 8827				}
 8828				if (mddev > mddev2 &&
 8829				    mddev->curr_resync == MD_RESYNC_YIELDED)
 8830					/* no need to wait here, we can wait the next
 8831					 * time 'round when curr_resync == 2
 8832					 */
 8833					continue;
 8834				/* We need to wait 'interruptible' so as not to
 8835				 * contribute to the load average, and not to
 8836				 * be caught by 'softlockup'
 8837				 */
 8838				prepare_to_wait(&resync_wait, &wq, TASK_INTERRUPTIBLE);
 8839				if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery) &&
 8840				    mddev2->curr_resync >= mddev->curr_resync) {
 8841					if (mddev2_minor != mddev2->md_minor) {
 8842						mddev2_minor = mddev2->md_minor;
 8843						pr_info("md: delaying %s of %s until %s has finished (they share one or more physical units)\n",
 8844							desc, mdname(mddev),
 8845							mdname(mddev2));
 8846					}
 8847					spin_unlock(&all_mddevs_lock);
 8848
 8849					if (signal_pending(current))
 8850						flush_signals(current);
 8851					schedule();
 8852					finish_wait(&resync_wait, &wq);
 8853					goto try_again;
 8854				}
 8855				finish_wait(&resync_wait, &wq);
 8856			}
 8857		}
 8858		spin_unlock(&all_mddevs_lock);
 8859	} while (mddev->curr_resync < MD_RESYNC_DELAYED);
 8860
 8861	j = 0;
 8862	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
 8863		/* resync follows the size requested by the personality,
 8864		 * which defaults to physical size, but can be virtual size
 8865		 */
 8866		max_sectors = mddev->resync_max_sectors;
 8867		atomic64_set(&mddev->resync_mismatches, 0);
 8868		/* we don't use the checkpoint if there's a bitmap */
 8869		if (test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery))
 8870			j = mddev->resync_min;
 8871		else if (!mddev->bitmap)
 8872			j = mddev->recovery_cp;
 8873
 8874	} else if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery)) {
 8875		max_sectors = mddev->resync_max_sectors;
 8876		/*
 8877		 * If the original node aborts reshaping then we continue the
 8878		 * reshaping, so set j again to avoid restart reshape from the
 8879		 * first beginning
 8880		 */
 8881		if (mddev_is_clustered(mddev) &&
 8882		    mddev->reshape_position != MaxSector)
 8883			j = mddev->reshape_position;
 8884	} else {
 8885		/* recovery follows the physical size of devices */
 8886		max_sectors = mddev->dev_sectors;
 8887		j = MaxSector;
 8888		rcu_read_lock();
 8889		rdev_for_each_rcu(rdev, mddev)
 8890			if (rdev->raid_disk >= 0 &&
 8891			    !test_bit(Journal, &rdev->flags) &&
 8892			    !test_bit(Faulty, &rdev->flags) &&
 8893			    !test_bit(In_sync, &rdev->flags) &&
 8894			    rdev->recovery_offset < j)
 8895				j = rdev->recovery_offset;
 8896		rcu_read_unlock();
 8897
 8898		/* If there is a bitmap, we need to make sure all
 8899		 * writes that started before we added a spare
 8900		 * complete before we start doing a recovery.
 8901		 * Otherwise the write might complete and (via
 8902		 * bitmap_endwrite) set a bit in the bitmap after the
 8903		 * recovery has checked that bit and skipped that
 8904		 * region.
 8905		 */
 8906		if (mddev->bitmap) {
 8907			mddev->pers->quiesce(mddev, 1);
 8908			mddev->pers->quiesce(mddev, 0);
 8909		}
 8910	}
 8911
 8912	pr_info("md: %s of RAID array %s\n", desc, mdname(mddev));
 8913	pr_debug("md: minimum _guaranteed_  speed: %d KB/sec/disk.\n", speed_min(mddev));
 8914	pr_debug("md: using maximum available idle IO bandwidth (but not more than %d KB/sec) for %s.\n",
 8915		 speed_max(mddev), desc);
 8916
 8917	is_mddev_idle(mddev, 1); /* this initializes IO event counters */
 8918
 8919	io_sectors = 0;
 8920	for (m = 0; m < SYNC_MARKS; m++) {
 8921		mark[m] = jiffies;
 8922		mark_cnt[m] = io_sectors;
 8923	}
 8924	last_mark = 0;
 8925	mddev->resync_mark = mark[last_mark];
 8926	mddev->resync_mark_cnt = mark_cnt[last_mark];
 8927
 8928	/*
 8929	 * Tune reconstruction:
 8930	 */
 8931	window = 32 * (PAGE_SIZE / 512);
 8932	pr_debug("md: using %dk window, over a total of %lluk.\n",
 8933		 window/2, (unsigned long long)max_sectors/2);
 8934
 8935	atomic_set(&mddev->recovery_active, 0);
 8936	last_check = 0;
 8937
 8938	if (j >= MD_RESYNC_ACTIVE) {
 8939		pr_debug("md: resuming %s of %s from checkpoint.\n",
 8940			 desc, mdname(mddev));
 8941		mddev->curr_resync = j;
 8942	} else
 8943		mddev->curr_resync = MD_RESYNC_ACTIVE; /* no longer delayed */
 8944	mddev->curr_resync_completed = j;
 8945	sysfs_notify_dirent_safe(mddev->sysfs_completed);
 8946	md_new_event();
 8947	update_time = jiffies;
 8948
 8949	blk_start_plug(&plug);
 8950	while (j < max_sectors) {
 8951		sector_t sectors;
 8952
 8953		skipped = 0;
 8954
 8955		if (!test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
 8956		    ((mddev->curr_resync > mddev->curr_resync_completed &&
 8957		      (mddev->curr_resync - mddev->curr_resync_completed)
 8958		      > (max_sectors >> 4)) ||
 8959		     time_after_eq(jiffies, update_time + UPDATE_FREQUENCY) ||
 8960		     (j - mddev->curr_resync_completed)*2
 8961		     >= mddev->resync_max - mddev->curr_resync_completed ||
 8962		     mddev->curr_resync_completed > mddev->resync_max
 8963			    )) {
 8964			/* time to update curr_resync_completed */
 8965			wait_event(mddev->recovery_wait,
 8966				   atomic_read(&mddev->recovery_active) == 0);
 8967			mddev->curr_resync_completed = j;
 8968			if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery) &&
 8969			    j > mddev->recovery_cp)
 8970				mddev->recovery_cp = j;
 8971			update_time = jiffies;
 8972			set_bit(MD_SB_CHANGE_CLEAN, &mddev->sb_flags);
 8973			sysfs_notify_dirent_safe(mddev->sysfs_completed);
 8974		}
 8975
 8976		while (j >= mddev->resync_max &&
 8977		       !test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
 8978			/* As this condition is controlled by user-space,
 8979			 * we can block indefinitely, so use '_interruptible'
 8980			 * to avoid triggering warnings.
 8981			 */
 8982			flush_signals(current); /* just in case */
 8983			wait_event_interruptible(mddev->recovery_wait,
 8984						 mddev->resync_max > j
 8985						 || test_bit(MD_RECOVERY_INTR,
 8986							     &mddev->recovery));
 8987		}
 8988
 8989		if (test_bit(MD_RECOVERY_INTR, &mddev->recovery))
 8990			break;
 8991
 8992		sectors = mddev->pers->sync_request(mddev, j, &skipped);
 8993		if (sectors == 0) {
 8994			set_bit(MD_RECOVERY_INTR, &mddev->recovery);
 8995			break;
 8996		}
 8997
 8998		if (!skipped) { /* actual IO requested */
 8999			io_sectors += sectors;
 9000			atomic_add(sectors, &mddev->recovery_active);
 9001		}
 9002
 9003		if (test_bit(MD_RECOVERY_INTR, &mddev->recovery))
 9004			break;
 9005
 9006		j += sectors;
 9007		if (j > max_sectors)
 9008			/* when skipping, extra large numbers can be returned. */
 9009			j = max_sectors;
 9010		if (j >= MD_RESYNC_ACTIVE)
 9011			mddev->curr_resync = j;
 9012		mddev->curr_mark_cnt = io_sectors;
 9013		if (last_check == 0)
 9014			/* this is the earliest that rebuild will be
 9015			 * visible in /proc/mdstat
 9016			 */
 9017			md_new_event();
 9018
 9019		if (last_check + window > io_sectors || j == max_sectors)
 9020			continue;
 9021
 9022		last_check = io_sectors;
 9023	repeat:
 9024		if (time_after_eq(jiffies, mark[last_mark] + SYNC_MARK_STEP )) {
 9025			/* step marks */
 9026			int next = (last_mark+1) % SYNC_MARKS;
 9027
 9028			mddev->resync_mark = mark[next];
 9029			mddev->resync_mark_cnt = mark_cnt[next];
 9030			mark[next] = jiffies;
 9031			mark_cnt[next] = io_sectors - atomic_read(&mddev->recovery_active);
 9032			last_mark = next;
 9033		}
 9034
 9035		if (test_bit(MD_RECOVERY_INTR, &mddev->recovery))
 9036			break;
 9037
 9038		/*
 9039		 * this loop exits only if either when we are slower than
 9040		 * the 'hard' speed limit, or the system was IO-idle for
 9041		 * a jiffy.
 9042		 * the system might be non-idle CPU-wise, but we only care
 9043		 * about not overloading the IO subsystem. (things like an
 9044		 * e2fsck being done on the RAID array should execute fast)
 9045		 */
 9046		cond_resched();
 9047
 9048		recovery_done = io_sectors - atomic_read(&mddev->recovery_active);
 9049		currspeed = ((unsigned long)(recovery_done - mddev->resync_mark_cnt))/2
 9050			/((jiffies-mddev->resync_mark)/HZ +1) +1;
 9051
 9052		if (currspeed > speed_min(mddev)) {
 9053			if (currspeed > speed_max(mddev)) {
 9054				msleep(500);
 9055				goto repeat;
 9056			}
 9057			if (!is_mddev_idle(mddev, 0)) {
 9058				/*
 9059				 * Give other IO more of a chance.
 9060				 * The faster the devices, the less we wait.
 9061				 */
 9062				wait_event(mddev->recovery_wait,
 9063					   !atomic_read(&mddev->recovery_active));
 9064			}
 9065		}
 9066	}
 9067	pr_info("md: %s: %s %s.\n",mdname(mddev), desc,
 9068		test_bit(MD_RECOVERY_INTR, &mddev->recovery)
 9069		? "interrupted" : "done");
 9070	/*
 9071	 * this also signals 'finished resyncing' to md_stop
 9072	 */
 9073	blk_finish_plug(&plug);
 9074	wait_event(mddev->recovery_wait, !atomic_read(&mddev->recovery_active));
 9075
 9076	if (!test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
 9077	    !test_bit(MD_RECOVERY_INTR, &mddev->recovery) &&
 9078	    mddev->curr_resync >= MD_RESYNC_ACTIVE) {
 9079		mddev->curr_resync_completed = mddev->curr_resync;
 9080		sysfs_notify_dirent_safe(mddev->sysfs_completed);
 9081	}
 9082	mddev->pers->sync_request(mddev, max_sectors, &skipped);
 9083
 9084	if (!test_bit(MD_RECOVERY_CHECK, &mddev->recovery) &&
 9085	    mddev->curr_resync > MD_RESYNC_ACTIVE) {
 9086		if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
 9087			if (test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
 9088				if (mddev->curr_resync >= mddev->recovery_cp) {
 9089					pr_debug("md: checkpointing %s of %s.\n",
 9090						 desc, mdname(mddev));
 9091					if (test_bit(MD_RECOVERY_ERROR,
 9092						&mddev->recovery))
 9093						mddev->recovery_cp =
 9094							mddev->curr_resync_completed;
 9095					else
 9096						mddev->recovery_cp =
 9097							mddev->curr_resync;
 9098				}
 9099			} else
 9100				mddev->recovery_cp = MaxSector;
 9101		} else {
 9102			if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery))
 9103				mddev->curr_resync = MaxSector;
 9104			if (!test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
 9105			    test_bit(MD_RECOVERY_RECOVER, &mddev->recovery)) {
 9106				rcu_read_lock();
 9107				rdev_for_each_rcu(rdev, mddev)
 9108					if (rdev->raid_disk >= 0 &&
 9109					    mddev->delta_disks >= 0 &&
 9110					    !test_bit(Journal, &rdev->flags) &&
 9111					    !test_bit(Faulty, &rdev->flags) &&
 9112					    !test_bit(In_sync, &rdev->flags) &&
 9113					    rdev->recovery_offset < mddev->curr_resync)
 9114						rdev->recovery_offset = mddev->curr_resync;
 9115				rcu_read_unlock();
 9116			}
 9117		}
 9118	}
 9119 skip:
 9120	/* set CHANGE_PENDING here since maybe another update is needed,
 9121	 * so other nodes are informed. It should be harmless for normal
 9122	 * raid */
 9123	set_mask_bits(&mddev->sb_flags, 0,
 9124		      BIT(MD_SB_CHANGE_PENDING) | BIT(MD_SB_CHANGE_DEVS));
 9125
 9126	if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
 9127			!test_bit(MD_RECOVERY_INTR, &mddev->recovery) &&
 9128			mddev->delta_disks > 0 &&
 9129			mddev->pers->finish_reshape &&
 9130			mddev->pers->size &&
 9131			mddev->queue) {
 9132		mddev_lock_nointr(mddev);
 9133		md_set_array_sectors(mddev, mddev->pers->size(mddev, 0, 0));
 9134		mddev_unlock(mddev);
 9135		if (!mddev_is_clustered(mddev))
 9136			set_capacity_and_notify(mddev->gendisk,
 9137						mddev->array_sectors);
 9138	}
 9139
 9140	spin_lock(&mddev->lock);
 9141	if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
 9142		/* We completed so min/max setting can be forgotten if used. */
 9143		if (test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery))
 9144			mddev->resync_min = 0;
 9145		mddev->resync_max = MaxSector;
 9146	} else if (test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery))
 9147		mddev->resync_min = mddev->curr_resync_completed;
 9148	set_bit(MD_RECOVERY_DONE, &mddev->recovery);
 9149	mddev->curr_resync = MD_RESYNC_NONE;
 9150	spin_unlock(&mddev->lock);
 9151
 9152	wake_up(&resync_wait);
 9153	md_wakeup_thread(mddev->thread);
 9154	return;
 9155}
 9156EXPORT_SYMBOL_GPL(md_do_sync);
 9157
 9158static bool rdev_removeable(struct md_rdev *rdev)
 9159{
 9160	/* rdev is not used. */
 9161	if (rdev->raid_disk < 0)
 9162		return false;
 9163
 9164	/* There are still inflight io, don't remove this rdev. */
 9165	if (atomic_read(&rdev->nr_pending))
 9166		return false;
 9167
 9168	/*
 9169	 * An error occurred but has not yet been acknowledged by the metadata
 9170	 * handler, don't remove this rdev.
 9171	 */
 9172	if (test_bit(Blocked, &rdev->flags))
 9173		return false;
 9174
 9175	/* Fautly rdev is not used, it's safe to remove it. */
 9176	if (test_bit(Faulty, &rdev->flags))
 9177		return true;
 9178
 9179	/* Journal disk can only be removed if it's faulty. */
 9180	if (test_bit(Journal, &rdev->flags))
 9181		return false;
 9182
 9183	/*
 9184	 * 'In_sync' is cleared while 'raid_disk' is valid, which means
 9185	 * replacement has just become active from pers->spare_active(), and
 9186	 * then pers->hot_remove_disk() will replace this rdev with replacement.
 9187	 */
 9188	if (!test_bit(In_sync, &rdev->flags))
 9189		return true;
 9190
 9191	return false;
 9192}
 9193
 9194static bool rdev_is_spare(struct md_rdev *rdev)
 9195{
 9196	return !test_bit(Candidate, &rdev->flags) && rdev->raid_disk >= 0 &&
 9197	       !test_bit(In_sync, &rdev->flags) &&
 9198	       !test_bit(Journal, &rdev->flags) &&
 9199	       !test_bit(Faulty, &rdev->flags);
 9200}
 9201
 9202static bool rdev_addable(struct md_rdev *rdev)
 9203{
 9204	/* rdev is already used, don't add it again. */
 9205	if (test_bit(Candidate, &rdev->flags) || rdev->raid_disk >= 0 ||
 9206	    test_bit(Faulty, &rdev->flags))
 9207		return false;
 9208
 9209	/* Allow to add journal disk. */
 9210	if (test_bit(Journal, &rdev->flags))
 9211		return true;
 9212
 9213	/* Allow to add if array is read-write. */
 9214	if (md_is_rdwr(rdev->mddev))
 9215		return true;
 9216
 9217	/*
 9218	 * For read-only array, only allow to readd a rdev. And if bitmap is
 9219	 * used, don't allow to readd a rdev that is too old.
 9220	 */
 9221	if (rdev->saved_raid_disk >= 0 && !test_bit(Bitmap_sync, &rdev->flags))
 9222		return true;
 9223
 9224	return false;
 9225}
 9226
 9227static bool md_spares_need_change(struct mddev *mddev)
 9228{
 9229	struct md_rdev *rdev;
 9230
 9231	rdev_for_each(rdev, mddev)
 9232		if (rdev_removeable(rdev) || rdev_addable(rdev))
 9233			return true;
 9234	return false;
 9235}
 9236
 9237static int remove_and_add_spares(struct mddev *mddev,
 9238				 struct md_rdev *this)
 9239{
 9240	struct md_rdev *rdev;
 9241	int spares = 0;
 9242	int removed = 0;
 9243	bool remove_some = false;
 9244
 9245	if (this && test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
 9246		/* Mustn't remove devices when resync thread is running */
 9247		return 0;
 9248
 9249	rdev_for_each(rdev, mddev) {
 9250		if ((this == NULL || rdev == this) &&
 9251		    rdev->raid_disk >= 0 &&
 9252		    !test_bit(Blocked, &rdev->flags) &&
 9253		    test_bit(Faulty, &rdev->flags) &&
 9254		    atomic_read(&rdev->nr_pending)==0) {
 9255			/* Faulty non-Blocked devices with nr_pending == 0
 9256			 * never get nr_pending incremented,
 9257			 * never get Faulty cleared, and never get Blocked set.
 9258			 * So we can synchronize_rcu now rather than once per device
 9259			 */
 9260			remove_some = true;
 9261			set_bit(RemoveSynchronized, &rdev->flags);
 9262		}
 9263	}
 9264
 9265	if (remove_some)
 9266		synchronize_rcu();
 9267	rdev_for_each(rdev, mddev) {
 9268		if ((this == NULL || rdev == this) &&
 9269		    (test_bit(RemoveSynchronized, &rdev->flags) ||
 9270		     rdev_removeable(rdev))) {
 9271			if (mddev->pers->hot_remove_disk(
 9272				    mddev, rdev) == 0) {
 9273				sysfs_unlink_rdev(mddev, rdev);
 9274				rdev->saved_raid_disk = rdev->raid_disk;
 9275				rdev->raid_disk = -1;
 9276				removed++;
 9277			}
 9278		}
 9279		if (remove_some && test_bit(RemoveSynchronized, &rdev->flags))
 9280			clear_bit(RemoveSynchronized, &rdev->flags);
 9281	}
 9282
 9283	if (removed && mddev->kobj.sd)
 9284		sysfs_notify_dirent_safe(mddev->sysfs_degraded);
 9285
 9286	if (this && removed)
 9287		goto no_add;
 9288
 9289	rdev_for_each(rdev, mddev) {
 9290		if (this && this != rdev)
 9291			continue;
 9292		if (rdev_is_spare(rdev))
 9293			spares++;
 9294		if (!rdev_addable(rdev))
 9295			continue;
 9296		if (!test_bit(Journal, &rdev->flags))
 9297			rdev->recovery_offset = 0;
 9298		if (mddev->pers->hot_add_disk(mddev, rdev) == 0) {
 9299			/* failure here is OK */
 9300			sysfs_link_rdev(mddev, rdev);
 9301			if (!test_bit(Journal, &rdev->flags))
 9302				spares++;
 9303			md_new_event();
 9304			set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 9305		}
 9306	}
 9307no_add:
 9308	if (removed)
 9309		set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 9310	return spares;
 9311}
 9312
 9313static bool md_choose_sync_action(struct mddev *mddev, int *spares)
 9314{
 9315	/* Check if reshape is in progress first. */
 9316	if (mddev->reshape_position != MaxSector) {
 9317		if (mddev->pers->check_reshape == NULL ||
 9318		    mddev->pers->check_reshape(mddev) != 0)
 9319			return false;
 9320
 9321		set_bit(MD_RECOVERY_RESHAPE, &mddev->recovery);
 9322		clear_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
 9323		return true;
 9324	}
 9325
 9326	/*
 9327	 * Remove any failed drives, then add spares if possible. Spares are
 9328	 * also removed and re-added, to allow the personality to fail the
 9329	 * re-add.
 9330	 */
 9331	*spares = remove_and_add_spares(mddev, NULL);
 9332	if (*spares) {
 9333		clear_bit(MD_RECOVERY_SYNC, &mddev->recovery);
 9334		clear_bit(MD_RECOVERY_CHECK, &mddev->recovery);
 9335		clear_bit(MD_RECOVERY_REQUESTED, &mddev->recovery);
 9336
 9337		/* Start new recovery. */
 9338		set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
 9339		return true;
 9340	}
 9341
 9342	/* Check if recovery is in progress. */
 9343	if (mddev->recovery_cp < MaxSector) {
 9344		set_bit(MD_RECOVERY_SYNC, &mddev->recovery);
 9345		clear_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
 9346		return true;
 9347	}
 9348
 9349	/* Delay to choose resync/check/repair in md_do_sync(). */
 9350	if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery))
 9351		return true;
 9352
 9353	/* Nothing to be done */
 9354	return false;
 9355}
 9356
 9357static void md_start_sync(struct work_struct *ws)
 9358{
 9359	struct mddev *mddev = container_of(ws, struct mddev, sync_work);
 9360	int spares = 0;
 9361	bool suspend = false;
 9362
 9363	if (md_spares_need_change(mddev))
 9364		suspend = true;
 9365
 9366	suspend ? mddev_suspend_and_lock_nointr(mddev) :
 9367		  mddev_lock_nointr(mddev);
 9368
 9369	if (!md_is_rdwr(mddev)) {
 9370		/*
 9371		 * On a read-only array we can:
 9372		 * - remove failed devices
 9373		 * - add already-in_sync devices if the array itself is in-sync.
 9374		 * As we only add devices that are already in-sync, we can
 9375		 * activate the spares immediately.
 9376		 */
 9377		remove_and_add_spares(mddev, NULL);
 9378		goto not_running;
 9379	}
 9380
 9381	if (!md_choose_sync_action(mddev, &spares))
 9382		goto not_running;
 9383
 9384	if (!mddev->pers->sync_request)
 9385		goto not_running;
 9386
 9387	/*
 9388	 * We are adding a device or devices to an array which has the bitmap
 9389	 * stored on all devices. So make sure all bitmap pages get written.
 9390	 */
 9391	if (spares)
 9392		md_bitmap_write_all(mddev->bitmap);
 9393
 9394	rcu_assign_pointer(mddev->sync_thread,
 9395			   md_register_thread(md_do_sync, mddev, "resync"));
 9396	if (!mddev->sync_thread) {
 9397		pr_warn("%s: could not start resync thread...\n",
 9398			mdname(mddev));
 9399		/* leave the spares where they are, it shouldn't hurt */
 9400		goto not_running;
 9401	}
 9402
 9403	mddev_unlock(mddev);
 9404	/*
 9405	 * md_start_sync was triggered by MD_RECOVERY_NEEDED, so we should
 9406	 * not set it again. Otherwise, we may cause issue like this one:
 9407	 *     https://bugzilla.kernel.org/show_bug.cgi?id=218200
 9408	 * Therefore, use __mddev_resume(mddev, false).
 9409	 */
 9410	if (suspend)
 9411		__mddev_resume(mddev, false);
 9412	md_wakeup_thread(mddev->sync_thread);
 9413	sysfs_notify_dirent_safe(mddev->sysfs_action);
 9414	md_new_event();
 9415	return;
 9416
 9417not_running:
 9418	clear_bit(MD_RECOVERY_SYNC, &mddev->recovery);
 9419	clear_bit(MD_RECOVERY_RESHAPE, &mddev->recovery);
 9420	clear_bit(MD_RECOVERY_REQUESTED, &mddev->recovery);
 9421	clear_bit(MD_RECOVERY_CHECK, &mddev->recovery);
 9422	clear_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
 9423	mddev_unlock(mddev);
 9424	/*
 9425	 * md_start_sync was triggered by MD_RECOVERY_NEEDED, so we should
 9426	 * not set it again. Otherwise, we may cause issue like this one:
 9427	 *     https://bugzilla.kernel.org/show_bug.cgi?id=218200
 9428	 * Therefore, use __mddev_resume(mddev, false).
 9429	 */
 9430	if (suspend)
 9431		__mddev_resume(mddev, false);
 9432
 9433	wake_up(&resync_wait);
 9434	if (test_and_clear_bit(MD_RECOVERY_RECOVER, &mddev->recovery) &&
 9435	    mddev->sysfs_action)
 9436		sysfs_notify_dirent_safe(mddev->sysfs_action);
 9437}
 9438
 9439/*
 9440 * This routine is regularly called by all per-raid-array threads to
 9441 * deal with generic issues like resync and super-block update.
 9442 * Raid personalities that don't have a thread (linear/raid0) do not
 9443 * need this as they never do any recovery or update the superblock.
 9444 *
 9445 * It does not do any resync itself, but rather "forks" off other threads
 9446 * to do that as needed.
 9447 * When it is determined that resync is needed, we set MD_RECOVERY_RUNNING in
 9448 * "->recovery" and create a thread at ->sync_thread.
 9449 * When the thread finishes it sets MD_RECOVERY_DONE
 9450 * and wakeups up this thread which will reap the thread and finish up.
 9451 * This thread also removes any faulty devices (with nr_pending == 0).
 9452 *
 9453 * The overall approach is:
 9454 *  1/ if the superblock needs updating, update it.
 9455 *  2/ If a recovery thread is running, don't do anything else.
 9456 *  3/ If recovery has finished, clean up, possibly marking spares active.
 9457 *  4/ If there are any faulty devices, remove them.
 9458 *  5/ If array is degraded, try to add spares devices
 9459 *  6/ If array has spares or is not in-sync, start a resync thread.
 9460 */
 9461void md_check_recovery(struct mddev *mddev)
 9462{
 9463	if (READ_ONCE(mddev->suspended))
 9464		return;
 9465
 9466	if (mddev->bitmap)
 9467		md_bitmap_daemon_work(mddev);
 9468
 9469	if (signal_pending(current)) {
 9470		if (mddev->pers->sync_request && !mddev->external) {
 9471			pr_debug("md: %s in immediate safe mode\n",
 9472				 mdname(mddev));
 9473			mddev->safemode = 2;
 9474		}
 9475		flush_signals(current);
 9476	}
 9477
 9478	if (!md_is_rdwr(mddev) &&
 9479	    !test_bit(MD_RECOVERY_NEEDED, &mddev->recovery))
 9480		return;
 9481	if ( ! (
 9482		(mddev->sb_flags & ~ (1<<MD_SB_CHANGE_PENDING)) ||
 9483		test_bit(MD_RECOVERY_NEEDED, &mddev->recovery) ||
 9484		test_bit(MD_RECOVERY_DONE, &mddev->recovery) ||
 9485		(mddev->external == 0 && mddev->safemode == 1) ||
 9486		(mddev->safemode == 2
 9487		 && !mddev->in_sync && mddev->recovery_cp == MaxSector)
 9488		))
 9489		return;
 9490
 9491	if (mddev_trylock(mddev)) {
 9492		bool try_set_sync = mddev->safemode != 0;
 9493
 9494		if (!mddev->external && mddev->safemode == 1)
 9495			mddev->safemode = 0;
 9496
 9497		if (!md_is_rdwr(mddev)) {
 9498			struct md_rdev *rdev;
 9499
 9500			if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery)) {
 9501				/* sync_work already queued. */
 9502				clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 9503				goto unlock;
 9504			}
 9505
 9506			if (!mddev->external && mddev->in_sync)
 9507				/*
 9508				 * 'Blocked' flag not needed as failed devices
 9509				 * will be recorded if array switched to read/write.
 9510				 * Leaving it set will prevent the device
 9511				 * from being removed.
 9512				 */
 9513				rdev_for_each(rdev, mddev)
 9514					clear_bit(Blocked, &rdev->flags);
 9515
 9516			/*
 9517			 * There is no thread, but we need to call
 9518			 * ->spare_active and clear saved_raid_disk
 9519			 */
 9520			set_bit(MD_RECOVERY_INTR, &mddev->recovery);
 9521			md_reap_sync_thread(mddev);
 9522
 9523			/*
 9524			 * Let md_start_sync() to remove and add rdevs to the
 9525			 * array.
 9526			 */
 9527			if (md_spares_need_change(mddev)) {
 9528				set_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
 9529				queue_work(md_misc_wq, &mddev->sync_work);
 9530			}
 9531
 9532			clear_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
 9533			clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 9534			clear_bit(MD_SB_CHANGE_PENDING, &mddev->sb_flags);
 9535
 9536			goto unlock;
 9537		}
 9538
 9539		if (mddev_is_clustered(mddev)) {
 9540			struct md_rdev *rdev, *tmp;
 9541			/* kick the device if another node issued a
 9542			 * remove disk.
 9543			 */
 9544			rdev_for_each_safe(rdev, tmp, mddev) {
 9545				if (test_and_clear_bit(ClusterRemove, &rdev->flags) &&
 9546						rdev->raid_disk < 0)
 9547					md_kick_rdev_from_array(rdev);
 9548			}
 9549		}
 9550
 9551		if (try_set_sync && !mddev->external && !mddev->in_sync) {
 9552			spin_lock(&mddev->lock);
 9553			set_in_sync(mddev);
 9554			spin_unlock(&mddev->lock);
 9555		}
 9556
 9557		if (mddev->sb_flags)
 9558			md_update_sb(mddev, 0);
 9559
 9560		/*
 9561		 * Never start a new sync thread if MD_RECOVERY_RUNNING is
 9562		 * still set.
 9563		 */
 9564		if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery)) {
 9565			if (!test_bit(MD_RECOVERY_DONE, &mddev->recovery)) {
 9566				/* resync/recovery still happening */
 9567				clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 9568				goto unlock;
 9569			}
 9570
 9571			if (WARN_ON_ONCE(!mddev->sync_thread))
 9572				goto unlock;
 9573
 9574			md_reap_sync_thread(mddev);
 9575			goto unlock;
 9576		}
 9577
 9578		/* Set RUNNING before clearing NEEDED to avoid
 9579		 * any transients in the value of "sync_action".
 9580		 */
 9581		mddev->curr_resync_completed = 0;
 9582		spin_lock(&mddev->lock);
 9583		set_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
 9584		spin_unlock(&mddev->lock);
 9585		/* Clear some bits that don't mean anything, but
 9586		 * might be left set
 9587		 */
 9588		clear_bit(MD_RECOVERY_INTR, &mddev->recovery);
 9589		clear_bit(MD_RECOVERY_DONE, &mddev->recovery);
 9590
 9591		if (test_and_clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery) &&
 9592		    !test_bit(MD_RECOVERY_FROZEN, &mddev->recovery)) {
 9593			queue_work(md_misc_wq, &mddev->sync_work);
 9594		} else {
 9595			clear_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
 9596			wake_up(&resync_wait);
 9597		}
 9598
 9599	unlock:
 9600		wake_up(&mddev->sb_wait);
 9601		mddev_unlock(mddev);
 9602	}
 9603}
 9604EXPORT_SYMBOL(md_check_recovery);
 9605
 9606void md_reap_sync_thread(struct mddev *mddev)
 9607{
 9608	struct md_rdev *rdev;
 9609	sector_t old_dev_sectors = mddev->dev_sectors;
 9610	bool is_reshaped = false;
 9611
 9612	/* resync has finished, collect result */
 9613	md_unregister_thread(mddev, &mddev->sync_thread);
 9614	atomic_inc(&mddev->sync_seq);
 9615
 9616	if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery) &&
 9617	    !test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery) &&
 9618	    mddev->degraded != mddev->raid_disks) {
 9619		/* success...*/
 9620		/* activate any spares */
 9621		if (mddev->pers->spare_active(mddev)) {
 9622			sysfs_notify_dirent_safe(mddev->sysfs_degraded);
 9623			set_bit(MD_SB_CHANGE_DEVS, &mddev->sb_flags);
 9624		}
 9625	}
 9626	if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
 9627	    mddev->pers->finish_reshape) {
 9628		mddev->pers->finish_reshape(mddev);
 9629		if (mddev_is_clustered(mddev))
 9630			is_reshaped = true;
 9631	}
 9632
 9633	/* If array is no-longer degraded, then any saved_raid_disk
 9634	 * information must be scrapped.
 9635	 */
 9636	if (!mddev->degraded)
 9637		rdev_for_each(rdev, mddev)
 9638			rdev->saved_raid_disk = -1;
 9639
 9640	md_update_sb(mddev, 1);
 9641	/* MD_SB_CHANGE_PENDING should be cleared by md_update_sb, so we can
 9642	 * call resync_finish here if MD_CLUSTER_RESYNC_LOCKED is set by
 9643	 * clustered raid */
 9644	if (test_and_clear_bit(MD_CLUSTER_RESYNC_LOCKED, &mddev->flags))
 9645		md_cluster_ops->resync_finish(mddev);
 9646	clear_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
 9647	clear_bit(MD_RECOVERY_DONE, &mddev->recovery);
 9648	clear_bit(MD_RECOVERY_SYNC, &mddev->recovery);
 9649	clear_bit(MD_RECOVERY_RESHAPE, &mddev->recovery);
 9650	clear_bit(MD_RECOVERY_REQUESTED, &mddev->recovery);
 9651	clear_bit(MD_RECOVERY_CHECK, &mddev->recovery);
 9652	/*
 9653	 * We call md_cluster_ops->update_size here because sync_size could
 9654	 * be changed by md_update_sb, and MD_RECOVERY_RESHAPE is cleared,
 9655	 * so it is time to update size across cluster.
 9656	 */
 9657	if (mddev_is_clustered(mddev) && is_reshaped
 9658				      && !test_bit(MD_CLOSING, &mddev->flags))
 9659		md_cluster_ops->update_size(mddev, old_dev_sectors);
 9660	/* flag recovery needed just to double check */
 9661	set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 9662	sysfs_notify_dirent_safe(mddev->sysfs_completed);
 9663	sysfs_notify_dirent_safe(mddev->sysfs_action);
 9664	md_new_event();
 9665	if (mddev->event_work.func)
 9666		queue_work(md_misc_wq, &mddev->event_work);
 9667	wake_up(&resync_wait);
 9668}
 9669EXPORT_SYMBOL(md_reap_sync_thread);
 9670
 9671void md_wait_for_blocked_rdev(struct md_rdev *rdev, struct mddev *mddev)
 9672{
 9673	sysfs_notify_dirent_safe(rdev->sysfs_state);
 9674	wait_event_timeout(rdev->blocked_wait,
 9675			   !test_bit(Blocked, &rdev->flags) &&
 9676			   !test_bit(BlockedBadBlocks, &rdev->flags),
 9677			   msecs_to_jiffies(5000));
 9678	rdev_dec_pending(rdev, mddev);
 9679}
 9680EXPORT_SYMBOL(md_wait_for_blocked_rdev);
 9681
 9682void md_finish_reshape(struct mddev *mddev)
 9683{
 9684	/* called be personality module when reshape completes. */
 9685	struct md_rdev *rdev;
 9686
 9687	rdev_for_each(rdev, mddev) {
 9688		if (rdev->data_offset > rdev->new_data_offset)
 9689			rdev->sectors += rdev->data_offset - rdev->new_data_offset;
 9690		else
 9691			rdev->sectors -= rdev->new_data_offset - rdev->data_offset;
 9692		rdev->data_offset = rdev->new_data_offset;
 9693	}
 9694}
 9695EXPORT_SYMBOL(md_finish_reshape);
 9696
 9697/* Bad block management */
 9698
 9699/* Returns 1 on success, 0 on failure */
 9700int rdev_set_badblocks(struct md_rdev *rdev, sector_t s, int sectors,
 9701		       int is_new)
 9702{
 9703	struct mddev *mddev = rdev->mddev;
 9704	int rv;
 9705	if (is_new)
 9706		s += rdev->new_data_offset;
 9707	else
 9708		s += rdev->data_offset;
 9709	rv = badblocks_set(&rdev->badblocks, s, sectors, 0);
 9710	if (rv == 0) {
 9711		/* Make sure they get written out promptly */
 9712		if (test_bit(ExternalBbl, &rdev->flags))
 9713			sysfs_notify_dirent_safe(rdev->sysfs_unack_badblocks);
 9714		sysfs_notify_dirent_safe(rdev->sysfs_state);
 9715		set_mask_bits(&mddev->sb_flags, 0,
 9716			      BIT(MD_SB_CHANGE_CLEAN) | BIT(MD_SB_CHANGE_PENDING));
 9717		md_wakeup_thread(rdev->mddev->thread);
 9718		return 1;
 9719	} else
 9720		return 0;
 9721}
 9722EXPORT_SYMBOL_GPL(rdev_set_badblocks);
 9723
 9724int rdev_clear_badblocks(struct md_rdev *rdev, sector_t s, int sectors,
 9725			 int is_new)
 9726{
 9727	int rv;
 9728	if (is_new)
 9729		s += rdev->new_data_offset;
 9730	else
 9731		s += rdev->data_offset;
 9732	rv = badblocks_clear(&rdev->badblocks, s, sectors);
 9733	if ((rv == 0) && test_bit(ExternalBbl, &rdev->flags))
 9734		sysfs_notify_dirent_safe(rdev->sysfs_badblocks);
 9735	return rv;
 9736}
 9737EXPORT_SYMBOL_GPL(rdev_clear_badblocks);
 9738
 9739static int md_notify_reboot(struct notifier_block *this,
 9740			    unsigned long code, void *x)
 9741{
 9742	struct mddev *mddev, *n;
 9743	int need_delay = 0;
 9744
 9745	spin_lock(&all_mddevs_lock);
 9746	list_for_each_entry_safe(mddev, n, &all_mddevs, all_mddevs) {
 9747		if (!mddev_get(mddev))
 9748			continue;
 9749		spin_unlock(&all_mddevs_lock);
 9750		if (mddev_trylock(mddev)) {
 9751			if (mddev->pers)
 9752				__md_stop_writes(mddev);
 9753			if (mddev->persistent)
 9754				mddev->safemode = 2;
 9755			mddev_unlock(mddev);
 9756		}
 9757		need_delay = 1;
 9758		mddev_put(mddev);
 9759		spin_lock(&all_mddevs_lock);
 9760	}
 9761	spin_unlock(&all_mddevs_lock);
 9762
 9763	/*
 9764	 * certain more exotic SCSI devices are known to be
 9765	 * volatile wrt too early system reboots. While the
 9766	 * right place to handle this issue is the given
 9767	 * driver, we do want to have a safe RAID driver ...
 9768	 */
 9769	if (need_delay)
 9770		msleep(1000);
 9771
 9772	return NOTIFY_DONE;
 9773}
 9774
 9775static struct notifier_block md_notifier = {
 9776	.notifier_call	= md_notify_reboot,
 9777	.next		= NULL,
 9778	.priority	= INT_MAX, /* before any real devices */
 9779};
 9780
 9781static void md_geninit(void)
 9782{
 9783	pr_debug("md: sizeof(mdp_super_t) = %d\n", (int)sizeof(mdp_super_t));
 9784
 9785	proc_create("mdstat", S_IRUGO, NULL, &mdstat_proc_ops);
 9786}
 9787
 9788static int __init md_init(void)
 9789{
 9790	int ret = -ENOMEM;
 9791
 9792	md_wq = alloc_workqueue("md", WQ_MEM_RECLAIM, 0);
 9793	if (!md_wq)
 9794		goto err_wq;
 9795
 9796	md_misc_wq = alloc_workqueue("md_misc", 0, 0);
 9797	if (!md_misc_wq)
 9798		goto err_misc_wq;
 9799
 9800	md_bitmap_wq = alloc_workqueue("md_bitmap", WQ_MEM_RECLAIM | WQ_UNBOUND,
 9801				       0);
 9802	if (!md_bitmap_wq)
 9803		goto err_bitmap_wq;
 9804
 9805	ret = __register_blkdev(MD_MAJOR, "md", md_probe);
 9806	if (ret < 0)
 9807		goto err_md;
 9808
 9809	ret = __register_blkdev(0, "mdp", md_probe);
 9810	if (ret < 0)
 9811		goto err_mdp;
 9812	mdp_major = ret;
 9813
 9814	register_reboot_notifier(&md_notifier);
 9815	raid_table_header = register_sysctl("dev/raid", raid_table);
 9816
 9817	md_geninit();
 9818	return 0;
 9819
 9820err_mdp:
 9821	unregister_blkdev(MD_MAJOR, "md");
 9822err_md:
 9823	destroy_workqueue(md_bitmap_wq);
 9824err_bitmap_wq:
 9825	destroy_workqueue(md_misc_wq);
 9826err_misc_wq:
 9827	destroy_workqueue(md_wq);
 9828err_wq:
 9829	return ret;
 9830}
 9831
 9832static void check_sb_changes(struct mddev *mddev, struct md_rdev *rdev)
 9833{
 9834	struct mdp_superblock_1 *sb = page_address(rdev->sb_page);
 9835	struct md_rdev *rdev2, *tmp;
 9836	int role, ret;
 9837
 9838	/*
 9839	 * If size is changed in another node then we need to
 9840	 * do resize as well.
 9841	 */
 9842	if (mddev->dev_sectors != le64_to_cpu(sb->size)) {
 9843		ret = mddev->pers->resize(mddev, le64_to_cpu(sb->size));
 9844		if (ret)
 9845			pr_info("md-cluster: resize failed\n");
 9846		else
 9847			md_bitmap_update_sb(mddev->bitmap);
 9848	}
 9849
 9850	/* Check for change of roles in the active devices */
 9851	rdev_for_each_safe(rdev2, tmp, mddev) {
 9852		if (test_bit(Faulty, &rdev2->flags))
 9853			continue;
 9854
 9855		/* Check if the roles changed */
 9856		role = le16_to_cpu(sb->dev_roles[rdev2->desc_nr]);
 9857
 9858		if (test_bit(Candidate, &rdev2->flags)) {
 9859			if (role == MD_DISK_ROLE_FAULTY) {
 9860				pr_info("md: Removing Candidate device %pg because add failed\n",
 9861					rdev2->bdev);
 9862				md_kick_rdev_from_array(rdev2);
 9863				continue;
 9864			}
 9865			else
 9866				clear_bit(Candidate, &rdev2->flags);
 9867		}
 9868
 9869		if (role != rdev2->raid_disk) {
 9870			/*
 9871			 * got activated except reshape is happening.
 9872			 */
 9873			if (rdev2->raid_disk == -1 && role != MD_DISK_ROLE_SPARE &&
 9874			    !(le32_to_cpu(sb->feature_map) &
 9875			      MD_FEATURE_RESHAPE_ACTIVE)) {
 9876				rdev2->saved_raid_disk = role;
 9877				ret = remove_and_add_spares(mddev, rdev2);
 9878				pr_info("Activated spare: %pg\n",
 9879					rdev2->bdev);
 9880				/* wakeup mddev->thread here, so array could
 9881				 * perform resync with the new activated disk */
 9882				set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
 9883				md_wakeup_thread(mddev->thread);
 9884			}
 9885			/* device faulty
 9886			 * We just want to do the minimum to mark the disk
 9887			 * as faulty. The recovery is performed by the
 9888			 * one who initiated the error.
 9889			 */
 9890			if (role == MD_DISK_ROLE_FAULTY ||
 9891			    role == MD_DISK_ROLE_JOURNAL) {
 9892				md_error(mddev, rdev2);
 9893				clear_bit(Blocked, &rdev2->flags);
 9894			}
 9895		}
 9896	}
 9897
 9898	if (mddev->raid_disks != le32_to_cpu(sb->raid_disks)) {
 9899		ret = update_raid_disks(mddev, le32_to_cpu(sb->raid_disks));
 9900		if (ret)
 9901			pr_warn("md: updating array disks failed. %d\n", ret);
 9902	}
 9903
 9904	/*
 9905	 * Since mddev->delta_disks has already updated in update_raid_disks,
 9906	 * so it is time to check reshape.
 9907	 */
 9908	if (test_bit(MD_RESYNCING_REMOTE, &mddev->recovery) &&
 9909	    (le32_to_cpu(sb->feature_map) & MD_FEATURE_RESHAPE_ACTIVE)) {
 9910		/*
 9911		 * reshape is happening in the remote node, we need to
 9912		 * update reshape_position and call start_reshape.
 9913		 */
 9914		mddev->reshape_position = le64_to_cpu(sb->reshape_position);
 9915		if (mddev->pers->update_reshape_pos)
 9916			mddev->pers->update_reshape_pos(mddev);
 9917		if (mddev->pers->start_reshape)
 9918			mddev->pers->start_reshape(mddev);
 9919	} else if (test_bit(MD_RESYNCING_REMOTE, &mddev->recovery) &&
 9920		   mddev->reshape_position != MaxSector &&
 9921		   !(le32_to_cpu(sb->feature_map) & MD_FEATURE_RESHAPE_ACTIVE)) {
 9922		/* reshape is just done in another node. */
 9923		mddev->reshape_position = MaxSector;
 9924		if (mddev->pers->update_reshape_pos)
 9925			mddev->pers->update_reshape_pos(mddev);
 9926	}
 9927
 9928	/* Finally set the event to be up to date */
 9929	mddev->events = le64_to_cpu(sb->events);
 9930}
 9931
 9932static int read_rdev(struct mddev *mddev, struct md_rdev *rdev)
 9933{
 9934	int err;
 9935	struct page *swapout = rdev->sb_page;
 9936	struct mdp_superblock_1 *sb;
 9937
 9938	/* Store the sb page of the rdev in the swapout temporary
 9939	 * variable in case we err in the future
 9940	 */
 9941	rdev->sb_page = NULL;
 9942	err = alloc_disk_sb(rdev);
 9943	if (err == 0) {
 9944		ClearPageUptodate(rdev->sb_page);
 9945		rdev->sb_loaded = 0;
 9946		err = super_types[mddev->major_version].
 9947			load_super(rdev, NULL, mddev->minor_version);
 9948	}
 9949	if (err < 0) {
 9950		pr_warn("%s: %d Could not reload rdev(%d) err: %d. Restoring old values\n",
 9951				__func__, __LINE__, rdev->desc_nr, err);
 9952		if (rdev->sb_page)
 9953			put_page(rdev->sb_page);
 9954		rdev->sb_page = swapout;
 9955		rdev->sb_loaded = 1;
 9956		return err;
 9957	}
 9958
 9959	sb = page_address(rdev->sb_page);
 9960	/* Read the offset unconditionally, even if MD_FEATURE_RECOVERY_OFFSET
 9961	 * is not set
 9962	 */
 9963
 9964	if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_RECOVERY_OFFSET))
 9965		rdev->recovery_offset = le64_to_cpu(sb->recovery_offset);
 9966
 9967	/* The other node finished recovery, call spare_active to set
 9968	 * device In_sync and mddev->degraded
 9969	 */
 9970	if (rdev->recovery_offset == MaxSector &&
 9971	    !test_bit(In_sync, &rdev->flags) &&
 9972	    mddev->pers->spare_active(mddev))
 9973		sysfs_notify_dirent_safe(mddev->sysfs_degraded);
 9974
 9975	put_page(swapout);
 9976	return 0;
 9977}
 9978
 9979void md_reload_sb(struct mddev *mddev, int nr)
 9980{
 9981	struct md_rdev *rdev = NULL, *iter;
 9982	int err;
 9983
 9984	/* Find the rdev */
 9985	rdev_for_each_rcu(iter, mddev) {
 9986		if (iter->desc_nr == nr) {
 9987			rdev = iter;
 9988			break;
 9989		}
 9990	}
 9991
 9992	if (!rdev) {
 9993		pr_warn("%s: %d Could not find rdev with nr %d\n", __func__, __LINE__, nr);
 9994		return;
 9995	}
 9996
 9997	err = read_rdev(mddev, rdev);
 9998	if (err < 0)
 9999		return;
10000
10001	check_sb_changes(mddev, rdev);
10002
10003	/* Read all rdev's to update recovery_offset */
10004	rdev_for_each_rcu(rdev, mddev) {
10005		if (!test_bit(Faulty, &rdev->flags))
10006			read_rdev(mddev, rdev);
10007	}
10008}
10009EXPORT_SYMBOL(md_reload_sb);
10010
10011#ifndef MODULE
10012
10013/*
10014 * Searches all registered partitions for autorun RAID arrays
10015 * at boot time.
10016 */
10017
10018static DEFINE_MUTEX(detected_devices_mutex);
10019static LIST_HEAD(all_detected_devices);
10020struct detected_devices_node {
10021	struct list_head list;
10022	dev_t dev;
10023};
10024
10025void md_autodetect_dev(dev_t dev)
10026{
10027	struct detected_devices_node *node_detected_dev;
10028
10029	node_detected_dev = kzalloc(sizeof(*node_detected_dev), GFP_KERNEL);
10030	if (node_detected_dev) {
10031		node_detected_dev->dev = dev;
10032		mutex_lock(&detected_devices_mutex);
10033		list_add_tail(&node_detected_dev->list, &all_detected_devices);
10034		mutex_unlock(&detected_devices_mutex);
10035	}
10036}
10037
10038void md_autostart_arrays(int part)
10039{
10040	struct md_rdev *rdev;
10041	struct detected_devices_node *node_detected_dev;
10042	dev_t dev;
10043	int i_scanned, i_passed;
10044
10045	i_scanned = 0;
10046	i_passed = 0;
10047
10048	pr_info("md: Autodetecting RAID arrays.\n");
10049
10050	mutex_lock(&detected_devices_mutex);
10051	while (!list_empty(&all_detected_devices) && i_scanned < INT_MAX) {
10052		i_scanned++;
10053		node_detected_dev = list_entry(all_detected_devices.next,
10054					struct detected_devices_node, list);
10055		list_del(&node_detected_dev->list);
10056		dev = node_detected_dev->dev;
10057		kfree(node_detected_dev);
10058		mutex_unlock(&detected_devices_mutex);
10059		rdev = md_import_device(dev,0, 90);
10060		mutex_lock(&detected_devices_mutex);
10061		if (IS_ERR(rdev))
10062			continue;
10063
10064		if (test_bit(Faulty, &rdev->flags))
10065			continue;
10066
10067		set_bit(AutoDetected, &rdev->flags);
10068		list_add(&rdev->same_set, &pending_raid_disks);
10069		i_passed++;
10070	}
10071	mutex_unlock(&detected_devices_mutex);
10072
10073	pr_debug("md: Scanned %d and added %d devices.\n", i_scanned, i_passed);
10074
10075	autorun_devices(part);
10076}
10077
10078#endif /* !MODULE */
10079
10080static __exit void md_exit(void)
10081{
10082	struct mddev *mddev, *n;
10083	int delay = 1;
10084
10085	unregister_blkdev(MD_MAJOR,"md");
10086	unregister_blkdev(mdp_major, "mdp");
10087	unregister_reboot_notifier(&md_notifier);
10088	unregister_sysctl_table(raid_table_header);
10089
10090	/* We cannot unload the modules while some process is
10091	 * waiting for us in select() or poll() - wake them up
10092	 */
10093	md_unloading = 1;
10094	while (waitqueue_active(&md_event_waiters)) {
10095		/* not safe to leave yet */
10096		wake_up(&md_event_waiters);
10097		msleep(delay);
10098		delay += delay;
10099	}
10100	remove_proc_entry("mdstat", NULL);
10101
10102	spin_lock(&all_mddevs_lock);
10103	list_for_each_entry_safe(mddev, n, &all_mddevs, all_mddevs) {
10104		if (!mddev_get(mddev))
10105			continue;
10106		spin_unlock(&all_mddevs_lock);
10107		export_array(mddev);
10108		mddev->ctime = 0;
10109		mddev->hold_active = 0;
10110		/*
10111		 * As the mddev is now fully clear, mddev_put will schedule
10112		 * the mddev for destruction by a workqueue, and the
10113		 * destroy_workqueue() below will wait for that to complete.
10114		 */
10115		mddev_put(mddev);
10116		spin_lock(&all_mddevs_lock);
10117	}
10118	spin_unlock(&all_mddevs_lock);
10119
10120	destroy_workqueue(md_misc_wq);
10121	destroy_workqueue(md_bitmap_wq);
10122	destroy_workqueue(md_wq);
10123}
10124
10125subsys_initcall(md_init);
10126module_exit(md_exit)
10127
10128static int get_ro(char *buffer, const struct kernel_param *kp)
10129{
10130	return sprintf(buffer, "%d\n", start_readonly);
10131}
10132static int set_ro(const char *val, const struct kernel_param *kp)
10133{
10134	return kstrtouint(val, 10, (unsigned int *)&start_readonly);
10135}
10136
10137module_param_call(start_ro, set_ro, get_ro, NULL, S_IRUSR|S_IWUSR);
10138module_param(start_dirty_degraded, int, S_IRUGO|S_IWUSR);
10139module_param_call(new_array, add_named_array, NULL, NULL, S_IWUSR);
10140module_param(create_on_open, bool, S_IRUSR|S_IWUSR);
10141
10142MODULE_LICENSE("GPL");
10143MODULE_DESCRIPTION("MD RAID framework");
10144MODULE_ALIAS("md");
10145MODULE_ALIAS_BLOCKDEV_MAJOR(MD_MAJOR);
Configure Feed

Configure Feed