Page 20 - 2011no48

Basic HTML Version

盖红梅等
, 2011, SSR
数据处理宏程序
DataTrans 1.0,
分子植物育种
Vol.9 No.48 (doi: 10.5376/mpb.cn.2011.09.0048)
1360
et al., 2006; Hanocq et al., 2007)
、关联分析
(Remington et al., 2001; Breseghello and Sorrells,
2006; Zhang et al., 2007a, b;
王兰芬等
, 2007)
、育种
亲本评估
(
盖红梅等
, 2009)
等研究中。随着分子生物
学的不断发展,
SSR
数据的产生也进入高通量水平。
与此同时,各种群体遗传学分析软件
(
)
应运而生,
比如
Ntsys (Rohlf, 2002) (http://www.exetersoftware.c-
om/cat/nysyspc.html)
Popgene (Ye et al., 1999)
(http://www.ualberta.ca/~fyeh/index.htm)
PowerMa-
rker (Liu and Muse, 2005) (http://www.PowerMarker.
net/), Structure (Pritchard, 2000) (http://pritch.bsd.uc-
hicago.edu/)
Tassel (Buckler, 2007) (http://www.m-
aizegenetics.net/bioinformatics/tassel/)
等。但是不同
的软件,其数据的输入格式不同,而没有正确的输
入格式就无法运行相应的软件,从而无法对数据进
行深入剖析。因此,如何将
SSR
原始采集数据转换
为不同遗传学软件所需的数据格式成为一个繁琐、
枯燥、但又不可缺少的步骤,这让众多学者感到非
常棘手。虽然,应用
Excel
进行人工转换或利用其查
找、替换和函数也能实现数据格式转换功能,但是
转换效率非常低,而且容易出错。因此,在基因型
扫描的高通量时代,面临越来越多的微卫星数据,
急需开发一款能够快速、高效、准确的将
SSR
原始
保存数据转换为遗传分析软件所需格式的软件。目
前,已有一些群体遗传学软件带有数据转换的功
能,如
Genetix (Belkhir et al., 2001)
MSTools3
(http://animalgenomics.ucd.ie/sdepark/ms-toolkit/)
等,
Genetix
的格式转换并非原始数据转换而是等位
变异频率数据的转换,且只有法语版本,无法满足
广大中国学者的需要。而
MSTools3
针对
Arlequin
GenePop
Microsat
Fstat
Dispan
等软件的需要设
计的,随着分析软件的更新换代,现有软件已不能
满足多数用户的需求。
Excel
是微软公司的办公软件
Microsoft office
一个重要组件,它可以进行各种数据的处理、统计
分析,广泛应用于多个领域,多数用户的
SSR
原始
数据就保存于
Excel
。因此,对
Excel
进行二次开发,
能给用户带来很大方便。
Excel
内嵌的
Microsoft
VBA (Visual Basic for Application)
语言是以
Visual
Basic
为基础的编程语言,直观、易用、能与
Excel
大的电子表格和函数功能无缝结合。同时对计算机
软硬件的要求也比较低,占用系统资源少,可开发
绿色软件,因此,该语言在多个领域得到了广泛应
用。刘仁虎和孟金陵
(2003)
采用
VBA
语言实现了在
Excel
中进行遗传连锁图的绘制;
Kemmer
Keller
(2010)
用该语言实现了非线性最小二乘数据的拟合。
因此,本研究在明确目前常用的
5
款群体遗传
学分析软件
(Ntsys
Popgene
PowerMarker
Structure
Tassel)
SSR
数据输入格式的基础上,使用
Microsoft VBA
语言,开发了
SSR
数据处理程序
DataTrans 1.0
。该软件简化了
SSR
原始数据到这
5
群体遗传学分析软件的格式转换,大大节省了数据
分析时间,提高了数据转换的准确性,同时软件界
面友好,简单易用,对
SSR
数据的深入挖掘分析提
供了有力保障。用户可以通过以下网址获取该程
序:
http://u.115.com/file/f2ebd280f
1
需求分析
1.1 SSR
数据来源及其原始格式
目前广泛采用的
SSR
检测方法为聚丙烯酰胺
凝胶电泳
(
1)
和毛细管凝胶电泳
(
2)
。其中前者
一般按扩增带的有无采集为
0,1
格式的数据
(
1)
也可以根据分子量内标而获得
bp(
碱基数
)
格式的
数据;毛细管电泳的原始数据通常以
bp
格式保存
(
2)
,缺失数据记为
9
1
聚丙烯酰胺凝胶电泳扩增片段
,
有带记为
1
无带记为
0
Figure 1 Bands pattern from 6% PAGE, “1” for band presence
and “0” for band absence