DBGET command line tutorial

Requirements

The DBGET system is installed under the environment variable BIOROOT.
The environment variable PATH contains $BIOROOT/bin.

1. Data retrieval

$ bget rs:XP_060832844

LOCUS       XP_060832844             470 aa            linear   INV 14-NOV-2023
DEFINITION  ribosomal protein S6 kinase beta-1-like [Bombus pascuorum].
ACCESSION   XP_060832844
VERSION     XP_060832844.1
DBLINK      BioProject: PRJNA1036669
DBSOURCE    REFSEQ: accession XM_060976861.1
KEYWORDS    RefSeq.
SOURCE      Bombus pascuorum
  ORGANISM  Bombus pascuorum
            Eukaryota; Metazoa; Ecdysozoa; Arthropoda; Hexapoda; Insecta;
            Pterygota; Neoptera; Endopterygota; Hymenoptera; Apocrita;
            Aculeata; Apoidea; Anthophila; Apidae; Bombus; Thoracobombus.
COMMENT     MODEL REFSEQ:  This record is predicted by automated computational
            analysis. This record is derived from a genomic sequence
            (NC_083489) annotated using gene prediction method: Gnomon.
            Also see:
                Documentation of NCBI's Annotation Process

            ##Genome-Annotation-Data-START##
            Annotation Provider         :: NCBI RefSeq
            Annotation Status           :: Full annotation
            Annotation Name             :: GCF_905332965.1-RS_2023_11
            Annotation Pipeline         :: NCBI eukaryotic genome annotation
                                           pipeline
            Annotation Software Version :: 10.2
            Annotation Method           :: Gnomon; cmsearch; tRNAscan-SE
            Features Annotated          :: Gene; mRNA; CDS; ncRNA
            Annotation Date             :: 11/10/2023
            ##Genome-Annotation-Data-END##
            COMPLETENESS: full length.
FEATURES             Location/Qualifiers
     source          1..470
                     /organism="Bombus pascuorum"
                     /db_xref="taxon:65598"
                     /chromosome="2"
     Protein         1..470
                     /product="ribosomal protein S6 kinase beta-1-like"
                     /calculated_mol_wt=53008
     CDS             1..470
                     /gene="LOC132916662"
                     /coded_by="XM_060976861.1:372..1784"
                     /db_xref="GeneID:132916662"
ORIGIN
        1 magvfdielh dgdsisqdes dddivenred eynhttnvnt mlesdnlerv qlseqnvnag
       61 qektgpqdfe lckilgeggy gkvfqvkkvt gkdkgsifam kvlrkasiir nqkdtahtka
      121 ernileavkh pfivnlmyaf qtggklylil eylcggelft yldregifle dtacfylsei
      181 ilalqhlhnq giiyrdlkpe nilldgeghv kltdfglcke hieegtvtht fcgtieymap
      241 eiltrsghgk avdwwslgal mfdmltgmpp ftgddrrkti ekilrgklcl plyltpdakd
      301 lirkllkrqv sqrlgsgpdd aeqimnhnff khikwqdvis rkleppfkps vksaddtsqf
      361 deqftttvpv dspvestlse sanmifqgft yvapsvleem caqprvvnar sprksllnte
      421 fsgslhslss rspdahlhta shfhqhrhhv vdsnnmedte madidplfnf
//

2. Sequence retrieval

$ bget -f rs:XP_060832844

>rs:XP_060832844 [XP_060832844] ribosomal protein S6 kinase beta-1-like [Bombus pascuorum].
magvfdielhdgdsisqdesdddivenredeynhttnvntmlesdnlervqlseqnvnag
qektgpqdfelckilgeggygkvfqvkkvtgkdkgsifamkvlrkasiirnqkdtahtka
ernileavkhpfivnlmyafqtggklylileylcggelftyldregifledtacfylsei
ilalqhlhnqgiiyrdlkpenilldgeghvkltdfglckehieegtvthtfcgtieymap
eiltrsghgkavdwwslgalmfdmltgmppftgddrrktiekilrgklclplyltpdakd
lirkllkrqvsqrlgsgpddaeqimnhnffkhikwqdvisrkleppfkpsvksaddtsqf
deqftttvpvdspvestlsesanmifqgftyvapsvleemcaqprvvnarsprksllnte
fsgslhslssrspdahlhtashfhqhrhhvvdsnnmedtemadidplfnf

2-1. Amino acid sequence retrieval

KEGG GENES entry contains both amino acid and nucleotide sequences.
To obtain the amino acid sequence, do the following.

$ bget -f -n a hsa:126

>hsa:126 K13951 alcohol dehydrogenase 1/7 [EC:1.1.1.1] | (RefSeq) ADH1C, ADH3; alcohol dehydrogenase 1C (class I), gamma polypeptide (A)
MSTAGKVIKCKAAVLWELKKPFSIEEVEVAPPKAHEVRIKMVAAGICRSDEHVVSGNLVT
PLPVILGHEAAGIVESVGEGVTTVKPGDKVIPLFTPQCGKCRICKNPESNYCLKNDLGNP
RGTLQDGTRRFTCSGKPIHHFVGVSTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTG
YGSAVKVAKVTPGSTCAVFGLGGVGLSVVMGCKAAGAARIIAVDINKDKFAKAKELGATE
CINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPDSQ
NLSINPMLLLTGRTWKGAIFGGFKSKESVPKLVADFMAKKFSLDALITNILPFEKINEGF
DLLRSGKSIRTVLTF

2-2. Nucleotide sequence retrieval

To obtain the nucleotide sequence, do the following.

$ bget -f -n n hsa:126

>hsa:126 K13951 alcohol dehydrogenase 1/7 [EC:1.1.1.1] | (RefSeq) ADH1C, ADH3; alcohol dehydrogenase 1C (class I), gamma polypeptide (N)
atgagcacagcaggaaaagtaatcaaatgcaaagcagctgtgctatgggagttaaagaaa
cccttttccattgaggaggtagaggttgcacctcctaaggctcatgaagttcgcattaag
atggtggctgcaggaatctgtcgttcagatgagcatgtggttagtggcaacctggtgacc
ccccttcctgtgattttaggccatgaggcagccggcatcgtggaaagtgttggagaaggg
gtgactacagtcaaaccaggtgataaagtcatcccgctctttactcctcagtgtggaaaa
tgcagaatttgtaaaaacccagaaagcaactactgcttgaaaaatgatctaggcaatcct
cgggggaccctgcaggatggcaccaggaggttcacctgcagcgggaagcccatccaccac
ttcgtcggcgtcagcaccttctcccagtacacagtggtggatgagaatgcagtggccaaa
attgatgcagcctcgcccctggagaaagtctgcctcattggctgtggattttcgactggt
tatgggtctgcagtcaaagttgccaaggtcaccccagggtctacctgtgctgtgtttggc
ctgggaggggtcggcctatctgttgttatgggctgtaaagcagctggagcagccagaatc
attgctgtggacatcaacaaggacaaatttgcaaaggctaaagagttgggtgccactgaa
tgcatcaaccctcaagactacaagaaacccattcaggaagtgctaaaggaaatgactgat
ggaggtgtggatttttcgtttgaagtcatcggtcggcttgacaccatgatggcttccctg
ttatgttgtcatgaggcatgtggcacaagtgtcattgtaggggtacctcctgattcccag
aacctctcaataaaccctatgctgctactgactggacgcacgtggaaaggagctattttt
ggaggctttaagagtaaagaatctgtccccaaacttgtggctgactttatggctaagaag
ttttcactggatgcattaataacaaatattttaccttttgaaaaaataaatgaaggattt
gacctgcttcgctctggaaagagtatccgtaccgtcctgacgttttga

2-3. Multiple sequences retrieval

To obtain multiple sequences at once, do the following.

$ bget -f rs:XP_001525172 rs:XP_001525172 rs:XP_060745459

>rs:XP_001525172 [XP_001525172] 40S ribosomal protein S20 [Lodderomyces elongisporus].
mstiqkekvdqqpeeqihkiritltstkvkqlenvsaniirnasqsnivkkgpvrmptkv
lkittrkapngegsktwdayemrihkrvidlqapaatvkkitqitiepgvdvevtiaa
>rs:XP_001525172 [XP_001525172] 40S ribosomal protein S20 [Lodderomyces elongisporus].
mstiqkekvdqqpeeqihkiritltstkvkqlenvsaniirnasqsnivkkgpvrmptkv
lkittrkapngegsktwdayemrihkrvidlqapaatvkkitqitiepgvdvevtiaa
>rs:XP_060745459 [XP_060745459] 39S ribosomal protein L42, mitochondrial isoform X1 [Tachysurus vachellii].
matwrqlnrlpfilnankdllqikaqtlsfhpalrnqasacgdnsrgveigvtrdsetiv
cfhpapdipyeltkpiprldptldstethdlvlksqlnkevlndkkmpaieelakmfytt
khrwypvgqyhtrrrnrnppkdr

If you have a large number of sequences to retrieve, prepare the text file listed IDs.

rs:XP_020900872
rs:XP_060722379
rs:XP_060896409
rs:XP_060735106
rs:XP_002479576
rs:XP_002340431
rs:XP_060667499
rs:XP_060832844
rs:XP_001873778
rs:XP_060679450
rs:XP_001486220
rs:XP_060720861
rs:XP_001272980
rs:XP_003020451
rs:XP_030508201
rs:XP_060949650
rs:XP_060755773
rs:XP_013194756
rs:XP_001210932
rs:XP_001270026
rs:XP_002583740
rs:XP_060707841
rs:XP_060872188
rs:XP_060674553
rs:XP_060896158
rs:XP_060948862
rs:XP_060974660
rs:XP_048321604
rs:XP_060752155
rs:XP_060817003
rs:XP_060970701
rs:XP_001876708
rs:XP_060815891
rs:XP_015886779
rs:XP_060758404
rs:XP_020911968
rs:XP_001271126
rs:XP_002483825
rs:XP_001941585
rs:XP_002486096
rs:XP_060910877
rs:XP_002583653
rs:XP_060791148
rs:XP_060957793
rs:XP_001940651
rs:XP_060760290
rs:XP_060803631
rs:XP_020894634
rs:XP_060871735
rs:XP_030496806
rs:XP_002340218
rs:XP_060689417
rs:XP_060948596
rs:XP_060671187
rs:XP_002542222
rs:XP_013192134
rs:XP_060760078
rs:XP_060914394
rs:XP_060717552
rs:XP_013183365
rs:XP_015882970
rs:XP_001880116
rs:XP_001873807
rs:XP_013200966
rs:XP_060814816
rs:XP_002486023
rs:XP_060932035
rs:XP_020911853
rs:XP_001881575
rs:XP_013196461
rs:XP_030480565
rs:XP_060948770
rs:XP_060940187
rs:XP_015871631
rs:XP_028513674
rs:XP_030478913
rs:XP_001930982
rs:XP_048329857
rs:XP_060704524
rs:XP_060819614
rs:XP_060695220
rs:XP_001269751
rs:XP_030486983
rs:XP_060746885
rs:XP_060838138
rs:XP_060736688
rs:XP_001938538
rs:XP_060830353
rs:XP_060746961
rs:XP_060719021
rs:XP_060876357
rs:XP_060720114
rs:XP_060868297
rs:XP_001276062
rs:XP_060940594
rs:XP_003321861
rs:XP_060678758
rs:XP_060726817
rs:XP_060737034
rs:XP_001212847
rs:XP_015883233
rs:XP_001211274
rs:XP_002540920
rs:XP_002486964
rs:XP_060728667
rs:XP_001271792
rs:XP_060922955
rs:XP_001524279
rs:XP_001211127
rs:XP_001484843
rs:XP_030500635
rs:XP_015866763
rs:XP_060714560
rs:XP_060684543
rs:XP_060937208
rs:XP_060840501
rs:XP_060808067
rs:XP_060749902
rs:XP_060930823
rs:XP_001268969
rs:XP_030509403
rs:XP_060941482
rs:XP_060975576
rs:XP_060816581
rs:XP_060794441
rs:XP_015881826
rs:XP_060744055
rs:XP_060920470
rs:XP_003331649
rs:XP_013182888
rs:XP_002480639
rs:XP_024929120
rs:XP_060874368
rs:XP_048319883
rs:XP_060834899
rs:XP_060779437
rs:XP_060739597
rs:XP_060961199
rs:XP_060721698
rs:XP_002483846
rs:XP_003328322
rs:XP_060755777
rs:XP_060730174
rs:XP_001273366
rs:XP_060816185
rs:XP_060761842
rs:XP_060733552
rs:XP_060758184
rs:XP_060787720
rs:XP_030509588
rs:XP_048323454
rs:XP_060701590
rs:XP_060769277
rs:XP_060727071
rs:XP_060929411
rs:XP_060929049
rs:XP_001941828
rs:XP_013183024
rs:XP_060827126
rs:XP_020897094
rs:XP_030489190
rs:XP_060910878
rs:XP_002479594
rs:XP_003337094
rs:XP_001273979
rs:XP_060702359
rs:XP_001275405
rs:XP_060832886
rs:XP_013186729
rs:XP_060949368
rs:XP_020900874
rs:XP_060918029
rs:XP_060794226
rs:XP_013185210
rs:XP_001876873
rs:XP_013183839
rs:XP_001528336
rs:XP_030495568
rs:XP_060783642
rs:XP_001884425
rs:XP_060842440
rs:XP_060772499
rs:XP_001273898
rs:XP_002481963
rs:XP_060733931
rs:XP_001874653
rs:XP_060878146
rs:XP_060878091
rs:XP_060873485
rs:XP_001938563
rs:XP_060872521
rs:XP_048327046
rs:XP_060825999
rs:XP_060912857
rs:XP_001526350
rs:XP_060862847
rs:XP_020908779
rs:XP_001526518
rs:XP_002584684
rs:XP_060759284

$ bget -f < filename

To save the output to a text file, do the following.

$ bget -f < filename > outputfile

Alternatively, you can obtain the sequences as follows.

$ cat filename | bget -f > outputfile

2-4. Chemical structure information retrieval

The -f option can be also used to obtain chemical structure information in a MDL/MOL file format or a KCF (KEGG Chemical Function) format from the COMPOUND and DRUG databases.
To obtain MDL/MOL file format, do the following.

$ bget -f m cpd:C00022

To obtain KCF format, do the following.

$ bget -f k cpd:C00022

3. Data search

To find entries with matching query keywords.
For keywords "shiga" and "toxin"

$ bfind genes shiga toxin

For keywords "shiga toxin"

$ bfind genes "shiga toxin"

To restrict the query, use the following options.
-W privides word matching.

$ bfind -W genome papillomavirus

-C provides case-sensitive search.

$ bfind -C genome "Simian foamy virus"

When two keywords are given, the default search will identify entries that contain both keywords. In other words, the default is an AND search. To modify this condition, use the following Boolean operators:

.and. (default)
.or.
.not.

You can also use parentheses to specify the priority of evaluation.
The parenthesis should be escaped by a backslash (\) in the command line mode.

$ bfind genome $ corona .or. influenza $ .and. human

3-1. Search targets

DBGET search targets are as follows.

Database name			Search targets
kegg	pathway		ENTRY and NAME
	brite		ENTRY and NAME
	module		ENTRY and NAME
	orthology		ENTRY, SYMBOL and NAME
	genes	Complete genomes	ENTRY, SYMBOL, NAME and ORTHOLOGY
		Viruses
		Vpept
		Addendum
	genome		ENTRY, ORG_CODE and NAME
	compound		ENTRY and NAME
	glycan		ENTRY, NAME, COMPOSITION and CLASS
	reaction		ENTRY, NAME and DEFINITION
	rclass		ENTRY, NAME and DEFINITION
	enzyme		ENTRY and NAME
	network		ENTRY and NAME
	variant		ENTRY and NAME
	disease		ENTRY and NAME
	drug		ENTRY and NAME
	dgroup		ENTRY and NAME
	expression		ENTRY and DEFINITION
	genbank		LOCUS, ACCESSION and DEFINITION
	embl		ID, AC and DE
	refseq	refnuc	LOCUS, ACCESSION and DEFINITION
	refseq	refpep	LOCUS, ACCESSION and DEFINITION
	uniprot	swissprot	ID, AC and DE
	uniprot	trembl	ID, AC and DE
	mgenes		ENTRY, SYMBOL, NAME and ORTHOLOGY
	mgenome		ENTRY, ORG_CODE and NAME
	refgene	rg001	ENTRY, NAME, DEFINITION and ORTHOLOGY
		rg002
		rg003
	pdb		HEADER, TITLE and COMPND
	epd		ID, AC, DE, OS and "DO Expression/Regulation:"
	prosite		ID, AC and DE
	pfam		"#=GF ID","#=GF AC" and "#=GF DE"
	pmd		ENTRY, TITLE and PROTEIN
	aaindex	aaindex1	H and D
		aaindex2
		aaindex3
	pdbstr		MEMBER and DEFINITION
	carbbank		"CC: CCSD:" and TI:
	prosdoc		{PDOC and "∗ "

4. Database creation

DBGET requires creating the index to retrieve data.
seqnew command which creates an index supports flat-file databases listed above and also supports FASTA format file.

4-1. FASTA format database

To create index and retrieve data for FASTA file, do the following.

$ seqnew -t sequences -d dirname dbname filename
$ bget -t sequences -d dirname dbname:ID

For example, if alcohol dehydrogenase amino acid sequences file is prepared under the $HOME/db/, do the following.

$ head -100 $HOME/db/ADH.aa.fa

>rs:WP_019260719 [WP_019260719] bifunctional acetaldehyde-CoA/alcohol dehydrogenase [Gardnerella greenwoodii].
mveaqnkaetesktvddvelaaqqevdqlvekashaldefeklnqqqidhivakasvaal
nkhlvlakmavdetgrglvedkatknifacehithylagqktvgiireddvlgideiaep
vgivagvtpvtnptstaifkslialktrcpiifgfhpfaqkcsseaarivrdaavaagap
kdciqwiehpsiaatgalmkhpkiatilatggpgmvkaayssgkpalgvgagnapayvds
dvdisraandlilskhfdygmicateqaiiankdvyepllrelkrrkayfvnadekakle
qymfgctaysgntpklnstvpgkspqyiaheagfeipedavilvaeckevgemepltmek
lapvhamlraenkeqgfkmceqmlvhgaghtavihtnnqdlvreygvrmhacrivwnspg
slggvgdiynaiapsltlgcgsyggnsvsgnvqainllnikriarrnnnmqwfkipakty
fepnairylrdmygveravivcdkvmeqlgvvdkiidqlrardnrvtfriidyvepepsv
etvergaammrdefqpdtiiavgggspmdaskimwlmyehpeisfadlrekffdirkraf
kipplggkaklvciptssgtgsevtpyavitdhktgykypitdyaltptvaivdpvlart
qprrlacdsgfdalthameayvsvyandftdamalhaskliwenlndsvncedsqrkiea
kekmhnaatmagmafgsaflgmchamahtigalchvvhghtnaillpyviryngqipqep
tswpkynhyialeryqeiaknlgvdpgktpeegvenlaraveeyrneklgmdasfkacgv
deeyywsildnigmrayedqcapanpripqiedmkdiaiaayygvsqeeghrmrlereaa
>rs:WP_319486320 [WP_319486320] zinc-binding alcohol dehydrogenase family protein [uncultured Cohaesibacter sp.].
mkalrfneygqpdvlqvadmelptpgpgevlvrvaaaainpsdvknvaglfsatlprtpg
rdfagtvvsegawqgkavwgsgagfgvirdgaqreylclsanwlsempanlsqpeaatvg
vpyvtawtalvragdirsdetvlitgsngavgraaiqiarwkgarviavgrsdhpseadv
aintskedlqaavaeatggrgvdmvldavggpmfepalktlrqggrqvaitsagmrrvef
dlmdyyhsqlhligvdtmkltgieiasilddlrpgfesgaltpapysllsiedarkayas
lssgkasqkqvivfd
>rs:NP_494766 [NP_494766] Alcohol dehydrogenase transcription factor myb/sant-like protein [Caenorhabditis elegans].
mieptfnlrlieavrhsrclfdntdrqyrnteyknrvwqrlvtvlgfdgdprmlsarwkq
lrdkygkekrkqkygneksswqyfkhlhfldphmtdraeispsrkeptgvhekiaepcfg
knlilevrrhpclydvrdpkyrhgdcrtqawgmiidklrypgtvpsiykqwkkhrdryvr
ekrrlrnlgdpnvqdvstwemyddmawidqhldeqqlsrcarslkrggnndggnqdemsd
ygdydddinyvmmaekrpnngdvlldgdsafsasivsdlrtlgeeariiakqqimilles
akppstpapnyl
>rs:WP_319353340 [WP_319353340] Zn-dependent alcohol dehydrogenase [Streptomyces sp. ME01-18a].
mvraavlpavgapleitdialpepgpgqvsvrlaaagvchsdlslsngtmrlpvpavlgh
egagtvlsvgegvthvaagdpvvlnwapscgacfhcgigevwlcadalkgaanihartad
gtelhpglnvaafaqetvvaencvlpapsgiplddaallgcavltgygavhhsarvrege
svvvlgiggvglavlqaariagasqiiavdvspekeelarragatdyvvasdttpravrk
ltggqgadvavecvgrpatirgawestrrggrttvvgiggkdqqvtfnaleifhwgrslt
gcvygnsdpardlpvlaehiragrfdlsmmvteritldgipeafdhmiagkggralvvf
>rs:WP_012724466 [WP_012724466] MULTISPECIES: coniferyl-alcohol dehydrogenase [Pseudomonas fluorescens group].
mnlynktlvvtgvasgigaelarlarfqgatvigvdrhepqltldgffqadlgdpasida
lvarlparvdglcniagvpgtapaqtvaevnylglrhltqallprmpaggsivnvasvlg
aqwpqrlelhkalaatqnftagqqwlaanpvaqatcyqyfkealivwsfqqaqgwfrdhs
vrincvapgpvftpilgdfvsllgpervaedsqrmtrpaladevaaviaflcsdaarwvn
gvnlpvdgglaatyv
>rs:WP_071798668 [WP_071798668] iron-containing alcohol dehydrogenase family protein [Lacticaseibacillus paracasei].
mkldlelrpganrfvsesgalayldtiladfnqpvvitgeksfaaftkvypgelslpvyh
ydgsasdenghelaqeidhadavvgigagrlidtakvaaeafgaelisiptlasncapft
plaaiyhpqghtfsyveyfkksayitlvdynlllstphdffvagigdtlakwyemdgitr
dkvdqlkaygqlsraaaktiqkilfkdaeqaladldagrdtsafeavadtiiglagevgg
fggidgraagahathnglsylpethailhgskvaygilvqlaetgddteirnlipfyeki
glplnledlhvtdqvdekikqvaefaakpdetfilvdptltpakvadamkkveqvtsdpa
a
>rs:WP_318898609 [WP_318898609] alcohol dehydrogenase AdhP [Sinorhizobium meliloti].
mqmaqamkaavvrqfrapltieemevptpgaagqvlvkyeatgvchtdlhaangdwpvkp
appfipghegvgfvsavgagvrrvkegdkvgvpwlhtacgyctycrtgwetlcasqsntg
ysvngtfaefgladpefvgkipdglefgaaapvlcagvtvykglketevrpgewvaisgv
gglghmavqyakamgmhvvaadifedklalakqlgadiaingksedaieqvqkatsggvh
gvlvtavspaameqafgflrskgtmvlvglppgmmslpvfetvlkritvrgsivgtrqdl
eeslvfaaegkvkpyfsweslenindifhrmeagkidgrivvrlq
>rs:WP_096808055 [WP_096808055] MULTISPECIES: zinc-dependent alcohol dehydrogenase family protein [Staphylococcus].
mktkaavlydmgiegpyektkplkietlslgapqknevlikihaaglchsdlsvingsrp
rpmpmalgheaageivelgenvsdfevgdhvvctfipscgkcipcregrpalcengaisn
ekgemleggsrlskdndaiyhhlgvsgfseyavvsdnsivkidsdipyeraavfgcavit
gigavintaqirpgsnvavvglggiglnaiigaklaganeiialdinedkfeiaktlgat
svfnsgdenvieevkqyinggaeyvfetagavpamqvayaitkrggstittglpnpkael
sfpqvtlaaeertvkgsyvgscvpdrdiprfvslyqhnrlnidplisdvisleqinegfd
qlangdagriiikmtk
>rs:WP_319554930 [WP_319554930] iron-containing alcohol dehydrogenase [uncultured Vibrio sp.].
mnfsylnptqiffgqsqisqvanvidksqkvlviygggsikkngvyqqveaalsehnwfe
fsgveanptketmdkaveiikeqnidfilavgggsvidgskyaaaaahydgdgwdiltgn
yvpvtatpigviltipatgsesngnsvitksetqqklpfasnyvqpqfavmdpdvmktlp
ekqlvngivdawvhvceqyitkpagalvqdgyseallrslkslgenfdsrsndlwrsnlm
wtanqalnglisvgveqdwathmigheltalwhvdharslaivqpsllrnqiefkrdkle
qmgrnvfelttsenlaertidaieafyqslgvstqltehdrskeeaidavierlethgft
sltengtvtpvqireilihaia
>rs:WP_319109645 [WP_319109645] zinc-dependent alcohol dehydrogenase family protein, partial [Streptomyces sp. ND04-05B].
mkaaviesrgravvtevpdpapgprdvvvevaacglcgtdlhilqgefapklpivpghef
agevvgvggqvtelsvgdrvavdpslychecrycrtghnnlcerwaaigvttaggaarya
vapvancvrlpdhvrtqdaalveplscavrgydvlrarlgahvliygsgtmglmmlelak
rtgaasvdvvdvnaarletarrlgvsgaaagpdeldrpqgwdvvvdatgnaaaiqdglgr
vakagtflqfgvadyatrvtidpyriynqeititgsmavlhsferaaelfaggvldpdvf
isdrvpleryp
>rs:WP_318265679 [WP_318265679] NAD(P)-dependent alcohol dehydrogenase [Salinivenus lutea].
mlpseahlpmkafeldvgrdsldafrpverpvpdpapgqvrvrlhaaslnyrdlsvargt
ypgadddtsvvplsdgagvvdavgegvtrfeagdrvtntfsqvptdspssasrqalglpl
dgtlqeqrlfhenglvhvpetlsleqaatlpcaaqtawhalfgagrpvlpgqtvltlgtg
gvstfallfakaagarvlitsssddklermralgadetinyertpdwheavqaatdgrgv
dcvvetgglgtlersfqaaapdgkvgligvlaeadenpnpyllmqrrghlhgiyvgdieh
pldsframnaaldandlapvidrtfdfdaapeayrhlaeanhmgkvvvti
>rs:WP_007016012 [WP_007016012] alcohol dehydrogenase catalytic domain-containing protein [Croceicoccus naphthovorans].
meayaaiierqggefvldtvsledprdgevlvkiaaagmchtdltvrdqhfptplpavlg
hegagvvervgldyvsaspfrvpiarlaaaqsalaat
>rs:WP_319549816 [WP_319549816] alcohol dehydrogenase catalytic domain-containing protein [Desulfogranum marinum].
mgnqksikslpindikslqdieleqpiatgrellvkvqaiavnpvdytirtrmagidgny
kvlgwdtvgevvatgedvntfkpgdvvcyagdlnrqgsnteyqlvdarivgikprsvtav
eavalplttikakvsadspstpshl
>rs:WP_172925875 [WP_172925875] MULTISPECIES: zinc-dependent alcohol dehydrogenase family protein [Streptococcus].
mkaytyvkpglasfvdvdkpvlrkptdaivrivktticgtdlhiikgdvpacqsgtilgh
egigiveevgegvsnfkkgdkvliscvcacgkcyyckkgiyahcedeggwifghlidgmq
aeylrvphadntlyhtpedlsdealvmlsdilptgyeigvlkgkvepgcsvaiigsgpvg
laalltaqfyspaklimvdlddnrletalsfgathkvnssdpekaikeiydltdgrgvdv

$ seqnew -t sequences -d $HOME/db adh ADH.aa.fa


           *****   IDEAS  SEQNEW   *****
..................................................
..................................................
..................................................
..................................................
..................................................
..................................................
..................................................
..................................................
..................................................
..................................................
..................

           ##### SEQNEW STATISTICS #####
DATABASE name              : adh
Number of entries          : 518825
Number of rejected         : 0
Number of residues         : 189316649
Maximum length of sequence : 2630

$ bget -t sequences -d $HOME/db adh:rs:NP_000660

>rs:NP_000660 [NP_000660] alcohol dehydrogenase 1C [Homo sapiens].
mstagkvikckaavlwelkkpfsieevevappkahevrikmvaagicrsdehvvsgnlvt
plpvilgheaagivesvgegvttvkpgdkviplftpqcgkcricknpesnyclkndlgnp
rgtlqdgtrrftcsgkpihhfvgvstfsqytvvdenavakidaasplekvcligcgfstg
ygsavkvakvtpgstcavfglggvglsvvmgckaagaariiavdinkdkfakakelgate
cinpqdykkpiqevlkemtdggvdfsfevigrldtmmasllccheacgtsvivgvppdsq
nlsinpmllltgrtwkgaifggfkskesvpklvadfmakkfsldalitnilpfekinegf
dllrsgksirtvltf

If you have a large number of IDs to retrieve, prepare the text file listed IDs.

adh:rs:NP_494766
adh:rs:NP_505991
adh:rs:NP_497028
adh:rs:NP_001379877
adh:rs:NP_001311509
adh:rs:NP_741507
adh:rs:NP_494420
adh:rs:NP_505992
adh:rs:NP_001024016
adh:rs:NP_001025581
adh:rs:NP_001011391
adh:rs:NP_001011431
adh:rs:NP_001275796
adh:rs:NP_001284398
adh:rs:NP_001171758
adh:rs:NP_001164342
adh:rs:NP_001095174
adh:rs:NP_001076093
adh:rs:NP_001406095
adh:rs:NP_001406097
adh:rs:NP_001406094
adh:rs:NP_001279055
adh:rs:NP_001288901
adh:rs:NP_001147757
adh:rs:NP_001098256
adh:rs:NP_001086427
adh:rs:NP_001098266
adh:rs:NP_001134493
adh:rs:NP_001136674
adh:rs:NP_001152707
adh:rs:NP_001136687
adh:rs:NP_001232570
adh:rs:NP_001141204
adh:rs:NP_001169684
adh:rs:NP_001230868
adh:rs:NP_001268083
adh:rs:NP_001268071
adh:rs:NP_001268079
adh:rs:NP_001193316
adh:rs:NP_001231762
adh:rs:NP_001310227
adh:rs:NP_001040507
adh:rs:NP_001040423
adh:rs:NP_001040426
adh:rs:NP_001037610
adh:rs:NP_001131273
adh:rs:NP_001136558
adh:rs:NP_001238395
adh:rs:NP_001247556
adh:rs:NP_001314522
adh:rs:NP_081221
adh:rs:NP_001398422
adh:rs:NP_001357786
adh:rs:NP_001398421
adh:rs:NP_001398420
adh:rs:NP_001027664
adh:rs:NP_001274960
adh:rs:NP_001299701
adh:rs:NP_001298890
adh:rs:NP_001275867
adh:rs:NP_199040
adh:rs:NP_974925
adh:rs:NP_200010
adh:rs:NP_460526
adh:rs:NP_460586
adh:rs:NP_460633
adh:rs:NP_460708
adh:rs:NP_462079
adh:rs:NP_462925
adh:rs:NP_463346
adh:rs:NP_391000
adh:rs:NP_310109
adh:rs:NP_313268
adh:rs:NP_313326
adh:rs:NP_031435
adh:rs:NP_001161174
adh:rs:NP_001242314
adh:rs:NP_009703
adh:rs:NP_010030
adh:rs:NP_010032
adh:rs:NP_010038
adh:rs:NP_010113
adh:rs:NP_011258
adh:rs:NP_012689
adh:rs:NP_013800
adh:rs:NP_014032
adh:rs:NP_014051
adh:rs:NP_014068
adh:rs:NP_014477
adh:rs:NP_014555
adh:rs:NP_001125462
adh:rs:NP_001291682
adh:rs:NP_001079798
adh:rs:NP_001083564
adh:rs:NP_001089094
adh:rs:NP_001086903
adh:rs:NP_001105410
adh:rs:NP_001132441
adh:rs:NP_001141131
adh:rs:NP_001086118
adh:rs:NP_001140515
adh:rs:NP_001140312
adh:rs:NP_001141177
adh:rs:NP_001141363
adh:rs:NP_001339981
adh:rs:NP_001275080
adh:rs:NP_415141
adh:rs:NP_415757
adh:rs:NP_415995
adh:rs:NP_416948
adh:rs:NP_001404014
adh:rs:NP_001390948
adh:rs:NP_001391382
adh:rs:NP_001391383
adh:rs:NP_588244
adh:rs:NP_595121
adh:rs:NP_592819
adh:rs:NP_001312913
adh:rs:NP_001315822
adh:rs:NP_819314
adh:rs:NP_177412
adh:rs:NP_177837
adh:rs:NP_171895
adh:rs:NP_173660
adh:rs:NP_001077773
adh:rs:NP_001323423
adh:rs:NP_176652
adh:rs:NP_179765
adh:rs:NP_179780
adh:rs:NP_182001
adh:rs:NP_189092
adh:rs:NP_567086
adh:rs:NP_188576
adh:rs:NP_188127
adh:rs:NP_191205
adh:rs:NP_001327958
adh:rs:NP_001327959
adh:rs:NP_001327960
adh:rs:NP_195510
adh:rs:NP_195512
adh:rs:NP_195149
adh:rs:NP_001031788
adh:rs:NP_193673
adh:rs:NP_001329018
adh:rs:NP_001031812
adh:rs:NP_195643
adh:rs:NP_001031805
adh:rs:NP_195511
adh:rs:NP_194586
adh:rs:NP_001320082
adh:rs:NP_001330100
adh:rs:NP_200959
adh:rs:NP_568975
adh:rs:NP_001331700
adh:rs:NP_851257
adh:rs:NP_982285
adh:rs:NP_001312400
adh:rs:NP_001292112
adh:rs:NP_001026323
adh:rs:NP_990423
adh:rs:NP_001039522
adh:rs:NP_001317038
adh:rs:NP_001317037
adh:rs:NP_001099945
adh:rs:NP_001234838
adh:rs:NP_000663
adh:rs:NP_001406091
adh:rs:NP_001406098
adh:rs:NP_001313884
adh:rs:NP_001314533
adh:rs:NP_001314504
adh:rs:NP_001396297
adh:rs:NP_001130781
adh:rs:NP_001012084
adh:rs:NP_001305497
adh:rs:NP_001409807
adh:rs:NP_001239084
adh:rs:NP_062159
adh:rs:NP_001312070
adh:rs:NP_001276225
adh:rs:NP_001241491
adh:rs:NP_001240222
adh:rs:NP_001341703
adh:rs:NP_001340170
adh:rs:NP_001242404
adh:rs:NP_001036230
adh:rs:NP_001011502
adh:rs:NP_991205
adh:rs:NP_001242408
adh:rs:NP_001140793
adh:rs:NP_001084962
adh:rs:NP_956749
adh:rs:NP_001242142
adh:rs:NP_001238796
adh:rs:NP_001126233
adh:rs:NP_001406093
adh:rs:NP_001105654
adh:rs:NP_001406092
adh:rs:NP_001406081
adh:rs:NP_216046

$ bget -t sequences -d $HOME/db < filename

To save the output to a text file, do the following.

$ bget -t sequences -d $HOME/db < filename > outputfile

5. LinkDB

LinkDB is a database of links, each of which is represented as a binary relation in the form of:

dbname1:ID1 --> dbname2:ID2 LinkDB contains all cross-reference links, original and reverse links, extracted from all the databases in DBGET. Furthermore, LinkDB provides additional links representing the relationship between same objects in different databases.
Links are categorized into the following 4 types.

equivalent links are special original links to signify equivalent contents between KEGG GENES, COMPOUND, DRUG, REACTION databases and databases other than KEGG.
original links are extracted from the database entries provided by the GenomeNet DBGET system.
reverse links are derived from the original links by exchanging a source entry and its target entry.
indirect links are derived by combining two or more original links. Currently, links from KEGG GENES to REACTION via KO, and to COMPOUND via REACTION are available.

To find related entries by using database cross-references, do the following.

$ blink -u rs:NP_001095940

rs:NP_001095940 ec:1.1.1.1      original
rs:NP_001095940 hsa:130 equivalent
rs:NP_001095940 ncbi-geneid:130 original
rs:NP_001095940 omim:103735     original
rs:NP_001095940 pmid:1593644    original
rs:NP_001095940 pmid:1755855    original
rs:NP_001095940 pmid:1881901    original
rs:NP_001095940 pmid:2198032    original
rs:NP_001095940 pmid:22690706   original
rs:NP_001095940 pmid:23456092   original
rs:NP_001095940 pmid:23468174   original
rs:NP_001095940 pmid:23534349   original
rs:NP_001095940 pmid:27455956   original
rs:NP_001095940 pmid:9982       original
rs:NP_001095940 sp:P28332       reverse
rs:NP_001095940 tax:9606        original
rs:NP_001095940 up:P28332       reverse
rs:NP_001095940 up:Q8IUN7       reverse

To obtain the link to specific database, do the following.

$ blink -u rs:NP_001095940 -t tax

rs:NP_001095940 tax:9606        original

If you have a large number of IDs to retrieve, prepare the text file listed IDs.

rs:NP_000658
rs:NP_000660
rs:NP_000662
rs:NP_000663
rs:NP_001001946
rs:NP_001011391
rs:NP_001011423
rs:NP_001011431
rs:NP_001011502
rs:NP_001012084
rs:NP_001024016
rs:NP_001025581
rs:NP_001026323
rs:NP_001027266
rs:NP_001027267
rs:NP_001027268
rs:NP_001027269
rs:NP_001027270
rs:NP_001027664
rs:NP_001029421
rs:NP_001031788
rs:NP_001031805
rs:NP_001031812
rs:NP_001036230
rs:NP_001037610
rs:NP_001039522
rs:NP_001040423
rs:NP_001040426
rs:NP_001040507
rs:NP_001069311
rs:NP_001075414
rs:NP_001075997
rs:NP_001076093
rs:NP_001077773
rs:NP_001079798
rs:NP_001083564
rs:NP_001084962
rs:NP_001086118
rs:NP_001086427
rs:NP_001086903
rs:NP_001089094
rs:NP_001095174
rs:NP_001095940
rs:NP_001098256
rs:NP_001098266
rs:NP_001099945
rs:NP_001105409
rs:NP_001105410
rs:NP_001105485
rs:NP_001105654
rs:NP_001119592
rs:NP_001125462
rs:NP_001126233
rs:NP_001130781
rs:NP_001131273
rs:NP_001132441
rs:NP_001134493
rs:NP_001136558
rs:NP_001136674
rs:NP_001136687
rs:NP_001140312
rs:NP_001140515
rs:NP_001140793
rs:NP_001141131
rs:NP_001141177
rs:NP_001141204
rs:NP_001141363
rs:NP_001147757
rs:NP_001152707
rs:NP_001161174
rs:NP_001164342
rs:NP_001169684
rs:NP_001171758
rs:NP_001193316
rs:NP_001230868
rs:NP_001231762
rs:NP_001232570
rs:NP_001234099
rs:NP_001234838
rs:NP_001238395
rs:NP_001238796
rs:NP_001239084
rs:NP_001240222
rs:NP_001241491
rs:NP_001242142
rs:NP_001242314
rs:NP_001242404
rs:NP_001242408
rs:NP_001247556
rs:NP_001268071
rs:NP_001268079
rs:NP_001268083
rs:NP_001274762
rs:NP_001274960
rs:NP_001275080
rs:NP_001275507
rs:NP_001275796
rs:NP_001275867
rs:NP_001275871
rs:NP_001276225

$ blink -u -t tax < filename

Alternatively, you can obtain the links as follows.

$ cat filename | blink -u -t tax

rs:NP_000658    tax:9606        original
rs:NP_000660    tax:9606        original
rs:NP_000662    tax:9606        original
rs:NP_000663    tax:9606        original
rs:NP_001001946 tax:7955        original
rs:NP_001011391 tax:8364        original
rs:NP_001011423 tax:8364        original
rs:NP_001011431 tax:8364        original
rs:NP_001011502 tax:8364        original
rs:NP_001012084 tax:10116       original
rs:NP_001024016 tax:6239        original
rs:NP_001025581 tax:8364        original
rs:NP_001026323 tax:9031        original
rs:NP_001027266 tax:7227        original
rs:NP_001027267 tax:7227        original
rs:NP_001027268 tax:7227        original
rs:NP_001027269 tax:7227        original
rs:NP_001027270 tax:7227        original
rs:NP_001027664 tax:7719        original
rs:NP_001029421 tax:9913        original
rs:NP_001031788 tax:3702        original
rs:NP_001031805 tax:3702        original
rs:NP_001031812 tax:3702        original
rs:NP_001036230 tax:9544        original
rs:NP_001037610 tax:7091        original
rs:NP_001039522 tax:9913        original
rs:NP_001040423 tax:7091        original
rs:NP_001040426 tax:7091        original
rs:NP_001040507 tax:7091        original
rs:NP_001069311 tax:9913        original
rs:NP_001075414 tax:9796        original
rs:NP_001075997 tax:9796        original
rs:NP_001076093 tax:9986        original
rs:NP_001077773 tax:3702        original
rs:NP_001079798 tax:8355        original
rs:NP_001083564 tax:8355        original
rs:NP_001084962 tax:8355        original
rs:NP_001086118 tax:8355        original
rs:NP_001086427 tax:8355        original
rs:NP_001086903 tax:8355        original
rs:NP_001089094 tax:8355        original
rs:NP_001095174 tax:9986        original
rs:NP_001095940 tax:9606        original
rs:NP_001098256 tax:8090        original
rs:NP_001098266 tax:8090        original
rs:NP_001099945 tax:10116       original
rs:NP_001105409 tax:4577        original
rs:NP_001105410 tax:4577        original
rs:NP_001105485 tax:4577        original
rs:NP_001105654 tax:4577        original
rs:NP_001119592 tax:10116       original
rs:NP_001125462 tax:9601        original
rs:NP_001126233 tax:9601        original
rs:NP_001130781 tax:4577        original
rs:NP_001131273 tax:4577        original
rs:NP_001132441 tax:4577        original
rs:NP_001134493 tax:8030        original
rs:NP_001136558 tax:4577        original
rs:NP_001136674 tax:4577        original
rs:NP_001136687 tax:4577        original
rs:NP_001140312 tax:4577        original
rs:NP_001140515 tax:4577        original
rs:NP_001140793 tax:4577        original
rs:NP_001141131 tax:4577        original
rs:NP_001141177 tax:4577        original
rs:NP_001141204 tax:4577        original
rs:NP_001141363 tax:4577        original
rs:NP_001147757 tax:4577        original
rs:NP_001152707 tax:4577        original
rs:NP_001161174 tax:7425        original
rs:NP_001164342 tax:9986        original
rs:NP_001169684 tax:4577        original
rs:NP_001171758 tax:9986        original
rs:NP_001193316 tax:9913        original
rs:NP_001230868 tax:9823        original
rs:NP_001231762 tax:9823        original
rs:NP_001232570 tax:59729       original
rs:NP_001234099 tax:4081        original
rs:NP_001234838 tax:4081        original
rs:NP_001238395 tax:3847        original
rs:NP_001238796 tax:4081        original
rs:NP_001239084 tax:9615        original
rs:NP_001240222 tax:3847        original
rs:NP_001241491 tax:3847        original
rs:NP_001242142 tax:3847        original
rs:NP_001242314 tax:3847        original
rs:NP_001242404 tax:3847        original
rs:NP_001242408 tax:3847        original
rs:NP_001247556 tax:9544        original
rs:NP_001268071 tax:29760       original
rs:NP_001268079 tax:29760       original
rs:NP_001268083 tax:29760       original
rs:NP_001274762 tax:4113        original
rs:NP_001274960 tax:4113        original
rs:NP_001275080 tax:4113        original
rs:NP_001275507 tax:10090       original
rs:NP_001275796 tax:2711        original
rs:NP_001275867 tax:2711        original
rs:NP_001275871 tax:2711        original
rs:NP_001276225 tax:3847        original

Brief History of DBGET and LinkDB

1980, Los Alamos Sequence Analysis System for the pre-GenBank project (by Minoru Kanehisa in Los Alamos)
1983, IDEAS: Integrated Database and Extended Analysis System for nucleic acids and protein (by Minoru Kanehisa in NIH)
1986, IDEAS ported from VAX to FACOM (by Minoru Kanehisa in Kyoto)
1989, A portion of SEQMAN program in IDEAS ported to UNIX and named DBGET (by Atsushi Ogiwara)
1991, Database update program SEQNEW ported to UNIX (by Ikuo Uchiyama)
1992, GenomeNet Database Service initiated (by Kanehisa Laboratory)
1993, Client version of DBGET (by Atsushi Ogiwara)
1994, WWW version of DBGET (by Yutaka Akiyama)
1994, LinkDB implementation (by Susumu Goto)
1995, KEGG Project initiated (by Kanehisa Laboratory)
1996, Extension of DBGET for KEGG (by Wataru Fujibuchi)
Since 2000, Further development and maintenance of DBGET (by Koichi Ohkubo)

Links and References

Kanehisa, M.I.; Los Alamos sequence analysis package for nucleic acids and proteins. Nucleic Acids Res. 10, 183-196 (1982). [pubmed]
Kanehisa, M., Klein, P., Greif, P., and DeLisi, C.; Computer analysis and structure prediction of nucleic acids and proteins. Nucleic Acids Res. 12, 417-428 (1984). [pubmed]
Fujibuchi, W., Goto, S., Migimatsu, H., Uchiyama, I., Ogiwara, A., Akiyama, Y., and Kanehisa, M.; DBGET/LinkDB: an integrated database retrieval system. Pacific Symp. Biocomputing 1998, 683-694 (1997). [pubmed]
Kanehisa, M.; Linking databases and organisms: GenomeNet resources in Japan. Trends Biochem Sci. 22, 442-444 (1997). [pubmed]

DBGET integrated database retrieval system