Panel Discussion

Moderator: Thank you for coming and of course also thanks to the panellists but I will introduce them in a second anyway. So we will talk, or discuss let's say better, the issue of Big Data and hypothesis driven research. So is it all hypothesis-driven research that counts? Is it hypothesis generating Big Data after the whole genome project? And many other of these biomics projects. Biomics, Big Data, systems biology, quantitative biology, computational biology - that are the buzz words of modern biology. And we want to know more whether this just reflects a paradigm shift from hypothesis-driven to data-driven biology? Or is it just a hype, a hype about something that's come up but is not really helpful? We'll see. Is it mutually exclusive or is it complementary? We have 4 panellists here. They are all Nobel Laureates, 3 in Physiology and Medicine and 1 in Physics. And I will briefly introduce the 4 laureates who have volunteered to discuss these issues with us: Jules Hoffmann from Strasburg received the Nobel Prize in 2011 on the discoveries of activation of innate immunity on my very left, on your very right. And on my very right and on your very left, Bruce Beutler who jointly got the prize in the same year on the same topic and he's from the Center for the Genetics of Host Defence at the University of Texas, South Western Medical Center. On my right here J. Michael Bishop from the University of California still. And he received the Nobel Prize 1989 with Harold Varmus on cellular original of retroviral oncogenes. And we heard all 3 of them on Monday. And Brian Schmidt from the Australian National University Western Creek, 2011 Nobel Prize in Physics. For the discovery of the accelerating expansion of the universe through observations of distant super nova. Sounds interesting to me. And I can't say much about it. So Bruce, can I start with you? If I recall your presentation correctly and also the work you did which I followed before you got the Nobel Prize, the TLR4 as the LPS receptor, toll-like receptor for LPS. It took you years and it was a kind of genetic approach. One could argue it's an unbiased approach. And the data you presented to us were more or less: You made mutations, you found mutations and then you looked whether they are involved in inflammatory bowel disease and other diseases. But I recall that the IBD was on your slides. So how do you envisage the Big Data? Is it a hype? I would like to have a citation, Sean Carroll, physicist in Caltech, actually did his PhD at the same lab as Brian Schmidt: And he once said, "Hypothesis is not just a simple tool, it's needed to understand the system." Now where do you stop? You're generating data, you're generating more data. Do you want to understand the mechanisms? Are you going in that or are you satisfied if you see that a certain gene is playing a role in a certain disease? Bruce Beutler: Well of course we always want to understand the mechanism. I think of myself as a reductionist. I start with a phenotype really. Not with a mutation but with a phenotype. Something very complicated, a mouse that runs in circles let's say. And what I would say is that it's not necessary to have a hypothesis to make quite a bit of progress, to come down at least to the level of the gene and the mutation and to say that this mutation is required to get this kind of behaviour or this kind of immunologic effect. Whatever the variant you're looking at might be, there's nothing wrong with hypothesis of course. But my point would be that one can go very far without them. And this doesn't make any comment on whether it's Big Data or small data or intermediate data. There really is no dividing line there that I think any one of us could define. It's a question of whether work is driven by hypothesis or whether its hypothesis-free. And both definitely have their place in my view. Moderator: So with all the data you're accumulating currently, I guess at least because we do kind of similar projects and I'm often kind of almost suffocated by all these data that are coming up. You're going through them step by step, you have a whole team of computational biologists? Bruce Beutler: No, once we have a collection of mutations, the hope is that they are mutually reinforcing in some way. And that we can make better sense out of let's say 20 mutations that cause the same phenotype than out of one. And at that, if we have multiple alleles of many genes that's more helpful too. One can still carry on with the genetic approach. For example one can do a suppressor screen, one can look for epistatic effects between mutations - you can go very far that way. But certainly we don't shy away from looking at things with biochemical approaches or cell biological approaches too. Those definitely have their place. Moderator: Jules, you got the Nobel Prize in the same year on the same topic. You benefitted clearly from the insect genetics. But to me somehow I always had the feeling that hypothesis-driven research is the one you are pursuing very eagerly. And let me just cite Chris Anderson in Nature Methods 2 or 3 years ago, "Biology is too complex for hypothesis and modelling. The classical approach is dead." Would you agree? Jules Hoffmann: No (laugh). So what I would like to say is that, well most of the young people here to whom we're talking have heard the story which I gave the other day. And so in the beginning the question was clearly, what explains the resistance of the insects. So it was a question, it was not a hypothesis. We didn't know what it would be. And there was a time when you couldn't collect Big Data. You know it was not yet a Big Data time. So we had to work along. And as I mentioned we were lucky to have someone who had approached this in an unbiased way and that was Nüsslein-Volhard who had worked out the dorsoventral pathway. And then we got, through the NF KB story, we got into that. And then in the first part of our work it was not totally unbiased because we were asking, 'Is this cascade reused in immunity?' So that's not totally unbiased. But then when we did not understand how antifungal defences went, gram-positive bacterial. Then we resolved to unbiased mutagenesis screen ourselves. And so obviously our laboratory has always been very strongly orientated toward unbiased mutagenesis. It's still not Big Data. But then we ran into problems, Big Data, small Big Data problems. When we were looking at the interaction of these molecules through the appropriate techniques of seeing, of identifying the proteins which were the ones which we had found for genetics. And there we ended up finding 400 proteins, most of which are required for the activation of the system. And now we're in a situation where we really, you know when you have 400 candidates, and you know the sequences because thanks to the Big Data of drosophila genome sequencing. We know the identity of the molecules but we do not know their function. So here we start now being in a problem where we have 1 by 1 gone through experiments, such as, So there's, I'll conclude on this now. So for me it's a little bit artificial at this stage, at least in the work which we are doing, to make a difference between 1 or the other. In the beginning there's always a question, with other questions. You can say it's a hypothesis but you can have a question without having a hypothesis how to solve it. And then after that when you come to have many, many candidates, then you have to really painstakingly, labour intensively go through each of the candidates. Moderator: Well I think you could nowadays also just by correlation find a relationship between let's say a mutation and a phenotype. And that would be not necessarily needing any, in need of any hypothesis or model. Jules Hoffmann: No, that can speed things up. But it doesn't, it's not a demonstration you see. And will not be accepted, in eLife it would maybe accept it but not in the other 3 (laugh). I'm kidding because I know he has left. Jules Hoffmann: I'm on the board, on the editorial board of eLife so I'm not speaking against it but I was just making a joke. Moderator: Good. So you started your Nobel Prize winning career clearly with a hypothesis. There is a healthy cell. It contains a proto oncogene and when that is triggered cancer may develop or will develop. That the model you used was very carefully selected, Rous sarcoma. And then still cancer had its ups and downs. Many promises were made. Therapies were proposed. Cures were proposed. And still we're in a very early stage. And more recently the US has initiated the cancer genome atlas. And I view that as a real unbiased approach. There is a mutation. You may associate it with a cancer. You don't necessarily need to know what the mechanism is underlying. But still could use that for a predictive diagnostic. You could perhaps use it for a target. So is that the way to go? J. Michael Bishop: It's not the sole way to go, no. I'd like to make a preparatory remark here. I think that these 2 categories don't fully define how a scientific discovery is made. For example, if you read in the history of science as I do, you're going to encounter repeatedly not only examples of but repeated expressions of the aphorism that serendipity is extremely important in scientific discovery. And that can arise in the context of looking at large amounts of data. But more commonly it arises in the experimental laboratory where you do an experiment with an unexpected result and it leads you off on a new path. So that hypothesis, it can be hypothesis-driven in the sense that you start out with hypothesis but it leads you somewhere that you didn't at all encounter or expect. And so I think these categories are a little restrictive. So about how Harold and I began. We began with a much simpler hypothesis than what you outlined. Our sole hypothesis was that maybe the viral src oncogene was acquired from the cell. I never remotely dreamed that if that experiment was positive it would lead, along with subsequent events, to where we now stand in cancer research. The initial hypothesis was very limited and eminently testable. And it turned out to be correct. But it wasn't as elaborate, it wasn't as anticipatory as you described it. Now that brings us to the current day when by 1989 That was compiled in 1989 for my Nobel lecture. And now we have 100s of them because of genome sequencing. And the objective is to get an absolutely complete inventory. And people who are better at math than I am have projected and other participants in the cancer genome atlas project or the international projects, I prefer to think about - project that to really saturate the list we're going to need a million cancer genomes. And I've alluded in other context in fact that we already have some rough idea about this because saturation mutagenesis of a sort that reveals cancer genes in a mouse, the number when they quit was 2,000 potential cancer genes in a mouse. So we're not there yet with humans. So that's Big Data. A million, I wrote this down, a million cancer genes is 10^18th bites. That's a lot of data to store and managing it and manipulating it. The estimated price is just a hundred million dollars a year when we start using these data in some way. And I have to say that the analysis is way behind the data collection in this project. We don't have enough bioinformaticists at the moment. But the point is that, yes it's Big Data. And you could say it's, the bias is that there are cancer genes there to be found. But what it does is to fuel experiment. Because once you see an association, association is not proof. Once you see an association between a gene and a particularly cancer, you've got to go back to the laboratory and ask by one means or another whether this gene has the capability to participate in tumour genesis. Now will that be done for all 2,000, I rather doubt it. But Big Data can fuel hypothesis and lead to more experiments. And in the case of the cancer situation it's a virtuous cycle. So you start with Big Data, say the cancer genome, and you identify a candidate oncogene in breast cancer by virtue of association, high frequency that this particularly gene is mutated in a way that activates it in breast cancer. Then you go to the lab. You verify it. Or if you're really brave you go ahead and start developing a drug against it. And you take the drug into the clinic and it works for a few months and then resistance emerges. And what's the best way to figure out the resistance? Back to the genome. That's what we hope to be able to do, eventually, to use full genome sequence of patients tumours. Not only to identify the targets but to anticipate the kinds of resistance that are already built into the cell, to this drug that we simply couldn't anticipate from our current knowledge of the signalling pathways. So the 2 are complementary. One can fuel the other. And you can really be badly fooled by Big Data and there are a couple of good examples. My 2 favourites are, one the famous Google flu tracking. Maybe many of you are aware of this. Google thought they had outdone our so called Center for communicable diseases in the United States. Because they were screening for what they considered signs of flu and were predicting the size of epidemics. And for a year or 2 it looked like they had it. And then all of a sudden it just fell apart. And what happened was that when people who knew what they were talking about, looked at the metrics that were being used and they were way too squishy. They didn't discriminate the common cold from flu etc. Another more rigorous example is that in a very large study of statins. I presume you all know about statins, a cholesterol reducing drug. What was noticed in a Big Data assessment was an association between the use of statins and 2 unanticipated medical outcomes. Relief of a reaction to acute sepsis and relief of a very refractory disease known as chronic obstructive pulmonary disease. The data were really quite suggestive. Large clinical trials were mounted to test this. The results were just reported within the last month and both were a big flop. That association was completely spurious for whatever reason. So it just dramatises the fact that you can get ideas or hypothesis from Big Data, but you have got to be pretty careful about the idea that mere association proves cause. It simply does not. Moderator: I fully agree, particularly on the flu example with Google. At the same time it gives you an example that by mere algorithms you can come to a conclusion. The question is then is it the right one, but there are algorithms of course who also predicted the right conclusion. Perhaps that's the time to go to Brian Schmidt on astrophysics. I understand that you look at the universe and conclude about the expansion of the universe. That must be Big Data. Actually, in the context of looking into this, because you just mentioned Google. I found out that Google means 10^100. Is that the dimension you are talking about? Brian Schmidt: No 10^100 is the number of, is more than the number of electrons in the visible universe. So that's a big number. But you know we've been working in astronomy for necessity of Big Data for as long as we can. So my people saw my talk in 1994. I had to deal with 20 to 30 gigabytes a night. And that was Big Data back then. Of course I take that in about 3 or 4 minutes with our telescopes now. But we're dealing with petabytes. And 10s of petabytes. And even you know exabytes which is 10^18. And we can go bigger than that. But we're limited by power ultimately and computers and money. Really it becomes money. And the reason we do this is, it's useful. Big Data is a tool. And it's one of the tools in our arsenal. And when you have an experiment either in physics or astronomy and you want to be able to go through, and let's just say propose a hypothesis, sometimes you need to shine light out so you can even make a hypothesis. So I'll give you an example. Right now we have a complete theory of particle physics. It was completed with the Higgs Boson. We have no reason, we have no other, we can make hypothesis but they're completely unfounded or almost unfounded. What we need to do is, we need to go out and search the universe for new particles because we have a hint they might exist. So our hypothesis is if we take literally petabytes of data a second and sift through it all, we might find a hint of a new particle. And we might be able to then, once we see that hint, we can then start building a model which we can then further test. Very similar analogy to what we're talking about here with, for example, associations. Now I'm going to take a slightly different point of view. If your statistics are strong enough then you have proven association. If I show an association has a significance of you know 22 9s, then I'm sorry you have proven it. We don't know what it means so it's not that interesting. But it is the ability to go out and essentially say we need to look at that further. One of the things that happens in biology Well ok you put it in a footnote in the table on a physics thing. You'd say well maybe this is going to be interesting but we don't care. You guys very rarely have 4 9's and when you do you really know, you think you have something. We think we might have something with 4 9s. And the reason is, is that people ask questions of data all the time. There are 600 people in this room right now. If you all ask data 10 times, then we're going to get a 3 9s right here in this room just by asking 10 questions each of the data. And so that's the danger of Big Data is you have to go through and really think through the statistics, through what we would say a Bayesian framework, where you use the fact that we're asking questions of the data. How many of those are we doing? And if you screw up you find false things that don't bear themselves out. So you have to raise the standard of the statistics. And that's the hard part, it's a different framework. But I would say that it does give you that search light. And the other thing it gives you too is a very powerful diagnostic to test your hypothesis. Rather than have a black and white yes or no, which is very convenient. I'm afraid most of my time we don't get that. We have to go through and barely, we have tiny amounts of signal in the data. But when I add it up a billion times then I have 99.999999% surety of my answer. And that's the other value of Big Data, you can squeeze information where formally you just can't see it by eye. So it's different. Moderator: So can I ask you actually...? J. Michael Bishop: Can I just, can I put a wrinkle on what he said about statistics. I absolutely agree. And obviously that's the way the genome data are being used to call potential oncogenes. However, the ugly truth about biology is that that gene which you call on very sound statistical grounds may have been selected for as a secondary consequence of the neoplastic phenotype. Granted the search lights picked it out and you're obliged to pursue it. But it doesn't at that point prove a direct driver role in the cancer. Brian Schmidt: I agree, it's not correct. J. Michael Bishop: It could be a resistance gene, it could be any of several other sorts of genes. That was... Brian Schmidt: It certainly could be indirect, absolutely but it gives you that search light. Ok that and then you have to say ok actually that means that. J. Michael Bishop: If I didn't think it gave a search light I wouldn't be an advocate for the genome project. And I'm not a genomicist at all. But I'm an advocate for the project. Moderator: Can I then ask you a question which goes more perhaps in Big Data in medicine actually? As you told us here 600 people, let's say we have 20 parameters of each individual. That already makes it almost impossible to find statistics easily in a small group. So how do we solve that? Is there a way? I mean do we need clinical trials with 50,000 individuals? And who pays the bill. Brian Schmidt: So one of the things you can get away with, with Big Data, is you avoid the clinical trial. You put everyone's records - this isn't very popular for privacy advocates but I think some countries will do this - and you do all billion people. And I think you'll be able to circumvent some of the clinical trials which are amazingly expensive until the VERY end. So you've really gone in and you say, I've done this, it's not controlled. But you have so much data that you can actually get out other factors. And so I would think there's a lot of scope for doing that. You're still going to need a clinical trial at the end probably. But I think you can have those be 99.9% sure. Moderator: So would you tell us take observational studies on data that are already around? Brian Schmidt: Yeah but you want billions of samples. Not hundreds. Moderator: Do you know how many people live on this earth? Brian Schmidt: Yeah it would be really good to have all 7 billion. And I predict, you know in 30 years we're all going to have our genome there. And that will be part of the deal. Moderator: You may have to exclude Germany for certain reasons. They are very strict on this. J. Michael Bishop: And I'd like to add to that. Because one thing that's already becoming apparent is that Big Data on health care records has led to repurposing of a number of existing drugs in very productive ways. Unexpected associations of the sort I mentioned. Those were flops but there have been also successes in repurposing drugs that came right out of very large population surveys. And they're just going to get bigger with the caveat about the privacy issues, which we have to solve. Brian Schmidt: And I was talking on the first day about, you have all these phase 2, phase 3 studies where you have information. And when you add all that information up downstream you may well, as you say, figure out another use for that too, where you suddenly realise that actually people with this genome sequence can use that drug. But we just didn't have enough information to begin with. So I think adding all that information allows you - doesn't fix things, you still have to ask the right questions - But it gives you a great tool. Bruce Beutler: I just want to make a comment: that we shouldn't lose sight of the fact that the quality of the data matter greatly also. And they correspond to the resolution of the experiments you do. And furthermore if we're talking about needing Big Data to test a drug for example then it must have a very weak effect. A good drug, a drug with a strong effect, it can be detected with a rather small number of individuals. Brian Schmidt: That's true but let's say it's only effective, it's almost 100% effective on people who have 1 in a 1,000, this sequence in their DNA. Then Big Data allows you to pick that out and that's the whole idea of this personalised medicine where you might be able to save some drugs. Who knows how well it will work, it really depends how the medicine works. Moderator: This is probably, as you said the next step is to personalise medicine and you were talking about the kind of wonder drug that works in everybody. So this was a kind of a first round. An appetiser. I wonder whether there are now already questions, comments from the audience which I would very much encourage. Do you want to make a comment first? J. Michael Bishop: No. I express my concern that maybe we've given them indigestion instead of an appetite. Moderator: Okay, good. There are many questions and there are 2 microphones left and right. So you would have to go to the microphone please. Question: My question is to Professor Bishop. So you talked that Big Data is often considered synonymous to systems biology. But systems biology has another component which is the bottom-up approach. That is taking up a few genes of proteins, studying their interactions, making up a gene regulatory network and then studying the dynamics and then moving up. So in that way we are not being blindly following Big Data. Because if a car is broken down, Big Data will tell us that steering is not working, wheel is not working, this is not working, that is not working. It doesn't tell us what exactly is not working, it says nothing is working So on the other side, bottom-up approach tries to identify what exactly is the dynamics of the system. Maybe it starts with a smaller case and then tries to build. So how do you think this systems biology term, which has been misused in order to promote Big Data politically, scientifically etc. etc., is actually a hindrance in the actual progression of the understanding? Moderator: If I may just add. The next round I wanted to have systems biology as a full round but still if you want to give a short answer to that. J. Michael Bishop: There is no short answer to that. If I heard you correctly you equated Big Data to systems biology. If so that's incorrect. Second problem is I want to know how you define systems biology because everybody I ask gives me a different definition. Including a good friend of mine who is a chair of a systems biology department at a leading university. Can't define it for me yet. So I just, I don't know how to answer your question, frankly. Because it seems to me there was some confusion of definition in it. And could you put it more succinctly? Moderator: Can I ask you that we do that in the next round when we go into more details about that, sorry, is that ok? Thank you, next Question. Question: So I have a question for Doctor Bishop also. The cancer genomics or Big Data help people to find like new oncogene or new tumour suppressor genes. But like on Monday in your discussion session we discussed that for the new cancers you appear to be targeting maybe the synthetic lethality gene could be the potential target. But do you think we can find this synthetic lethality genes, for example to make oncogene or PFD3 tumour suppressant medications from this Big Data? Because for me it's now pretty obvious we can find synthetic lethality genes. J. Michael Bishop: Sincerely, this is a somewhat specialised question and we might want to discuss it in private. You and I have already had discussions in private about this. Synthetic lethality is a phenomenon discovered with microbes. You can have 2 innocuous mutations, A and B that have a mild phenotype or no phenotype. If you combine them in the same organism, the same microbe, they're lethal. And in a therapeutic setting the oncogene is mutation A and the therapeutic is mutation B. And the therapeutic B is not, in the synthetic lethality approach, is not directed at the target. It has been either randomly selected by techniques I can talk about or has been deliberately utilised. And it hits something else in the cell which in combination with the oncogene is lethal. That's synthetic lethality. And its virtue as a therapeutic approach is that you can hugely increase the number of drugs used to treat a certain genetic lesion. Because you're not targeting that lesion, you're targeting many other things in the cell, some of which will have a synthetic lethal interaction with the over expression of the gene or the deficiency of the gene. And there is one drug in the clinic in use that's used for BRCA deficiencies in the synthetic lethal manner. So there is a Big Data of sorts involved in this. You can do genome wide screens. You have a cell line in the lab that has a mutation in ras for example. And then you use that line. And you take a library of RNAi that represents the entire genome, probably redundantly, and you screen for RNAi's that will kill the cell that has the mutant ras gene in it. And you will come up with, and Steve Elledge has done this, you will come up with dozens of hits, none of which are affecting ras, they're affecting other genes in the genome. They become candidates for synthetic lethal targets. But then you've got to go through it all over again, find the off target affects that are quite common with RNAi, and then you have to decide if you know anything about the function of the genes, how you're going to target it. But in principle - and this is being done widely, big pharma has adopted this - you can do genome wide screens for genes that have synthetic lethal interaction with your preferred target gene, ras, mic, you name it. Question: So my question is we still need to do the screening experiment to find the genes, right? Instead of we can directly get information from the Big Data or cancer genomics, we directly come up with some candidates of synthetic lethality. J. Michael Bishop: I don't think we know enough about the signalling pathways to do that. We don't know nearly enough about the signalling pathways to make a prediction like that. That's what systems biology is about actually. Question: Particularly you know we have some of the most brilliant minds from around the world here in this room. But particularly... J. Michael Bishop: Out there in the audience yes. Question: And on stage as well. But particularly for us Americans you can't speak about Big Data and not have us think about the movie Gattaca. Some of you have seen it and if you haven't seen it, even if you aren't into the science it's a really good movie. But my question to you is, I feel in the next couple of years we will not only have sequenced many of the genes involved in a lot of genetic diseases but we also will probably have sequenced the genome of much of our population. What do you think of the morality of being able to look at someone's genome and be able to predict, you know, predict the certain genetic diseaseses. Do you think there's a potential? There would be discrimination based on particular genetic diseases that you have. Will insurance companies deny coverage for someone who is predisposed to heart disease? Some kind of defect causing stroke or atherosclerosis or all sorts of things. What do you guys feel about that? Moderator: Who wants to take that up? J. Michael Bishop: I'll start. That's not a problem of the future. We've had that problem. I mean we had that problem with Huntington's disease families etc. And it is a difficult problem and I think our society is still working it out. But certainly genetic counselling is done routinely for Huntington's disease families. You're just expanding it to the somewhat less likely possibility that we can look at polygenic determinants of susceptibility and actually make any sense out of them. But right now we already have the problem and I don't think we have a simple straightforward solution. Frankly, we leave it up to the patients: Do you want to know whether you're carrying Huntington's disease or not? And many say,"No I don't want to know because there's nothing to be done about it." And some say, "Yes I want to know", for a variety of reasons. Moderator: So the patient is the owner of his or her ... J. Michael Bishop: Yes exactly. Moderator: Anybody else. Jules Hoffmann: I was going to say it's not only a negative. Huntington, that's a special point that can tell you that you can change, you have to change your diet for instance, you have to be careful with this and that. So it can help you if you - I wouldn't mind knowing, well ok. But ... Jules Hoffmann: The point I wanted to make is that we should not look at this as purely negatively and purely dangerously and purely frightening. I think it could help us. Do you get my point? What's your opinion about it? Question: I personally think the human race has a history of discriminating for any reason. I think that if we find a reason to differentiate between people, based off their genes, based off of their culture, based off of their race, I feel like we will. I think we may be progressing in a lot of ways but I feel like we have the tendency to categorise people into schemas. And I feel like if my employer has the ability to take my DNA off a coffee cup and see that my life expectancy is 20 years less than someone else's and I lose a job because of it. I feel like that could be very negative. J. Michael Bishop: But that's correctable by legislation and that's already happening. Bruce Beutler: I'd agree with that, It's an interesting point.) that much good came come of knowing everyone's sequence. Including possibly even understand polygenic disease. If we knew the exact relationship of everyone else in the world to everyone else in the world. It's not very elegantly said but in any case we could follow phenotype. We could draw a lot of inferences that we can't now. But obviously there are potentials for abuse and they would have to be guarded against. And I agree that it could be done legislatively. Brian Schmidt: I was just going to say it's clearly a role for government. We already use government to legislate against discrimination. And that's how it's going to have to be done. Because you're right, if you're an insurance company, you want to make money. Question: I'd rather trust you guys than our governments. Brian Schmidt: You're going to need to trust your government. Moderator: Thank you, next one from this microphone. Question: My first question was in a similar direction about ethics and what do we actually do if we have this whole genome. I think we answered that already. But I have a second question: what about if we do personalised medicine? We have a small sub population of patients and we are trying that right now in industrialised countries. And we have a problem of cost. So what about economy? And how do we pay that? And is it possible to do that if we have smaller and smaller groups? Moderator: Anybody to comment on that? Economic issues. Well it started very expensive, the whole genome. We are now down by $500 or whatever per genome but still it's a lot of money. Is that the way you wanted to phrase your question? Question: Yes. It's also if we are looking in oncology, sometimes we are talking about populations of 5% or 10% that might have a benefit from it. And so it's really, well that's a huge, if we have a small group, we have a huge cost because it's, well ... Moderator: Let me perhaps simplify it: if you look at developing countries, $500 is still a lot. Where is personalised medicine going into? Notably from a kind of financial issue? Anybody comment on it? Brian Schmidt: I guess I note that the whole, you know Big Data is becoming quite cheap. So pretty soon it's going to be $10 to sequence the DNA of you know anyone. You're going to put that, it's going to be very cheap. It's going to be an adjunct to the information you use to help diagnose a patient. But that being said, just like now, you have to rationalise the cost. And so there will be economic forces at work about who can pay, just like there is now. There will be economic rational about which particular research is done. If you've got 10 people across the world with a disease and we know if we spend $1 billion we can fix it, we're not going to do it because it's just not cost effective, because we have other things that are higher priority. There will be a prioritisation. But the whole notion of Big Data, I think, has the opportunity to make things much, much cheaper than now. And so in the end everyone will be a winner. Moderator: So let me suggest that the queuing now is closed. So we have 3 here and 1 here and then we go on in a second round and come back to, and actually I'm very delighted that we get all these comments and questions from the audience. Next one. Question: I have a very basic question about the nature of hypothesis and I hope it's not a trivial Question. But in this discussion about hypothesis-driven research and Big Data it seems to me that even these screening approaches have a very simple hypothesis behind them. That there would be some, you'll be able to see in the Big Data some associations or maybe even a causative gene that comes up, associated with a phenotype. And my question is, are we talking about hypothesis? Can you define what you all see as hypothesis? Or are we talking about causality or maybe establishing causality or is it something else? Bruce Beutler: I can give an example. In the kind of screening that one does genetically in forward genetics. Definitely there's a hypothesis and the hypothesis is that these phenotypes we see have nothing to do with mutations. That's the null hypothesis. And you test it on every mutation in every animal you have. And you look then for things that appear to contradict the null hypothesis. We call that linkage. And this is just one example. But I think you could quote from R. A. Fisher if I remember his words. He said, "Every experiment exists to give the facts a chance of disproving the null hypothesis." And that runs through all Big Data essentially. Moderator: We can go on that later. I think it's going into philosophy and there are still some differences between hypothesis and null hypothesis. Let's go, next Question. Question: Well I have a very similar question actually. About the definition of hypothesis. So according to me there are 2 ways you can make a hypothesis. One is you can make a hypothesis based on say previous observations. The other way is to make a hypothesis based on developing a physical or a mathematical model. So if you have a physical or a mathematical model you can make powerful predictions. And again test your predictions and you can have a complete faith base of what kind of results that you can obtain. But on the other hand if you don't have a physical or a mathematical model or if you cannot make a physical or a mathematical model then you are more restricted towards making a hypothesis based on previous observation. For example when you do a screen you make a null hypothesis. And then you think whether it affects the, whether your gene is going to affect whatever phenotype that you're looking at or it's not going to affect. Can you elaborate on the hypothesis that is made which is not based on physical or mathematical model? Like how do you go about it? Brian Schmidt: I would argue that both are mathematical, one is just more complicated than the other. One is a binary, there is, you know, that thing causes something to happen, a yes/no - it's a very simple model. And the other one is: I have a set of equations and so that causes this function to react like that. They're both mathematical models. Just it's level of complexity, so you can range it up from anywhere, from very simple to very complex. J. Michael Bishop: I want to point out that the overwhelming majority of progress in biology over the generations has been made with hypotheses that were not mathematical informed. And you've left an important variable out of the equation. Imagination. Most hypotheses in my field come out of imagination. Often fuelled but not always fuelled by pre-existing data. The Hypothesis that Harold and I worked on I tell you was not based on any preceding data other than knowing that the gene, viral oncogene existed. And Darwin. Those were the foundations of our hypothesis, nothing else. Brian Schmidt: But those are still observations. J. Michael Bishop: Yeah sure. Question: I want to know what about data that comes in very slow. For example some kind of syndrome that has a very low incidence, comes in once in every 100 or 150 years. And we know we cannot wait for, I mean, it's a question of life for an individual. Like Doctor Schmidt said that 30 years for the genome project. But we know this thing is not coming, this thing is not coming very soon. Is it ok to go to a hypothesis very quickly. Or like should we wait? And what should we do about small data that comes slowly hidden within Big Data? J. Michael Bishop: Sounds like you're assuming that Big Data can be used to address any problem in biology for example. I'm not sure that's correct. Am I correct? Is that what you're suggesting? Question: No sir. I would like to know that the things that come in very slow, on which we actually do not have Big Data even if you look for it. I mean we have to look for a large amount of data to find that small data. But the collection of the small data - should we wait for those small incidences and diseases that are rare? Should we jump into a hypothesis or should we go on a more slower path? J. Michael Bishop: I'm in favour of jumping in to the hypothesis. That's what we did and it paid off. And I can't think of any sort of Big Data that would have helped us with that particular hypothesis. Brian Schmidt: I would just say that don't presume you know how your hypothesis is going to be tested. You may have a very long vision and say it's going to take 75 years to test this hypothesis. And someone 6 weeks later will say oh actually I have had a short circuit and bam. So a good hypothesis, if it's well motivated: out there as fast as you can. J. Michael Bishop: Absolutely. Moderator: The queue is growing longer there. Let's take very brief questions. Question: You mentioned that, it was mentioned I think by Doctor Bishop that there's under analysis of the data, the analysis are beyond the data production. So I was wondering if you had any solutions to that. Is it data sharing that needs to be more effective? Or publication of the data before publication of the papers? What are the solutions to speed up the analysis of the data? Bruce Beutler: I think sharing always helps. Making things widely available always helps. At some point people do, I think I emphasised, have to make hypotheses to go beyond the initial discoveries or the initial observations. And there's nothing wrong with that. The only problem with hypotheses that I can see is that they run a little bit against human nature. People like to be right rather than wrong. And they should be very stringently testing hypotheses and that isn't always the case. I'm sure it doesn't apply to anyone in this room but it does apply to some people and it's the basis of a lot of error in science. Question: My question is: what are we going to do with all those thousands and thousands of variants that have very small effect sizes that we detect from those studies? Each of those will have a very minor effect but if you take them together they might actually be useful. What are we going to do with those? I mean we cannot just go back to the lab and validate them and find their function. It's a hard task, right. Moderator: It's a question for modelling systems biology - forgive me - approach where you look at it in its complexity rather in a single pathway. But I didn't, actually, did not want to go into answering question, is anybody? Jules Hoffmann: I think Bruce you're the man to answer that Question. Bruce Beutler: I would just say when you are doing some kind of unbiased screen to detect phenotype, it's you who are in the driver seat. And you decide what is important enough. What's of a magnitude sufficient to capture your attention and what is not. And according to your resources you have to draw the line somewhere. Looking for additive effects between weak phenotypes for example can have its place. You have to be pretty brave to go out and do that, I would say at this point, but it's possible to do it. Question: Hello, good afternoon. My question is we're all a product of 3.5 billion years of evolution. And for the first time in the history of life on planet earth our generation of people got the toolbox to actually directly influence this evolution. Our consciousness got this feedback loop to influence our evolution. And we consider some genes good or bad, some variants are good or bad, some are causing disease on the level of individuals, like we don't get cancer as a species. And I guess my question is now we have the chance to actually eradicate these genes. And would eradicating these variants of these genes, might it hurt us as a species? Removing this diversity, might it hurt us as a species? Bruce Beutler: I think we're very far from actually doing that. Might it hurt us as a species? If you remove all chance for genetic disease - well perhaps yes. I think if you reduce diversity eventually that's not a good thing, assuming that one could do that. But we are far from being able to actually do that. Jules, do you want to comment? Jules Hoffmann: I would also say this is very dangerous. I mean there must be a limit. There's a certain number of diseases where, when you give genetic counselling to families a certain number of diseases, where this can be put forward. But if you really go to the level of susceptibility to heart disease or to cancer and so on, you would eliminate people who have, who are able to do fantastic things until the age of 40, 50 or so. Just think of Mozart and people like that. If you had eliminated them because they were susceptible. I think he died of tuberculosis didn't he? So we have to be extremely careful there. And I think all society would be careful on that. And not only the governments but the various religions which are around in the world. There must be a limit. We have to set that. Would you agree? Not totally. Question: I would say so but I don't feel confident in setting it. I don't see, I mean there is this continuity to everything, right. Jules Hoffmann: That's true. That's true. Question: And I can't really see where the border lies. Jules Hoffmann: Yeah, absolutely. I agree with you. But again we agree that we have to be careful as a society. We cannot go ahead, otherwise it's .. Question: Again it's a powerful tool box and it never happened before in history of life on this planet. Jules Hoffmann: Exactly, you're right. And this is an aspect which occasionally makes society a little bit suspicious about science. As we could, actually we could do that probably over the next 50 years, eradicate all the susceptibility genes and so on in all new born children. But it would be, I think it would be dramatic. Bruce Beutler: They'd be back in a few more generations anyway. Question: You never know ... Moderator: Actually we're running short of time. But I see and it's actually very nice to see all these questions coming up. So let's go on. Your Question. Question: Very sorry, I am here again. I want to ask a question, how do you treat unexpected results? For example you have a Question. You ask the data a Question. You're connected to some data. Then you did the statistics. And you find some other positive results that you didn't expect. I think this is very commonly happening to us. But on the other and like if you ask your data 10 questions, there must be something positive. So how do you treat these unexpected results? Moderator: Do you have a special person, laureate to ask that? Question: No. Moderator: Anybody volunteering for answering? Jules Hoffmann: You got occasionally unexpected results didn't you? We DID. Bruce Beutler: We all love unexpected results, I think, all of us. Jules Hoffmann: Absolutely, it's fantastic. Bruce Beutler: All of us love unexpected results and 9/10 of the time it's something that we've done wrong methodologically and it has a trivial explanation. But occasionally it really is a big discovery. And also, of course, we and others plan for exceptions. We try to surprise ourselves actively by perturbing the system with mutations for example. Or by screening for drugs to find things that will perturb the system. And those can be of interest in themselves too. Brian Schmidt: I just will say though that when you're asking you have to raise the bar on what is, what the data is saying to you when it's unexpected. Because the statistics become quite, I would say complicated. It's not just the questions you're asking, it's what everyone else in the world is asking. And you know one of the problems we have is the bar is probably too low and we have a lot of things which are spurious. And that's very expensive for the field and lowers the quality of the science. So it's a very challenging Question. And the easiest way is to be, have a higher bar of what's right, what we think is right. Moderator: Next one. Question: I have a question about personal genome. Because technology is moving so fast forward now that biology is not able to catch up with it. So how do we tell, especially in genetic counselling, how do we tell the patients that they have a mutation but we don't know what it does? So what do you think about that? Bruce Beutler: You're asking how do you tell a patient that he or she has a mutation or that there's one in utero when one doesn't really know what the gene does? Question: Yes. Bruce Beutler: That comes up quite commonly and it's a difficult problem. Of course, there's a larger and larger catalogue of experience on what happens to every gene when it's mutated. But sometimes we really don't know. Question: So what I meant is are we ready for personal genome sequencing. J. Michael Bishop: We're having trouble understanding your Question. Moderator: Are we ready for personalised genome sequencing and personalised medicine more or less, I guess. Bruce Beutler: I would say technically we're ready. And we're ready except in those cases when we don't really know what happens. And then one simply has to admit that we don't know. Question: Wouldn't that provide of lot of anxiety for the patients if they do not know what will happen to them? Brian Schmidt: I think that's already the case. I don't know how long you're going to live - you don't expect me to know. We don't know everything. We get more information. You will be able to say, we have a 35% probability that you will get Alzheimer's if you have this particular you know genetic sequence. So people say here they don't want to know because what can we do about it. I want to know because I want to plan my life around that. So there already is uncertainty in everything. There always will be uncertainty in everything. I don't think it changes the equation at all. Question: Good afternoon. I would like to ask what kind of Big Data do you think will be more helpful to cure disease, wider data or deeper data? And I mean I feel like in the past there's been a lot of emphasis on number of samples, number of patients, like in genomes for example. But what about having even less patients but trying to collect deeper data like sequencing whole genomes, adding epigenetics and expression and proteomics and deeper phenotypes instead of single phenotypes. J. Michael Bishop: That's all being done. It's all being done. But numbers are really important, as you've heard, for statistics. So you can't just drop the need for numbers. But you know proteomics is a growth industry, epigenomics is a vibrant field But in any event you just can't abandon the need for numbers. Doctor Schmidt made that so clear a while ago. Brian Schmidt: But I will say that's a question of quality of data which is how much you have and quantity. And depending on the question you're asking some things you know that are very common, you need lots of quality. And things that are very rare you definitely want very broad. So you really want both. But I think it really depends on the question you're asking. Moderator: Last question for this round. Question: I guess I'm the lucky one. So I have a question about another form of Big Data. It's actually our scientific publications. There's increasing number of people studying biology and the mechanism is getting more detailed in different disease setting, especially in the field of cancer biology and immunology. And I was wondering if I wouldn't keep up with it. Maybe this is a question addressing to the editor of eLife. If there's anything else that we could do to make this process easier. Jules Hoffmann: Yes I fully agree with you. I'm in the same situation as you are. I cannot keep up. And so I am desperate occasionally. And just think of, coming back to the joke about eLife, the 3 other journals which were mentioned by Randy Schekman. If you try to keep up to read those 3 journals, every week or 2 weeks. You'd spend most of your time reading articles and you don't do research. So you're fully right. I mean let me - let me tell you a joke, just an anecdote for a second, if you allow, Mr. Chairman. When I first met the father-in-law of my son, he was a pilot and he said to me, what are you doing. I said we're doing research. He said, research? There's already so much known, no one can keep it in, so much. Why would you like to add to the research, to the data? You're right, fully right. I sympathise with you and I suffer like you from that. But that's not an answer. Moderator: Ok you want to comment on it as well. Brian Schmidt: So the literature in all of our fields is exponentially growing, literally exponentially growing. And it is a Big Data problem as well. But the fortunate thing is there are tools helping us on that as well. When you go through and you want to query the web, you don't go through and go through each page. You've got Google to help you or you've got Bing or Yahoo or whatever. So we're going to need tools like that and they're being developed. And you're going to be able to say: these are the types of things I'm interested in. It's going to learn from you and it's going to say whenever any new journal comes out, articles in this area that you're interested in. It will throw it out to you. So I think we can do that. The hard part are the things that you don't know you're interested in. And that's why you go to talks and listen to what other people are saying. And hopefully follow Twitter. Do you follow me on Twitter, probably not? Then you'll know what I'm talking about. Jules Hoffmann: Also if I may add just one point there. We also must agree on this that not all the papers which are in the literature are good papers. And there's a lot of things which send us into the wrong directions. Bruce would you agree with that? Bruce Beutler: I would more than agree. Brian Schmidt: But Google can help out on that as well. Moderator: Yes that is clearly. Let's go on with one more round - I'm a little bit shivering about that. But anyway, in 1968 Mesarovic actually termed another buzz word in Big Data and until 2000 19 publications used that word only, as determined by Google and in 2005 it was 500 and now it's thousands. The word is 'systems biology'. And I'm a little bit worried that I might be corrected immediately. But I would like to bring up systems biology. And the very first question from the audience was on that actually. So let me just very simply say what I understand and I know that others may have another view and probably we don't come to a conclusion. So you want to understand the role of a part, let's say an enzyme in the context of the whole, say a cell. And you don't just want to see what the enzyme produces as a product but rather you want to see the consequences of that whole mechanism in the whole cell. And often technically, and we mentioned that already, you need a confounder or perturbing, let's say a mutation or a drug, and you do not just want to see what that affects the product but how the whole cell is affected. Can we somehow agree on that? You don't look as if you want to agree on that. Anyway the Nobel laureate Sidney Brenner once defined systems biology as an incorrect philosophy. And he said, low input, high throughout, no output. I don't know whether you - this is not my situation. Anyway I want to just actually ignite discussions on that. And I just wonder how Big Data can enable a systems biology approach. Is it the time or is it still too early? J. Michael Bishop: Brian you said you had a counter to Sidney's remark. Brian Schmidt: Well I was just going to say that one of the great powers of Big Data except for it sounds to me it's having a physical model of how life works, which would be really useful but maybe completely impossible. But big, you know if you have low signal to noise per unit of information, you need a lot of it. And then through this great thing, it was the root N of the number of pieces of information, you gain signal. So he's saying that never happens. Well it does happen. And it happens all the time with Big Data if you're careful and you don't have major problems and you don't do foolish things. So it's not always true. It can be problematic if you have complete garbage big information that doesn't, you know, that doesn't actually have fidelity. Then you're right, garbage in, garbage out. But I think that person is missing, one of the big powers of Big Data is to actually answer quite subtle questions. But there are many ways to go wrong. Bruce Beutler: My main objection to systems biology, however we define it, is that many of the advocates for systems biology pose it as a counter point to reductionism. And say reductionism has run its course and now we have to look at things in a very different way. To me most knowledge in the end is a matter of interpretation and it must come down to reductionism. You can take high resolution movie of a gazelle running across a plain or an amoeba crossing a microscope field. And you can look at every pixel in it and you'll have at least trillions of data points. And yet you really won't understand very much about how it works. And I think that often is a problem with what people call systems biology. Whether it's the definition that you used or whether it's something a bit different. J. Michael Bishop: No comment. Moderator: Jules? Jules Hoffmann: I concur with Michael Bishop. Moderator: So then I ask the audience whether they can help me and bring up some comments. J. Michael Bishop: I want to make the point that the tenor of this discussion is blurring some important point. I mean these are, we're talking about various tools about how to do science. And to the best of one's ability the scientist uses whatever tool is going to help them address the problem they're trying to address. And to privilege one form of enquiry over another, I think, is a mistake. And frankly, I think what fuels it is competition for research funds. Brian Schmidt: Can I say one thing? So we in physics are the ultimate reductionists. Everything comes down to 16 particles and 16 anti-particles, an extra one that we just discovered. And that's where everything works. It's all down to those 4 forces of nature. That's where, we know everything boils down to that. But it's not very useful. J. Michael Bishop: You don't have systems physics do you. Brian Schmidt: Well we do, that's our system. And I know it's exactly what runs us and everything you're talking about. The problem is, it's so complicated that that reductionist view which we know is at the centre doesn't help. So I think all of us would really like to have a complete system description of a cell. Where I could say I can perturb any aspect of it and I'm going to know exactly what's going to happen. That's great. But it isn't going to happen any time soon. I would also like to know if I'm going to get hit by a raindrop when I go outside. I've got all the physics, I just don't actually have enough. It's too complicated. So I think that's the problem at the heart of something like systems biology at this point, it's asking too much. It's a great noble goal but you need to break things into smaller pieces, so you actually see something in a human lifetime. Moderator: Do you have questions, comments to this part? Yes one. Question: So my comment is it actually depends on at what level you want to understand the system. You can define any system in different levels. For example you just cannot describe how water is flowing in a waterfall by looking at how water molecules vibrate, right? You cannot simulate every single water molecule how it vibrates and just try to understand how the water flows. So it entirely depends on what level you want to understand the system. And according to me you need to understand at all levels and ultimately it depends on the person who wants to understand the level at which he wants to interpret the data. That's my personal comment. Brian Schmidt: So I think you and I agree, which is you want to understand the problem in hand. And, you know, it's great to have the theory of everything but we don't have it. Question: I just wanted to comment because I think that one of the ways of making profit off all this Boston chimera AIDS, to go through a systems microscopy approach for example. In the sense that maybe most of us use microscopes all the time but we can handle very few things at a time. Once you start, for example, doing whole genome screenings and then maybe you can handle more variables. The problem is that we don't have, many times we don't have the tools from a mathematics point of view, or physics, to put those things together. So maybe it's not just to get funding that is interesting for a systems biology approach. It could be really useful and we could get more information for example, as you were saying, about just how a cell works. The problem is as well that we don't have reasonable tools. Now I'm thinking of, I don't know, during my PhD I was using a lot of colloidal physics to try to put that into the description of a cell, how organelles move and things like that. Tools that were developed in physics 70, 80 years ago. But just try to put that inside a package of say terabytes and terabytes of images of things. Just really a comment, but I'm a defender of systems biology. Moderator: No real comment to that? It was a comment actually. J. Michael Bishop: I'm just surprised so many of you are philosophers. Question: So as I said previously, systems biology is often confused wrongly with Big Data. Systems biology doesn't have only one part that has Big Data. The other part is the physics approach that is taking some finite amount amount of proteins, studying their interactions and how they work at a level that we are trying to understand. So I think that approach, the bottom-up approach of systems biology which is completely obscured because of the high number of publications coming in the big systems biology So what's your view as a biologist and as a physicist on that? Because I've seen constant tension throughout the whole panel discussion. And I think this is the intermediate bordism part which I'm trying to take here. J. Michael Bishop: What you describe sounded like biochemistry to me. That's what biochemists do: work at the, you know, molecular level, trying to see how enzymes work and how myosin contracts and so forth. If I understood you correctly, that's what you were describing. That's what biochemists do. And the truth of the matter is there has, through half of my career at least, there's been lamination that biochemistry was falling out of style because molecular biology was so sexy and so dramatic. But it's coming back and it's coming back in part in my own field because we're going to have the genomic data, we're going to have identified the genes and the gene products. But targeting them is going to require that we understand what they do. And that's biochemistry. If you want to go down to the atomic level I refer you to Doctor Schmidt. Brian Schmidt: The biochemistry to my mind looks just like physics. So it's really... Moderator: It's all physics anyway. J. Michael Bishop: I know from talking to this guy that everything is physics. Brian Schmidt: But it looks like physics. Question: So in this day of Big Data and systems biology. Is there no space left for a traditional biologist anymore? Does everybody have to first do some sort of Big Data experiments or can people still run labs with traditional biological approaches and answer important mechanistic questions? Moderator: Well the question is, is there any room for a mechanistic approach to biology or do we all have to do Big Data biology? That's easy, I guess. J. Michael Bishop: Well in my field most people are still doing small science. The genomics is being done in a limited number of centres. Especially the really big genomics, you know the Broad, Wash U, Seattle, UCSF is an outstanding place, we're not going Big Data genomics. Question: It just sounded like from how the panel was discussing it that Big Data was important and that everybody had to learn how to incorporate it in the way they did experiments or think about it. J. Michael Bishop: I think you're going to be informed by it but I don't think you're going to have to even understand how it's done, if you can rely upon the literature and the people who are doing it to be trustworthy. Jules Hoffmann: Now, we are not yet to the conclusion, given the conclusion that we all think that it should be Big Data and nothing else, no? That will come I hope Mister Chairman. But we'll conclude in the end. And you will feel reassured. Question: Thank you. J. Michael Bishop: I want to refer you to an editorial that Bruce Alberts, the former editor of Science magazine, the former president of the National Academy of Science US, and a good friend of mine wrote in Cell Magazine at least 10 years ago. It's called 'Small science is good science'. I reread it in preparation for this panel and it's as right today as it was then. Go read it. Question: I'm also wondering if system biology is even anything new because we always try to find out by doing research how things are connected to each other, how we can interact with the system. And I mean we are just now at a position where we can get indirect more data, where we can look at all the different research that there is and just combine it. But is it really anything new to what we had before, apart from we just have more information? Moderator: Well there is not a real defender of systems biology here. Jules Hoffmann: I think we have to redefine what we understand as systems biology because we are confusing aspects from biochemistry to accumulating a certain number of data. Maybe Mister Chairman you want to redefine systems biology. Moderator: I would actually go back to the general discussion very soon if you don't mind. Because I see time is running actually. And I would be happy to discuss that more because this is really the panel list here. Next Question. Question: It's a short Question. My question is about, I mean we have now a lot of data: We have genomics, we have proteomics, we have metabolomics. But sometime when you try to put everything together you actually find that the data are not fitting, one with the other. So what's your impression on that? What do you think? It's more important where we should go. Moderator: In modern terms, different platforms, bring them together. It's not as easy as some simple minded people like me thought and had to learn it. Brian Schmidt: But there's huge scientific opportunity when things don't fit together. Those are the places you want to be sorting out. Right. Because that's where there are problems. And you know doing the stuff where it works, that's not very interesting. Working on the stuff that doesn't work makes sense right now. The interfaces, that's where the opportunity is to figure out which one is right. Or maybe they're both wrong. J. Michael Bishop: And just to put another spin on it. You work in a particular field, ok. And as that field progresses, if and when it has relevance to another field that will become apparent. And let me give you a personal example. I thought I was finished with intermediary metabolism when I finished when I finished my second year course in biochemistry in medical school. Lo and behold, guess what happened? About 5 years ago, metabolism suddenly became the hottest field in cancer research. The metabolism people were working away, the cancer people were working away. A few smart, imaginative and daring people began to see the connections. And all of a sudden metabolism research is right there at the core of cancer research. That's how it happens: each field develops and then somebody, to echo what Brian just said, someone sees a connection and it happens and then the world was changed. My world has changed completely. I now have relearned the TCA cycle. Moderator: So we have 3 more questions and then we come to concluding remarks. Is that ok? Question: My question is, nowadays there are several examples already where softwares in Big Data are basically outsmarting the researchers that are asking the Question. One specific example is one operator from Google for instance. That was designed to discover whether the announcements that people were making on Google were fake or not. And they kept coming back flagging that some car advertisers were fake. And the programmers could not figure out why. Until they tried to buy one of cars. And discover a whole group of people that were actually stealing cars and all the cars were stolen. And somehow the algorithm was figuring out that this was fake. Even though the researchers who wrote the code or the many lines of code that are there, could not actually understand why the software, where exactly the software was figuring this out. There are several other examples. And this seems to be something that will be happening more and more in the future as we create more complicated software. Those softwares are giving us the answers that we do not understand where they are coming from. So what's the role of the scientist in the future that seems to be going this direction? Brian Schmidt: This is an area of machine learning. And machine learnings there's a number of things. And this is I think probably, what you call a deep learning algorithm that has many, many layers and nodes and sort of mechanised on sort of algorithm kind of human brain. The problem is that it's almost impossible to figure out why it works the way it does, it just is very good at pattern recognition. So pattern recognition is great for prediction at some level. But again it comes back to my office mate Sean Carroll. Ok that's one thing, but there's not a knowledge. You need to have a model under there. So it's a very useful tool but it's a tool. And it allows you to go and look and find out the mechanism which is they were stolen cars. And it figured it out and yeah it's a complicated pattern. But it is just pattern recognition. Question: There is an experience that I want to share with you. I am working on the reverse genetics. That means we make hypotheses that some certain genes are involved in the pathway. And then we mutated each area of these genes to see if we could get the expected phenotype. So we use this strategy in our laboratory. And when we finished one article and submitted it to the, I won't mention the name of the journal, we got refused. And I remember the reviewer comment is that in the era of 'omics', I think means Big Data, your experiments seem to be too tiny, you should change your way to solve problems. So I got confused. I think we do benefit a lot from Big Data but it should not be the golden rule. What do you think, Bruce? Bruce Beutler: Well first of all I didn't review your paper. And second of all I agree with you. It's obvious that there are many tools that we should use and we should use the most appropriate for the task at hand. I don't know exactly what your experiment was, what hypothesis you were testing. But that's a legitimate way to go in general. And it's not a fair criticism. Moderator: Last question, sorry we are running short really. Question: Oh yes I just want to tell you the results. Question: I just want to say my article was at least published in eLife. Jules Hoffmann: Great. That will please Randy Schekman. Moderator: We'll send him an email tonight. Last Question. Question: As we are approaching the end of the discussion. I'm just wondering, I have a question about the bigger picture. So we discussed the differences of methodologies in medicine or whether it be physics, systems biology or biochemistry. I'm just wondering if there are differences between the approach, the methodology in medicine or science and the methodology used in other disciplines. And what the differences are. Or are we essentially using the same methodology overall, whether it be data-driven or hypothesis-driven. Thank you. Moderator: Anybody to respond? Brian Schmidt: We have different nuances but ultimately we're scientists trying to answer questions. And so when answering astronomy Question. The bag of tricks is usually fairly different than when you're trying to look at how, you know, some gene expresses itself. But when you get to the Big Data it's kind of similar what we do and we are able to reuse the bag of tricks between both disciplines. So to my sense, we all try to do the same thing, it is very similar. Science is pretty universal. But it's how the question is framed and how we're going to try to answer it that dictates how you approach. And where those are similar we use the same techniques but often they're quite different. J. Michael Bishop: The values are shared: rigour, reproducibility, good experimental design, controls. The values are the same across the whole spectrum. Moderator: That brings us to the last round. Very brief last comments. The Lindau meeting is Educate, Inspire, Connect. So how would you like to give a short message to the young research? Jules. Jules Hoffmann: I think it was certainly very helpful that we had this exchange. But basically regarding the question which was asked, I would plead in favour of keeping everything open and asking our questions. When we have to do the omics or whatever, we do it. When we need Big Data we try to get them and so on. But we should have nothing, we shouldn't orient our mind in a very specific way, say this is modern, this is what everyone does and so on. We should feel very free and go ahead. The essential thing is to ask good questions and then to try to get answers. It's banal but it's my conclusion. Brian Schmidt: The secret of science is, just to echo what Jules said, is you need to ask the right questions that you can answer. Big Data is one tool to do that, it's not the only tool. You don't have to learn it. You need to know what it's capable of doing. It's useful to know people who can do it. And if you're interested in it then learn it. But one tool in your quiver, it's not the only one. J. Michael Bishop: A general comment. I'm often asked what was the most important thing that I did early in my career. And there are 2 answers. And 2) the willingness to take a chance on an idea. And I think those are 2 crucial ingredients for a young scientist to forge a successful career. Bruce Beutler: I would just add that knowing what to work on, seeing something as an important problem - it's a very personal matter - but that's what I would advise everyone to do. Find something that's very puzzling, that's an exception to the norm but in some way or another is very important. And then what tools you use to address that problem that's entirely up to you. And it's something that you should be guided by the problem in doing. Moderator: Thank you. So there is no real discrepancy between Big Data and hypothesis-driven research. I have another citation from a physicist David Goodstein, I don't know whether you know him. And I think that is the message that you also conveyed in the last minutes. J. Michael Bishop: I think there's a limit to that but... Moderator: Next round, not for today. Thank you so much. Thanks really to all of the people. Moderator: Really thank you. It was a lively discussion. Not only on the podium here but also from the audience. End.

DISKUSSIONSLEITER: Ich bedanke mich für Ihr Kommen und danke natürlich auch den Diskussionsteilnehmern, die ich Ihnen gleich vorstellen werde. Das Thema, über das wir heute sprechen oder besser gesagt über das wir heute diskutieren, lautet Big Data und hypothesengesteuerte Forschung. Zählt nur die hypothesengesteuerte Forschung? Sind es jetzt, nach dem Gesamtgenomprojekt und vielen anderen Biomics-Projekten, die Hypothesen, die Big Data erzeugen? Biomics, Big Data, Systembiologie, quantitative Biologie, computergestützte Biologie: das sind die Schlagworte der modernen Biologie. Wir möchten gerne wissen, ob dies tatsächlich einen Paradigmenwechsel von der hypothesengesteuerten zur datengesteuerten Biologie widerspiegelt oder lediglich viel Tamtam um eine neue, aber nicht wirklich hilfreiche Methodik ist. Nun, wir werden sehen. Schließen sich diese beiden Möglichkeiten gegenseitig aus oder sind sie komplementär? Unsere Runde besteht heute aus vier Wissenschaftlern, die sich bereit erklärt haben, diese Thematik mit uns zu diskutieren; sie alle haben den Nobelpreis erhalten, drei im Bereich Physiologie und Medizin, einer im Bereich Physik. Ich möchte sie Ihnen kurz vorstellen: Ganz links von mir – von Ihnen aus gesehen ganz rechts – sitzt Jules Hoffmann aus Straßburg; er erhielt 2011 den Nobelpreis für die Entdeckung der Aktivierung der angeborenen Immunität. Ganz rechts von mir, d.h. von Ihnen aus gesehen ganz links, sitzt Bruce Beutler, der den Nobelpreis im gleichen Jahr gemeinsam mit Jules Hoffmann für dieselbe Thematik erhielt. Er forscht am Center for the Genetics of Host Defence an der Universität Texas, South Western Medical Center. Zu meiner Rechten sitzt J. Michael Bishop, der noch immer an der University of California tätig ist. Er erhielt den Nobelpreis 1989 gemeinsam mit Harold Varmus für die Aufklärung des zellulären Ursprungs retroviraler Onkogene. Alle drei haben am Montag bereits Vorträge gehalten. Das hier ist Brian Schmidt von der Australian National University Western Creek, dem für die Entdeckung der beschleunigten Ausdehnung des Universums durch Beobachtung einer entfernten Supernova 2011 der Nobelpreis für Physik verliehen wurde. Das klingt interessant, auch wenn ich dazu nicht viel sagen kann. Bruce, darf ich bei Ihnen beginnen? Wenn ich mich an Ihre gestrige Präsentation und auch Ihre langjährige Arbeit zum Thema TLR4 als LPS-Rezeptor, die ich bereits vor der Nobelpreisverleihung an Sie verfolgt habe, richtig erinnere, so handelt es sich dabei um eine Art genetischen – man könnte sagen ergebnisoffenen – Ansatz. Sie haben Mutationen erzeugt bzw. identifiziert und sie daraufhin untersucht, ob sie an der entzündlichen Darmerkrankung (IBD) und anderen Erkrankungen – ich erinnere mich aber, dass auf Ihren Folien IBD stand – beteiligt sind. Das waren die Daten, die Sie uns vorgestellt haben. Wie schätzen Sie das Thema Big Data ein? Ist das Ganze ein Hype? Ich möchte gerne Sean Carroll, einen Physiker am Caltech, der am selben Institut wie Brian Schmidt promoviert hat, zitieren. Er sagte einmal: "Eine Hypothese ist nicht nur einfach ein Werkzeug, es ist für das Verständnis des Systems notwendig." Wo ist die Grenze? Man erzeugt Daten, immer mehr Daten. Möchten Sie die Mechanismen verstehen oder geben Sie sich damit zufrieden zu sehen, dass ein bestimmtes Gen bei einer bestimmten Erkrankung eine Rolle spielt? BRUCE BEUTLER. Natürlich möchten wir immer die Mechanismen verstehen. Ich selbst sehe mich als Reduktionisten. Ich fange stets mit einem Phänotyp an, also mit etwas Kompliziertem, z.B. einer im Kreis laufenden Maus, nicht mit einer Mutation. Was ich sagen möchte: Man muss keine Hypothese haben, um Fortschritte zu erzielen und auf der Ebene der Gene und Mutationen sagen zu können, dass diese Mutation für dieses Verhalten oder diesen immunologischen Effekt – je nachdem, was genau Sie untersuchen – verantwortlich ist. Aber natürlich ist nichts falsch daran eine Hypothese zu haben. Ich möchte nur sagen, dass man eben auch ohne sie weit kommen kann. Das sagt auch nichts darüber aus, ob es sich um große, kleine oder mittlere Datenmengen handelt. Es gibt meiner Ansicht nach keine wirkliche Trennlinie, die sich definieren ließe. Die Frage lautet: Basiert die Arbeit auf einer Hypothese oder nicht? Ich finde, dass beide Möglichkeiten definitiv ihre Berechtigung haben. DISKUSSIONSLEITER: Sie erfassen aktuell eine riesige Datenmenge – ich kann das nachvollziehen, wir führen ähnliche Projekte durch und ich habe zuweilen das Gefühl, an all den Daten zu ersticken – und gehen sie Schritt für Schritt durch. Arbeitet daran ein ganzes Team von Computerbiologen? BRUCE BEUTLER: Nein, sobald wir über genügend Mutationen verfügen, hoffen wir, dass sie sich in irgendeiner Weise gegenseitig verstärken und wir besser verstehen, wie sagen wir einmal 20 Mutationen denselben Phänotyp wie eine Mutation erzeugen können. Unterschiedliche Allele zu kennen, ist auch sehr hilfreich. Der genetische Ansatz sollte ruhig weiterverfolgt werden. Man könnte z.B. einen Suppressor-Screen durchführen und nach epistatischen Effekten zwischen Mutationen suchen Aber natürlich scheuen wir uns auch nicht, die Dinge mit Hilfe biochemischer oder zellbiologischer Ansätze zu analysieren. Diese Methoden haben auf jeden Fall ihre Berechtigung. DISKUSSIONSLEITER: Jules, Ihnen wurde im gleichen Jahre zu diesem Thema der Nobelpreis verliehen. Sie haben dabei ganz eindeutig von der Insektengenetik profitiert. Ich hatte allerdings immer das Gefühl, dass Sie ein großer Verfechter der hypothesengesteuerten Forschung sind. Ich möchte an dieser Stelle Chris Anderson zitieren, der vor zwei oder drei Jahren in Nature Methods schrieb: Der klassische Ansatz ist tot." Würden Sie dem zustimmen? JULES HOFFMANN: Nein (lacht). Die meisten der jungen Leute, die uns heute zuhören, kennen die Geschichte, ich habe sie schon einmal erzählt. Am Anfang lautete die Frage ganz klar: Was erklärt die Resistenz von Insekten? Es war also eine Frage, keine Hypothese. Wir kannten die Ursache nicht, und damals konnte man noch keine Big Data erfassen, diese Ära war noch nicht angebrochen. Wir mussten uns also herantasten. Wie ich bereits erwähnt habe, hatten wir das Glück, dass sich bereits jemand ergebnisoffen mit diesem Thema beschäftigt hatte, und zwar Nüsslein-Volhard, die den dorsoventralen Signalpfad entdeckt hatte. Wir gelangten über die NF kB-Geschichte dahin. Der erste Teil unserer Arbeit war zudem nicht völlig ergebnisoffen, da wir gefragt hatten Doch wir verstanden die Funktionsweise der fungiziden Abwehrmechanismen gram-positiver Bakterien nicht und entschlossen uns daher zur Durchführung ergebnisoffener Mutagenesetests. Unser Labor war ganz klar schon immer sehr stark auf die ergebnisoffene Mutagenese ausgerichtet. Doch das sind noch immer keine Big Data. Als wir dann jedoch die Wechselwirkungen zwischen diesen Molekülen anhand geeigneter Techniken zur Sichtbarmachung bzw. Identifizierung der Proteine, die wir bereits bei der Genetik bestimmt hatten, untersuchten, bekamen wir bezüglich der Big Data Schwierigkeiten. Wir fanden schließlich 400 Proteine, von denen die meisten für die Aktivierung des Systems notwendig waren. Es bestand also folgende Situation: Dank der aus der Sequenzierung des Drosophila-Genoms gewonnenen Big Data kannten wir die Sequenzen dieser 400 Kandidaten, d.h. die Identität der Moleküle, nicht aber ihre Funktion. Aufgrund dieser Problematik mussten wir die Experimente eines nach dem anderem abarbeiten und uns fragen Darauf möchte ich aber jetzt nicht weiter eingehen. Mir kommt die Unterscheidung, zumindest bei unserer Arbeit, im jetzigen Stadium allerdings ein wenig künstlich vor. Am Anfang steht zweifelsohne immer eine Frage. Man kann sagen, das ist eine Hypothese, aber man kann keine Frage stellen ohne eine Hypothese für ihre Lösung zu haben. Verfügt man schließlich über eine große Anzahl von Kandidaten, muss man diese wirklich akribisch und mit großem Arbeitsaufwand durchgehen. DISKUSSIONSLEITER: Soweit ich weiß, kann man heute allein durch Korrelation eine Beziehung zwischen einer Mutation und einem Phänotyp entdecken; dafür ist nicht zwangsläufig eine Hypothese oder ein Modell erforderlich. JULES HOFFMANN: Nein, aber dadurch können die Dinge beschleunigt werden. Das ist natürlich kein Beweis und würde nicht akzeptiert werden. Okay, eLife würde es vielleicht akzeptieren, aber nicht die drei anderen (lacht). Ich mache Spaß, weil ich weiß, dass er nicht mehr da ist. JULES HOFFMANN: Ich bin Mitglied der Redaktionsleitung von eLife, also sage ich besser nichts gegen sie. Das war nur ein Witz. DISKUSSIONSLEITER: Gut. Sie begannen Ihre mit dem Nobelpreis gekrönte Karriere unverkennbar mit einer Hypothese. Da ist eine gesunde Zelle, die ein Protoonkogen enthält, dessen Aktivierung zur Entwicklung von Krebs führt. Das Modell, das Sie verwendeten – das Rous-Sarkom – war sehr sorgfältig ausgewählt. Die Erfolgsbilanz beim Thema Krebs schwankte damals jedoch sehr stark; es wurden zahlreiche Versprechungen gemacht, Therapien und Heilmittel vorgeschlagen. Auch heute befinden wir uns noch in einem sehr frühen Stadium. Erst vor kurzem wurde in den USA der Krebsgenomatlas initiiert, was ich als echten ergebnisoffenen Ansatz betrachte. Man hat eine Mutation, die mit einem Krebs assoziiert ist. Den zugrunde liegenden Mechanismus muss man nicht notwendigerweise kennen, er könnte aber für die prädiktive Diagnostik genutzt werden, z.B. als Target. Wird das in Zukunft der Weg sein? J. MICHAEL BISHOP: Das ist nicht der einzig mögliche Weg, nein. Ich möchte hier vorab eine Anmerkung machen. Meiner Ansicht nach lässt sich anhand dieser beiden Kategorien die Art und Weise, wie eine wissenschaftliche Entdeckung erfolgt, nicht vollständig definieren. Wenn Sie sich zum Beispiel wie ich mit der Geschichte der Wissenschaft beschäftigen, begegnen Ihnen immer wieder Beispiele für den Aphorismus, dass Zufälle bei wissenschaftlichen Entdeckungen von größter Bedeutung sind. Diese können sich im Zusammenhang mit der Durchsicht großer Datenmengen ergeben, treten aber häufiger im Labor auf, wo sich durch das unerwartete Ergebnis eines Experimentes unter Umständen neue Möglichkeiten erschließen. Die Forschung ist also insofern möglicherweise hypothesengesteuert, als Sie zwar mit einer Hypothese beginnen, diese Sie jedoch in Gefilde führen kann, die Sie überhaupt nicht kennen oder erwarten. Daher denke ich, dass diese Kategorien ein wenig restriktiv sind. Nun, wie fingen Harold und ich an? Unsere Anfangshypothese war viel simpler als von Ihnen dargestellt. Wir nahmen lediglich an, dass das virale src-Onkogene möglicherweise von der Zelle erworben wird. Ich dachte nicht im Traum daran, dass dieses Experiment – in Zusammenschau mit den seither eingetretenen Ereignissen – im Falle eines positiven Ergebnisses die Krebsforschung an den Punkt bringen würde, wo sie heute steht. Unsere Anfangshypothese war sehr beschränkt und ließ sich hervorragend überprüfen. Und sie erwies sich als richtig. Sie war allerdings keineswegs so kompliziert oder antizipatorisch wie von Ihnen beschrieben. Das führt uns zu jenem Tag im Jahr 1989, an dem ich im Rahmen meines Nobelpreisvortrages eine Folie mit einer Liste der von der Zelle erworbenen viralen Onkogene präsentiert habe. Heute kennen wir aufgrund der Genomsequenzierung Hunderte dieser Onkogene. Das Ziel ist eine absolut vollständige Bestandsaufnahme. Leute, die in Mathematik besser sind als ich – z.B. das Broad Institute und andere Teilnehmer des Krebsgenomatlas-Projektes bzw. der internationalen Projekte, wie ich sie lieber nenne – haben berechnet, dass für die Komplettierung der Liste eine Million Krebsgenome notwendig wären. Ich habe in einem anderen Zusammenhang darauf hingewiesen, dass wir bereits eine ungefähre Idee diesbezüglich haben. Die Zahl der potentiellen Krebsgene in der Maus, die mit Hilfe der Mutagenese ermittelt worden ist, liegt mittlerweile bei 2000. Beim Menschen sind wir aber noch nicht so weit. Das sind Big Data. Eine Million Krebsgene – ich habe mir das aufgeschrieben – sind 10^18 Bytes. Das sind eine Menge Daten, die gespeichert, verwaltet und gehandhabt werden müssen. Die Kosten für die Nutzung dieser Daten liegen bei schätzungsweise hundert Millionen Dollar pro Jahr. Ich muss sagen, dass die Analyse der Daten in diesem Projekt ihrer Erfassung weit hinterherhinkt, da wir derzeit nicht genügend Bioinformatiker haben. Aber der Punkt ist – ja, es sind Big Data. Und der Ansatz ist insofern nicht ergebnisoffen, als die Krebsgene ja existieren. Die Experimente erhalten dadurch jedoch neue Nahrung. Sobald man einen Zusammenhang zwischen einem Gen und einem bestimmten Krebs erkennt, muss man zurück ins Labor gehen und mittels der einen oder anderen Methode untersuchen, ob dieses Gen in der Lage ist, sich an der Tumorgenese zu beteiligen – denn ein Zusammenhang ist noch kein Beweis. Wird das bei allen 2000 Krebsgenen erfolgen? Ich bezweifle das eher. Doch Big Data können der Hypothese neue Nahrung geben und zu mehr Experimenten führen. Bezogen auf die Situation in der Krebsforschung ist das ein Engelskreis. Ausgehend von einer großen Datenmenge, sagen wir dem Krebsgenom, identifiziert man ein Kandidaten-Onkogen für Brustkrebs anhand der Assoziation, d.h. der vermehrten Häufigkeit, in der dieses spezielle Gen so mutiert ist, dass es bei Brustkrebs aktiviert wird. Dann geht man ins Labor und verifiziert diese Annahme. Wenn man ganz mutig ist, beginnt man mit der Entwicklung eines Medikamentes dagegen und bringt den Wirkstoff zur klinischen Anwendung, wo er ein paar Monate zum Einsatz kommt, bis sich eine Resistenz entwickelt. Und wie versteht man diese Resistenz am besten? Indem man zum Genom zurückkehrt. Genau das hoffen wir letztendlich erreichen zu können: Wir wollen die gesamte Genomsequenz der Tumore nutzen, nicht nur um die Targets zu identifizieren, sondern auch um die bereits in der Zelle verankerte Resistenz gegenüber diesem Wirkstoff zu antizipieren, was wir basierend auf unserem heutigen Wissen über die Signalpfade schlichtweg nicht können. Beide Ansätze sind also komplementär und können einander befördern. Big Data können einen aber auch böse täuschen, dafür gibt es genügend Beispiele. Zwei davon gefallen mir besonders gut: Da ist einmal die berühmte Google-Grippekarte; viele von Ihnen werden sie kennen. Google dachte, sie hätten unser Center for Communicable Diseases in den USA ausgestochen. Sie suchten nach vermeintlichen Grippeanzeichen und sagten die Größe der Epidemie voraus. Ein oder zwei Jahre lang sah es so aus, als ob das tatsächlich funktioniert – doch dann stürzte auf einmal alles wie ein Kartenhaus in sich zusammen. Was war passiert? Leute, die wussten, wovon sie reden, überprüften die verwendete Metrik und stellten fest, dass diese viel zu schwammig war und keinen Unterschied zwischen grippalem Infekt und Grippe etc. machte. Ein noch drastischeres Beispiel findet sich in einer sehr großen Studie zu Statinen. Ich nehme an, Sie alle kennen Statine; es handelt sich dabei um Cholesterinsenker. In einer Big Data-Auswertung fiel ein Zusammenhang zwischen der Anwendung von Statinen und zwei unerwarteten Therapieerfolgen auf, nämlich einer weniger starken Reaktion auf eine akute Sepsis und einer Besserung der äußert therapieresistenten chronischen obstruktiven Lungenerkrankung. Die Datenlage legte einen solchen Zusammenhang nahe. Um dies zu überprüfen, wurden große klinische Studien aufgelegt. Deren Ergebnisse wurden im letzten Monat veröffentlicht und erwiesen sich als großer Reinfall. Der Zusammenhang war – aus was für einem Grund auch immer – keinesfalls eindeutig. Das sind drastische Beispiele dafür, dass große Datenmengen zwar zu Ideen oder Hypothesen verleiten, die Annahme, dass ein Zusammenhang alleine schon die Ursache belegt, jedoch sehr mit Vorsicht zu genießen ist, denn diese Annahme ist schlichtweg falsch. DISKUSSIONSLEITER: Ich stimme Ihnen vollkommen zu, vor allem was die Google-Grippekarte angeht. Gleichzeitig ist das ein Beispiel dafür, dass Schlussfolgerungen auf der Grundlage reiner Algorithmen möglich sind. Die Frage ist, ob es die richtigen sind. Es gibt aber natürlich auch Algorithmen, die die richtigen Schlüsse vorhersagen. Vielleicht ist es Zeit zu Brian Schmidt und die Astrophysik zu wechseln. Soweit ich das verstanden habe, schauen Sie ins All und ziehen daraus Schlüsse über die Ausdehnung des Universums. Das müssen Big Data sein. Wo wir gerade bei diesem Thema sind und Google erwähnt wurde: Ich habe festgestellt, dass „Googol“ 10^100 bedeutet. Sind das die Dimensionen, von denen Sie sprechen? BRIAN SCHMIDT: Nein, 10^100, das ist mehr als die Anzahl der Elektronen im sichtbaren Universum. Das ist wirklich eine große Zahl. Aber wissen Sie, wir haben in der Astronomie schon immer mit großen Datenmengen gearbeitet. Wer 1994 meinen Vortrag gehört hat, der weiß, dass es um 20 bis 30 Gigabyte pro Nacht ging; das waren damals Big Data. Natürlich erfassen unsere Teleskope diese Datenmengen heute in etwa 3 oder 4 Minuten. Jetzt haben wir es mit Petabytes und sogar Exabytes, also 10^18 zu tun. Die Datenmenge kann sogar noch größer sein. Grenzen setzen uns letztendlich nur der Energiebedarf, die Computer und das Geld – vor allem das Geld. Warum tun wir das? Weil es sinnvoll ist. Big Data sind ein Werkzeug, eines der Werkzeuge in unserem Arsenal. Wenn Sie in der Physik oder Astronomie ein Experiment durchführen und eine Hypothese aufstellen möchten, benötigen Sie zuweilen vorher einen Scheinwerfer, um diese Hypothese überhaupt aufstellen zu können. Ich gebe Ihnen ein Beispiel: Aktuell ist unsere Theorie der Teilchenphysik vollständig; sie wurde durch das Higgs-Boson komplettiert. Wir haben keine andere Theorie; wir können zwar Hypothesen aufstellen, doch sie entbehren mehr oder weniger jeder Grundlage. Was wir tun müssen, ist, das Universum nach neuen Teilchen abzusuchen, weil es Hinweise darauf gibt, dass solche Teilchen existieren. Unsere Hypothese lautet also, dass wir Hinweise für neue Teilchen finden würden, wenn wir buchstäblich Petabytes von Daten pro Sekunde erfassen und sichten. Anschließend könnten wir ein Modell entwickeln und dieses weiter testen. Das ist ziemlich analog zu dem, worüber wir hier sprechen, z.B. Zusammenhänge. Ich möchte jetzt aber eine etwas andere Position vertreten. Wenn Ihre Statistiken aussagekräftig genug sind, haben Sie den Zusammenhang bewiesen. Wenn Sie zeigen, dass ein Zusammenhang eine Signifikanz von 22 9er-Stellen aufweist, dann haben Sie ihn bewiesen, tut mir leid. Wir wissen nicht, was das zu bedeuten hat, es ist also nicht besonders interessant. Dennoch müssen wir hingehen und sagen, wir schauen uns das näher an. Wenn ich mir Biologie-Journals anschaue, bin ich immer entsetzt von Ihren p-Werten, die Sie für so spannend halten. Okay, meinetwegen in der Fußnote einer Tabelle zu einem physikalischen Thema; vielleicht ist das später einmal von Interesse, aber eigentlich ist es egal. Die Biologen haben so gut wie nie 4 9er-Stellen, und wenn, dann denken sie „Jetzt haben wir etwas.“ Wir dagegen denken bei 4 9er-Stellen „Wir könnten etwas haben.“ Der Grund hierfür ist, dass die Leute ständig Fragen zu den Daten stellen. In diesem Raum befinden sich in diesem Augenblick 600 Personen. Wenn Sie alle zehn Fragen an die Daten richten, erreichen wir 3 9er-Stellen. Die Gefahr bei großen Datenmengen ist also, dass Sie die Statistik, das so genannte bayesische Modell durchlaufen und durchdenken müssen. Dabei nutzen Sie die Tatsache, dass wir Fragen an die Daten richten. Wie viele Fragen stellen wir? Wenn Sie das vermasseln, ziehen Sie die falschen Schlüsse, die in sich selbst unlogisch sind. Sie müssen also den Standard der Statistik verbessern. Das ist das Schwierige daran, es handelt sich um einen anderen Rahmen. Dennoch würde ich sagen, dass Ihnen damit nicht nur ein Scheinwerfer zur Verfügung steht, sondern auch ein sehr aussagekräftiges Diagnosetool zur Überprüfung Ihrer Hypothese, d.h. nicht nur Schwarz oder Weiß bzw. Ja oder Nein, was sehr angenehm ist. Doch leider ist es meistens nicht ganz so einfach. Wir müssen die Daten sichten und finden doch nur winzige Signale darin. Doch wenn ich das eine Milliarde Mal aufaddiere, kann ich mir meiner Antwort zu 99,999999% sicher sein. Das ist der andere große Vorteil von Big Data: Man kann daraus Informationen extrahieren, die man ansonsten nicht erkennen würde. Das ist also anders. DISKUSSIONSLEITER: Dürfte ich Sie noch fragen…? J. MICHAEL BISHOP: Was Sie gerade zum Thema Statistik gesagt hat, hat leider einen Schönheitsfehler. Ich stimme absolut zu. Die Genomdaten werden auf genau diese Weise zur Identifizierung potentieller Onkogene eingesetzt. Die hässliche Wahrheit über die Biologie ist allerdings, dass das Gen, das man basierend auf äußerst soliden statistischen Daten identifiziert hat, möglicherweise als sekundäre Folge des neoplastischen Phänotyps ausgewählt wurde. Zugegeben, der Scheinwerfer hat das Gen zutage gefördert und Sie müssen der Sache nachgehen, aber das beweist zu diesem Zeitpunkt keineswegs seine Rolle als unmittelbar treibende Kraft bei der Krebsentstehung. BRIAN SCHMIDT: Sie haben Recht, das kann man so nicht sagen. J. MICHAEL BISHOP: Es könnte sich um ein Resistenzgen handeln, es könnte jede andere Art von Gen sein. BRIAN SCHMIDT: Damit wäre sicherlich nur ein indirekter Beweis möglich, absolut richtig, aber man verfügt dennoch über diesen Scheinwerfer. Danach kann man sagen, ok, das bedeutet jetzt dieses oder jenes. J. MICHAEL BISHOP: Wenn ich nicht der Ansicht wäre, dass uns mit Big Data ein Scheinwerfer zur Verfügung steht, wäre ich kein Verfechter des Genomprojektes. Ich bin kein Genomiker, aber ich befürworte das Projekt. DISKUSSIONSLEITER: Darf ich Sie etwas fragen, was vielleicht etwas mehr in Richtung Big Data in der Medizin geht? In diesem Raum befinden sich 600 Leute mit jeweils sagen wir 20 Parametern. Bereits in einer kleinen Gruppe wird Statistik also mehr oder weniger zwangsweise kompliziert. Wie löst man dieses Problem? Gibt es eine Möglichkeit? Brauchen wir klinische Studien mit 50.000 Probanden? Wer bezahlt das? BRIAN SCHMIDT: Ein Vorteil großer Datenmengen liegt darin, dass sich damit klinische Studien umgehen lassen. Auch wenn das bei den Datenschützern nicht sonderlich gut ankommt würden einige dieser klinischen Studien, die bis zum letzten Tag unglaublich teuer sind, durch Erfassung der Daten von einer Milliarde Menschen überflüssig werden. Zwar gibt es dabei keine Kontrollen, aufgrund der schieren Datenmenge lassen sich aber andere Faktoren extrahieren. Meiner Meinung nach ist der Spielraum hierfür ziemlich groß. Zwar benötigt man am Ende wahrscheinlich doch eine klinische Studie, doch die Ergebnisse sind dann zu 99,9% sicher. DISKUSSIONSLEITER: Sollen wir also Beobachtungsstudien zu bereits vorliegenden Daten durchführen? BRIAN SCHMIDT: Ja, aber wir brauchen Milliarden von Proben, nicht hunderte. DISKUSSIONSLEITER: Wissen Sie, wie viele Menschen auf der Erde leben? BRIAN SCHMIDT: Es wäre wirklich gut, wenn wir die Daten aller 7 Milliarden hätten. Ich prophezeie Ihnen, dass in 30 Jahren unser aller Genom erfasst sein wird – das ist Teil der Abmachung. DISKUSSIONSLEITER: Sie werden Deutschland aus bestimmen Gründen außen vor lassen müssen. Hier ist man diesbezüglich sehr streng. J. MICHAEL BISHOP: Dazu möchte ich etwas sagen. Es ist bereits ganz deutlich geworden, dass die Erfassung großer Datenmengen im Gesundheitswesen dazu geführt hat, dass für eine Reihe bereits auf dem Markt befindlicher Medikamente sehr nutzbringend neue Anwendungsgebiete ermittelt wurden, z.B. unvorhergesehene Zusammenhänge, wie ich sie bereits erwähnt habe. Manche waren Fehlschläge, doch es gab bei der Identifizierung neuer Anwendungsgebiete für Medikamente auch Erfolge, die das Ergebnis von Erhebungen im Rahmen sehr großer Patientenkollektive sind. Diese Kollektive werden trotz der Datenschutzvorbehalte, die wir lösen müssen, immer größer. BRIAN SCHMIDT: Ich habe am ersten Tag bereits darüber gesprochen – wir haben all diese Phase 2-, Phase 3-Studien, in denen Daten erfasst werden. Fügt man diese Informationen später zusammen, stößt man, wie Sie sagen, möglicherweise auf eine ganz andere Anwendungsmöglichkeit, wenn man plötzlich realisiert, dass sich das Medikament für Menschen mit einer bestimmten Genomsequenz eignet. Aber wir haben von vorneherein schon gar nicht genügend Daten. Die Aufaddierung der Daten ist zwar kein Allheilmittel – natürlich muss man auch die richtigen Fragen stellen BRUCE BEUTLER: Ich möchte gerne eine Anmerkung machen. Wir sollten die Tatsache nicht aus den Augen verlieren, dass auch die Qualität der Daten von großer Bedeutung ist. Sie aber ergibt sich aus den Resultaten der durchgeführten Experimente. Sind Big Data z.B. für die Prüfung eines Medikamentes notwendig? Nein, der Effekt ist nur sehr schwach. Ein gutes, d.h. hochwirksames Medikament lässt sich bereits anhand einer relativ kleinen Patientenzahl ermitteln. BRIAN SCHMIDT: Das ist zwar richtig, aber bei einem Patienten, der diese DNA-Sequenz aufweist – einer unter 1000 – liegt die Wirksamkeit bei fast 100%. Mit Hilfe der Big Data lässt sich dieser eine Patient herausfiltern Auf diese Weise spart man Medikamente. Alles hängt letztendlich davon ab, wie gut das Arzneimittel wirkt. DISKUSSIONSLEITER: Der nächste Schritt ist wahrscheinlich, wie Sie sagen, die Personalisierung der Medizin, d.h. eine Art Wundermedikament, das bei jedem wirkt. Das war die erste Runde, ein Appetitanreger. Gibt es vielleicht schon Fragen oder Kommentare seitens der Zuhörer? Melden Sie sich doch bitte. Möchten Sie beginnen? J. MICHAEL BISHOP: Nein. Ich möchte meine Besorgnis darüber zum Ausdruck bringen, dass wir dem Publikum eher Magenschmerzen bereitet haben als seinen Appetit anzuregen. DISKUSSIONSLEITER: Okay, gut. Es gibt viele Fragen. Wir haben hier links und rechts zwei Mikrophone; gehen Sie bitte zum Mikrophon. FRAGE: Ich habe eine Frage an Professor Bishop. Ihrer Aussage nach werden Big Data und Systembiologie häufig als Synonyme verwendet. Die Systembiologie besitzt jedoch noch eine andere Komponente, nämlich den Bottom-up-Ansatz. Dabei untersucht man die Wechselwirkungen zwischen verschiedenen Genen von Proteinen, entwickelt ein Genregulierungsnetzwerk und analysiert dann aufsteigend die Dynamik. In diesem Sinne folgen wir nicht blindlings den Big Data. Ist das Auto kaputt, wissen wir aufgrund der Big Data zwar, dass die Lenkung nicht funktioniert, das Lenkrad kaputt ist, dieses und jenes nicht funktioniert, wir wissen aber nicht, was genau nicht funktioniert. Alles, was wir aus den Big Data herauslesen können, ist, dass nichts funktioniert. Beim Bottom-up-Ansatz versuchen wir dagegen herauszufinden, wie die Dynamik des Systems im Einzelnen aussieht. Man beginnt vielleicht im Kleinen und versucht darauf aufzubauen. Inwieweit ist der Begriff der Systembiologie, der zur politischen und wissenschaftlichen Propagierung der Big Data missbraucht wird, de facto ein Hindernis für den Erkenntnisfortschritt? DISKUSSIONSLEITER: Wenn ich noch etwas hinzufügen darf. In der nächsten Runde möchte ich den Schwerpunkt auf die Systembiologie legen. Aber vielleicht möchten Sie die Frage kurz beantworten. J. MICHAEL BISHOP: Es gibt keine kurze Antwort darauf. Wenn ich Sie richtig verstanden habe, haben Sie Big Data mit der Systembiologie gleichgesetzt. Wenn ja, so stimmt das nicht. Das zweite Problem ist, dass ich gerne wüsste, wie Sie Systembiologie definieren, denn von jedem, den ich frage, erhalte ich eine andere Definition. Selbst ein guter Freund von mir, der den Lehrstuhl für Systembiologie an einer führenden Universität innehat, kann mir bislang keine Definition liefern. Ehrlich gesagt weiß ich nicht, wie ich Ihre Frage beantworten soll, denn mir schien es bezüglich der Definition einige Verwirrung zu geben. Könnten Sie Ihre Frage ein wenig präzisieren? DISKUSSIONSLEITER: Entschuldigung, dürfte ich Sie bitten, das auf die nächste Runde zu verschieben, in der wir das Thema näher beleuchten? Vielen Dank. Die nächste Frage bitte. FRAGE: Ich habe ebenfalls eine Frage an Dr. Bishop. Mit Hilfe der Krebsgenomik bzw. Big Data lassen sich neue Onkogene oder Tumorsuppressorgene entdecken. In Ihrer Diskussionsrunde am Montag sprachen wir jedoch darüber, dass bei den neuen Krebsarten, die Sie ins Auge gefasst haben, die synthetischen Letalitätsgene das potentielle Target sein könnten. Können wir Ihrer Ansicht nach diese synthetischen Letalitätsgene z.B. zur Erzeugung eines Onkogen- oder PFD3-Tumorsuppressors aus diesen Big Data ermitteln? Für mich liegt es nämlich inzwischen auf der Hand, dass wir solche Gene finden können. J. MICHAEL BISHOP: Das ist ehrlich gesagt eine sehr spezielle Frage, die wir vielleicht im kleinen Kreis diskutieren könnten. Wir beide haben uns ja bereits mehrfach privat darüber unterhalten. Das Phänomen der synthetischen Letalität wurde bei Mikroben entdeckt. Es gibt dabei zwei harmlose Mutationen, A und B, mit einem leichten bzw. gar keinem Phänotyp. Bei Kombination in ein- und demselben Organismus, in der Mikrobe, sind sie letal. Im therapeutischen Setting ist das Onkogen Mutation A und das Therapeutikum Mutation B. Das Therapeutikum B ist beim Ansatz der synthetischen Letalität nicht auf das Ziel gerichtet, sondern wird entweder durch bestimmte Techniken, die ich Ihnen nennen kann, nach dem Zufallsprinzip ausgewählt oder bewusst eingesetzt. Es trifft in der Zelle auf etwas anderes, das in Kombination mit dem Onkogen letal ist – das ist synthetische Letalität. Als therapeutischer Ansatz ist diese Methode deswegen von Vorteil, weil sich die Anzahl der Medikamente zur Behandlung einer bestimmten genetischen Läsion enorm erhöhen lässt, denn Sie zielen ja nicht auf die Läsion ab, sondern auf viele andere Dinge in der Zelle, von denen einige mit der Überexpression bzw. dem Fehlen des Gens im Sinne einer synthetischen letalen Wechselwirkung zusammenhängen. Bei BRCA-Mangel beispielsweise kommt ein Medikament zur klinischen Anwendung, das auf dem Prinzip der synthetischen Letalität beruht. Big Data sind in gewisser Weise daran beteiligt, da genomweite Untersuchungen durchgeführt werden können. Sie haben zum Beispiel im Labor eine Zelllinie mit einer Mutation im ras-Gen, bei der Sie eine das gesamte Genom redundant repräsentierende RNAi-Bibliothek auf Interferenzen untersuchen, die die Zelle, die das mutierte ras-Gen beinhaltet, abtöten. Steve Elledge hat das ausprobiert – das Ergebnis sind Dutzende von Treffern, die aber nicht ras betreffen, sondern andere Gene in dem Genom. Sie werden Kandidaten für synthetische letale Targets. Dann aber muss man alles ein weiteres Mal sichten, die bei RNA-Interferenzen recht häufig auftretenden nicht-targetbezogenen Effekte ermitteln und schließlich, wenn man etwas über die Funktion des Gens weiß, entscheiden, wie man es angehen möchte. Im Prinzip lässt sich aber, was auch häufig gemacht wird, z.B. in der Pharmaindustrie, das gesamte Genom auf Gene, die mit ihrem bevorzugten Targetgen – ras, mic oder was auch immer – in einer synthetischen letalen Wechselwirkung stehen, testen. FRAGE: Wir müssen die Gene nach wie vor mit Hilfe von Screening-Experimenten ermitteln, nicht wahr? Wir könnten aber Informationen auch direkt aus den Big Data oder der Krebsgenomik gewinnen und damit Kandidaten für die synthetische Letalität bereitstellen. J. MICHAEL BISHOP: Ich denke, wir kennen die Signalwege noch nicht gut genug, um eine solche Vorhersage treffen zu können. Genau daran arbeitet die Systembiologie gerade. FRAGE: In diesem Raum sind einige der weltweit brillantesten Köpfe versammelt, doch insbesondere... J. MICHAEL BISHOP: Unter den Zuhörern bestimmt. FRAGE: Auch auf dem Podium. Sie können aber nicht über Big Data sprechen, ohne dass insbesondere wir Amerikaner an den Film Gattaca denken müssen. Einige von Ihnen haben ihn vielleicht gesehen – ein wirklich guter Film, auch wenn man sich auf diesem Gebiet nicht so gut auskennt. Doch nun zu meiner Frage. Ich denke, wir werden in den nächsten Jahren nicht nur viele der Gene, die an zahlreichen genetischen Erkrankungen beteiligt sind, sequenziert haben, sondern wahrscheinlich auch das Genom eines Großteils unserer Bevölkerung. Was halten Sie moralisch davon, dass wir in der Lage sein werden, das Genom eines Menschen zu untersuchen und bestimmte genetische Erkrankungen vorherzusagen? Ist das für Sie eine Option? Es würde zu einer Ungleichbehandlung auf der Grundlage bestimmter genetischer Erkrankungen führen. Werden Versicherungsunternehmen Menschen mit einer Prädisposition für Herzerkrankungen, Schlaganfall, Atherosklerose etc. eine Krankenversicherung verweigern? Wie sehen Sie als Wissenschaftler das? DISKUSSIONSLEITER: Wer möchte das aufgreifen? J. MICHAEL BISHOP: Ich fange an. Das ist kein Problem der Zukunft, es besteht bereits bei Familien mit Chorea Huntington usw. Das ist eine schwierige Sache, und unsere Gesellschaft versucht noch immer eine Lösung zu finden. Bei diesen Familien erfolgt sicherlich routinemäßig eine genetische Beratung. Sie dehnen diese Thematik lediglich auf die weniger wahrscheinliche Möglichkeit aus, dass wir tatsächlich polygenetische Determinanten der Suszeptibilität untersuchen und ihre Bedeutung ermitteln können. Genau das stellt aber momentan noch ein Problem dar, und ich glaube nicht, dass wir dafür eine einfache Lösung haben. Ehrlich gesagt überlassen wir die Entscheidung den Patienten: Möchten Sie wissen, ob Sie eine genetische Prädisposition für Chorea Huntington haben oder nicht? Viele sagen dann "Nein, ich möchte das nicht wissen, denn die Krankheit ist nicht heilbar." Manche sagen "Ja, ich möchte es wissen", aus den verschiedensten Gründen. DISKUSSIONSLEITER: Der Patient ist also derjenige, der entscheidet. J. MICHAEL BISHOP: Ja genau. DISKUSSIONSLEITER: Möchte noch jemand etwas sagen? JULES HOFFMANN: Ich möchte noch anmerken, dass man das Ganze nicht nur negativ sehen sollte. Bei Chorea Huntington muss man z.B. seine Ernährung umstellen und bei bestimmten Sachen vorsichtig sein. Bescheid zu wissen kann also hilfreich sein. Mir würde das nichts ausmachen. Naja, okay. Aber... JULES HOFFMANN: Was ich sagen wollte, ist, dass wir das Ganze nicht nur als negativ, gefährlich und angsteinflößend betrachten sollten. Ich denke, das würde uns helfen. Verstehen Sie, was ich meine? Wie denken Sie darüber? FRAGE: Ich persönlich denke, dass die menschliche Rasse, warum auch immer, grundsätzlich zur Diskriminierung neigt. Wenn wir einen Grund dafür finden, zwischen Menschen zu unterscheiden, sei es aufgrund ihrer Gene, ihrer Kultur oder ihrer Rasse, so tun wir es. Es wird sicherlich in vieler Hinsicht große Fortschritte geben, doch meiner Ansicht nach neigen wird dazu, Menschen zu kategorisieren und in ein Schema zu pressen. Dann kann mein Arbeitgeber eine DNA-Probe von meiner Kaffeetasse nehmen und nachsehen, ob meine Lebenserwartung 20 Jahre geringer ist als die einer anderen Person, so dass ich deswegen meinen Job verliere. Ich empfinde das in der Tat als sehr negativ. J. MICHAEL BISHOP: Aber das lässt sich gesetzlich korrigieren, was auch bereits geschieht. DISKUSSIONSLEITER: Das ist ein interessanter Punkt. BRUCE BEUTLER: Ich stimme zu, dass es viel für sich hätte, wenn man die Genomsequenzen aller Menschen bzw. die genaue Beziehung aller Menschen weltweit zueinander kennen und damit sogar polygene Erkrankungen verstehen könnte. Das ist jetzt nicht sehr elegant ausgedrückt – in jedem Fall könnten wir den Phänotyp verfolgen und Rückschlüsse ziehen, was uns derzeit nicht möglich ist. Natürlich besteht aber ein Missbrauchspotential, vor dem man die Menschen schützen muss. Ich finde auch, dass das gesetzlich geregelt werden sollte. BRIAN SCHMIDT: Ich wollte auch gerade sagen, dass das ganz klar die Aufgabe der Regierung ist. Die Antidiskriminierungsgesetze werden ja auch von der Regierung erlassen. So wird man es machen müssen, denn Sie haben Recht, als Versicherungsunternehmen wollen Sie Geld verdienen. FRAGE: Ich vertraue da eher Ihnen als unserer Regierung. BRIAN SCHMIDT: Sie werden aber Ihrer Regierung vertrauen müssen. DISKUSSIONSLEITER: Vielen Dank. Bitte der Nächste an dieses Mikrophon. FRAGE: Meine erste Frage war ethischer Natur und ging in eine ähnliche Richtung – was tun wir de facto, wenn wir das gesamte Genom sequenziert haben? Ich denke, das wurde bereits beantwortet. Ich habe aber noch eine zweite Frage: Wie sieht es bei der personalisierten Medizin aus? Wir haben eine kleine Untergruppe von Patienten und erproben das gerade in den Industrieländern. Ein Problem sind die Kosten. Wie sieht das Ganze wirtschaftlich aus? Wie bezahlen wir das? Ist personalisierte Medizin bei immer kleiner werden Gruppen überhaupt möglich? DISKUSSIONSLEITER: Möchte jemand das kommentieren? Die ökonomischen Probleme? Die Sequenzierung des gesamten Genoms war zu Beginn sehr teuer, jetzt liegen wir bei etwa 500 Dollar pro Genom, doch auch das ist viel Geld. Ist das der Kern Ihrer Frage? FRAGE: Ja. Im Bereich der Onkologie heißt es, dass 5% oder 10% der Patienten davon profitieren würden. Bei so einer kleinen Gruppe sind das enorme Kosten, denn… DISKUSSIONSLEITER: Lassen Sie mich das Ganze vielleicht etwas vereinfachen: In den Entwicklungsländern sind 500 Dollar nach wie vor viel Geld. Wo kommt die personalisierte Medizin zur Anwendung? Ist das vor allem ein finanzielles Problem? Möchte jemand dazu etwas sagen? BRIAN SCHMIDT: Mir fällt auf, dass Big Data immer billiger werden. Bald schon wird die Sequenzierung der DNA eines Menschen, sozusagen als Ergänzungsdaten für die Diagnosefindung, nur noch 10 Dollar kosten, was recht kostengünstig ist. Davon abgesehen wird man, wie bereits heute, Kosten sparen und rationalisieren müssen. Auch bei der Frage, wer die Kosten trägt, geht es um wirtschaftliche Aspekte. Die Entscheidung, welche Forschungsprojekte durchgeführt werden, wird auf ökonomischer Grundlage gefällt werden. Wenn zehn Menschen auf der Welt an einer Krankheit leiden, die wir mit einer Investition von einer Milliarde Dollar heilen könnten, so werden wir das nicht tun, weil es nicht kosteneffizient ist und andere Krankheiten eine höhere Priorität haben. Es ist also eine Frage der Prioritäten. Mit dem Konzept der Big Data wird es jedoch meiner Ansicht nach möglich sein, das Ganze in Zukunft erheblich kostengünstiger zu gestalten, so dass wir am Ende alle davon profitieren. DISKUSSIONSLEITER: Ich schlage vor, die Fragerunde jetzt zu beenden. Wir haben hier noch drei Meldungen und dort noch eine, dann gehen wir in die zweite Runde. Ich freue mich, dass von den Zuhörern so viele Kommentare und Fragen kommen. Die nächste Frage bitte. FRAGE: Ich habe eine ganz grundlegende Frage zur Natur der Hypothese; ich hoffe, sie ist nicht zu trivial. Es scheint mir, als ob in dieser Diskussion über hypothesengesteuerte Forschung und Big Data selbst hinter den Screening-Ansätzen eine ganz einfache Hypothese steckt, d.h. man darin Zusammenhänge oder vielleicht sogar ein mit einem Phänotyp assoziiertes verursachendes Gen erkennen könnte. Meine Frage lautet, sprechen wir über Hypothesen? Können Sie definieren, was für Sie eine Hypothese ist? Oder sprechen wir über Kausalität bzw. die Etablierung von Kausalität? Worum geht es? BRUCE BEUTLER: Ich kann Ihnen ein Beispiel geben. In der Art von Screening, die wir im Rahmen der Forward Genetics betreiben, gibt es definitiv eine Hypothese, und zwar die, dass die Phänotypen, die wir sehen, nichts mit Mutationen zu tun haben. Dass ist die Nullhypothese. Sie testen sie bei jeder Mutation in jedem Ihrer Tiere und suchen nach Anzeichen, die ihr zu widersprechen scheinen. Wir bezeichnen das als Verknüpfung. Das ist nur ein Beispiel. Ich möchte gerne einen Satz von R. A. Fisher zitieren; wenn ich mich an seine Worte richtig erinnere, sagte er "Jedes Experiment existiert, um den Fakten die Möglichkeit zu geben, die Nullhypothese zu widerlegen." Das liegt im Kern auch den Big Data zugrunde. DISKUSSIONSLEITER: Wir können später noch einmal auf diesen Punkt zurückkommen. Hier geht es gerade ein wenig ins Philosophische, und es gibt doch einige Unterschiede zwischen Hypothese und Nullhypothese. Machen wir mit der nächsten Frage weiter. FRAGE: Meine Frage ist eigentlich sehr ähnlich, es geht um die Definition der Hypothese. Ich denke, dass sich eine Hypothese auf zweierlei Art und Weise aufstellen lässt: basierend auf früheren Beobachtungen oder basierend auf der Entwicklung eines physikalischen oder mathematischen Modells. Bei der Modell-Version sind aussagekräftige Vorhersagen möglich. Durch die erneute Überprüfung dieser Vorhersagen lassen sich die Daten, die man erhält, auf eine sehr gute Konfidenzbasis stellen. Verfügt man jedoch nicht über ein physikalisches oder mathematisches Modell, ist man gezwungen, eine Hypothese auf der Grundlage früherer Beobachtungen aufzustellen. Bei einem Experiment stellen Sie z.B. eine Nullhypothese auf und überlegen anschließend, ob Ihr Gen den Phänotyp, den Sie untersuchen, beeinflusst oder nicht. Können Sie etwas über Hypothesen, die nicht auf der Grundlage eines physikalischen oder mathematischen Modells aufgestellt werden, sagen? Wie nimmt man sie in Angriff? BRIAN SCHMIDT: Ich würde sagen, beide Ansätze sind mathematisch, nur dass einer komplizierter ist als der andere. Die eine Methode ist binär – etwas bewirkt, dass etwas anderes geschieht, ja/nein, ein ganz einfaches Modell. Bei der zweiten Methode haben Sie mehrere Gleichungen, d.h. etwas bewirkt, dass diese Funktion so reagiert. Beides sind mathematische Modelle, nur der Grad der Komplexität reicht von ganz einfach bis äußerst komplex. J. MICHAEL BISHOP: Ich möchte darauf hinweisen, dass die weitaus meisten Fortschritte in der Biologie über Generationen hinweg mit Hilfe von Hypothesen erzielt wurden, die nicht mathematisch geprägt waren. Außerdem haben Sie eine wichtige Variable in der Gleichung vergessen – die Phantasie. Auf meinem Forschungsgebiet entstammen die meisten Hypothesen der Phantasie, die häufig, aber nicht immer durch bereits vorliegende Daten angeregt wird. Die Hypothese, an der Harold und ich gearbeitet haben, basierte nicht auf bereits vorliegenden Daten, sondern ausschließlich auf dem Wissen, dass virale Onkogene existieren, und auf Darwin. Das waren die Grundlagen unserer Hypothese, sonst nichts. BRIAN SCHMIDT: Aber das sind dennoch Beobachtungen. J. MICHAEL BISHOP: Ja, sicher. FRAGE: Wie sieht es mit sehr langsam anfallenden Daten aus, z.B. Informationen über ein Syndrom, das nur äußerst selten – einmal alle 100 oder 150 Jahre – auftritt? Wir wissen, dass wir nicht warten können, weil es dabei für einen Menschen um Leben und Tod geht. Laut Dr. Schmidt kommt das Genomprojekt in 30 Jahren; wir wissen also, dass dieser Zeitpunkt noch weit entfernt ist. Sollte man rasch eine Hypothese entwickelt oder besser warten? Was soll mit den kleinen Datenmengen geschehen, die sich in den langsam anwachsenden Big Data verbergen? J. MICHAEL BISHOP: Das klingt, als ob Sie davon ausgehen, dass sich jedes Problem z.B. in der Biologie mit Hilfe der Big Data lösen lässt. Ich bin mir nicht sicher, ob ich Sie richtig verstanden habe. Wollten Sie darauf hinaus? FRAGE: Nein, ich möchte wissen, wie es mit langsam anfallenden Daten aussieht, bezüglich Themen, zu denen keine Big Data vorliegen, auch wenn man danach sucht. Wir müssen über große Datenmengen verfügen, um darin ganz bestimmte Informationen zu finden. Sollen wir auf diese Hinweise oder seltene Krankheiten warten? Sollen wir sofort eine Hypothese aufstellen oder es ein bisschen langsamer angehen lassen? J. MICHAEL BISHOP: Ich bin dafür, sofort eine Hypothese aufzustellen. Wir haben das getan und es hat sich ausgezahlt. Mir fallen keine Big Data ein, die uns bei dieser speziellen Hypothese geholfen hätten. BRIAN SCHMIDT: Ich möchte Ihnen nur sagen, gehen Sie nicht davon aus, dass Sie wissen, wie Ihre Hypothese überprüft wird. Sie blicken möglicherweise weit in die Zukunft und sagen, es wird 75 Jahre dauern diese Hypothese zu überprüfen. Und dann sagt jemand 6 Wochen später, hoppla, ich hatte da einen Geistesblitz! Wenn Sie also eine gute Hypothese haben, die solide begründet ist, nichts wie her damit. J. MICHAEL BISHOP: Absolut. DISKUSSIONSLEITER: Es melden sich immer mehr Leute. Bitte nur noch kurze Fragen. FRAGE: Es wurde erwähnt – ich glaube von Dr. Bishop – dass die Datenanalyse der Datenerfassung hinterherhinkt. Ich würde gerne wissen, ob Sie dafür eine Lösung haben. Muss die gemeinsame Datennutzung effektiver werden? Oder sollten die Daten vor dem Paper veröffentlicht werden? Wie lässt sich die Datenanalyse beschleunigen? BRUCE BEUTLER: Meiner Ansicht nach ist die gemeinsame Datennutzung eine gute Sache. Informationen einem größeren Publikum zur Verfügung zu stellen ist immer hilfreich. Ich glaube, ich habe das betont: An einem bestimmten Punkt muss man Hypothesen aufstellen, um die anfänglichen Entdeckungen oder Beobachtungen hinter sich zu lassen. Daran ist nichts falsch. Das einzige Problem, das mir im Zusammenhang mit Hypothesen auffällt, ist, dass sie der menschlichen Natur ein wenig zuwiderlaufen. Der Mensch möchte lieber im Recht sein als im Unrecht. Deshalb sollten Hypothesen sehr stringent überprüft werden, was nicht immer der Fall ist. Das gilt sicherlich nicht für die Zuhörer hier in diesem Raum, jedoch für manch anderen – und es ist der Grund für viele Irrtümer in der Wissenschaft. FRAGE: Meine Frage lautet: Was machen wir mit all den tausenden und tausenden von Varianten mit einer sehr kleinen Effektgröße, die wir in diesen Studien nachweisen? Jede dieser Varianten hat einen sehr kleinen Effekt, zusammengenommen könnten sie aber von Nutzen sein. Was machen wir damit? Wir können sie ja nicht einfach im Labor validieren und ihre Funktion bestimmen. Das ist schwierig. DISKUSSIONSLEITER: Das ist eine Frage für den Modelle entwickelnden systembiologischen Ansatz – bitte verzeihen Sie mir – wo man sich die Dinge eher in ihrer Komplexität anschaut und nicht einen einzelnen Signalpfad. Aber ich wollte nicht die Beantwortung der Frage vorwegnehmen. Möchte jemand antworten? JULES HOFFMANN: Ich denke, Bruce ist hierfür der Richtige. BRUCE BEUTLER: Ich würde sagen, dass Sie es sind, der die Dinge kontrolliert, wenn Sie eine ergebnisoffene Analyse zum Nachweis eines Phänotyps durchführen. Sie entscheiden, was von so entscheidender Bedeutung ist, dass es Ihre Aufmerksamkeit erregt. Je nach Ihren Ressourcen müssen Sie aber irgendwo die Grenze ziehen. Beispielsweise kann es seine Berechtigung haben, nach zusätzlichen Effekten zwischen schwachen Phänotypen zu suchen. Ich würde momentan sagen, dass Sie ziemlich mutig sind, wenn Sie das machen, aber möglich ist es. FRAGE: Guten Tag. Ich möchte gerne Folgendes wissen: Wir alle sind das Produkt einer 3,5 Milliarden Jahre andauernden Evolution. Zum ersten Mal in der Geschichte des Lebens auf unserem Planeten hat unsere Generation den Werkzeugkasten in der Hand, um die Evolution direkt zu beeinflussen. Unser Bewusstsein verfügt diesbezüglich über eine entsprechende Rückkopplungsschleife. Wir halten manche Genvarianten für gut oder schlecht, manche erzeugen bei einzelnen Individuen Krankheiten, doch nicht unsere ganze Spezies erkrankt an Krebs. Haben wir die Möglichkeit diese Gene tatsächlich auszumerzen? Würde sich die Ausmerzung dieser Genvarianten, die Eliminierung der Vielfalt negativ auf unsere Spezies auswirken? BRUCE BEUTLER: Meiner Meinung nach sind wir davon noch sehr weit entfernt. Ob sich die Eliminierung aller genetischen Erkrankungen negativ auf unsere Spezies auswirken würde? Ja, vielleicht. Angenommen, man könnte die Diversität tatsächlich einschränken, so wäre das nicht gut. Doch davon sind wir de facto noch weit entfernt. Jules, möchtest du dazu noch etwas sagen? JULES HOFFMANN: Ich wollte ebenfalls anmerken, dass das sehr gefährlich ist. Ich meine, es muss eine Grenze geben. Bei bestimmten Erkrankungen, bei denen eine genetische Beratung der Familien erfolgt, kann man das forcieren. Betreibt man das jedoch auf einer Ebene, wo es um die Anfälligkeit für Herzerkrankungen oder Krebs geht, würde man die Existenz von Menschen verhindern, die bis zu einem Alter von 40 oder 50 Jahren Fantastisches leisten können. Stellen Sie sich vor, man hätte verhindert, dass jemanden wie Mozart das Licht der Welt erblickt, nur weil er für eine Krankheit anfällig war. Ich glaube, er starb an Tuberkulose, nicht wahr? Wir müssen hier also sehr vorsichtig sein. Die ganze Gesellschaft muss vorsichtig sein, nicht nur die Regierungen, sondern auch die verschiedenen Religionen auf der Welt. Es muss eine Grenze geben, das müssen wir begreifen. Würden Sie dem zustimmen? Nicht ganz, oder? FRAGE: Schon, aber ich traue mir nicht zu, diese Grenze zu ziehen. Schließlich schreitet diese Entwicklung ja kontinuierlich voran… JULES HOFFMANN: Wohl wahr. FRAGE: Ich kann nicht wirklich sehen, wo die Grenze ist. JULES HOFFMANN: Ja, absolut, ich stimme Ihnen zu. Dennoch sind wir uns einig, dass wir als Gesellschaft vorsichtig sein müssen. Wir können nicht einfach so weitermachen, ansonsten... FRAGE: Dennoch handelt es sich um einen leistungsstarken Werkzeugkasten, das gab es in der Geschichte des Lebens auf der Erde bislang noch nie. JULES HOFFMANN: Genau, Sie haben Recht. Das ist ein Aspekt, weswegen die Gesellschaft der Wissenschaft gegenüber zuweilen ein wenig misstrauisch gegenübersteht. Wir könnten wahrscheinlich in den nächsten 50 Jahren sämtliche Anfälligkeitsgene bei allen Neugeborenen ausmerzen. Das wäre vermutlich dramatisch. BRUCE BEUTLER: Sie würden nach ein paar Generationen sowie wieder auftauchen. FRAGE: Man weiß nie... DISKUSSIONSLEITER: Langsam rennt uns die Zeit davon. Ich freue mich aber, dass so viele Fragen kommen. Machen wir also weiter. Ihre Frage bitte. FRAGE: Entschuldigung, ich bin es noch einmal. Ich würde gerne wissen, wie man mit unerwarteten Resultaten umgeht. Zum Beispiel: Sie stellen eine Frage an Ihre Daten. Nach Anwendung der Statistik finden Sie weitere positive Ergebnisse, die Sie nicht erwartet hatten. Das geschieht meiner Ansicht nach sehr häufig. Wenn Sie aber zehn Fragen an Ihre Daten stellen, muss sich irgendein positives Resultat ergeben. Wie geht man mit diesen unerwarteten Ergebnissen um? DISKUSSIONSLEITER: Soll jemand bestimmter Ihre Frage beantworten? FRAGE: Nein. DISKUSSIONSLEITER: Möchte jemand antworten? JULES HOFFMANN: Sie erhalten gelegentlich unerwartete Resultate, nicht wahr? Wir auch. BRUCE BEUTLER: Ich glaube, wir alle lieben unerwartete Resultate. JULES HOFFMANN: Absolut, das ist toll. BRUCE BEUTLER: Wir alle lieben unerwartete Ergebnisse, und zu 90% sind sie die Folge eines methodischen Fehlers unsererseits und haben eine banale Erklärung. Zuweilen handelt es sich dabei aber auch um eine große Entdeckung. Natürlich planen wir und andere auch Ausnahmen mit ein. Wir versuchen uns selbst aktiv zu überraschen, indem wir das System z.B. durch Mutationen stören oder nach Medikamenten suchen, die das System stören können. Letztere sind zuweilen selbst von Interesse. BRIAN SCHMIDT: Ich möchte aber anmerken, dass man bei der von allen Seiten erfolgenden Durchforstung von Daten hinsichtlich bestimmter Fragestellungen die Messlatte für die Aussagekraft unerwarteter Ergebnisse höher legen muss, da die Statistik recht kompliziert wird. Es geht nicht nur um Ihre Fragen, sondern auch um die der restlichen Welt. Eines der Probleme, die wir haben, ist, dass wir die Messlatte wahrscheinlich zu niedrig legen und daher viele zweifelhafte Ergebnisse erhalten. Das bedeutet hohe Kosten für unser Fachgebiet und senkt die wissenschaftliche Qualität. Das Thema ist also eine große Herausforderung. Am einfachsten ist es, die Messlatte höher zu legen. DISKUSSIONSLEITER: Die nächste Frage bitte. FRAGE: Ich habe eine Frage zum persönlichen Genom. Die Technik entwickelt sich heute so rasant weiter, dass die Biologie nicht mithalten kann. Wie erklären wir einem Patienten, insbesondere im Rahmen einer genetischen Beratung, dass er eine Mutation hat, dessen Funktion wir aber nicht kennen? Was denken Sie darüber? BRUCE BEUTLER: Sie möchten wissen, wie man Patienten mitteilt, dass sie eine Mutation haben oder in utero eine Mutation vorliegt, wenn man die Funktion des Gens nicht kennt? FRAGE: Richtig. BRUCE BEUTLER: Das kommt häufig vor und stellt ein schwieriges Problem dar. Natürlich verfügen wir über immer mehr Erfahrungen bezüglich dessen, was mit einem Gen im Falle einer Mutation geschieht. Aber manchmal wissen wir es einfach nicht. FRAGE: Sind wir also bereit für die Sequenzierung unseres persönlichen Genoms? J. MICHAEL BISHOP: Wir verstehen Ihre Frage nicht so ganz. DISKUSSIONSLEITER: Ich denke, gemeint ist, ob wir für die personalisierte Genomsequenzierung und die personalisierte Medizin bereit sind. BRUCE BEUTLER: Technisch würde ich sagen ja. Mit Ausnahme derjenigen Fälle, bei denen wir wirklich nicht wissen, was passiert. Dann muss man einfach zugeben, dass man es nicht weiß. FRAGE: Würde das den Patienten nicht große Angst machen, wenn sie nicht wissen, was mit Ihnen geschieht? BRIAN SCHMIDT: Meiner Ansicht nach ist das bereits der Fall. Ich weiß nicht, wie lange Sie leben werden – das erwarten Sie auch nicht von mir. Wir wissen nicht alles. Wir haben immer mehr Daten und können sagen, dass bei Ihnen eine 35-prozentige Wahrscheinlichkeit dafür besteht, dass Sie an Alzheimer erkranken, wenn Sie diese spezielle Gensequenz aufweisen. Wenn die Leute sagen, dass sie das nicht wissen wollen, so können wir das nicht ändern. Ich möchte es wissen, denn ich möchte mein Leben entsprechend planen können. Es gibt also stets bei allem eine gewisse Unsicherheit, und das wird auch immer so bleiben. Das ändert aber meiner Ansicht nach nichts an der Gleichung. FRAGE: Guten Tag. Ich möchte Sie fragen, welche Art von Big Data Ihrer Ansicht nach für die Heilung von Krankheiten besser geeignet ist, Daten größerer Breite oder größerer Tiefe? Ich habe den Eindruck, dass man bisher den Schwerpunkt stark auf die Anzahl der Proben bzw. Patienten gelegt hat, zum Beispiel beim Genom. Wie wäre es, wenn man noch weniger Patienten hätte, aber versuchen würde, Daten mit größerer Tiefe zu erfassen, zum Beispiel bei der Sequenzierung ganzer Genome, und sie durch Epigenetik, Expression, Proteomik und tiefere Phänotypen anstelle einzelner Phänotypen zu ergänzen? J. MICHAEL BISHOP: Das wird alles schon gemacht. Wie Sie gehört habe, sind Zahlen aber für die Statistik wichtig. Man kann also nicht einfach sagen, dass man keine Zahlen mehr braucht. Die Proteomik ist eine Wachstumsindustrie und die Epigenomik repräsentiert ebenfalls ein dynamisches Fachgebiet In jedem Fall kann man aber auf die Zahlen nicht verzichten. Dr. Schmidt hat das eben ganz klar zum Ausdruck gebracht. BRIAN SCHMIDT: Das ist eine Frage sowohl der Datenqualität als auch der Datenquantität. Bei häufig gestellten Fragen ist Qualität gefragt, bei sehr seltenen Fragestellungen definitiv eine große Breite. Man braucht also beides. Aber das hängt natürlich von der Frage ab, die Sie stellen. DISKUSSIONSLEITER: Letzte Frage in dieser Runde. FRAGE: Ich scheine die Glückliche zu sein. Ich möchte etwas zu einer anderen Form der Big Data fragen, nämlich zu unseren wissenschaftlichen Publikationen. Immer mehr Leute studieren Biologie, und die Vorgänge im Rahmen verschiedener Krankheitssettings werden immer detaillierter, vor allem auf dem Gebiet der Krebsbiologie und Immunologie. Bei dieser überwältigenden Menge an Informationen frage mich zuweilen, wie ich da auf dem Laufenden bleiben soll, und das, obwohl ich tagein tagaus Literatur lese. Vielleicht sollte ich diese Frage an den Herausgeber von eLife richten – wissen Sie, wie sich das vereinfachen lässt? JULES HOFFMANN: Ja, ich stimme Ihnen vollkommen zu. Ich befinde mich in derselben Situation wie Sie, ich komme nicht mehr hinterher, weswegen ich gelegentlich verzweifle. Denken Sie an den Witz über eLife, die drei anderen Journals, die Randy Schekman erwähnt hat. Wenn Sie versuchen, diese drei Fachzeitschriften jede Woche oder alle zwei Wochen zu lesen, verbringen Sie den Großteil Ihrer Zeit mit dem Lesen von Artikeln und nicht mit Forschung. Sie haben daher vollkommen Recht. Ich möchte Ihnen einen Witz erzählen, eine kleine Anekdote, wenn Sie erlauben, Herr Vorsitzender. Als ich den Schwiegervater meines Sohnes zum ersten Mal traf – er war Pilot – und er mich fragte, was ich beruflich mache, sagte ich, dass ich in der Forschung tätig bin. Er sagte „In der Forschung? Aber man weiß doch schon so viel, das kann doch keiner behalten. Warum wollen Sie noch mehr forschen und noch mehr Daten produzieren?“ Sie haben vollkommen Recht. Ich teile Ihre Meinung und leide genauso darunter wie Sie. Aber das ist keine Antwort. DISKUSSIONSLEITER: Ok, möchten Sie auch etwas dazu sagen? BRIAN SCHMIDT: Die Literatur in all unseren Fachgebieten wächst buchstäblich exponentiell, was auch ein Big Data-Problem ist. Glücklicherweise existieren aber Tools, die uns bei diesem Problem helfen. Bei der Suche im Internet muss man nicht jede Seite durchforsten – dafür gibt es Google oder Bing oder Yahoo oder was auch immer. Wir brauchen diese Tools. Wenn wir sie entwickeln, können wir sagen „Das sind Themen, die mich interessieren“ und das System lernt von uns, sagt uns, wann ein neues Journal erscheint, und nennt uns Artikel aus Fachgebieten, die uns interessieren könnten. Das wäre meiner Meinung nach möglich. Schwieriger ist es mit den Dingen, von denen Sie gar nicht wissen, dass sie Sie interessieren. Deswegen geht man zu Vorträgen und hört sich an, was andere Leute zu sagen haben, und verfolgt sie hoffentlich auf Twitter. Verfolgen Sie mich auf Twitter? Wahrscheinlich nicht. Dann wissen Sie ja, wovon ich rede. JULES HOFFMANN: Wenn ich noch einen Punkt hinzufügen dürfte. Wir müssen uns auch darüber einig sein, dass nicht alle Paper in der Literatur gute Paper sind. Vieles darin hat uns in die falsche Richtung gelenkt. Bruce, würden Sie mir da zustimmen? BRUCE BEUTLER: Unbedingt. BRIAN SCHMIDT: Aber Google kann uns auch dabei helfen. DISKUSSIONSLEITER: Ja, das stimmt. Starten wir in die nächste Runde – auch wenn mir schon ein bisschen davor graut. Wie auch immer – 1968 prägte Mesarovic ein neues Schlagwort im Zusammenhang mit den Big Data; bis 2000 tauchte es laut Google nur in 19 Publikationen auf, Der Begriff lautet 'Systembiologie'. Ich befürchte, dass man mich umgehend korrigieren wird, aber ich möchte den Punkt anschneiden. Schließlich bezog sich die erste Frage aus dem Publikum darauf. Lassen Sie mich das Thema ganz einfach aus meiner Sicht schildern – mir ist bewusst, dass andere die Sache anders sehen und wir vielleicht nicht zu einem gemeinsamen Schluss gelangen. Ich möchte verstehen, welche Rolle ein Enzym im Gesamtzusammenhang, z.B. in der Zelle spielt. Ich möchte nicht nur wissen, welches Produkt dieses Enzyms erzeugt, sondern auch die Auswirkungen des Mechanismus auf die ganze Zelle kennen. Wie bereits erwähnt, ist hierfür technisch oftmals ein Störfaktor notwendig, z.B. eine Mutation oder ein Medikament, dessen Auswirkungen auf das Produkt, aber auch die ganze Zelle Sie ermitteln möchten. Können wir uns darauf einigen? Sie sehen nicht so aus, als ob Sie mir zustimmen. Wie auch immer – der Nobelpreisträger Sidney Brenner definierte die Systembiologie einmal als fehlerhafte Philosophie: wenig Einsatz, hoher Durchsatz, kein Ergebnis. Ich weiß nicht ob Sie…das ist nicht mein Gebiet. Ich möchte jedoch eine Diskussion über dieses Thema anstoßen. Ermöglichen Big Data einen systembiologischen Ansatz? Ist der Zeitpunkt dafür gekommen oder ist es noch zu früh? J. MICHAEL BISHOP: Brian, Sie haben gesagt, dass Sie Sidneys Bemerkung kommentieren möchten. BRIAN SCHMIDT: Ich werde mich zur Systembiologie nicht äußern, weil ich davon tatsächlich nichts verstehe, außer dass sie mir wie ein physikalisches Modell der Funktionsweise des Lebens anmutet, das sicherlich sehr nützlich, aber vermutlich völlig undurchführbar ist. Was ich sagen wollte, ist, dass bei einem geringen Signal/Rausch-Abstand pro Informationseinheit viele dieser Einheiten nötig sind. Eine der großen Stärken von Big Data ist aber, dass man mit Hilfe dieses großartigen Tools – die Wurzel n aus der Anzahl der Informationseinheiten – ein Signal erhalten kann. Laut Brenner geschieht so etwas nicht. Doch, es geschieht. Es geschieht bei großen Datenmengen die ganze Zeit, vorausgesetzt man ist vorsichtig, es treten keine größeren Probleme auf und man macht keine dummen Sachen. Was er sagt, stimmt also nicht immer. Problematisch kann es werden, wenn die Big Data wirklich Müll sind und man ihnen nicht trauen kann. Dann haben Sie Recht: Müll vorne rein, Müll hinten raus. Aber was Brenner vergessen hat: Eine der großen Stärken der Big Data ist, dass man mit ihrer Hilfe relativ subtile Fragen beantworten kann. Aber natürlich können sie einen auch in vieler Hinsicht in die Irre führen. BRUCE BEUTLER: Mein Haupteinwand gegen die Systembiologie, wie auch immer wir sie definieren, ist, dass viele ihrer Befürworter sie als Kontrapunkt zum Reduktionismus darstellen und sagen, der Reduktionismus hätte sich totgelaufen und man müsste die Dinge nun ganz anders angehen. Für mich ist Wissen letztendlich immer eine Frage der Interpretation und läuft auf Reduktionismus hinaus. Bei einem Film über eine Gazelle, die durch die Steppe läuft, oder eine Amöbe, die sich durch ein Mikroskopfeld bewegt, sehen wir bei hoher Auflösung jeden Pixel, Trillionen von Datenpunkten. Dennoch verstehen wir die Funktionsweise kaum. Das ist meiner Ansicht nach ein häufig auftretendes Problem bei der so genannten Systembiologie, ungeachtet dessen, ob sie Ihrer Definition entspricht oder davon abweicht. J. MICHAEL BISHOP: Kein Kommentar. DISKUSSIONSLEITER: Jules? JULES HOFFMANN: Ich pflichte Michael Bishop bei. DISKUSSIONSLEITER: Dann möchte ich mich an unsere Zuhörer wenden: Haben Sie Anmerkungen zu diesem Thema? J. MICHAEL BISHOP: Ich möchte anmerken, dass der Tenor dieser Diskussion einen wichtigen Punkt verschleiert. Wir sprechen über verschiedene Tools und ihre Anwendung in der Wissenschaft. Forscher nutzen entsprechend ihren Möglichkeiten alle Tools, die ihnen bei der Lösung ihres Problems helfen können. Ich denke, es ist ein Fehler, eine Analyseform der anderen vorzuziehen. Ehrlich gesagt unterstützt das meiner Meinung nach nur den Wettbewerb um Forschungsgelder. BRIAN SCHMIDT: Darf ich etwas anmerken? Wir Physiker sind die ultimativen Reduktionisten. Alles läuft auf 16 Teilchen und 16 Antiteilchen sowie ein weiteres Teilchen, das wir soeben entdeckt haben, hinaus; mehr braucht es nicht. Auf diese vier Naturkräfte kommt es an. Doch das nützt uns nicht viel. J. MICHAEL BISHOP: Systemphysik gibt es nicht, oder? BRIAN SCHMIDT: Doch. Genau das motiviert uns und ist die treibende Kraft hinter allem, worüber wir hier reden. Das Problem ist, dass die Dinge so kompliziert sind, dass uns die dem Ganzen zugrunde liegende reduktionistische Sichtweise nicht weiterhilft. Wir hätten alle gerne eine komplette Beschreibung der Funktionsweise des Systems Zelle. Dann könnten wir auf jeden Aspekt Einfluss nehmen und wüssten genau, was passiert. Das wäre toll, aber es wird sich nicht so bald realisieren lassen. Ich wüsste auch gerne, ob mich ein Regentropfen trifft, wenn ich hinausgehe. Ich verstehe die Physik dahinter, aber eben nicht gut genug. Es ist zu kompliziert. Meiner Meinung nach liegt das Kernproblem der Systembiologie aktuell darin, dass sie zu viele Fragen stellt. Das ist ein großes, nobles Ziel, aber man muss sich kleineren Einheiten zuwenden, um während der Lebensspanne eines Menschen wirklich Ergebnisse zu sehen. DISKUSSIONSLEITER: Gibt es hierzu Fragen oder Anmerkungen? Ja, eine. FRAGE: Meiner Ansicht nach hängt viel davon ab, bis zu welchem Grad man das System verstehen möchte. Jedes System lässt sich auf verschiedenen Ebenen definieren. Man kann z.B. nicht beschreiben, wie Wasser in einem Wasserfall fließt, indem man die Schwingungen der Wassermoleküle untersucht, nicht wahr? Man kann nicht die Schwingung jedes einzelnen Wassermoleküls simulieren und versuchen zu verstehen, wie das Wasser fließt. Es hängt also gänzlich davon ab, bis zu welchem Grad man das System verstehen möchte. Ich denke, man muss das System auf allen Ebenen verstehen; letztendlich kommt es darauf an, inwieweit jemand das Niveau, auf dem er die Daten interpretieren möchte, verstehen will. Das ist mein persönlicher Kommentar. BRIAN SCHMIDT: Ich denke, wir beide stimmen darin überein, dass man das anstehende Problem verstehen möchte. Wissen Sie, es ist schön für alles eine Theorie zu haben, aber wir haben keine Theorie. FRAGE: Ich wollte das nur anmerken, weil ich der Meinung bin, dass eine der Möglichkeiten, von der Bostoner AIDS-Chimäre zu profitieren, beispielsweise ein systembiologischer mikroskopischer Ansatz wäre. Die meisten von uns benutzen zwar ständig ein Mikroskop, doch wir können kaum mehrere Sachen gleichzeitig untersuchen. Sobald man sich aber z.B. mit der Analyse ganzer Genome beschäftigt, wo man es möglicherweise mit mehr Variablen zu tun hat, ist das Problem, dass einem oftmals vom mathematischen bzw. physikalischen Standpunkt aus die Werkzeuge zur Kombination dieser Variablen fehlen. Für einen systembiologischen Ansatz ist also unter Umständen nicht nur die Finanzierung von Bedeutung, diese Methodik könnte auch wirklich sinnvoll sein. Wir könnten beispielsweise, wie Sie bereits sagten, neue Informationen über die Funktionsweise von Zellen erhalten. Auch hier ist allerdings das Problem, dass uns keine angemessenen Werkzeuge zur Verfügung stehen. Während meiner Doktorarbeit habe ich mich zur Beschreibung der Zelle, der Bewegung ihrer Organellen etc. viel mit Kolloidphysik beschäftigt – einem Zweig der Physik, der vor 70, 80 Jahren entwickelt wurde – und versucht, sie bei viele Terabyte großen Bilddatenpaketen einzusetzen. Das ist wirklich nur eine Anmerkung, aber ich bin ein Verfechter der Systembiologie. DISKUSSIONSLEITER: Keine konkreten Kommentare hierzu? Stimmt, das war ja ein Kommentar. J. MICHAEL BISHOP: Ich bin überrascht, dass so viele Philosophen unter Ihnen sind. FRAGE. Wie ich bereits sagte, wird die Systembiologie oftmals fälschlicherweise mit Big Data verwechselt. Die Systembiologie umfasst aber nicht nur Big Data, sondern auch den physikalischen Ansatz, bei dem wir die Wechselwirkung und Funktionsweise einer endlichen Menge an Proteinen auf einer Ebene analysieren, die wir zu verstehen versuchen. Im Gegensatz zu Dr. Bishop bin ich der Meinung, dass der Bottom-up-Ansatz der Systembiologie aufgrund der großen Anzahl an Publikationen im Big Data-Bereich völlig untergeht. Wie sehen Sie das als Biologe und Physiker? Mir scheint diesbezüglich während der gesamten Podiumsdiskussion eine gewisse Spannung zu herrschen. Ich denke, ich vertrete hier den intermediären Bordismus. J. MICHAEL BISHOP: Was Sie beschreiben, klingt für mich wie Biochemie. Genau das tun Biochemiker; sie arbeiten auf der molekularen Ebene und versuchen herauszufinden, wie Enzyme funktionieren, wie Myosin kontrahiert und so weiter. Wenn ich Sie richtig verstanden haben, ist es das, was Sie beschreiben. Das machen Biochemiker. Wahr daran ist, dass mindestens mein halbes Berufsleben lange darüber lamentiert wurde, dass die Biochemie aus dem Rahmen fällt, wo die Molekularbiologie doch so sexy und dramatisch ist. Doch sie kehrt zurück, zum Teil auch auf meinem Gebiet, denn wir brauchen die Genomdaten und müssen die Gene und Genprodukte ermitteln. Für ihre gezielte Handhabung ist es jedoch erforderlich, dass wir ihre Funktionsweise verstehen. Das ist Biochemie. Fragen zur atomaren Ebene beantwortet am besten Dr. Schmidt. BRIAN SCHMIDT: Für mich sieht Biochemie wie Physik aus. DISKUSSIONSLEITER: Es ist sowieso alles Physik. J. MICHAEL BISHOP: Ich weiß aus Gesprächen mit diesem Herrn, dass alles Physik ist. BRIAN SCHMIDT: Aber es sieht aus wie Physik. FRAGE: Gibt es in Zeiten von Big Data und Systembiologie überhaupt noch Platz für herkömmliche Biologen? Muss jeder erst irgendwelche Big Data-Experimente durchführen oder kann man im Labor noch mit herkömmlichen biologischen Methoden arbeiten und wichtige mechanistische Fragen beantworten? DISKUSSIONSLEITER: Die Frage ist, gibt es noch Platz für einen mechanistischen Ansatz in der Biologie oder müssen wir alle Big Data-Biologie betreiben? Das ist einfach, oder? J. MICHAEL BISHOP: Auf meinem Fachgebiet forschen die Leute immer noch mit kleinen Datenmengen. Nur eine begrenzte Anzahl von Forschungsanstalten beschäftigt sich mit der richtig großen Genomik –das Broad Institute, die Washington University, Seattle, auch die USCF sticht da heraus. Wir machen keine Big Data-Genomik. FRAGE: Aus der Art und Weise, wie das Thema in dieser Podiumsdiskussion behandelt wird, kann man schließen, dass Big Data wichtig sind und jeder den Umgang mit ihnen im Rahmen der Durchführung bzw. Konzipierung von Experimenten lernen muss. J. MICHAEL BISHOP: Ich denke, sie liefern Daten, aber Sie müssen eigentlich ihre Funktionsweise noch nicht einmal verstehen, wenn die Literatur und die Leute, die sich damit beschäftigen, zuverlässig sind. JULES HOFFMANN: Wir sind noch zu keinem Schluss gekommen, abgesehen davon, dass wir alle der Ansicht sind, dass Big Data die Zukunft sind, oder? Ich hoffe, das wird uns noch gelingen, Herr Vorsitzender. Am Ende werden wir zu einem Schluss kommen, dann können Sie beruhigt sein. FRAGE: Vielen Dank. J. MICHAEL BISHOP: Ich möchte auf einen Leitartikel meines guten Freundes Bruce Alberts, dem früheren Herausgeber der Fachzeitschrift Science und ehemaligen Präsidenten der US-amerikanischen National Academy of Science verweisen, der vor mindestens 10 Jahren im Journal Cell veröffentlicht wurde. Seine Überschrift lautet 'Small science is good science'. Ich habe ihn in Vorbereitung auf die heutige Diskussion noch einmal gelesen, und er hat seine Gültigkeit bis heute nicht verloren. Lesen Sie ihn. FRAGE: Ich frage mich, ob die Systembiologie überhaupt etwas Neues ist, schließlich versuchen wir in der Forschung ja stets herauszufinden, wie die Dinge miteinander verknüpft sind und wie wir mit dem System in Wechselwirkung treten können. Natürlich sind wir heute in der Lage, indirekt mehr Informationen zu erfassen, so dass wir Daten aus den unterschiedlichsten Forschungsgebieten kombinieren können. Aber ist das gegenüber dem, was wir vorher gemacht habe, wirklich so etwas Neues, abgesehen von der Tatsache, dass wir über mehr Informationen verfügen? DISKUSSIONSLEITER: Wir haben hier leider keinen echten Verfechter der Systembiologie. JULES HOFFMANN: Meiner Ansicht müssen wir neu definieren, was wir unter Systembiologie verstehen, denn hier werden Aspekte der Biochemie mit der Erfassung einer bestimmten Datenmenge verwechselt. Vielleicht möchten Sie die Systembiologie neu definieren, Herr Vorsitzender? DISKUSSIONSLEITER: Wenn es Ihnen nichts ausmacht, würde ich gerne bald zum eigentlichen Thema der Diskussion zurückkehren, denn wie ich sehe, läuft uns die Zeit davon. Schließlich haben wir hier die Spezialisten sitzen. Die nächste Frage bitte. FRAGE: Ich habe eine kurze Frage. Uns stehen heute viele Daten aus Genomik, Proteomik und Metabolomik zur Verfügung. Manchmal stellt man jedoch bei dem Versuch diese Daten zu kombinieren fest, dass sie nicht zusammenpassen. Welchen Eindruck haben Sie diesbezüglich? Was ist Ihrer Ansicht nach wichtiger, in welche Richtung sollen wir gehen? DISKUSSIONSLEITER: Modern ausgedrückt haben wir verschiedene Plattformen, die zusammengeführt werden müssen. Das ist nicht so einfach, wie sich das unbedarfte Menschen wie ich vorgestellt haben; so viel haben wir gelernt. BRIAN SCHMIDT: Dass Dinge nicht zusammenpassen, ist wissenschaftlich eine Riesenchance. An dieser Stelle sollten Sie ansetzen, denn hier sind die Probleme. Dort weiter zu forschen, wo alles funktioniert, ist nicht besonders spannend; schauen Sie dahin, wo das nicht der Fall ist. Es sind die Schnittstellen, die Ihnen die Gelegenheit bieten herauszufinden, welche Information stimmt – oder festzustellen, dass beide falsch sind. J. MICHAEL BISHOP: Ich möchte es noch ein wenig anders darstellen – Sie arbeiten auf einem bestimmten Gebiet. Auf diesem Gebiet werden Fortschritte erzielt. Diese sind möglicherweise für ein anderes Gebiet, das sich noch in der Entwicklung befindet, relevant. Ich möchte Ihnen ein persönliches Beispiel geben. Ich dachte, ich hätte den intermediären Metabolismus am Ende meines Biochemiekurses im zweiten Studienjahr abgeschlossen Doch siehe da, was passierte? Vor etwa fünf Jahren wurde der Metabolismus plötzlich zum Hotspot der Krebsforschung. Die Metabolismusleute forschten vor sich hin, die Krebsleute forschten vor sich hin. Dann begannen ein paar kluge, phantasievolle und mutige Leute die Zusammenhänge zu erkennen und urplötzlich stand der Metabolismus im Mittelpunkt der Krebsforschung. Genau so laufen die Dinge: Jedes Gebiet entwickelt sind und dann – um den Gedanken von Brian aufzugreifen Meine Welt hat sich völlig verändert; ich habe mir erneut den Zitronensäurezyklus angeeignet. DISKUSSIONSLEITER: Wir haben noch drei Fragen, dann kommen wir zu den Schlussbemerkungen. Ist das in Ordnung? FRAGE: Es gibt heute bereits einige Beispiele dafür, dass die im Rahmen der Big Data angewendete Software die Wissenschaftler, die die Fragen stellen, regelrecht austrickst. Ein Beispiel ist der Google-Operator, der dafür entwickelt wurde zu ermitteln, ob die Daten, die die Leute bei Google einstellen, echt sind oder nicht. Google hat immer wieder darauf aufmerksam gemacht, dass bestimmte Anbieter von Kraftfahrzeugen nicht existieren. Die Programmierer konnten den Grund dafür nicht entdecken, bis sie versuchten, eines der Fahrzeuge zu kaufen und herausfanden, dass eine ganze Gruppe von Leuten all diese Autos gestohlen hatte. Irgendwie hatte der Algorithmus entdeckt, dass es sich um eine Fälschung handelt, auch wenn die Forscher, die den viele Zeilen umfassenden Code geschrieben hatten, nicht wirklich verstanden, warum und wie genau die Software das herausfinden konnte. Es gibt noch viele weitere Beispiele hierfür. Ich denke, mit der Entwicklung zunehmend komplizierter Software wird so etwas in Zukunft wahrscheinlich immer häufiger geschehen. Die Software liefert uns die Antworten, auch wenn wir nicht verstehen, woher sie kommen. Welche Rolle spielt also der Wissenschaftler zukünftig, wenn wir uns in diese Richtung bewegen? BRIAN SCHMIDT: In diesem Bereich haben wir lernende Systeme. Lernende Systeme können vieles sein, z.B. ein so genannter lernender Algorithmus mit vielen Schichten und Knotenpunkten, eine Art mechanisiertes menschliches Gehirn in Form eines Algorithmus. Das Problem ist, dass es praktisch unmöglich ist herauszufinden, warum der Algorithmus so funktioniert, wie er funktioniert – er ist einfach bei der Mustererkennung sehr gut. Mustererkennung ist für die Vorhersage auf einem bestimmten Level wunderbar Ok, das ist eine Sache, aber wir brauchen auch Erkenntnisse, ein zugrunde liegendes Modell. Algorithmen sind also ein nützliches Tool, aber eben nur ein Tool, das einem beim Erkennen des Mechanismus hilft Das Tool hat ein kompliziertes Muster entdeckt. Aber es handelt sich eben nur um Mustererkennung. FRAGE: Ich möchte Sie kurz an einer Erfahrung teilhaben lassen. Ich forsche im Bereich Reverse Genetics, d.h. wir stellen Hypothesen auf, dass bestimmte Gene an einem Signalpfad beteiligt sind. Dann mutieren wir jeden Bereich dieser Gene, um zu sehen, ob wir den erwarteten Phänotyp erhalten. Diese Strategie wenden wir in unserem Labor an. Ein Artikel, den ich bei einem Journal, dessen Namen ich nicht nennen möchte, eingereicht hatte, wurde abgelehnt. Ich erinnere mich an den Kommentar des Reviewers, der meinte, dass mein Experimente im Zeitalter der 'omics', d.h. der Big Data zu klein sei und ich meinen Lösungsansatz überdenken sollte. Das hat mich verwirrt. Wir profitieren meiner Ansicht nach sehr von den Big Data, aber sie sollten nicht die goldene Regel sein. Wie sehen Sie das, Bruce? BRUCE BEUTLER: Zunächst einmal habe ich Ihr Paper nicht begutachtet. BRUCE BEUTLER: Und zweitens stimme ich Ihnen zu. Natürlich gibt es zahlreiche Tools, die wir einsetzen sollten, für jede Aufgabe das passende. Ich kenne Ihr Experiment nicht genau; ich weiß nicht, welche Hypothese Sie überprüft haben. Aber dieser Weg ist im Allgemeinen absolut legitim und kein Grund für unfaire Kritik. DISKUSSIONSLEITER Die letzte Frage bitte. Entschuldigen Sie, die Zeit wird wirklich knapp. FRAGE: Ich wollte Ihnen nur noch das Ergebnis mitteilen. FRAGE: Mein Artikel wurde schließlich in eLife veröffentlicht. JULES HOFFMANN: Toll. Das wird Randy Schekman gefallen. DISKUSSIONSLEITER: Wir schicken ihm heute Abend eine E-Mail. Die letzte Frage bitte. FRAGE: Jetzt, wo sich die Diskussion ihrem Ende zuneigt, hätte ich noch eine Frage zum großen Ganzen. Wir haben über methodische Unterschiede in der Medizin, der Physik, der Systembiologie bzw. der Biochemie gesprochen. Existieren auch Unterschiede zwischen der Methodik, die in der medizinischen Wissenschaft eingesetzt wird, und derjenigen, die in anderen Disziplinen zur Anwendung kommt? Wie sehen diese Unterschiede aus? Oder verwenden wir überall dieselbe – datengesteuerte oder hypothesengesteuerte – Methodik? Vielen Dank. DISKUSSIONSLEITER: Möchte jemand antworten? BRIAN SCHMIDT: Es gibt verschiedene Abstufungen, doch letztendlich versuchen wir Wissenschaftler immer Fragen zu beantworten. Will man eine astronomische Frage beantworten, sieht die Trickkiste natürlich meist anders aus als wenn man z.B. die Art, wie ein Gen exprimiert wird, untersucht. Bei den Big Data ist die Vorgehensweise sehr ähnlich und wir können die Trickkiste in beiden Disziplinen verwenden. Ich denke, wir versuchen alle dasselbe, das ist sehr ähnlich. Wissenschaft ist mehr oder weniger universell. Die Methodik wird eher durch die Art und Weise, wie die Frage formuliert wird und wie wir versuchen sie zu beantworten, diktiert. Ähneln sich diese Aspekte, kommen auch dieselben Techniken zur Anwendung – oftmals sind sie aber recht unterschiedlich. J. MICHAEL BISHOP: Wir haben dieselben Werte: Stringenz, Reproduzierbarkeit, guter experimenteller Aufbau, Kontrollen. Die Werte sind in allen Bereichen dieselben. DISKUSSIONSLEITER: Damit sind wir in der letzten Runde. Bitte ganz kurze Schlusskommentare. Die Lindauer Veranstaltung steht unter dem Motto Educate, Inspire, Connect. Möchten Sie den jungen Wissenschaftlerinnen und Wissenschaftlern eine kurze Botschaft mitgeben? Jules. JULES HOFFMANN: Dieser Austausch war sicherlich sehr hilfreich, doch ich möchte vor allem bezüglich der an mich gerichteten Frage dafür plädieren, alles offen zu halten und weiter Fragen zu stellen. Wenn wir „omics“ oder was auch immer betreiben müssen, so tun wird das. Wenn wir Big Data benötigen, versuchen wir sie zu bekommen. Wir sollten uns aber geistig nicht auf eine bestimmte Richtung festlegen, nur weil sie modern ist und alle das machen. Wir sollten in unseren Entscheidungen frei sein und unseren Weg gehen. Wichtig ist es, gute Fragen zu stellen und zu versuchen Antworten darauf zu erhalten. Das ist zwar banal, aber zu genau dem Schluss komme ich. BRIAN SCHMIDT: Um Jules Worte aufzugreifen: Das Geheimnis der Wissenschaft ist es, die richtigen Fragen zu stellen, die man auch beantworten kann. Big Data sind ein Tool hierfür, aber nicht das einzige. Man muss nicht alles darüber wissen, aber man sollte wissen, was es kann. Und Leute kennen, die damit umgehen können. Wenn Sie Interesse an dem Thema haben, machen Sie sich damit vertraut. Aber es ist nur ein Pfeil in Ihrem Köcher. J. MICHAEL BISHOP: Noch eine allgemeine Anmerkung. Ich werde häufig gefragt, was das Wichtigste war, das ich zu Beginn meiner Berufslaufbahn gemacht habe. Darauf gibt es zwei Antworten: 1) Die Wahl des experimentellen Systems zur Lösung des Problems, an dem ich interessiert war, und 2) die Bereitschaft Chancen zu nutzen, wenn es um eine Idee ging. Das sind meiner Ansicht nach zwei entscheidende Punkte für junge Wissenschaftler, die erfolgreich Karriere machen möchten. BRUCE BEUTLER: Ich möchte noch hinzufügen, dass es sehr wichtig ist, sich darüber im Klaren zu sein, woran man arbeiten möchte, und etwas als maßgebliches Problem zu erkennen. Das ist eine ganz persönliche Sache, aber ich würde jedem empfehlen, darüber nachzudenken. Suchen Sie sich etwas, das Sie verblüfft, das eine Ausnahme von der Regel, aber dennoch in der einen oder anderen Weise von großer Bedeutung ist. Welches Tool Sie für die Lösung dieses Problems verwenden, bleibt ganz Ihnen überlassen und sollte von dem jeweiligen Problem abhängen. DISKUSSIONSLEITER: Vielen Dank. Es gibt also keine wirklichen Widersprüche zwischen Big Data und hypothesengesteuerter Forschung. Ich habe hier noch ein anderes Zitat des Physikers David Goodstein; ich weiß nicht, ob Sie ihn kennen. Das ist, denke ich, die Botschaft, die auch Sie in den letzten Minuten übermittelt haben. J. MICHAEL BISHOP: Da gibt es auch Grenzen, aber... DISKUSSIONSLEITER: Das wäre die nächste Runde, aber nicht heute. Herzlichen Dank, vielen Dank an alle. DISKUSSIONSLEITER: Vielen Dank. Das war eine lebhafte Diskussion, nicht nur seitens des Podiums, sondern auch seitens des Publikums.

Abstract

Canonically, biology including medicine considers hypothesis-driven research as its ultimate goal. In biomedicine, experimental proof of a hypothesis is sometimes translated into a clinical intervention, a process termed translational medicine. With recent achievements in genomics and other biomics increasingly large datasets are being generated which, e.g., allow assessment of genetic variability of humans and their predisposition to certain diseases. Some scientists take the position that this approach lacks any hypothesis and sometimes disqualify it as fishing experiment. Others argue instead that new hypotheses can be generated through analysis of large datasets which can subsequently be contested in specific analytical systems. However, large datasets and hypothesis-driven research are not mutually exclusive. Rather they are complementary and when applied in an iterative way can provide deep insights into biological and medical phenomena leading to a systems biologic view of life.